Do you sprechen français?

Изучаю векторное представление слов (эмбеддинг) как один из путей сопоставления смыслов слов в разных языках. Решил поиграть немного с классом NLEmbedding из API Apple, чтобы понять как же оное векторное представление работает на практике. Результаты получилось весьма забавными.

Возьмем, например, английское слово “economy”. Его ближайшие соседи будут:

  • economic, recession, slowdown, stagnation, emerging, downturn, faltering, stimulative, industrializing, upturn.

Аналогичное французское слово «économie» дает:

  • économique, conjoncture, déficit, structurelle, croissance, investissement, compétitivité, financière, structurels, budget.

Для немецкого „Wirtschaft“:

  • Mittelstand, Ökonomie, Wohlfahrt, demographische, wirtschaftliche, Entwicklungszusammenarbeit, Gemeinwesen, Genossenschaften, Politik, Infrastruktur.

Из этого видно, что США загнивают, там все время кризис, во Франции — оптимизм и дирижизм, в Германии — Маркс и автобаны.

Ну, у таких абстракций можно было бы ожидать большого расхождения. Может, какие-то бытовые явления покажут больше близости?

Вот наиболее близкие слова к “apple”:

  • blueberry, peach, pear, tangerine, nectarine, orange, apricot, raisin, strawberry, plum.

Ожидал бы, конечно, увидеть грушу поближе, но все-таки все сладко и съедобно.

А вот что получлось у «pomme»:

  • poire, potiron, concombre, courgette, tomate, olive, légume, carotte, poivron, courge.

Груша на своем месте, но остальные гастрономические предпочтения французов довольно странные. Похоже, что яблоко у них скорее овощ, чем фрукт.

И, наконец, „Apfel“:

  • Tomate, Pflaume, Spinat, Rhabarber, Rosine, Mandarine, Marmelade, Zitrone, Blumenkohl, Sellerie.

Где-то посередине по степени нормальности между английским и французским.

Немецкий вообще очень удобный язык для того, чтобы найти в нем какую-нибудь ржаку, потому что в нем есть масса слов, для которых в других языках нужно слов несколько. Вот, например, ближайшие по смыслу к „Naturwissenschaft“:

  • Philosophie, Metaphysik, Wissenschaftstheorie, Erkenntnistheorie, philosophische, philosophischen, Naturwissenschaften, naturwissenschaftlichen, metaphysischen, Mathematik.

Вот так-то: философия поближе будет к естественным наукам, чем математика, хотя некоторые думают иначе.
Там, кстати, в выдаче на шестнадцатом месте оказывается „Astrologie“. Испугавшись за честь науки, я сразу же проверил „Astronomie“:

  • Mathematik, Physik, Naturwissenschaft, naturwissenschaftlichen, Naturwissenschaften, Fach, Forschungsgebiet, Studium, Botanik, Geometrie, theoretische, Astrologie.

Уф-ф-ф... астрология там есть, конечно, но имеет к астрономии меньше отношения, чем ботаника. Но надо проверить и обратное. Подруги „Astrologie“:

  • Naturwissenschaft, Weltbildes, metaphysischen, Okkultismus, astrologische, esoterischen, Astronomie, Religiosität, Theorie, Skeptizismus, Metaphysik, Pseudowissenschaften, Mystik.

Вот так и спалилась „Naturwissenschaft“.

И, возвращаясь к нашей троице языков, можно убедиться, что в чем-то самом важном опыт людей разных стран очень близок: не только боль и страдание, но также надежда на спасение.

“Tax”:

  • deduction, itemize, rebate, filer, preparer, loophole, deduct, taxing, expensing, overpayment.

А вот что получлось у «taxe»:

  • taxation, redevance, exonération, surtaxe, fiscalité, foncière, exonérés, taxer, imposition, taxées.

И, наконец, „Steuer“:

  • Besteuerung, Einkunft, Steuersatz, Steuerschuld, Verwaltungskosten, Umsatzsteuer, Aufwendung, Mehreinnahmen, Steuerpflichtigen, steuerpflichtigen.

Оригинальная заметка в Facebook была удалена, комментарии архивированы. Если вы были участником дискуссии, с удовольствием предоставлю вам копию архива.