MIT использует искусственный интеллект для перевода древних «мертвых» языков

Автор: Няма коментари Сподели:

При разработке системы, помогающей расшифровать утраченные языки, исследователи Массачусетского технологического института изучили язык угаритский, родственный ивриту, который ранее анализировался и расшифровывался лингвистами.
Предоставлено: SRK Branavan.

Система, разработанная в MIT CSAIL, призвана помочь лингвистам расшифровать языки, которые были потеряны для истории.

Недавние исследования показывают, что на большинстве языков, которые когда-либо существовали, больше не говорят. Десятки этих мертвых языков также считаются утерянными или «нерасшифрованными», то есть мы недостаточно знаем об их грамматике, лексике или синтаксисе, чтобы действительно понимать их тексты.

Утраченные языки – это больше, чем просто академическое любопытство; без них мы упускаем всю совокупность знаний о людях, которые их произносили. К сожалению, у большинства из них есть такие минимальные записи, что ученые не могут их расшифровать с помощью алгоритмов машинного перевода, таких как Google Translate. У некоторых нет хорошо изученного «относительного» языка, с которым можно было бы сравнивать, и часто не хватает традиционных разделителей, таких как пробелы и знаки препинания. (Для иллюстрации, воображение попыток расшифровать иностранный язык, написанный, как это.)

Тем не менее, исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) недавно сделали серьезное развитие в этой области: новая система, которая, как было показано, может автоматически расшифровывать утерянный язык, не требуя глубоких знаний о его связи с другими языками. . Они также показали, что их система может сама определять отношения между языками, и использовали ее, чтобы подтвердить недавние исследования, предполагающие, что иберийский язык на самом деле не связан с баскским.

Конечная цель команды состоит в том, чтобы система могла расшифровывать утерянные языки, которые ускользали от лингвистов на протяжении десятилетий, используя всего несколько тысяч слов.

Возглавляемая профессором Массачусетского технологического института Региной Барзилай, система основана на нескольких принципах, основанных на выводах из исторической лингвистики, таких как тот факт, что языки обычно развиваются только определенным предсказуемым образом. Например, хотя данный язык редко добавляет или удаляет весь звук, вполне вероятно, что произойдут определенные замены звука. Слово с буквой «p» в родительском языке может измениться на «b» в языке-потомке, но изменение на «k» менее вероятно из-за значительного пробела в произношении.

Включив эти и другие лингвистические ограничения, Барзилай и аспирант Массачусетского технологического института Джаминг Луо разработали алгоритм дешифрования, который может обрабатывать огромное пространство возможных преобразований и недостаточное количество управляющих сигналов на входе. Алгоритм учится встраивать языковые звуки в многомерное пространство, где различия в произношении отражаются в расстоянии между соответствующими векторами. Такой дизайн позволяет им улавливать соответствующие шаблоны изменения языка и выражать их как вычислительные ограничения. Полученная модель может сегментировать слова на древнем языке и сопоставлять их с аналогами на родственном языке.  

Проект основан на статье, написанной Барзилаем и Луо в прошлом году, которая расшифровывала мертвые языки угаритского и линейного языка B, последний из которых ранее занимал десятилетия, чтобы люди расшифровали. Однако ключевым отличием этого проекта было то, что команда знала, что эти языки связаны с ранними формами иврита и греческого соответственно.

В новой системе взаимосвязь между языками определяется алгоритмом. Этот вопрос – одна из самых больших проблем при расшифровке. В случае с линейным письмом B потребовалось несколько десятилетий, чтобы найти правильного известного потомка. Что касается иберийского, ученые до сих пор не могут прийти к единому мнению о родственном языке: одни выступают за баскский, другие опровергают эту гипотезу и утверждают, что иберийский язык не имеет отношения ни к одному из известных языков. 

Предлагаемый алгоритм позволяет оценить близость между двумя языками; фактически, при тестировании на известных языках он может даже точно определять языковые семьи. Команда применила свой алгоритм к иберийскому языку с учетом баскского языка, а также к менее вероятным кандидатам из романских, германских, тюркских и уральских семей. Хотя баскский и латынь были ближе к иберийскому, чем другие языки, они все же слишком разные, чтобы их можно было считать родственными. 

В будущей работе команда надеется расширить свою работу за пределы процесса соединения текстов со связанными словами на известном языке – подход, называемый «расшифровкой на основе родственных слов». Эта парадигма предполагает, что такой известный язык существует, но пример иберийского показывает, что это не всегда так. Новый подход команды будет включать определение семантического значения слов, даже если они не знают, как их читать. 

«Например, мы можем идентифицировать все ссылки на людей или места в документе, которые затем могут быть исследованы в свете известных исторических свидетельств», – говорит Барзилай. «Эти методы« распознавания сущностей »сегодня широко используются в различных приложениях для обработки текста и обладают высокой точностью, но ключевой вопрос исследования заключается в том, выполнима ли задача без каких-либо обучающих данных на древнем языке».

Проект частично поддерживался организацией Intelligence Advanced Research Projects Activity (IARPA).

https://scitechdaily.com/mit-using-artificial-intelligence-to-translate-ancient-dead-languages/

Предишна статия

ЕК ни заплаши със санкции заради ”златните паспорти”

Следваща статия

„Ние считаме, че по отношение на г-н Гешев са налице основанията за освобождаването му”

Други интересни