Статистический машинный перевод

Статистический машинный перевод ( SMT ) представлял собой подход к машинному переводу , который заменил предыдущий подход, основанный на правилах, поскольку он требовал явного описания каждого лингвистического правила, что было дорогостоящим и часто не распространялось на другие языки. С 2003 года статистический подход постепенно вытесняется подходом нейронных сетей, основанным на глубоком обучении .

Первые идеи статистического машинного перевода были предложены Уорреном Уивером в 1949 году ^[1] , включая идеи применения теории информации Клода Шеннона . Статистический машинный перевод был вновь представлен в конце 1980-х и начале 1990-х годов исследователями из Исследовательского центра Томаса Дж. Уотсона компании IBM ^[2]^[3]^[4]

Основа

Идея статистического машинного перевода исходит из теории информации . Документ переводится в соответствии с распределением вероятности того, что строка на целевом языке (например, английском) является переводом строки на исходном языке (например, французском). ${\ displaystyle p (e | f)}$ $е$ $е$

К проблеме моделирования распределения вероятностей подходили разными способами. Одним из подходов, который хорошо подходит для компьютерной реализации, является применение теоремы Байеса , то есть , где модель перевода — это вероятность того, что исходная строка является переводом целевой строки, а языковая модель — это вероятность увидеть эту строку целевого языка. . Эта декомпозиция привлекательна, поскольку она разбивает проблему на две подзадачи. Поиск лучшего перевода осуществляется путем выбора того, который дает наибольшую вероятность: ${\ displaystyle p (e | f)}$ ${\ displaystyle p (e | f) \ propto p (f | e) p (e)}$ ${\ displaystyle p (f | e)}$ ${\ displaystyle p (e)}$ ${\tilde {e}}$

{\tilde {e}}=arg\max _{e\in e^{*}}p(e|f)=arg\max _{e\in e^{*}}p(f| е)р(е)

Для строгой реализации этого пришлось бы выполнить исчерпывающий поиск, просматривая все строки на родном языке. Эффективное выполнение поиска — это работа декодера машинного перевода , который использует чужую строку, эвристику и другие методы для ограничения пространства поиска и в то же время сохраняет приемлемое качество. Этот компромисс между качеством и использованием времени также можно найти в распознавании речи . $е^{*}$

Поскольку системы перевода не могли хранить все собственные строки и их переводы, документ обычно переводился предложение за предложением, но даже этого было недостаточно. Языковые модели обычно аппроксимировались сглаженными n -граммными моделями , и аналогичные подходы применялись к моделям перевода, но возникла дополнительная сложность из-за разной длины предложений и порядка слов в языках.

Модели статистического перевода изначально были основаны на словах (модели 1–5 из модели IBM Hidden Markov от Стефана Фогеля ^[5] и модель 6 от Франца-Йозефа Оха ^[6] ), но значительный прогресс был достигнут с введением моделей, основанных на фразах . ^[7] Более поздние работы включали синтаксические или квазисинтаксические структуры. ^[8]

Преимущества

Наиболее часто упоминаемыми ^{преимуществами}^{статистического}^{машинного} перевода по сравнению с подходом, основанным на правилах, были:

Более эффективное использование человеческих ресурсов и ресурсов данных
- Было много параллельных корпусов в машиночитаемом формате и еще больше одноязычных данных.
- Как правило, системы SMT не были адаптированы к какой-либо конкретной паре языков.
Более свободный перевод благодаря использованию языковой модели

Недостатки

Создание корпуса может оказаться дорогостоящим.
Конкретные ошибки трудно предсказать и исправить.
Результаты могут иметь поверхностную беглость, которая маскирует проблемы перевода. ^[9]
Статистический машинный перевод обычно работает хуже для языковых пар со значительно отличающимся порядком слов.
Преимущества, полученные при переводе между западноевропейскими языками, не являются репрезентативными для результатов для других языковых пар из-за меньшего размера учебных корпусов и больших грамматических различий.

Фразовый перевод

При переводе на основе фраз цель заключалась в том, чтобы уменьшить ограничения перевода на основе слов путем перевода целых последовательностей слов, длина которых может различаться. Последовательности слов назывались блоками или фразами, однако, как правило, это были не лингвистические фразы , а фраземы , найденные статистическими методами из корпусов. Показано, что ограничение фраз лингвистическими словосочетаниями (синтаксически мотивированными группами слов, см. синтаксические категории ) снижает качество перевода. ^[10]

Выбранные фразы далее сопоставлялись один к одному на основе таблицы перевода фраз, и их можно было переупорядочить. Эту таблицу можно изучить на основе выравнивания слов или непосредственно из параллельного корпуса. Вторая модель обучалась с использованием алгоритма максимизации ожидания , аналогично словесной модели IBM . ^[11]

Синтаксический перевод

Синтаксический перевод был основан на идее перевода синтаксических единиц, а не отдельных слов или строк слов (как в MT на основе фраз), то есть (частичных) деревьев разбора предложений/высказываний. ^[12] До 1990-х годов, с появлением мощных стохастических анализаторов , статистический аналог старой идеи синтаксического перевода не получил распространения. Примеры этого подхода включали MT на основе DOP и более поздние синхронные контекстно-свободные грамматики .

Иерархический фразовый перевод

Иерархический фразовый перевод сочетает в себе фразовый и синтаксический подходы к переводу. В нем использовались синхронные бесконтекстные грамматические правила, но грамматики могли быть построены путем расширения методов фразового перевода без ссылки на лингвистически мотивированные синтаксические составляющие. Эта идея была впервые представлена в системе Иеро Чанга (2005). ^[8]

Проблемы со статистическим машинным переводом

Проблемы, которые не решил статистический машинный перевод, включали:

Выравнивание предложений

Параллельно корпусы отдельных предложений на одном языке могут быть переведены в несколько предложений на другом языке и наоборот. ^[12] Длинные предложения можно разбивать, короткие — объединять. Есть даже некоторые языки, в которых используются системы письма без четкого указания конца предложения (например, тайский). Выравнивание предложений можно выполнить с помощью алгоритма выравнивания Гейла-Черча . С помощью этой и других математических моделей возможен эффективный поиск и извлечение выравнивания предложений с наивысшей оценкой.

Выравнивание слов

Выравнивание предложений обычно либо обеспечивается корпусом, либо получается с помощью вышеупомянутого алгоритма выравнивания Гейла-Черча . Однако, чтобы изучить, например, модель перевода, нам нужно знать, какие слова совпадают в паре предложений «источник-цель». IBM -модели или HMM-подход были попытками решить эту проблему.

Функциональные слова, не имеющие четкого эквивалента в целевом языке, стали еще одной проблемой для статистических моделей. Например, при переводе с английского на немецкий предложения «Джон здесь не живет» слово «здесь» не имеет четкого соответствия в переведенном предложении «Джон wohnt hier nicht». С помощью логических рассуждений его можно сопоставить со словами «wohnt» (поскольку в английском языке оно содержит грамматическую информацию для слова «live») или «nicht» (поскольку оно появляется в предложении только потому, что оно отрицается) или может быть невыровненный. ^[11]

Статистические аномалии

Примером такой аномалии было то, что фраза «Я сел на поезд в Берлин» была неправильно переведена как «Я сел на поезд в Париж» из-за статистического обилия слов «поезд в Париж» в обучающем наборе.

Идиомы

В зависимости от используемых корпусов идиомы нельзя было перевести «идиоматически». Например, при использовании канадского Хансарда в качестве двуязычного корпуса слово «слушай» почти всегда переводилось как «Браво!» поскольку в парламенте «Слушайте, слушайте!» становится «Браво!». ^[13]

Эта проблема связана с выравниванием слов, поскольку в очень специфических контекстах идиоматическое выражение совпадает со словами, что приводит к идиоматическому выражению того же значения на целевом языке. Однако это маловероятно, поскольку выравнивание обычно не работает ни в каких других контекстах. По этой причине идиомы могли быть подвергнуты только фразовому выравниванию, так как их нельзя было разложить дальше без потери своего смысла. Эта проблема была специфична для словесного перевода. ^[11]

Разный порядок слов

Порядок слов в языках различается. Некоторую классификацию можно провести, назвав типичный порядок субъекта (S), глагола (V) и объекта (O) в предложении, и можно говорить, например, о языках SVO или VSO. Существуют также дополнительные различия в порядке слов, например, где расположены определители существительных или где одни и те же слова используются в качестве вопроса или утверждения.

При распознавании речи речевой сигнал и соответствующее текстовое представление могут быть сопоставлены друг с другом блоками по порядку. Это не всегда происходит с одним и тем же текстом на двух языках. В SMT машинный переводчик может обрабатывать только небольшие последовательности слов, и разработчик программы должен учитывать порядок слов. Попытки найти решение включали модели переупорядочения, в которых распределение изменений местоположения для каждого элемента перевода угадывается на основе выровненного битекста. Различные изменения местоположения можно ранжировать с помощью языковой модели и выбрать лучшее.

Слова из словаря (OOV)

Системы SMT обычно хранят разные формы слов в виде отдельных символов, не имеющих никакой связи друг с другом, а формы слов или фразы, которых не было в обучающих данных, не могут быть переведены. Это может быть связано с отсутствием обучающих данных, изменениями в человеческой среде, где используется система, или различиями в морфологии.

Смотрите также

АппТек
Модель языка кэша
Дуолинго
Корпус Европарламента
Машинный перевод на основе примеров
Google Переводчик
Гибридный машинный перевод
Microsoft переводчик
Моисей (машинный перевод) , бесплатное программное обеспечение
Машинный перевод на основе правил
Язык SDL Weaver
Статистический анализ

Примечания и ссылки

^ В. Уивер (1955). Перевод (1949). В: Машинный перевод языков , MIT Press, Кембридж, Массачусетс.
^ П. Браун; Джон Кок ; С. Делла Пьетра; В. Делла Пьетра; Фредерик Елинек ; Роберт Л. Мерсер ; П. Руссин (1988). «Статистический подход к языковому переводу». Колинг'88 . Ассоциация компьютерной лингвистики. 1 :71–76 . Проверено 22 марта 2015 г.
^ П. Браун; Джон Кок ; С. Делла Пьетра; В. Делла Пьетра; Фредерик Елинек ; Джон Д. Лафферти ; Роберт Л. Мерсер ; П. Руссин (1990). «Статистический подход к машинному переводу». Компьютерная лингвистика . МТИ Пресс. 16 (2): 79–85 . Проверено 22 марта 2015 г.
^ П. Браун; С. Делла Пьетра; В. Делла Пьетра; Р. Мерсер (1993). «Математика статистического машинного перевода: оценка параметров». Компьютерная лингвистика . МТИ Пресс. 19 (2): 263–311 . Проверено 22 марта 2015 г.
^ С. Фогель, Х. Ней и К. Тиллманн. 1996. Выравнивание слов на основе HMM в статистическом переводе. В COLING '96: 16-я Международная конференция по компьютерной лингвистике, стр. 836-841, Копенгаген, Дания.
^ Ох, Франц Иосиф; Ней, Герман (2003). «Систематическое сравнение различных моделей статистического выравнивания». Компьютерная лингвистика . 29 : 19–51. дои : 10.1162/089120103321337421 .
^ П. Коэн, Ф. Дж. Оч и Д. Марку (2003). Статистический фразовый перевод. В материалах совместной конференции по технологиям человеческого языка и ежегодного собрания Североамериканского отделения Ассоциации компьютерной лингвистики (HLT/NAACL) .
^ аб Д. Чан (2005). Иерархическая фразовая модель для статистического машинного перевода. В материалах 43-го ежегодного собрания Ассоциации компьютерной лингвистики (ACL'05) .
↑ Чжоу, Шэрон (25 июля 2018 г.). «Превзошел ли ИИ людей в переводе? Даже близко!». Скайнет сегодня . Проверено 2 августа 2018 г.
^ Филипп Кен, Франц Йозеф Ох, Даниэль Марку: Статистический фразовый перевод (2003)
^ abc Коэн, Филипп (2010). Статистический машинный перевод . Издательство Кембриджского университета. ISBN 978-0-521-87415-1.
^ AB Филип Уильямс; Рико Сеннрих; Мэтт Пост; Филипп Кен (1 августа 2016 г.). Статистический машинный перевод на основе синтаксиса. Издательство Морган и Клейпул. ISBN 978-1-62705-502-4.
^ У. Дж. Хатчинс и Х. Сомерс. (1992). Введение в машинный перевод , 18.3:322. ISBN 978-0-12-362830-5

Внешние ссылки

Аннотированный список ресурсов по статистической обработке естественного языка. Включает ссылки на бесплатно доступное программное обеспечение для статистического машинного перевода.