stringtranslate.com

Статистический машинный перевод

Статистический машинный перевод ( SMT ) был подходом к машинному переводу , который заменил предыдущий подход, основанный на правилах, поскольку он требовал явного описания каждого лингвистического правила, что было затратно и часто не распространялось на другие языки. С 2003 года сам статистический подход был постепенно заменен нейронным машинным переводом на основе глубокого обучения .

Первые идеи статистического машинного перевода были представлены Уорреном Уивером в 1949 году, [1] включая идеи применения теории информации Клода Шеннона . Статистический машинный перевод был повторно представлен в конце 1980-х и начале 1990-х годов исследователями из исследовательского центра Томаса Дж. Уотсона IBM [2] [3] [4]

Основа

Идея статистического машинного перевода исходит из теории информации . Документ переводится в соответствии с распределением вероятностей того, что строка на целевом языке (например, английском) является переводом строки на исходном языке (например, французском).

Проблема моделирования распределения вероятностей решалась несколькими способами. Один из подходов, который хорошо поддается компьютерной реализации, заключается в применении теоремы Байеса , то есть , где модель перевода — это вероятность того, что исходная строка является переводом целевой строки, а языковая модель — это вероятность увидеть эту строку целевого языка. Такое разложение привлекательно, поскольку оно разделяет задачу на две подзадачи. Нахождение наилучшего перевода выполняется путем выбора того, который дает наибольшую вероятность:

.

Для строгой реализации этого пришлось бы выполнить исчерпывающий поиск, пройдя по всем строкам на родном языке. Эффективное выполнение поиска — это работа декодера машинного перевода , который использует иностранную строку, эвристику и другие методы для ограничения пространства поиска и в то же время сохранения приемлемого качества. Этот компромисс между качеством и использованием времени можно также найти в распознавании речи .

Поскольку системы перевода не могли хранить все родные строки и их переводы, документ обычно переводился предложение за предложением, но даже этого было недостаточно. Языковые модели обычно аппроксимировались сглаженными моделями n -грамм , и аналогичные подходы применялись к моделям перевода, но имелась дополнительная сложность из-за разной длины предложений и порядка слов в языках.

Статистические модели перевода изначально были основаны на словах (модели 1-5 из IBM Hidden Markov model Стефана Фогеля [5] и модель 6 Франца-Йозефа Оха [6] ), но значительные успехи были достигнуты с введением моделей, основанных на фразах . [7] Более поздние работы включали синтаксис или квазисинтаксические структуры. [8]

Преимущества

Наиболее часто упоминаемыми [ требуется ссылка ] преимуществами статистического машинного перевода (SMT) по сравнению с подходом, основанным на правилах, были:

Недостатки

Перевод на основе фраз

В переводе на основе фраз целью было уменьшить ограничения перевода на основе слов путем перевода целых последовательностей слов, где длина может различаться. Последовательности слов назывались блоками или фразами, однако, как правило, это были не лингвистические фразы , а фраземы , которые были найдены с помощью статистических методов из корпусов. Было показано, что ограничение фраз лингвистическими фразами (синтаксически мотивированными группами слов, см. синтаксические категории ) снижало качество перевода. [10]

Выбранные фразы были далее сопоставлены один к одному на основе таблицы перевода фраз и могли быть переупорядочены. Эта таблица могла быть изучена на основе выравнивания слов или непосредственно из параллельного корпуса. Вторая модель была обучена с использованием алгоритма максимизации ожиданий , аналогично модели IBM на основе слов . [11]

Перевод на основе синтаксиса

Перевод на основе синтаксиса основывался на идее перевода синтаксических единиц, а не отдельных слов или строк слов (как в МП на основе фраз), т. е. (частичных) деревьев разбора предложений/высказываний. [12] До 1990-х годов, с появлением сильных стохастических парсеров, статистический аналог старой идеи перевода на основе синтаксиса не получил распространения. Примерами такого подхода были МП на основе DOP и более поздние синхронные контекстно-свободные грамматики .

Иерархический перевод на основе фраз

Иерархический фразовый перевод объединил фразовый и синтаксический подходы к переводу. Он использовал синхронные контекстно-свободные правила грамматики, но грамматики могли быть построены путем расширения методов фразового перевода без ссылки на лингвистически мотивированные синтаксические составляющие. Эта идея была впервые представлена ​​в системе Hiero Чанга (2005). [8]

Проблемы статистического машинного перевода

Проблемы, которые статистический машинный перевод не решил, включали:

Выравнивание предложений

В параллельных корпусах отдельные предложения на одном языке могут быть найдены переведенными в несколько предложений на другом и наоборот. [12] Длинные предложения могут быть разбиты, короткие предложения могут быть объединены. Есть даже некоторые языки, которые используют системы письма без четкого указания конца предложения (например, тайский). Выравнивание предложений может быть выполнено с помощью алгоритма выравнивания Гейла-Черча . С помощью этой и других математических моделей возможен эффективный поиск и извлечение выравнивания предложений с наивысшей оценкой.

Выравнивание слов

Выравнивание предложений обычно либо предоставляется корпусом, либо получается с помощью вышеупомянутого алгоритма выравнивания Гейла-Черча . Однако, чтобы узнать, например, модель перевода, нам нужно знать, какие слова выравниваются в паре исходного и целевого предложений. IBM-модели или подход HMM были попытками решить эту проблему.

Функциональные слова, не имеющие четкого эквивалента в целевом языке, были еще одной проблемой для статистических моделей. Например, при переводе с английского на немецкий в предложении «Джон здесь не живет» слово «does» не имеет четкого выравнивания в переведенном предложении «Джон wohnt hier nicht». С помощью логических рассуждений оно может быть выровнено со словами «wohnt» (так как в английском языке оно содержит грамматическую информацию для слова «live») или «nicht» (так как оно появляется в предложении только потому, что отрицается) или может быть не выровнено. [11]

Статистические аномалии

Примером такой аномалии является случай, когда фраза «Я сел на поезд до Берлина» была неправильно переведена как «Я сел на поезд до Парижа» из-за статистического обилия фразы «Поезд до Парижа» в обучающем наборе.

Идиома и регистр

В зависимости от используемых корпусов использование идиомы и лингвистического регистра может не получить перевод, который точно отражает исходное намерение. Например, популярный канадский двуязычный корпус Hansard в основном состоит из примеров парламентских речей, где "Hear, Hear!" часто ассоциируется с "Bravo!" Использование модели, построенной на этом корпусе, для перевода обычной речи в разговорном регистре приведет к неправильному переводу слова hear как Bravo! [13]

Эта проблема связана с выравниванием слов, так как в очень специфичных контекстах идиоматическое выражение выравнивается со словами, что приводит к идиоматическому выражению с тем же значением в целевом языке. Однако это маловероятно, так как выравнивание обычно не работает в других контекстах. По этой причине идиомы могут быть подвергнуты только фразовому выравниванию, так как их нельзя разложить дальше без потери их значения. Эта проблема была специфична для перевода на основе слов. [11]

Разный порядок слов

Порядок слов в языках различается. Некоторую классификацию можно провести, назвав типичный порядок подлежащего (S), глагола (V) и объекта (O) в предложении, и можно говорить, например, о языках SVO или VSO. Существуют также дополнительные различия в порядке слов, например, где расположены модификаторы для существительных или где одни и те же слова используются в качестве вопроса или утверждения.

В распознавании речи речевой сигнал и соответствующее текстовое представление могут быть сопоставлены друг с другом в блоках по порядку. Это не всегда так с одним и тем же текстом на двух языках. Для SMT машинный переводчик может управлять только небольшими последовательностями слов, а порядок слов должен быть продуман разработчиком программы. Попытки решения включали модели переупорядочения, где распределение изменений местоположения для каждого элемента перевода угадывается из выровненного битекста. Различные изменения местоположения могут быть ранжированы с помощью языковой модели и может быть выбрано лучшее.

Слова, не входящие в словарный запас (OOV)

Системы SMT обычно хранят различные словоформы как отдельные символы без какой-либо связи друг с другом, а словоформы или фразы, которых не было в обучающих данных, не могут быть переведены. Это может быть связано с отсутствием обучающих данных, изменениями в человеческом домене, где используется система, или различиями в морфологии.

Смотрите также

Примечания и ссылки

  1. ^ W. Weaver (1955). Перевод (1949). В: Машинный перевод языков , MIT Press, Кембридж, Массачусетс.
  2. ^ P. Brown; John Cocke ; S. Della Pietra; V. Della Pietra; Frederick Jelinek ; Robert L. Mercer ; P. Roossin (1988). «Статистический подход к языковому переводу». Coling'88 . 1. Association for Computational Linguistics: 71–76 . Получено 22 марта 2015 г.
  3. ^ P. Brown; John Cocke ; S. Della Pietra; V. Della Pietra; Frederick Jelinek ; John D. Lafferty ; Robert L. Mercer ; P. Roossin (1990). «Статистический подход к машинному переводу». Computational Linguistics . 16 (2). MIT Press: 79–85 . Получено 22 марта 2015 г.
  4. ^ P. Brown; S. Della Pietra; V. Della Pietra; R. Mercer (1993). «Математика статистического машинного перевода: оценка параметров». Computational Linguistics . 19 (2). MIT Press: 263–311 . Получено 22 марта 2015 г.
  5. ^ S. Vogel, H. Ney и C. Tillmann. 1996. HMM-based Word Alignment in Statistical Translation. В COLING '96: The 16th International Conference on Computational Linguistics, стр. 836-841, Копенгаген, Дания.
  6. ^ Ох, Франц Йозеф; Ней, Герман (2003). «Систематическое сравнение различных моделей статистического выравнивания». Computational Linguistics . 29 : 19–51. doi : 10.1162/089120103321337421 .
  7. ^ P. Koehn, FJ Och и D. Marcu (2003). Статистический перевод на основе фраз. В трудах Объединенной конференции по технологиям человеческого языка и ежегодного собрания Североамериканского отделения Ассоциации компьютерной лингвистики (HLT/NAACL) .
  8. ^ ab D. Chiang (2005). Иерархическая фразовая модель для статистического машинного перевода. В трудах 43-го ежегодного собрания Ассоциации компьютерной лингвистики (ACL'05) .
  9. ^ Чжоу, Шарон (25 июля 2018 г.). «Превзошел ли ИИ людей в переводе? Даже близко нет!». Skynet Today . Получено 2 августа 2018 г.
  10. ^ Филипп Кен, Франц Йозеф Ох, Даниэль Марку: Статистический фразовый перевод (2003)
  11. ^ abc Koehn, Philipp (2010). Статистический машинный перевод . Cambridge University Press. ISBN 978-0-521-87415-1.
  12. ^ ab Philip Williams; Rico Sennrich; Matt Post; Philipp Koehn (1 августа 2016 г.). Синтаксический статистический машинный перевод. Morgan & Claypool Publishers. ISBN 978-1-62705-502-4.
  13. ^ WJ Hutchins и H. Somers. (1992). Введение в машинный перевод , 18.3:322. ISBN 978-0-12-362830-5 

Внешние ссылки