Многие существующие системы машинного перевода , доступные в настоящее время, являются коммерческими или используют запатентованные технологии, что затрудняет их адаптацию к новым условиям использования. Код и данные Apertium являются бесплатным программным обеспечением и используют независимую от языка спецификацию , что упрощает внесение вклада в Apertium, повышает эффективность разработки и ускоряет общий рост проекта.
На данный момент (декабрь 2020 г.) Apertium выпустила 51 стабильную языковую пару, [4] обеспечивающую быстрый перевод с достаточно понятными результатами (ошибки легко исправить). Будучи проектом с открытым исходным кодом , Apertium предоставляет потенциальным разработчикам инструменты для создания собственной языковой пары и внесения вклада в проект.
История
Apertium возник как одна из систем машинного перевода в проекте OpenTrad, который финансировался правительством Испании и был разработан исследовательской группой Transducens в Университете Алаканта . Первоначально он был разработан для перевода между близкородственными языками, хотя недавно он был расширен для обработки более расходящихся языковых пар. Чтобы создать новую систему машинного перевода, достаточно разработать лингвистические данные (словари, правила) в четко определенных форматах XML .
Проект принимал участие в Google Summer of Code 2009, [5] 2010, [6] 2011, [7] 2012, [8] 2013 [9] и 2014 [10] и Google Summer of Code 2010, [11] 2011. , [12] 2012, [13] 2013, [14] 2014, [15] 2015, [16] 2016 [17] и 2017 [18] выпуски Google Code-In .
Методика перевода
Это общий пошаговый обзор работы Apertium.
На диаграмме показаны шаги, которые Apertium предпринимает для перевода текста на исходном языке (текста, который мы хотим перевести) в текст на целевом языке (переведенный текст).
Морфологический преобразователь неоднозначности ( морфологический анализатор и морфологический преобразователь неоднозначности вместе образуют часть речевого тегера ) разрешает неоднозначные сегменты (т. е. когда имеется более одного совпадения), выбирая одно совпадение. Apertium использует правила грамматики ограничений (с анализатором vislcg3 [20] ) для большинства своих языковых пар.
Ретокенизация использует преобразователь конечного состояния для сопоставления последовательностей лексических единиц и может переупорядочивать или переводить теги (часто используется для перевода идиоматических выражений во что-то, что больше приближается к грамматике целевого языка).
Лексический перенос ищет неопределенные базовые слова исходного языка, чтобы найти их эквиваленты на целевом языке (т. е. сопоставляет исходный язык с целевым языком ). Для лексической передачи Apertium использует формат словаря на основе XML , называемый bidix. [21]
Лексический отбор выбирает между альтернативными переводами, когда слово исходного текста имеет альтернативные значения. Apertium использует специальную технологию на основе XML , apertium-lex-tools, [22] для выполнения лексического выбора .
Структурная передача (т. е. это формат XML , который позволяет писать сложные правила структурной передачи) может состоять из одноэтапной фрагментарной передачи, трехэтапной фрагментированной передачи или модуля передачи на основе CFG . Модули фрагментирования отмечают грамматические различия между исходным языком и целевым языком (например, совпадение пола или числа ), создавая для этого последовательность фрагментов, содержащих маркеры. Затем они переупорядочивают или модифицируют фрагменты, чтобы произвести грамматический перевод на целевой язык. Новый модуль на основе CFG сопоставляет входные последовательности с возможными деревьями синтаксического анализа, выбирая наиболее ранжированную и применяя к дереву правила преобразования.
Морфологический генератор использует теги для обеспечения правильной поверхностной формы целевого языка . Морфологический генератор является морфологическим преобразователем [23] , так же, как и морфологический анализатор. Морфологический преобразователь одновременно анализирует и генерирует формы.
Постгенератор вносит любые необходимые орфографические изменения из-за контакта слов (например, исключения ) .
Программа форматирования заменяет разметку форматирования (HTML, RTF и т. д.), которая была удалена программой преобразования на первом этапе.
^ «Последняя версия 3.8.3» . 1 ноября 2022 г. Проверено 2 марта 2023 г.
^ Фрэнсис М. Тайерс (2010) «Машинный перевод с бретонского на французский язык на основе правил. Архивировано 17 ноября 2016 г. в Wayback Machine ». «Материалы 14-й ежегодной конференции Европейской ассоциации машинного перевода, EAMT10», стр. 174–181.
^ Ханна, Танмаи; Вашингтон, Джонатан Н.; Тайерс, Фрэнсис М.; Баятлы, Севилай; Суонсон, Дэниел Г.; Пиринен, Томми А.; Тан, Ирен; Алос и Фонт, Гектор (1 декабря 2021 г.). «Последние достижения Apertium, бесплатной платформы машинного перевода на основе правил с открытым исходным кодом для языков с низким уровнем ресурсов». Машинный перевод . 35 (4): 475–502. дои : 10.1007/s10590-021-09260-6 . hdl : 10037/22990 .
^ "Апертиум".
^ «Организации, допущенные к участию в Google Summer of Code 2009» .
^ «Организации, допущенные к участию в Google Summer of Code 2010» .
^ «Организации, допущенные к участию в Google Summer of Code 2011» .
^ «Организации, допущенные к участию в Google Summer of Code 2012» .
^ «Организации, допущенные к участию в Google Summer of Code 2013» .
^ «Организации, допущенные к участию в Google Summer of Code 2014» .
^ «Организации, допущенные к использованию Google Code в 2010 году» .
^ «Организации, допущенные к использованию Google Code в 2011 году» .
^ «Организации, допущенные к использованию Google Code в 2012 году» .
^ «Организации, допущенные к использованию Google Code в 2013 г.» .
^ «Организации, допущенные к использованию Google Code в 2014 г.» .
^ «Организации, допущенные к использованию Google Code в 2015 году» .
^ «Организации, допущенные к использованию Google Code в 2016 году» .
^ «Организации, допущенные к использованию Google Code в 2017 году» .
^ "Lttoolbox - Apertium" . wiki.apertium.org . Проверено 19 января 2016 г.
^ "ВИСЛ". beta.visl.sdu.dk. _ Проверено 19 января 2016 г.
^ "Двуязычный словарь - Apertium" . wiki.apertium.org . Проверено 19 января 2016 г.
^ «Модуль лексического выбора на основе ограничений - Apertium» . wiki.apertium.org . Проверено 19 января 2016 г.
^ "Морфологический словарь - Апертиум". wiki.apertium.org . Проверено 19 января 2016 г.
Рекомендации
Корби-Беллот, М. и др. (2005) «Механизм машинного перевода с открытым исходным кодом для романских языков Испании» в Трудах Европейской ассоциации машинного перевода, 10-я ежегодная конференция, Будапешт, 2005 г. , стр. 79–86.
Арментано-Оллер, К. и др. (2006) «Португальско-испанский машинный перевод с открытым исходным кодом» в Lecture Notes in Computer Science 3960 [Вычислительная обработка португальского языка, Материалы 7-го международного семинара по вычислительной обработке письменного и разговорного португальского языка, PROPOR 2006] , стр. 50– 59.
Форкада, М.Л. и др. (2010) «Документация платформы машинного перевода с открытым исходным кодом Apertium » на факультете Llenguatges i Sistemes Informatics, Университет Алаканта .
Форкада, М.Л. и др. (2011) « Apertium: бесплатная платформа с открытым исходным кодом для машинного перевода на основе правил ». в " doi : 10.1007/s10590-011-9090-0