stringtranslate.com

Апертиум

Apertium — это бесплатная платформа машинного перевода с открытым исходным кодом, основанная на правилах . Это бесплатное программное обеспечение , распространяемое на условиях Стандартной общественной лицензии GNU .

Обзор

Apertium — это система машинного перевода , основанная на передаче , которая использует преобразователи конечных состояний для всех своих лексических преобразований и тегеры ограничительной грамматики , а также скрытые модели Маркова или персептроны для маркировки частей речи / устранения неоднозначности категорий слов. [2] Компонент структурного переноса отвечает за движение и согласование слов; большинство языковых пар Apertium до сих пор использовали правила «фрагментации» или мелкой передачи, хотя в новых парах используются (возможно, рекурсивные) правила, определенные в контекстно-свободной грамматике . [3]

Многие существующие системы машинного перевода , доступные в настоящее время, являются коммерческими или используют запатентованные технологии, что затрудняет их адаптацию к новым условиям использования. Код и данные Apertium являются бесплатным программным обеспечением и используют независимую от языка спецификацию , что упрощает внесение вклада в Apertium, повышает эффективность разработки и ускоряет общий рост проекта.

На данный момент (декабрь 2020 г.) Apertium выпустила 51 стабильную языковую пару, [4] обеспечивающую быстрый перевод с достаточно понятными результатами (ошибки легко исправить). Будучи проектом с открытым исходным кодом , Apertium предоставляет потенциальным разработчикам инструменты для создания собственной языковой пары и внесения вклада в проект.

История

Apertium возник как одна из систем машинного перевода в проекте OpenTrad, который финансировался правительством Испании и был разработан исследовательской группой Transducens в Университете Алаканта . Первоначально он был разработан для перевода между близкородственными языками, хотя недавно он был расширен для обработки более расходящихся языковых пар. Чтобы создать новую систему машинного перевода, достаточно разработать лингвистические данные (словари, правила) в четко определенных форматах XML .

Языковые данные, разработанные для него (в сотрудничестве с Universidade de Vigo , Universitat Politècnica de Catalunya и Universitat Pompeu Fabra ), в настоящее время поддерживают (в стабильной версии) арабский , арагонский , астурийский , баскский , белорусский , бретонский , болгарский , каталанский , крымский . Татарский , датский , английский , эсперанто , французский , галисийский , хинди , исландский , индонезийский , итальянский , казахский , македонский , малазийский , мальтийский , северно-саамский , норвежский ( букмол и нюнорск ), окситанский , польский , португальский , румынский , русский , сардинский , Сербохорватский , силезский , словенский , испанский , шведский , татарский , украинский , урду и валлийский языки. Полный список доступен ниже. В разработке Apertium также участвуют несколько компаний, в том числе Prompsit Language Engineering, Imaxin Software и Eleka Ingeniaritza Linguistikoa.

Проект принимал участие в Google Summer of Code 2009, [5] 2010, [6] 2011, [7] 2012, [8] 2013 [9] и 2014 [10] и Google Summer of Code 2010, [11] 2011. , [12] 2012, [13] 2013, [14] 2014, [15] 2015, [16] 2016 [17] и 2017 [18] выпуски Google Code-In .

Методика перевода

Конвейер системы машинного перевода Apertium

Это общий пошаговый обзор работы Apertium.

На диаграмме показаны шаги, которые Apertium предпринимает для перевода текста на исходном языке (текста, который мы хотим перевести) в текст на целевом языке (переведенный текст).

  1. Текст на исходном языке передается в Apertium для перевода.
  2. Средство деформатирования удаляет разметку форматирования (HTML, RTF и т. д.), которую следует оставить на месте, но не переводить.
  3. Морфологический анализатор сегментирует текст (расширяя пропуски , отмечая устойчивые фразы и т. д.) и ищет сегменты в словарях языка, возвращая словарные формы и теги для всех совпадений. В парах, включающих агглютинативную морфологию , включая ряд тюркских языков , используется Хельсинкский преобразователь конечного состояния (HFST). В противном случае используется специфичная для Apertium система преобразователей конечных состояний , называемая lttoolbox, [19] .
  4. Морфологический преобразователь неоднозначности ( морфологический анализатор и морфологический преобразователь неоднозначности вместе образуют часть речевого тегера ) разрешает неоднозначные сегменты (т. е. когда имеется более одного совпадения), выбирая одно совпадение. Apertium использует правила грамматики ограничений (с анализатором vislcg3 [20] ) для большинства своих языковых пар.
  5. Ретокенизация использует преобразователь конечного состояния для сопоставления последовательностей лексических единиц и может переупорядочивать или переводить теги (часто используется для перевода идиоматических выражений во что-то, что больше приближается к грамматике целевого языка).
  6. Лексический перенос ищет неопределенные базовые слова исходного языка, чтобы найти их эквиваленты на целевом языке (т. е. сопоставляет исходный язык с целевым языком ). Для лексической передачи Apertium использует формат словаря на основе XML , называемый bidix. [21]
  7. Лексический отбор выбирает между альтернативными переводами, когда слово исходного текста имеет альтернативные значения. Apertium использует специальную технологию на основе XML , apertium-lex-tools, [22] для выполнения лексического выбора .
  8. Структурная передача (т. е. это формат XML , который позволяет писать сложные правила структурной передачи) может состоять из одноэтапной фрагментарной передачи, трехэтапной фрагментированной передачи или модуля передачи на основе CFG . Модули фрагментирования отмечают грамматические различия между исходным языком и целевым языком (например, совпадение пола или числа ), создавая для этого последовательность фрагментов, содержащих маркеры. Затем они переупорядочивают или модифицируют фрагменты, чтобы произвести грамматический перевод на целевой язык. Новый модуль на основе CFG сопоставляет входные последовательности с возможными деревьями синтаксического анализа, выбирая наиболее ранжированную и применяя к дереву правила преобразования.
  9. Морфологический генератор использует теги для обеспечения правильной поверхностной формы целевого языка . Морфологический генератор является морфологическим преобразователем [23] , так же, как и морфологический анализатор. Морфологический преобразователь одновременно анализирует и генерирует формы.
  10. Постгенератор вносит любые необходимые орфографические изменения из-за контакта слов (например, исключения ) .
  11. Программа форматирования заменяет разметку форматирования (HTML, RTF и т. д.), которая была удалена программой преобразования на первом этапе.
  12. Apertium обеспечивает перевод на целевой язык .

Языковые пары

Список стабильных на данный момент языковых пар. Наведите курсор на коды языков, чтобы увидеть языки, которые они представляют.

Смотрите также

Примечания

  1. ^ «Последняя версия 3.8.3» . 1 ноября 2022 г. Проверено 2 марта 2023 г.
  2. ^ Фрэнсис М. Тайерс (2010) «Машинный перевод с бретонского на французский язык на основе правил. Архивировано 17 ноября 2016 г. в Wayback Machine ». «Материалы 14-й ежегодной конференции Европейской ассоциации машинного перевода, EAMT10», стр. 174–181.
  3. ^ Ханна, Танмаи; Вашингтон, Джонатан Н.; Тайерс, Фрэнсис М.; Баятлы, Севилай; Суонсон, Дэниел Г.; Пиринен, Томми А.; Тан, Ирен; Алос и Фонт, Гектор (1 декабря 2021 г.). «Последние достижения Apertium, бесплатной платформы машинного перевода на основе правил с открытым исходным кодом для языков с низким уровнем ресурсов». Машинный перевод . 35 (4): 475–502. дои : 10.1007/s10590-021-09260-6 . hdl : 10037/22990 .
  4. ^ "Апертиум".
  5. ^ «Организации, допущенные к участию в Google Summer of Code 2009» .
  6. ^ «Организации, допущенные к участию в Google Summer of Code 2010» .
  7. ^ «Организации, допущенные к участию в Google Summer of Code 2011» .
  8. ^ «Организации, допущенные к участию в Google Summer of Code 2012» .
  9. ^ «Организации, допущенные к участию в Google Summer of Code 2013» .
  10. ^ «Организации, допущенные к участию в Google Summer of Code 2014» .
  11. ^ «Организации, допущенные к использованию Google Code в 2010 году» .
  12. ^ «Организации, допущенные к использованию Google Code в 2011 году» .
  13. ^ «Организации, допущенные к использованию Google Code в 2012 году» .
  14. ^ «Организации, допущенные к использованию Google Code в 2013 г.» .
  15. ^ «Организации, допущенные к использованию Google Code в 2014 г.» .
  16. ^ «Организации, допущенные к использованию Google Code в 2015 году» .
  17. ^ «Организации, допущенные к использованию Google Code в 2016 году» .
  18. ^ «Организации, допущенные к использованию Google Code в 2017 году» .
  19. ^ "Lttoolbox - Apertium" . wiki.apertium.org . Проверено 19 января 2016 г.
  20. ^ "ВИСЛ". beta.visl.sdu.dk. _ Проверено 19 января 2016 г.
  21. ^ "Двуязычный словарь - Apertium" . wiki.apertium.org . Проверено 19 января 2016 г.
  22. ^ «Модуль лексического выбора на основе ограничений - Apertium» . wiki.apertium.org . Проверено 19 января 2016 г.
  23. ^ "Морфологический словарь - Апертиум". wiki.apertium.org . Проверено 19 января 2016 г.

Рекомендации

Внешние ссылки

Услуги и программное обеспечение для конечных пользователей

(Все сервисы основаны на движке Apertium)

Сайты онлайн-переводов

Офлайн-приложения