Параллельный текст

Параллельный текст — это текст, размещенный рядом с его переводом или переводами. ^[1]^[2] Выравнивание параллельного текста — это идентификация соответствующих предложений в обеих половинах параллельного текста. Классическая библиотека Лёба и Санскритская библиотека Клея — два примера двуязычных серий текстов. Справочные Библии могут содержать исходные языки и перевод или несколько переводов сами по себе для удобства сравнения и изучения; Гексапла Оригена ( греч. «шестикратный») поместила шесть версий Ветхого Завета рядом. Известным примером является Розеттский камень , открытие которого позволило начать расшифровку древнеегипетского языка .

Большие коллекции параллельных текстов называются параллельными корпусами (см. корпус текста ). Выравнивание параллельных корпусов на уровне предложений является предпосылкой для многих областей лингвистических исследований. Во время перевода предложения могут быть разделены, объединены, удалены, вставлены или переупорядочены переводчиком. Это делает выравнивание нетривиальной задачей.

Параллельные тексты могут использоваться в языковом образовании . ^[3]

Типы параллельных корпусов

Параллельные корпуса можно разделить на четыре основные категории: ^{[ необходима ссылка ]}

Параллельный корпус содержит переводы одного и того же документа на двух или более языках, выровненные по крайней мере на уровне предложений. Они, как правило, встречаются реже, чем менее сопоставимые корпусы. ^{[ необходима цитата ]}
Шумный параллельный корпус содержит двуязычные предложения, которые не идеально выровнены или имеют некачественные переводы. Тем не менее, большая часть его содержимого представляет собой двуязычные переводы определенного документа.
Сопоставимый корпус создается из невыровненных по предложениям и непереведенных двуязычных документов, но выровненных по темам.
Квазисопоставимый корпус включает в себя весьма разнородные и непараллельные двуязычные документы, которые могут быть тематически объединены или не объединены.

Шум в корпусе

Большие корпуса, используемые в качестве обучающих наборов для алгоритмов машинного перевода , обычно извлекаются из больших массивов однотипных источников, таких как базы данных новостных статей, написанных на первом и втором языках, описывающих схожие события.

Однако извлеченные фрагменты могут быть шумными, с дополнительными элементами, вставленными в каждый корпус. Методы извлечения могут различать двуязычные элементы, представленные в обоих корпусах, и одноязычные элементы, представленные только в одном корпусе, чтобы извлекать более чистые параллельные фрагменты двуязычных элементов. Сопоставимые корпуса используются для прямого получения знаний для целей перевода. Однако высококачественные параллельные данные трудно получить, особенно для языков с ограниченными ресурсами. ^[4]

Битекст

В области переводоведения битекст — это объединенный документ , состоящий из версий данного текста на исходном и целевом языках.

Битексты генерируются программным обеспечением, называемым инструментом выравнивания или инструментом битекста , который автоматически выравнивает исходную и переведенную версии одного и того же текста. Инструмент обычно сопоставляет эти два текста предложение за предложением. Коллекция битекстов называется базой данных битекстов или двуязычным корпусом , и к ней можно обратиться с помощью инструмента поиска.

Битексты и память переводов

Битексты имеют некоторое сходство с памятью переводов. Наиболее существенным отличием является то, что память переводов теряет исходный контекст, в то время как битекст сохраняет исходный порядок предложений. Тем не менее, некоторые реализации памяти переводов, такие как Translation Memory eXchange (TMX), стандартный формат XML для обмена памятью переводов между программами автоматизированного перевода (CAT), позволяют сохранять исходный порядок предложений.

Битексты предназначены для использования переводчиком-человеком , а не машиной. Таким образом, небольшие ошибки выравнивания или незначительные несоответствия, которые могут привести к сбою памяти переводов, не имеют значения.

В своей оригинальной статье 1988 года Харрис также утверждал, что битекст представляет собой то, как переводчики удерживают исходный и целевой тексты вместе в своей ментальной рабочей памяти по мере продвижения. Однако эта гипотеза не была подтверждена. ^[5]

Онлайн-битексты и память переводов также можно назватьОнлайн двуязычные конкордансы. Несколько из них доступны в публичном Интернете, включая Linguée , Reverso и Tradooit. ^[6]^[7]^[8]

Смотрите также

Ссылки

^ Чан, Син-Вай (2015). Энциклопедия технологий перевода Routledge. Лондон: Routledge. ISBN 978-1-315-74912-9.
^ Уильямс, Филипп; Сеннрих, Рико; Пост, Мэтт; Кён, Филипп (2016). Синтаксический статистический машинный перевод. Морган и Клейпул. ISBN 978-1-62705-502-4.
^ Абдалла, А. (2021). Влияние использования стратегии параллельного текста на обучение чтению учащихся уровня Intermediate II. Международный журнал социальных и образовательных наук (IJonSES), 3(1), 95-108. https://doi.org/10.46328/ijonses.48
^ Wołk, Krzysztof (2015). «Методология шумно-параллельной и сопоставимой корпусной фильтрации для извлечения двуязычных эквивалентных данных на уровне предложений». Computer Science . 16 (2): 169–184. arXiv : 1510.04500 . Bibcode :2015arXiv151004500W. doi : 10.7494/csci.2015.16.2.169 . S2CID 12860633.
^ Харрис, Б. (март 1988 г.). «Bi-Text, A New Concept in Translation Theory» (PDF) . Language Monthly . 54 : 8–10. Архивировано из оригинала (PDF) 2018-03-02.
^ Genette, Marie (2016). Насколько надежны онлайн-конкордансеры-билингвы? Исследование Linguee, TradooIT, WeBiText и ReversoContext и их надежности посредством сопоставительного анализа сложных предлогов с французского на английский (диссертация на степень магистра). Université catholique de Louvain & Universitetet i Oslo. hdl : 10852/51577 .
^ "TradooIT - двуязычное согласование" .
^ Десиле, Ален; Фарли, Бенуа; Стоянович, Марта; Патенауд, Женевьева (2008). WeBiText: Создание больших гетерогенных памятей переводов из параллельного веб-контента . Труды Translating and the Computer. Том 30. С. 27–28. S2CID 14586900.

Внешние ссылки

Параллельные корпуса

Многоязычный параллельный корпус JRC-Acquis, охватывающий весь свод законов Европейского Союза (ЕС): Acquis Communautaire с 231 языковой парой. ^[1]
Параллельный корпус протоколов Европейского парламента 1996–2011 гг.
Проект Opus направлен на сбор свободно доступных параллельных корпусов.
Японско-английский двуязычный корпус статей Киото из Википедии, архив 2012-08-22 на Wayback Machine
COMPARA – Португальско-английский параллельный корпус
TERMSEARCH – англо-русско-французские параллельные корпуса (основные международные договоры, конвенции, соглашения и т. д.)
TradooIT – английский/французский/испанский – бесплатные онлайн-инструменты
Нунавут Хансард - параллельный корпус английского и инуктитутского языков
ParaSol – Параллельный корпус славянских и других языков
Glosbe: Многоязычные параллельные корпуса Архивировано 27.05.2013 на Wayback Machine с интерфейсом онлайн-поиска
InterCorp: многоязычный параллельный корпус, 40 языков, согласованных с чешским, интерфейс онлайн-поиска
myCAT – Olanto, конкордансер (с открытым исходным кодом AGPL) с онлайн-поиском по корпусам JCR и UNO
TAUS, с интерфейсом онлайн-поиска.
linguatools многоязычные параллельные корпуса, интерфейс онлайн-поиска.
EUR-Lex Corpus – корпус, созданный на основе базы данных EUR-Lex, состоит из законов Европейского Союза и других публичных документов Европейского Союза.
Language Grid – многоязычная сервисная платформа, включающая параллельные текстовые сервисы

Документация

Библиография по параллельной обработке текста Дж. Верониса и М.-Д. Махимона
Труды семинара 2003 года по созданию и использованию параллельных текстов
Труды семинара 2005 года по созданию и использованию параллельных текстов

Инструменты для выравнивания

Инструмент выравнивания GIZA++ (1999)
Uplug – инструменты для обработки параллельных корпусов (2003)
Реализация алгоритма выравнивания предложений Гейла и Чёрча (2005)
Выравниватель предложений Hunalign (2005)
Шампольон (2006)
МАЛИГНА (2008–2020)
Выравниватель предложений Гаргантюа (2010)
Bleualign – выравнивание предложений на основе машинного перевода (2010)
ЯСА (2013)
Инструмент иерархического выравнивания (HAT) (2018) Архивировано 05.07.2020 на Wayback Machine
Алгоритм выравнивания предложений Vecalign (2019)
Инструмент веб-выравнивания в Университете Гренобля

^ Ральф, Ральф Штайнбергер; Пуликен, Брюно; Видигер, Анна; Игнат, Камелия; Эрьявец, Томаж; Туфиш, Дэн; Варга, Даниэль (2006). JRC-Acquis: многоязычный параллельный корпус, содержащий более 20 языков . Материалы 5-й Международной конференции по языковым ресурсам и оценке (LREC'2006). Генуя, Италия, 24–26 мая 2006 г.