Параллельный текст

Параллельный текст – это текст, помещенный рядом с его переводом или переводами. ^[1]^[2] Параллельное выравнивание текста – это выявление соответствующих предложений в обеих половинах параллельного текста. Классическая библиотека Леба и Библиотека санскрита Клэя — два примера двуязычных серий текстов. Справочные Библии могут содержать языки оригинала и перевод или несколько переводов сами по себе для удобства сравнения и изучения; В « Гексапле » Оригена (по-гречески «шестичастная») шесть версий Ветхого Завета помещены рядом. Известным примером является Розеттский камень , открытие которого позволило начать расшифровку древнеегипетского языка .

Большие коллекции параллельных текстов называются параллельными корпусами (см. текстовый корпус ). Выравнивание параллельных корпусов на уровне предложений является обязательным условием для многих областей лингвистических исследований. Во время перевода предложения могут быть разделены, объединены, удалены, вставлены или изменены переводчиком. Это делает выравнивание нетривиальной задачей.

Параллельные тексты могут использоваться в языковом обучении . ^[3]

Типы параллельных корпусов

^{Параллельные корпуса}^можно разделить на четыре основные категории ^:

Параллельный корпус содержит переводы одного и того же документа на два или более языков, выровненные как минимум на уровне предложений. Они, как правило, встречаются реже, чем менее сопоставимые корпуса. ^{[ нужна цитата ]}
Зашумленный параллельный корпус содержит двуязычные предложения, которые не идеально согласованы или имеют некачественный перевод. Тем не менее, большая часть его содержания представляет собой двуязычные переводы конкретного документа.
Сопоставимый корпус состоит из несогласованных по предложениям и непереведенных двуязычных документов, но документы выровнены по темам.
Квазисопоставимый корпус включает в себя очень разнородные и непараллельные двуязычные документы, которые могут быть или не быть связаны по теме.

Шум в корпусе

Большие корпуса, используемые в качестве обучающих наборов для алгоритмов машинного перевода, обычно извлекаются из больших объемов аналогичных источников, таких как базы данных новостных статей, написанных на первом и втором языках, описывающих схожие события.

Однако извлеченные фрагменты могут быть зашумленными, поскольку в каждый корпус вставляются дополнительные элементы. Методы извлечения могут различать двуязычные элементы, представленные как в корпусах, так и одноязычные элементы, представленные только в одном корпусе, чтобы извлечь более чистые параллельные фрагменты двуязычных элементов. Сопоставимые корпуса используются для непосредственного получения знаний в целях перевода. Однако получить высококачественные параллельные данные сложно, особенно для языков с ограниченными ресурсами. ^[4]

Битекст

В области переводоведения битекст представляет собой объединенный документ , состоящий из версий данного текста как на исходном, так и на целевом языке.

Битексты генерируются с помощью программного обеспечения, называемого инструментом выравнивания или инструментом битекста , который автоматически выравнивает исходную и переведенную версии одного и того же текста. Инструмент обычно сопоставляет эти два текста предложение за предложением. Коллекция битовых текстов называется базой данных битовых текстов или двуязычным корпусом , и к ней можно обратиться с помощью инструмента поиска.

Битексты и память переводов

Битексты имеют некоторое сходство с памятью переводов. Наиболее заметное отличие состоит в том, что память переводов теряет исходный контекст, а битовый текст сохраняет исходный порядок предложений. Тем не менее, некоторые реализации памяти переводов, такие как Translation Memory eXchange (TMX), стандартный формат XML для обмена памятью переводов между программами компьютерного перевода (CAT), позволяют сохранять исходный порядок предложений.

Битексты предназначены для использования человеком- переводчиком , а не машиной. Таким образом, небольшие ошибки выравнивания или незначительные неточности, которые могут привести к сбою памяти переводов, не имеют значения.

В своей оригинальной статье 1988 года Харрис также утверждал, что битекст представляет собой то, как переводчики удерживают исходный и целевой тексты вместе в своей мысленной рабочей памяти по мере их продвижения. Однако эта гипотеза не получила подтверждения. ^[5]

Онлайн-битовые тексты и память переводов также можно назватьдвуязычные онлайн-конкордансы. Некоторые из них доступны в общедоступной сети, включая Linguée , Reverso и Tradooit. ^[6]^[7]^[8]

Смотрите также

Внешние ссылки

Параллельные корпуса

Многоязычный параллельный корпус JRC-Acquis, содержащий полный свод законов Европейского Союза (ЕС): Acquis Communautaire с 231 языковой парой. ^[1]
Параллельный корпус заседаний Европейского парламента, 1996–2011 гг.
Целью проекта Opus является сбор параллельных корпусов в свободном доступе.
Японско-английский двуязычный корпус статей о Киото в Википедии, заархивированный 22 августа 2012 г. в Wayback Machine.
COMPARA – параллельные португальско-английские корпуса
TERMSEARCH – параллельные корпуса на английском/русском/французском языках (основные международные договоры, конвенции, соглашения и т. д.).
TradooIT – английский/французский/испанский – бесплатные онлайн-инструменты
Нунавут Хансард - параллельный корпус английского и инуктитутского языков
ПараСоль – параллельный корпус славянских и других языков.
Glosbe: Многоязычные параллельные корпуса. Архивировано 27 мая 2013 г. в Wayback Machine с интерфейсом онлайн-поиска.
InterCorp: многоязычный параллельный корпус из 40 языков, согласованный с чешским, интерфейс онлайн-поиска.
myCAT – Olanto, concordancer (AGPL с открытым исходным кодом) с онлайн-поиском в корпусе JCR и UNO
TAUS, с интерфейсом онлайн-поиска.
linguatools многоязычные параллельные корпуса, интерфейс онлайн-поиска.
EUR-Lex Corpus - корпус, созданный на основе базы данных EUR-Lex, состоит из законов Европейского Союза и других официальных документов Европейского Союза.
Language Grid – многоязычная сервисная платформа, включающая параллельные текстовые сервисы.

Документация

Библиография по параллельной обработке текста Дж. Верониса и М.-Д. Махимон
Материалы семинара 2003 г. по созданию и использованию параллельных текстов
Материалы семинара 2005 г. по созданию и использованию параллельных текстов

Инструменты выравнивания

Инструмент выравнивания GIZA++ (1999 г.)
Uplug — инструменты для обработки параллельных корпусов (2003 г.)
Реализация алгоритма выравнивания предложений Гейла и Чёрча (2005 г.)
Выравниватель приговоров Hunalign (2005)
Шампольон (2006)
МАЛИГНА (2008–2020)
Выравниватель предложений Гаргантюа (2010)
Bleualign - выравнивание предложений на основе машинного перевода (2010)
ЯСА (2013)
Инструмент иерархического выравнивания (HAT) (2018). Архивировано 5 июля 2020 г. на Wayback Machine.
Алгоритм выравнивания предложений Vecalign (2019)
Инструмент веб-выравнивания в Университете Гренобля

^ Ральф, Ральф Штайнбергер; Пуликен, Брюно; Видигер, Анна; Игнат, Камелия; Эрьявец, Томаж; Туфиш, Дэн; Варга, Даниэль (2006). JRC-Acquis: многоязычный параллельный корпус, содержащий более 20 языков . Материалы 5-й Международной конференции по языковым ресурсам и оценке (LREC'2006). Генуя, Италия, 24–26 мая 2006 г.