stringtranslate.com

Память переводов

Память переводов ( TM ) — это база данных, в которой хранятся «сегменты», которые могут представлять собой предложения, абзацы или похожие на предложения единицы (заголовки, заголовки или элементы в списке), которые ранее были переведены, чтобы помочь переводчикам -людям . Память переводов хранит исходный текст и соответствующий ему перевод в языковых парах, называемых «единицами перевода». Отдельные слова обрабатываются терминологическими базами и не входят в область ТМ.

Программы, использующие память переводов, иногда называют менеджерами памяти переводов ( TMM ) или системами памяти переводов ( системами TM , не путать с системой управления переводами ( TMS ), которая представляет собой еще один тип программного обеспечения, ориентированного на управление процессом перевода. ).

Память переводов обычно используется в сочетании со специальным инструментом компьютерного перевода (CAT), программой обработки текстов , системами управления терминологией , многоязычным словарем или даже необработанными результатами машинного перевода .

Исследования показывают, что многие компании, производящие многоязычную документацию , используют системы памяти переводов. По данным опроса лингвистов, проведенного в 2006 году, 82,5% из 874 ответов подтвердили использование ТМ. [1] Использование ТМ коррелирует с типом текста, характеризующимся техническими терминами и простой структурой предложений (техническими, в меньшей степени маркетинговыми и финансовыми), компьютерными навыками и повторяемостью контента. [1]

Использование ТМ

Программа разбивает исходный текст (переводимый текст) на сегменты, ищет совпадения между сегментами и исходной половиной ранее переведенных пар исходный-целевой, хранящихся в памяти переводов , и представляет такие совпадающие пары как полные и частичные совпадения перевода . Переводчик может принять совпадение, заменить его новым переводом или изменить его в соответствии с исходным текстом. В последних двух случаях новый или измененный перевод попадает в базу данных.

Некоторые системы памяти переводов ищут только 100% совпадений, т. е. они могут извлекать только те сегменты текста, которые точно соответствуют записям в базе данных, в то время как другие используют алгоритмы нечеткого сопоставления для поиска похожих сегментов, которые предоставляются переводчику с помеченными различиями. Типичные системы памяти переводов ищут текст только в исходном сегменте.

Гибкость и надежность алгоритма сопоставления во многом определяют производительность памяти переводов, хотя для некоторых приложений скорость восстановления точных совпадений может быть достаточно высокой, чтобы оправдать подход со 100% совпадением.

Сегменты, в которых совпадений не обнаружено, переводчику придется переводить вручную. Эти вновь переведенные сегменты сохраняются в базе данных, где их можно использовать для будущих переводов, а также повторений этого сегмента в текущем тексте.

Память переводов лучше всего работает с текстами, которые часто повторяются, например с техническими руководствами. Они также полезны для перевода дополнительных изменений в ранее переведенном документе, соответствующих, например, незначительным изменениям в новой версии руководства пользователя. Традиционно память переводов не считалась подходящей для литературных или творческих текстов по той простой причине, что в используемом языке очень мало повторов. Однако другие находят их ценными даже для неповторяющихся текстов, поскольку созданные ресурсы базы данных имеют ценность для поиска соответствия, позволяющего определить правильное использование терминов, для обеспечения качества (отсутствие пустых сегментов) и упрощения процесса проверки (источник и целевой сегмент всегда отображается вместе, в то время как переводчикам приходится работать с двумя документами в традиционной среде редактирования).

Основные преимущества

Менеджеры памяти переводов наиболее подходят для перевода технической документации и документов, содержащих специализированные словари. Их преимущества включают в себя:

Основные препятствия

К основным проблемам, препятствующим более широкому использованию менеджеров памяти переводов, относятся:

Влияние на качество

Использование систем ТМ может повлиять на качество переводимых текстов. Его основной эффект явно связан с так называемым «распространением ошибок»: если перевод определенного сегмента неверен, более вероятно, что неправильный перевод будет повторно использован в следующий раз в том же исходном тексте или аналогичном тексте. исходный текст переводится, тем самым закрепляя ошибку. Традиционно описываются два основных эффекта на качество переведенных текстов: эффект «предложения-салата» (Bédard 2000; цитируется по O'Hagan 2009: 50) и эффект «глазка» (Heyn 1998). Первый относится к отсутствию связности на уровне текста, когда текст переводится с использованием предложений из ПМ, которые были переведены разными переводчиками в разных стилях. Согласно последнему, переводчики могут адаптировать свой стиль к использованию системы ТМ, чтобы они не содержали внутритекстовых ссылок и чтобы сегменты можно было лучше повторно использовать в будущих текстах, что влияет на связность и читаемость (О'Хаган, 2009).

Существует потенциальное, а если и присутствует, то, вероятно, неосознанное воздействие на переведенный текст. В разных языках используются разные последовательности логических элементов внутри предложения, и переводчик, которому представлено предложение из нескольких предложений, переведенное наполовину, с меньшей вероятностью полностью перестроит предложение. Последовательные эмпирические данные (Мартин-Мор, 2011) показывают, что переводчики, скорее всего, изменят структуру многосложного предложения при работе с текстовым процессором, а не с системой TM.

У переводчика также есть возможность работать с текстом механически, предложение за предложением, вместо того, чтобы сосредотачиваться на том, как каждое предложение соотносится с окружающим его текстом и с текстом в целом. Исследователи (Dragsted 2004) выявили этот эффект, который связан с функцией автоматической сегментации этих программ, но он не обязательно оказывает негативное влияние на качество переводов.

Эти эффекты тесно связаны с обучением, а не присущи инструменту. По мнению Мартина-Мора (2011), использование систем ТМ действительно влияет на качество переводимых текстов, особенно у новичков, но опытные переводчики могут этого избежать. Пим (2013) напоминает, что «переводчики, использующие TM/MT, склонны пересматривать каждый сегмент по ходу работы, оставляя мало времени для окончательной проверки всего текста в конце», что может быть основной причиной некоторых описанных эффектов. здесь.

Типы систем ТМ

Функции

Ниже приводится краткое описание основных функций памяти переводов.

Автономные функции

Импортировать

Данная функция используется для передачи текста и его перевода из текстового файла в ТМ. Импорт может осуществляться из необработанного формата , в котором для импорта в НП доступен внешний исходный текст вместе с его переводом. Иногда тексты приходится обрабатывать пользователю повторно. Существует еще один формат, который можно использовать для импорта: собственный формат . Этот формат использует TM для сохранения памяти переводов в файле.

Анализ

Процесс анализа включает в себя следующие этапы:

Текстовый анализ
Очень важно правильно распознавать пунктуацию, чтобы различать, например, точку в конце предложения и точку в сокращении. Таким образом, разметка — это своего рода предварительное редактирование. Обычно материалы, обработанные в рамках программ помощи переводчикам, содержат пометки, поскольку этап перевода встроен в линию по производству многоязычных документов. Другие специальные текстовые элементы могут быть выделены разметкой. Существуют специальные элементы, которые не нужно переводить, например имена собственные и коды, тогда как другие, возможно, потребуется преобразовать в собственный формат.
Лингвистический парсинг
Сокращение базовой формы используется для подготовки списков слов и текста для автоматического поиска терминов из банка терминов. С другой стороны, синтаксический анализ может использоваться для извлечения многословных терминов или фразеологий из исходного текста . Таким образом, синтаксический анализ используется для нормализации изменения порядка слов фразеологии, то есть того, какие слова могут образовывать фразу.
Сегментация
Его цель — выбрать наиболее полезные единицы перевода. Сегментация похожа на тип синтаксического анализа. Это делается на одном языке с использованием поверхностного синтаксического анализа, а выравнивание основано на сегментации. Если переводчики исправят сегментацию вручную, более поздние версии документа не найдут совпадений с TM на основе исправленной сегментации, поскольку программа будет повторять свои собственные ошибки. Переводчики обычно переходят предложение за предложением, хотя перевод одного предложения может зависеть от перевода окружающих.
Выравнивание
Это задача определения переводческих соответствий между исходным и целевым текстами. Должна быть обратная связь от выравнивания до сегментации, и хороший алгоритм выравнивания должен быть в состоянии исправить первоначальную сегментацию.
Срок извлечения
В качестве входных данных он может иметь предыдущий словарь. Более того, при извлечении неизвестных терминов он может использовать синтаксический анализ на основе статистики текста. Они используются для оценки объема работы, связанной с переводом. Это очень полезно для планирования и планирования работы. Статистика перевода обычно подсчитывает слова и оценивает количество повторений в тексте.

Экспорт

Экспорт переносит текст из TM во внешний текстовый файл. Импорт и экспорт должны быть обратными.

Онлайн-функции

При переводе одна из основных целей TM — найти в памяти наиболее полезные совпадения, чтобы переводчик мог выбрать лучшее. В ТМ должен быть показан как исходный, так и целевой текст с указанием идентичностей и различий.

Retrieval

Из НП можно получить несколько различных типов совпадений.

Полное совпадение
Точные совпадения появляются, когда совпадение между текущим исходным сегментом и сохраненным является посимвольным совпадением. При переводе предложения точное совпадение означает, что это же предложение уже переводилось ранее. Точные совпадения также называются «100 % совпадениями».
Точное в контексте (ICE) или гарантированное совпадение
Соответствие ICE — это точное совпадение, которое встречается точно в том же контексте, то есть в том же месте в абзаце. Контекст часто определяется окружающими предложениями и атрибутами, такими как имя файла документа, дата и разрешения.
Нечеткое совпадение
Если совпадение неточное, это «нечеткое» совпадение. Некоторые системы назначают проценты таким типам совпадений, и в этом случае нечеткое совпадение превышает 0% и меньше 100%. Эти цифры несопоставимы между системами, если не указан метод подсчета баллов.
Согласие
Когда переводчик выбирает одно или несколько слов в исходном сегменте, система извлекает пары сегментов, соответствующие критериям поиска. Эта функция полезна для поиска переводов терминов и идиом при отсутствии терминологической базы данных .

Обновление

НП обновляется новым переводом, когда он принят переводчиком. Как всегда при обновлении базы данных, возникает вопрос, что делать с предыдущим содержимым базы данных. TM можно изменить, изменив или удалив записи в TM. Некоторые системы позволяют переводчикам сохранять несколько переводов одного и того же сегмента источника.

Автоматический перевод

Инструменты памяти переводов часто обеспечивают автоматический поиск и замену.

Автоматический поиск
В системах ТМ осуществляется поиск, и его результаты отображаются автоматически по мере перемещения переводчика по документу.
Автоматическая замена
При автоматической замене, если при переводе новой версии документа обнаруживается точное совпадение, программа повторяет старый перевод. Если переводчик не сверит перевод с первоисточником, ошибка в предыдущем переводе будет повторена.

сеть

Сеть позволяет группе переводчиков переводить текст вместе быстрее, чем если бы каждый работал изолированно, поскольку предложения и фразы, переведенные одним переводчиком, доступны другим. Более того, если память переводов используется совместно до окончательного перевода, существует вероятность того, что ошибки одного переводчика будут исправлены другими членами команды.

Текстовая память

«Текстовая память» лежит в основе предлагаемого Lisa OSCAR стандарта xml:tm. Текстовая память включает в себя память автора и память переводов.

Память переводов

Уникальные идентификаторы запоминаются во время перевода, поэтому документ на целевом языке «точно» выравнивается на уровне текстовой единицы. Если исходный документ впоследствии будет изменен, то те текстовые единицы, которые не изменились, можно будет напрямую перенести в новую целевую версию документа без необходимости какого-либо взаимодействия с переводчиком. Это концепция «точного» или «идеального» соответствия памяти переводов. xml:tm также может предоставлять механизмы для использования в документе и нечеткого сопоставления.

История

1970-е годы — это период зарождения систем ТМ, когда ученые провели предварительный раунд исследовательских дискуссий. Первоначальную идею систем ТМ часто приписывают [ кому? ] к статье Мартина Кея «Правильное место», [2] но подробности о ней не приводятся полностью. В этой статье показана основная концепция системы хранения: «Переводчик может начать с подачи команды, заставляющей систему отображать в хранилище все, что может иметь отношение к... Прежде чем продолжить, он может изучить прошлые данные. и будущие фрагменты текста, содержащие аналогичный материал». На это наблюдение Кея на самом деле повлияло предложение Питера Артерна о том, что переводчики могут использовать аналогичные, уже переведенные документы в Интернете. В своей статье 1978 года [3] он полностью продемонстрировал то, что мы сегодня называем системами ТМ: любой новый текст вводился в станцию ​​обработки текста, и по мере его набора система сверяла этот текст с более ранними текстами, хранящимися в его память, а также его перевод на все другие официальные языки [Европейского сообщества]. ... Одним из преимуществ перед собственно машинным переводом будет то, что все полученные таким образом отрывки будут грамматически правильными. По сути, нам следует внедрить электронный процесс «вырезать и приклеить», который, по моим расчетам, сэкономит как минимум 15 процентов времени, которое переводчики сейчас тратят на эффективное выполнение переводов.

Идея была заимствована из инструментов ALPS (автоматизированных систем обработки языка), впервые разработанных исследователем из Университета Бригама Янга, и в то время идея систем TM была смешана с инструментом под названием «Обработка повторов», который был нацелен только на поиск совпадающих строк. Лишь спустя долгое время возникла концепция так называемой памяти переводов.

Настоящий этап исследования систем ТМ приходится на 1980-е годы. Одна из первых реализаций системы ТМ появилась в двуязычном банке знаний Сэдлера и Вендельманса. Двуязычный банк знаний представляет собой синтаксически и референциально структурированную пару корпусов, один из которых является переводом другого, в которой единицы перевода перекрестно кодируются между корпусами. Целью Двуязычного банка знаний является разработка корпусного источника знаний общего назначения для приложений машинного и компьютерного перевода (Sadler & Vendelman, 1987). Еще один важный шаг сделал Брайан Харрис со своим «Би-текстом». Он определил битекст как «единый текст в двух измерениях» (1988), исходный и целевой тексты, связанные деятельностью переводчика посредством единиц перевода, что нашло аналогичный отголосок в «Билингвальном банке знаний» Сэдлера. А в работе Харриса он предложил что-то вроде системы ТМ без использования этого названия: базу данных парных переводов, в которой возможен поиск либо по отдельному слову, либо по «целой единице перевода», причем в последнем случае поиск позволяет находить похожие, а не идентичные единицы. .

Технология ТМ стала коммерчески доступной в широком масштабе только в конце 1990-х годов, поэтому к ней приложили усилия несколько инженеров и переводчиков. Следует отметить первый инструмент ТМ под названием Trados ( ныне SDL Trados ). В этом инструменте при открытии исходного файла и применении памяти переводов любые «100% совпадения» (идентичные совпадения) или «нечеткие совпадения» (похожие, но не идентичные совпадения) в тексте мгновенно извлекаются и помещаются в целевой объект. файл. Затем «совпадения», предложенные памятью переводов, могут быть либо приняты, либо заменены новыми альтернативами. Если единица перевода обновляется вручную, она сохраняется в памяти переводов для дальнейшего использования, а также для повторения в текущем тексте. Аналогичным образом все сегменты целевого файла, не имеющие «совпадений», будут переведены вручную, а затем автоматически добавлены в память переводов.

В 2000-х годах службы онлайн-перевода начали использовать TM. Службы машинного перевода, такие как Google Translate , а также профессиональные и «гибридные» услуги перевода, предоставляемые такими сайтами, как Gengo и Ackuna , включают базы данных ТМ, предоставленные переводчиками и волонтерами, чтобы обеспечить более эффективные связи между языками и обеспечить более быстрые услуги перевода для конечных пользователей. . [4]

Последние тенденции

Одной из недавних разработок является концепция «текстовой памяти» в отличие от памяти переводов. [5] Это также является основой предлагаемого стандарта LISA OSCAR. [6] Текстовая память в xml:tm включает в себя «память автора» и «память переводов». Память автора используется для отслеживания изменений в ходе авторского цикла. Память переводов использует информацию из памяти автора для реализации сопоставления с памятью переводов. Хотя xml:tm в первую очередь предназначен для документов XML, его можно использовать в любом документе, который можно преобразовать в формат XLIFF [7] .

Память переводов второго поколения

Гораздо более мощные, чем системы ТМ первого поколения, они включают в себя механизм лингвистического анализа , используют технологию фрагментов для разбиения сегментов на интеллектуальные терминологические группы и автоматически генерируют специальные глоссарии.

Сопутствующие стандарты

ТМХ

Translation Memory eXchange (TMX) — это стандарт, который позволяет обмениваться базами переводов между поставщиками переводов. TMX был принят сообществом переводчиков как лучший способ импорта и экспорта памяти переводов . Текущая версия — 1.4b — она позволяет воссоздавать исходные исходные и целевые документы из данных TMX.

ТВХ

Обмен TermBase . Этот стандарт LISA , который был пересмотрен и переиздан как ISO 30042, допускает обмен терминологическими данными, включая подробную лексическую информацию. Структура TBX обеспечивается тремя стандартами ISO: ISO 12620 , ISO 12200 и ISO 16642. ISO 12620 предоставляет перечень четко определенных «категорий данных» со стандартизированными именами, которые функционируют как типы элементов данных или как предопределенные значения. ISO 12200 (также известный как MARTIF) обеспечивает основу базовой структуры TBX. ISO 16642 (также известный как Структура терминологической разметки) включает структурную метамодель для языков терминологической разметки в целом.

ЮТХ

Формат Universal Terminology eXchange (UTX) — это стандарт, специально разработанный для использования в пользовательских словарях машинного перевода , но его можно использовать и для общих, удобочитаемых глоссариев. Цель UTX — ускорить совместное использование и повторное использование словаря благодаря его чрезвычайно простой и практичной спецификации.

СРХ

Обмен правилами сегментации (SRX) предназначен для улучшения стандарта TMX, чтобы данные памяти переводов, которыми обмениваются приложения, могли использоваться более эффективно. Возможность указать правила сегментации, которые использовались в предыдущем переводе, может повысить эффективность использования.

ГМХ

Метрики GILT . GILT означает (глобализация, интернационализация, локализация и перевод). Стандарт GILT Metrics состоит из трех частей: GMX-V для показателей объема, GMX-C для показателей сложности и GMX-Q для показателей качества. Предлагаемый стандарт GILT Metrics предназначен для количественной оценки рабочей нагрузки и требований к качеству для любой конкретной задачи GILT.

ОЛИФ

Открытый формат обмена лексиконами . OLIF — это открытый XML-совместимый стандарт обмена терминологическими и лексическими данными. Хотя изначально он задумывался как средство обмена лексическими данными между собственными словарями машинного перевода, он превратился в более общий стандарт для обмена терминологией. [8]

XLIFF

Формат файла обмена локализацией XML (XLIFF) предназначен для предоставления единого формата файла обмена, который может быть понят любым поставщиком локализации. XLIFF является предпочтительным способом [9] [10] обмена данными в формате XML в переводческой отрасли. [11]

ТрансВС

Веб-службы перевода . TransWS определяет вызовы, необходимые для использования веб-служб для отправки и получения файлов и сообщений, относящихся к проектам локализации. Он задуман как детальная основа для автоматизации большей части текущего процесса локализации с помощью веб-служб. [12]

xml:тм

Подход xml:tm (текстовая память на основе XML) к памяти переводов основан на концепции текстовой памяти, которая включает в себя память автора и память переводов. [13] XML-INTL подарил файл xml:tm Лизе ОСКАР.

ПО

Формат переносимого объекта Gettext . Файлы Gettext PO часто не рассматриваются как формат памяти переводов, но они представляют собой двуязычные файлы, которые также используются в процессах памяти переводов таким же образом, как и память переводов. Обычно система памяти переводов PO состоит из различных отдельных файлов в древовидной структуре каталогов. Общие инструменты, работающие с файлами PO, включают GNU Gettext Tools и Translate Toolkit . Также существует несколько инструментов и программ, которые редактируют файлы PO, как если бы они были простыми исходными текстовыми файлами.

Смотрите также

Рекомендации

  1. ^ ab Элина Лагудаки (2006), «Системы памяти переводов: просвещение точки зрения пользователей. Ключевые результаты исследования TM 2006 г., проведенного в июле и августе 2006 г. (Имперский колледж Лондона, Исследование памяти переводов 2006 г.), стр. 16 «Архивная копия» » (PDF) . Архивировано из оригинала (PDF) 25 марта 2007 г. Проверено 25 марта 2007 г.{{cite web}}: CS1 maint: архивная копия в заголовке ( ссылка )
  2. ^ Кей, Мартин (март 1997 г.). «Правильное место людей и машин в языковом переводе». Машинный перевод . 12 (1–2): 3–23. дои : 10.1023/А: 1007911416676. S2CID  207627954.
  3. ^ Артерн, Питер (1978). «Машинный перевод и компьютеризированные терминологические системы: взгляд переводчика» (PDF) . Перевод и компьютер: материалы семинара, Лондон, 14 ноября 1978 г. ISBN 0444853022.
  4. Инструмент искусственного перевода Google, похоже, изобрел свой собственный секретный внутренний язык. Девин Колдьюи, TechCrunch, 22 ноября 2016 г.
  5. ^ Перевод XML-документов с помощью xml:tm
  6. ^ xml:тм
  7. ^ XLIFF
  8. ^ Открытый формат обмена лексиконами
  9. ^ "DITA Translation SC | ОАЗИС" . www.oasis-open.org . Проверено 29 января 2021 г.
  10. ^ Ротурье, Йоханн (23 августа 2019 г.), О'Хаган, Минако (редактор), «XML для технологии перевода», The Routledge Handbook of Translation and Technology (1-е изд.), Абингдон, Оксон: Routledge, стр. 45–60, номер домена : 10.4324/9781315311258-3, ISBN. 978-1-315-31125-8, S2CID  213287381 , получено 29 января 2021 г.
  11. ^ Формат файла обмена локализацией XML
  12. ^ Веб-службы перевода
  13. ^ Анджей Зидронь (август 2008 г.). «ОАКСАЛ — Что это такое и почему меня это должно волновать». Новости управления информацией CIDM . Архивировано из оригинала 17 мая 2013 года . Проверено 30 марта 2013 г. В основе xml:tm лежат следующие концепции, которые вместе составляют «текстовую память»: память автора и память перевода.

дальнейшее чтение

Внешние ссылки