Память переводов ( TM ) — это база данных, в которой хранятся «сегменты», которые могут представлять собой предложения, абзацы или похожие на предложения единицы (заголовки, заголовки или элементы в списке), которые ранее были переведены, чтобы помочь переводчикам -людям . Память переводов хранит исходный текст и соответствующий ему перевод в языковых парах, называемых «единицами перевода». Отдельные слова обрабатываются терминологическими базами и не входят в область ТМ.
Программы, использующие память переводов, иногда называют менеджерами памяти переводов ( TMM ) или системами памяти переводов ( системами TM , не путать с системой управления переводами ( TMS ), которая представляет собой еще один тип программного обеспечения, ориентированного на управление процессом перевода. ).
Память переводов обычно используется в сочетании со специальным инструментом компьютерного перевода (CAT), программой обработки текстов , системами управления терминологией , многоязычным словарем или даже необработанными результатами машинного перевода .
Исследования показывают, что многие компании, производящие многоязычную документацию , используют системы памяти переводов. По данным опроса лингвистов, проведенного в 2006 году, 82,5% из 874 ответов подтвердили использование ТМ. [1] Использование ТМ коррелирует с типом текста, характеризующимся техническими терминами и простой структурой предложений (техническими, в меньшей степени маркетинговыми и финансовыми), компьютерными навыками и повторяемостью контента. [1]
Программа разбивает исходный текст (переводимый текст) на сегменты, ищет совпадения между сегментами и исходной половиной ранее переведенных пар исходный-целевой, хранящихся в памяти переводов , и представляет такие совпадающие пары как полные и частичные совпадения перевода . Переводчик может принять совпадение, заменить его новым переводом или изменить его в соответствии с исходным текстом. В последних двух случаях новый или измененный перевод попадает в базу данных.
Некоторые системы памяти переводов ищут только 100% совпадений, т. е. они могут извлекать только те сегменты текста, которые точно соответствуют записям в базе данных, в то время как другие используют алгоритмы нечеткого сопоставления для поиска похожих сегментов, которые предоставляются переводчику с помеченными различиями. Типичные системы памяти переводов ищут текст только в исходном сегменте.
Гибкость и надежность алгоритма сопоставления во многом определяют производительность памяти переводов, хотя для некоторых приложений скорость восстановления точных совпадений может быть достаточно высокой, чтобы оправдать подход со 100% совпадением.
Сегменты, в которых совпадений не обнаружено, переводчику придется переводить вручную. Эти вновь переведенные сегменты сохраняются в базе данных, где их можно использовать для будущих переводов, а также повторений этого сегмента в текущем тексте.
Память переводов лучше всего работает с текстами, которые часто повторяются, например с техническими руководствами. Они также полезны для перевода дополнительных изменений в ранее переведенном документе, соответствующих, например, незначительным изменениям в новой версии руководства пользователя. Традиционно память переводов не считалась подходящей для литературных или творческих текстов по той простой причине, что в используемом языке очень мало повторов. Однако другие находят их ценными даже для неповторяющихся текстов, поскольку созданные ресурсы базы данных имеют ценность для поиска соответствия, позволяющего определить правильное использование терминов, для обеспечения качества (отсутствие пустых сегментов) и упрощения процесса проверки (источник и целевой сегмент всегда отображается вместе, в то время как переводчикам приходится работать с двумя документами в традиционной среде редактирования).
Менеджеры памяти переводов наиболее подходят для перевода технической документации и документов, содержащих специализированные словари. Их преимущества включают в себя:
К основным проблемам, препятствующим более широкому использованию менеджеров памяти переводов, относятся:
Использование систем ТМ может повлиять на качество переводимых текстов. Его основной эффект явно связан с так называемым «распространением ошибок»: если перевод определенного сегмента неверен, более вероятно, что неправильный перевод будет повторно использован в следующий раз в том же исходном тексте или аналогичном тексте. исходный текст переводится, тем самым закрепляя ошибку. Традиционно описываются два основных эффекта на качество переведенных текстов: эффект «предложения-салата» (Bédard 2000; цитируется по O'Hagan 2009: 50) и эффект «глазка» (Heyn 1998). Первый относится к отсутствию связности на уровне текста, когда текст переводится с использованием предложений из ПМ, которые были переведены разными переводчиками в разных стилях. Согласно последнему, переводчики могут адаптировать свой стиль к использованию системы ТМ, чтобы они не содержали внутритекстовых ссылок и чтобы сегменты можно было лучше повторно использовать в будущих текстах, что влияет на связность и читаемость (О'Хаган, 2009).
Существует потенциальное, а если и присутствует, то, вероятно, неосознанное воздействие на переведенный текст. В разных языках используются разные последовательности логических элементов внутри предложения, и переводчик, которому представлено предложение из нескольких предложений, переведенное наполовину, с меньшей вероятностью полностью перестроит предложение. Последовательные эмпирические данные (Мартин-Мор, 2011) показывают, что переводчики, скорее всего, изменят структуру многосложного предложения при работе с текстовым процессором, а не с системой TM.
У переводчика также есть возможность работать с текстом механически, предложение за предложением, вместо того, чтобы сосредотачиваться на том, как каждое предложение соотносится с окружающим его текстом и с текстом в целом. Исследователи (Dragsted 2004) выявили этот эффект, который связан с функцией автоматической сегментации этих программ, но он не обязательно оказывает негативное влияние на качество переводов.
Эти эффекты тесно связаны с обучением, а не присущи инструменту. По мнению Мартина-Мора (2011), использование систем ТМ действительно влияет на качество переводимых текстов, особенно у новичков, но опытные переводчики могут этого избежать. Пим (2013) напоминает, что «переводчики, использующие TM/MT, склонны пересматривать каждый сегмент по ходу работы, оставляя мало времени для окончательной проверки всего текста в конце», что может быть основной причиной некоторых описанных эффектов. здесь.
Ниже приводится краткое описание основных функций памяти переводов.
Данная функция используется для передачи текста и его перевода из текстового файла в ТМ. Импорт может осуществляться из необработанного формата , в котором для импорта в НП доступен внешний исходный текст вместе с его переводом. Иногда тексты приходится обрабатывать пользователю повторно. Существует еще один формат, который можно использовать для импорта: собственный формат . Этот формат использует TM для сохранения памяти переводов в файле.
Процесс анализа включает в себя следующие этапы:
Экспорт переносит текст из TM во внешний текстовый файл. Импорт и экспорт должны быть обратными.
При переводе одна из основных целей TM — найти в памяти наиболее полезные совпадения, чтобы переводчик мог выбрать лучшее. В ТМ должен быть показан как исходный, так и целевой текст с указанием идентичностей и различий.
Из НП можно получить несколько различных типов совпадений.
НП обновляется новым переводом, когда он принят переводчиком. Как всегда при обновлении базы данных, возникает вопрос, что делать с предыдущим содержимым базы данных. TM можно изменить, изменив или удалив записи в TM. Некоторые системы позволяют переводчикам сохранять несколько переводов одного и того же сегмента источника.
Инструменты памяти переводов часто обеспечивают автоматический поиск и замену.
Сеть позволяет группе переводчиков переводить текст вместе быстрее, чем если бы каждый работал изолированно, поскольку предложения и фразы, переведенные одним переводчиком, доступны другим. Более того, если память переводов используется совместно до окончательного перевода, существует вероятность того, что ошибки одного переводчика будут исправлены другими членами команды.
«Текстовая память» лежит в основе предлагаемого Lisa OSCAR стандарта xml:tm. Текстовая память включает в себя память автора и память переводов.
Уникальные идентификаторы запоминаются во время перевода, поэтому документ на целевом языке «точно» выравнивается на уровне текстовой единицы. Если исходный документ впоследствии будет изменен, то те текстовые единицы, которые не изменились, можно будет напрямую перенести в новую целевую версию документа без необходимости какого-либо взаимодействия с переводчиком. Это концепция «точного» или «идеального» соответствия памяти переводов. xml:tm также может предоставлять механизмы для использования в документе и нечеткого сопоставления.
1970-е годы — это период зарождения систем ТМ, когда ученые провели предварительный раунд исследовательских дискуссий. Первоначальную идею систем ТМ часто приписывают [ кому? ] к статье Мартина Кея «Правильное место», [2] но подробности о ней не приводятся полностью. В этой статье показана основная концепция системы хранения: «Переводчик может начать с подачи команды, заставляющей систему отображать в хранилище все, что может иметь отношение к... Прежде чем продолжить, он может изучить прошлые данные. и будущие фрагменты текста, содержащие аналогичный материал». На это наблюдение Кея на самом деле повлияло предложение Питера Артерна о том, что переводчики могут использовать аналогичные, уже переведенные документы в Интернете. В своей статье 1978 года [3] он полностью продемонстрировал то, что мы сегодня называем системами ТМ: любой новый текст вводился в станцию обработки текста, и по мере его набора система сверяла этот текст с более ранними текстами, хранящимися в его память, а также его перевод на все другие официальные языки [Европейского сообщества]. ... Одним из преимуществ перед собственно машинным переводом будет то, что все полученные таким образом отрывки будут грамматически правильными. По сути, нам следует внедрить электронный процесс «вырезать и приклеить», который, по моим расчетам, сэкономит как минимум 15 процентов времени, которое переводчики сейчас тратят на эффективное выполнение переводов.
Идея была заимствована из инструментов ALPS (автоматизированных систем обработки языка), впервые разработанных исследователем из Университета Бригама Янга, и в то время идея систем TM была смешана с инструментом под названием «Обработка повторов», который был нацелен только на поиск совпадающих строк. Лишь спустя долгое время возникла концепция так называемой памяти переводов.
Настоящий этап исследования систем ТМ приходится на 1980-е годы. Одна из первых реализаций системы ТМ появилась в двуязычном банке знаний Сэдлера и Вендельманса. Двуязычный банк знаний представляет собой синтаксически и референциально структурированную пару корпусов, один из которых является переводом другого, в которой единицы перевода перекрестно кодируются между корпусами. Целью Двуязычного банка знаний является разработка корпусного источника знаний общего назначения для приложений машинного и компьютерного перевода (Sadler & Vendelman, 1987). Еще один важный шаг сделал Брайан Харрис со своим «Би-текстом». Он определил битекст как «единый текст в двух измерениях» (1988), исходный и целевой тексты, связанные деятельностью переводчика посредством единиц перевода, что нашло аналогичный отголосок в «Билингвальном банке знаний» Сэдлера. А в работе Харриса он предложил что-то вроде системы ТМ без использования этого названия: базу данных парных переводов, в которой возможен поиск либо по отдельному слову, либо по «целой единице перевода», причем в последнем случае поиск позволяет находить похожие, а не идентичные единицы. .
Технология ТМ стала коммерчески доступной в широком масштабе только в конце 1990-х годов, поэтому к ней приложили усилия несколько инженеров и переводчиков. Следует отметить первый инструмент ТМ под названием Trados ( ныне SDL Trados ). В этом инструменте при открытии исходного файла и применении памяти переводов любые «100% совпадения» (идентичные совпадения) или «нечеткие совпадения» (похожие, но не идентичные совпадения) в тексте мгновенно извлекаются и помещаются в целевой объект. файл. Затем «совпадения», предложенные памятью переводов, могут быть либо приняты, либо заменены новыми альтернативами. Если единица перевода обновляется вручную, она сохраняется в памяти переводов для дальнейшего использования, а также для повторения в текущем тексте. Аналогичным образом все сегменты целевого файла, не имеющие «совпадений», будут переведены вручную, а затем автоматически добавлены в память переводов.
В 2000-х годах службы онлайн-перевода начали использовать TM. Службы машинного перевода, такие как Google Translate , а также профессиональные и «гибридные» услуги перевода, предоставляемые такими сайтами, как Gengo и Ackuna , включают базы данных ТМ, предоставленные переводчиками и волонтерами, чтобы обеспечить более эффективные связи между языками и обеспечить более быстрые услуги перевода для конечных пользователей. . [4]
Одной из недавних разработок является концепция «текстовой памяти» в отличие от памяти переводов. [5] Это также является основой предлагаемого стандарта LISA OSCAR. [6] Текстовая память в xml:tm включает в себя «память автора» и «память переводов». Память автора используется для отслеживания изменений в ходе авторского цикла. Память переводов использует информацию из памяти автора для реализации сопоставления с памятью переводов. Хотя xml:tm в первую очередь предназначен для документов XML, его можно использовать в любом документе, который можно преобразовать в формат XLIFF [7] .
Гораздо более мощные, чем системы ТМ первого поколения, они включают в себя механизм лингвистического анализа , используют технологию фрагментов для разбиения сегментов на интеллектуальные терминологические группы и автоматически генерируют специальные глоссарии.
Translation Memory eXchange (TMX) — это стандарт, который позволяет обмениваться базами переводов между поставщиками переводов. TMX был принят сообществом переводчиков как лучший способ импорта и экспорта памяти переводов . Текущая версия — 1.4b — она позволяет воссоздавать исходные исходные и целевые документы из данных TMX.
Обмен TermBase . Этот стандарт LISA , который был пересмотрен и переиздан как ISO 30042, допускает обмен терминологическими данными, включая подробную лексическую информацию. Структура TBX обеспечивается тремя стандартами ISO: ISO 12620 , ISO 12200 и ISO 16642. ISO 12620 предоставляет перечень четко определенных «категорий данных» со стандартизированными именами, которые функционируют как типы элементов данных или как предопределенные значения. ISO 12200 (также известный как MARTIF) обеспечивает основу базовой структуры TBX. ISO 16642 (также известный как Структура терминологической разметки) включает структурную метамодель для языков терминологической разметки в целом.
Формат Universal Terminology eXchange (UTX) — это стандарт, специально разработанный для использования в пользовательских словарях машинного перевода , но его можно использовать и для общих, удобочитаемых глоссариев. Цель UTX — ускорить совместное использование и повторное использование словаря благодаря его чрезвычайно простой и практичной спецификации.
Обмен правилами сегментации (SRX) предназначен для улучшения стандарта TMX, чтобы данные памяти переводов, которыми обмениваются приложения, могли использоваться более эффективно. Возможность указать правила сегментации, которые использовались в предыдущем переводе, может повысить эффективность использования.
Метрики GILT . GILT означает (глобализация, интернационализация, локализация и перевод). Стандарт GILT Metrics состоит из трех частей: GMX-V для показателей объема, GMX-C для показателей сложности и GMX-Q для показателей качества. Предлагаемый стандарт GILT Metrics предназначен для количественной оценки рабочей нагрузки и требований к качеству для любой конкретной задачи GILT.
Открытый формат обмена лексиконами . OLIF — это открытый XML-совместимый стандарт обмена терминологическими и лексическими данными. Хотя изначально он задумывался как средство обмена лексическими данными между собственными словарями машинного перевода, он превратился в более общий стандарт для обмена терминологией. [8]
Формат файла обмена локализацией XML (XLIFF) предназначен для предоставления единого формата файла обмена, который может быть понят любым поставщиком локализации. XLIFF является предпочтительным способом [9] [10] обмена данными в формате XML в переводческой отрасли. [11]
Веб-службы перевода . TransWS определяет вызовы, необходимые для использования веб-служб для отправки и получения файлов и сообщений, относящихся к проектам локализации. Он задуман как детальная основа для автоматизации большей части текущего процесса локализации с помощью веб-служб. [12]
Подход xml:tm (текстовая память на основе XML) к памяти переводов основан на концепции текстовой памяти, которая включает в себя память автора и память переводов. [13] XML-INTL подарил файл xml:tm Лизе ОСКАР.
Формат переносимого объекта Gettext . Файлы Gettext PO часто не рассматриваются как формат памяти переводов, но они представляют собой двуязычные файлы, которые также используются в процессах памяти переводов таким же образом, как и память переводов. Обычно система памяти переводов PO состоит из различных отдельных файлов в древовидной структуре каталогов. Общие инструменты, работающие с файлами PO, включают GNU Gettext Tools и Translate Toolkit . Также существует несколько инструментов и программ, которые редактируют файлы PO, как если бы они были простыми исходными текстовыми файлами.
{{cite web}}
: CS1 maint: архивная копия в заголовке ( ссылка )В основе xml:tm лежат следующие концепции, которые вместе составляют «текстовую память»: память автора и память перевода.