stringtranslate.com

Машинный перевод

Приложение для мобильного телефона, переводящее испанский текст на английский

Машинный перевод — это использование либо основанных на правилах, либо вероятностных (то есть статистических, а в последнее время и основанных на нейронных сетях) подходов машинного обучения для перевода текста или речи с одного языка на другой, включая контекстуальные, идиоматические и прагматические нюансы обоих языков. .

История

Происхождение

Истоки машинного перевода можно проследить до работы Аль-Кинди , арабского криптографа девятого века , который разработал методы системного языкового перевода, включая криптоанализ , частотный анализ , а также вероятность и статистику , которые используются в современном машинном переводе. [1] Идея машинного перевода появилась позже, в 17 веке. В 1629 году Рене Декарт предложил универсальный язык, в котором эквивалентные идеи на разных языках имеют один и тот же символ. [2]

Идея использования цифровых компьютеров для перевода естественных языков была предложена еще в 1947 году английским А.Д. Бутом [3] и Уорреном Уивером из Фонда Рокфеллера в том же году. «Меморандум, написанный Уорреном Уивером в 1949 году, является, пожалуй, самой влиятельной публикацией на заре машинного перевода». [4] [5] За ним последовали и другие. В 1954 году на машине APEXC в Биркбек-колледже ( Лондонский университет ) была продемонстрирована элементарный перевод английского языка на французский. В то время было опубликовано несколько статей по этой теме и даже статьи в популярных журналах (например, статья Клива и Захарова в сентябрьском номере журнала Wireless World за 1955 год ). Аналогичное приложение, также впервые использованное в то время в Биркбек-колледже, предназначено для чтения и составления текстов Брайля на компьютере.

1950-е годы

Первый исследователь в этой области, Иеошуа Бар-Гилель , начал свои исследования в Массачусетском технологическом институте (1951). Исследовательская группа MT из Джорджтаунского университета под руководством профессора Майкла Заречнака в 1951 году провела публичную демонстрацию своей экспериментальной системы Джорджтауна-IBM в 1954 году. Исследовательские программы MT появились в Японии [6] [7] и России (1955 год). и первая конференция МТ состоялась в Лондоне (1956 г.). [8] [9]

Дэвид Г. Хейс «писал о компьютерной обработке речи еще в 1957 году» и «был руководителем проекта по компьютерной лингвистике в Рэнд с 1955 по 1968 год». [10]

1960–1975 гг.

Исследователи продолжали присоединяться к этой области, поскольку в США была создана Ассоциация машинного перевода и компьютерной лингвистики (1962 г.), а Национальная академия наук сформировала Консультативный комитет по автоматической обработке языка (ALPAC) для изучения MT (1964 г.). Однако реальный прогресс был гораздо медленнее, и после отчета ALPAC (1966 г.), в котором было установлено, что десятилетнее исследование не оправдало ожиданий, финансирование было значительно сокращено. [11] Согласно отчету директора оборонных исследований и разработок (DDR&E) за 1972 год, возможность крупномасштабного МП была восстановлена ​​благодаря успеху системы Logos MT в переводе военных руководств на вьетнамский язык во время этого конфликта.

Французский текстильный институт также использовал MT для перевода рефератов с французского, английского, немецкого и испанского языков и на них (1970 г.); Университет Бригама Янга начал проект по переводу мормонских текстов с помощью автоматического перевода (1971 г.).

1975 год и далее

SYSTRAN , который «был пионером в этой области по контрактам с правительством США» [12] в 1960-х годах, использовался Xerox для перевода технических руководств (1978). Начиная с конца 1980-х годов, когда вычислительная мощность увеличилась и стала дешевле, больший интерес стал проявляться к статистическим моделям машинного перевода . MT стал более популярным после появления компьютеров. [13] Первая система внедрения SYSTRAN была внедрена в 1988 году онлайн-службой Французской почтовой службы под названием Minitel. [14] Также были созданы различные компании по компьютерному переводу, в том числе Trados (1984 г.), которая первой разработала и продала технологию Translation Memory (1989 г.), хотя это не то же самое, что MT. Первая коммерческая система МП для русского/английского/немецко-украинского языков была разработана в Харьковском государственном университете (1991 г.).

К 1998 году «всего за 29,95 долларов» можно было «купить программу для перевода в одном направлении между английским и основным европейским языком по вашему выбору» для запуска на ПК. [12]

MT в сети начался с того, что SYSTRAN предлагал бесплатный перевод небольших текстов (1996 г.), а затем предоставлял его через AltaVista Babelfish [12] , которая обрабатывала 500 000 запросов в день (1997 г.). [15] Вторым бесплатным сервисом перевода в сети стал GlobaLink компании Lernout & Hauspie . [12] Журнал Atlantic Magazine написал в 1998 году, что «Babelfish от Systran и Comprende от GlobaLink» справились с «Не рассчитывайте на это» с «компетентным исполнением». [16]

Франц Йозеф Ох (будущий руководитель отдела разработки переводов в Google) выиграл конкурс DARPA на скорость MT (2003). [17] Другие инновации за это время включали MOSES, статистическую систему MT с открытым исходным кодом (2007 г.), службу перевода текста и SMS для мобильных телефонов в Японии (2008 г.) и мобильный телефон со встроенным переводом речи в речь. функциональность для английского, японского и китайского языков (2009 г.). В 2012 году Google объявил, что Google Translate переводит примерно столько текста, что можно было бы заполнить 1 миллион книг за один день.

Подходы

До появления методов глубокого обучения статистические методы требовали множества правил, сопровождаемых морфологическими , синтаксическими и семантическими аннотациями.

Основанный на правилах

Подход машинного перевода на основе правил использовался в основном при создании словарей и грамматических программ. Самым большим его недостатком было то, что все нужно было сделать явным: орфографические вариации и ошибочные входные данные должны быть включены в анализатор исходного языка, чтобы справиться с ними, а правила лексического выбора должны быть написаны для всех случаев двусмысленности.

Машинный перевод на основе перевода

Машинный перевод на основе переноса был похож на межъязыковый машинный перевод в том, что он создавал перевод из промежуточного представления, имитирующего значение исходного предложения. В отличие от межъязыкового машинного перевода, он частично зависел от языковой пары, участвующей в переводе.

Межъязычный

Межъязыковый машинный перевод был одним из примеров подходов к машинному переводу, основанных на правилах. При таком подходе исходный язык, т. е. текст, подлежащий переводу, преобразуется в межъязыковой язык, т. е. в «языково-нейтральное» представление, независимое от какого-либо языка. Целевой язык затем был создан из интерлингва . Единственной межъязыковой системой машинного перевода, которая была введена в действие на коммерческом уровне, была система KANT (Nyberg and Mitamura, 1992), которая была разработана для перевода технического английского языка Caterpillar (CTE) на другие языки.

На основе словаря

В машинном переводе использовался метод, основанный на словарных статьях, что означает, что слова были переведены словарем в том виде, в каком они есть.

Статистический

Статистический машинный перевод пытался генерировать переводы с использованием статистических методов , основанных на двуязычных текстовых корпусах, таких как канадский корпус Hansard , англо-французский протокол канадского парламента и EUROPARL , протокол Европейского парламента . Там, где такие корпуса были доступны, хорошие результаты были достигнуты при переводе схожих текстов, но для многих языковых пар такие корпуса были редкостью. Первым программным обеспечением для статистического машинного перевода была CANDIDE от IBM . В 2005 году Google улучшила свои внутренние возможности перевода, используя для обучения своей системы около 200 миллиардов слов из материалов Организации Объединенных Наций; точность перевода улучшилась. [18]

Самым большим недостатком SMT была его зависимость от огромного количества параллельных текстов, проблемы с языками с богатой морфологией (особенно с переводом на такие языки) и неспособность исправлять одноэлементные ошибки.

Нейронный МТ

Подход к машинному переводу, основанный на глубоком обучении , — нейронный машинный перевод — в последние годы добился быстрого прогресса. Однако в настоящее время существует консенсус в том, что так называемый человеческий паритет не является реальным, поскольку он полностью основан на ограниченных областях, языковых парах и определенных тестовых тестах [19] , то есть ему не хватает статистической значимости. [20]

Переводы с помощью нейронных инструментов машинного перевода, таких как DeepL Translator , который, как считается, обычно обеспечивает лучшие результаты машинного перевода по состоянию на 2022 год, обычно по-прежнему требуют постредактирования человеком. [21] [22] [23]

Вместо обучения специализированных моделей перевода на параллельных наборах данных можно также напрямую предлагать генеративным моделям больших языков, таким как GPT , переводить текст. [24] [25] [26] Этот подход считается многообещающим, [27] но он по-прежнему более ресурсоемок, чем специализированные модели перевода.

Главные проблемы

Машинный перевод может привести к появлению некоторых непонятных фраз, например «鸡枞» ( Macrolepiota albuminosa ), который будет отображаться как «википедия».
Сломанный китайский «沒有進入» из машинного перевода на Бали, Индонезия . Сломанное китайское предложение звучит как «запись не существует» или «еще не вошли».

Исследования с использованием человеческой оценки (например, профессиональными литературными переводчиками или читателями) систематически выявляли различные проблемы с новейшими передовыми результатами MT. [26] Общие проблемы включают перевод неоднозначных частей, правильный перевод которых требует семантической языковой обработки или контекста, подобной здравому смыслу. [26] Также могут быть ошибки в исходных текстах, отсутствовать качественные обучающие данные, а серьезность частоты некоторых типов проблем может не быть уменьшена с помощью методов, используемых на сегодняшний день, что требует определенного уровня активного участия человека.

Значения

Устранение смысловой неоднозначности заключается в поиске подходящего перевода, когда слово может иметь более одного значения. Впервые эта проблема была поднята в 1950-х годах Иеошуа Бар-Гиллелем . [28] Он отметил, что без «универсальной энциклопедии» машина никогда не сможет различать два значения слова. [29] Сегодня существует множество подходов, призванных решить эту проблему. Их условно можно разделить на «неглубокие» подходы и «глубокие» подходы.

Поверхностный подход предполагает отсутствие знания текста. Они просто применяют статистические методы к словам, окружающим неоднозначное слово. Глубокие подходы предполагают всестороннее знание слова. До сих пор поверхностные подходы были более успешными. [30]

Клод Пирон , долгое время работавший переводчиком в ООН и Всемирной организации здравоохранения , писал, что машинный перевод в лучшем случае автоматизирует более легкую часть работы переводчика; более сложная и трудоемкая часть обычно включает в себя проведение обширных исследований для устранения двусмысленностей в исходном тексте , которые требуют разрешения грамматических и лексических требований целевого языка :

Почему для перевода пяти страниц переводчику нужен целый рабочий день, а не час или два? ..... Этим простым условиям соответствует около 90% среднего текста. Но, к сожалению, есть еще 10%. Именно эта часть требует шести [еще] часов работы. Есть неясности, которые нужно разрешить. Например, автор исходного текста, австралийский врач, привел в пример эпидемию, объявленную во время Второй мировой войны в «японском лагере для военнопленных». Он говорил об американском лагере с японскими пленными или о японском лагере с американскими пленными? У английского языка два чувства. Поэтому необходимо провести исследование, возможно, вплоть до телефонного звонка в Австралию. [31]

Идеальный глубокий подход потребовал бы, чтобы программное обеспечение для перевода самостоятельно провело все исследования, необходимые для такого рода устранения неоднозначности; но для этого потребуется более высокий уровень ИИ , чем тот, который был достигнут до сих пор. Поверхностный подход, который просто угадывает смысл двусмысленной английской фразы, которую упоминает Пирон (возможно, исходя из того, какой тип лагеря для военнопленных чаще упоминается в данном корпусе), имел бы разумный шанс справедливо ошибиться. часто. Поверхностный подход, предполагающий «спрашивать пользователя о каждой двусмысленности», по оценке Пирона, автоматизирует только около 25% работы профессионального переводчика, а более сложные 75% все еще предстоит выполнить человеку.

Нестандартная речь

Одной из основных проблем машинного перевода является его неспособность переводить нестандартный язык с той же точностью, что и стандартный язык. Эвристический или статистический машинный перевод принимает входные данные из различных источников в стандартной форме языка. Перевод на основе правил по своей природе не включает в себя распространенные нестандартные употребления. Это вызывает ошибки при переводе с народного источника или на разговорный язык. Ограничения на перевод повседневной речи создают проблемы при использовании машинного перевода на мобильных устройствах.

Именованные сущности

При извлечении информации именованные сущности в узком смысле относятся к конкретным или абстрактным сущностям реального мира, таким как люди, организации, компании и места, имеющие собственное имя: Джордж Вашингтон, Чикаго, Microsoft. Это также относится к выражениям времени, пространства и количества, например, 1 июля 2011 года, 500 долларов США.

В предложении «Смит является президентом Fabrionix» и Смит , и Фабрионикс являются именными организациями, и их можно уточнить по имени или другой информации; «Президент» — нет, поскольку Смит ранее мог занимать другую должность в Fabrionix, например, вице-президента. Термин «жесткий указатель » определяет это использование для анализа в статистическом машинном переводе.

Именованные объекты сначала должны быть идентифицированы в тексте; в противном случае они могут быть ошибочно переведены как нарицательные существительные, что, скорее всего, не повлияет на рейтинг перевода BLEU , но изменит удобочитаемость текста. [32] Они могут быть опущены в выходном переводе, что также повлияет на читаемость текста и его содержание.

Транслитерация включает в себя поиск букв на целевом языке, которые наиболее точно соответствуют имени на исходном языке. Однако это иногда приводит к ухудшению качества перевода. [33] Для «Южной Калифорнии» первое слово следует перевести напрямую, а второе слово следует транслитерировать. Машины часто транслитерируют и то, и другое, поскольку рассматривают их как одно целое. Подобные слова трудно обрабатывать машинным переводчикам, даже имеющим компонент транслитерации.

Использование списка «не переводить», который преследует одну и ту же конечную цель — транслитерацию, а не перевод. [34] по-прежнему опирается на правильную идентификацию названных объектов.

Третий подход – это классовая модель. Именованные сущности заменяются токеном, обозначающим их «класс»; «Тед» и «Эрика» будут заменены токеном класса «человек». Тогда статистическое распределение и использование имен людей в целом можно проанализировать вместо того, чтобы рассматривать распределения «Тед» и «Эрика» по отдельности, так что вероятность появления данного имени на конкретном языке не будет влиять на присвоенную вероятность. перевода. Исследование Стэнфорда по улучшению этой области перевода приводит примеры того, что фразам «Дэвид собирается на прогулку» и «Анкит идет на прогулку» для английского языка как целевого языка будут присвоены разные вероятности из-за разного количества повторений. для каждого имени в обучающих данных. Разочаровывающий результат того же исследования, проведенного в Стэнфорде (и других попыток улучшить перевод с распознаванием имен), заключается в том, что во многих случаях снижение оценок BLEU за перевод приводит к включению методов перевода именованных объектов. [34]

Перевод из многопараллельных источников

Некоторая работа была проделана по использованию мультипараллельных корпусов , то есть текстов, переведенных на три или более языков. Используя эти методы, текст, переведенный на два или более языков, можно использовать в комбинации, чтобы обеспечить более точный перевод на третий язык по сравнению с тем, если бы использовался только один из этих исходных языков. [35] [36] [37]

Онтологии в MT

Онтология — это формальное представление знаний, которое включает понятия (такие как объекты, процессы и т. д.) в предметной области и некоторые отношения между ними. Если хранимая информация имеет языковую природу, можно говорить о лексиконе. [38] В НЛП онтологии могут использоваться в качестве источника знаний для систем машинного перевода. Имея доступ к большой базе знаний, системы могут самостоятельно разрешать многие (особенно лексические) неоднозначности. В следующих классических примерах мы, люди, можем интерпретировать предложную фразу в соответствии с контекстом, потому что мы используем наши знания о мире, хранящиеся в наших лексиконах:

Я видел человека/звезду/молекулу в микроскоп/телескоп/бинокль. [38]

Система машинного перевода изначально не сможет различать значения, поскольку синтаксис не меняется. Однако при наличии достаточно большой онтологии как источника знаний возможные интерпретации неоднозначных слов в конкретном контексте могут быть уменьшены. Другие области использования онтологий в НЛП включают поиск информации , извлечение информации и обобщение текста . [38]

Построение онтологий

Онтология, созданная для системы машинного перевода, основанной на знаниях PANGLOSS, в 1993 году, может служить примером того, как может быть составлена ​​онтология для целей НЛП : [39] [40]

Приложения

Хотя ни одна система не обеспечивает идеального полностью автоматического высококачественного машинного перевода неограниченного текста, многие полностью автоматизированные системы обеспечивают приемлемый результат. [41] [42] [43] Качество машинного перевода существенно улучшается, если область ограничена и контролируется. [44] Это позволяет использовать машинный перевод в качестве инструмента для ускорения и упрощения переводов, а также выполнять некорректные, но полезные недорогие или специальные переводы.

Путешествовать

Приложения машинного перевода также были выпущены для большинства мобильных устройств, включая мобильные телефоны, карманные компьютеры, КПК и т. д. Благодаря своей портативности такие инструменты стали называть инструментами мобильного перевода , позволяющими создавать мобильные деловые сети между партнерами, говорящими на разных языках, или облегчение как изучения иностранного языка, так и путешествий без сопровождения в зарубежные страны без необходимости посредничества переводчика.

Например, приложение Google Translate позволяет иностранцам быстро переводить окружающий текст с помощью дополненной реальности с помощью камеры смартфона, которая накладывает переведенный текст на текст. [45] Он также может распознавать речь , а затем переводить ее. [46]

Государственное управление

Несмотря на присущие им ограничения, программы MT используются во всем мире. Вероятно, крупнейшим институциональным пользователем является Европейская Комиссия . В 2012 году с целью замены основанного на правилах MT на более новый, основанный на статистических данных MT@EC, Европейская комиссия внесла 3,072 миллиона евро (через свою программу ISA). [47]

Википедия

Машинный перевод также использовался для перевода статей Википедии и может сыграть более важную роль в создании, обновлении, расширении и общем улучшении статей в будущем, особенно по мере улучшения возможностей MT. Существует «инструмент перевода контента», который позволяет редакторам легче переводить статьи на несколько выбранных языков. [48] ​​[49] [50] Статьи на английском языке обычно считаются более полными и менее предвзятыми, чем их непереведенные эквиваленты на других языках. [51] По состоянию на 2022 год в английской Википедии содержится более 6,5 миллионов статей, в то время как в немецкой и шведской Википедии содержится только более 2,5 миллионов статей каждая, [52] каждая из которых зачастую гораздо менее полна.

Наблюдение и военные

После террористических атак в западных странах, в том числе 11 сентября , США и их союзники были наиболее заинтересованы в разработке программ машинного перевода на арабский язык, а также в переводе на пушту и дари . [ нужна цитата ] На этих языках основное внимание уделяется ключевым фразам и быстрому общению между военнослужащими и гражданскими лицами с помощью приложений для мобильных телефонов. [53] В Отделе технологий обработки информации DARPA размещались такие программы, как TIDES и Babylon Translator . ВВС США заключили контракт на 1 миллион долларов на разработку технологии языкового перевода. [54]

Социальные медиа

Заметный рост популярности социальных сетей в Интернете в последние годы создал еще одну нишу для применения программного обеспечения для машинного перевода – в таких утилитах, как Facebook , или в клиентах обмена мгновенными сообщениями , таких как Skype , Google Talk , MSN Messenger и т. д. – позволяющих пользователям говорящие на разных языках для общения друг с другом.

Онлайн игры

Lineage W приобрела популярность в Японии благодаря функциям машинного перевода, позволяющим общаться игрокам из разных стран. [55]

Лекарство

Несмотря на то, что в 1966 году Консультативный комитет по автоматизированной языковой обработке, созданный правительством США, назвал его недостойным конкурентом человеческого перевода, [56] качество машинного перевода в настоящее время улучшено до такого уровня, что его можно применять в онлайн-сотрудничестве и в медицинская сфера исследуются. Применение этой технологии в медицинских учреждениях, где отсутствуют переводчики-люди, является еще одной темой исследований, но возникают трудности из-за важности точных переводов в медицинских диагнозах. [57]

Исследователи предупреждают, что использование машинного перевода в медицине может привести к ошибкам перевода, которые могут быть опасны в критических ситуациях. [58] [59] Машинный перевод может облегчить врачам общение со своими пациентами в повседневной деятельности, но рекомендуется использовать машинный перевод только тогда, когда нет другой альтернативы, а переведенные медицинские тексты должны проверяться человеческие переводчики для точности. [60] [61]

Закон

Юридический язык представляет собой серьезную проблему для инструментов машинного перевода из-за его точной природы и нетипичного использования обычных слов. По этой причине были разработаны специализированные алгоритмы для использования в юридических контекстах. [62] Из-за риска неправильного перевода, возникающего со стороны машинных переводчиков, исследователи рекомендуют, чтобы машинные переводы проверялись переводчиками-людьми на предмет точности, а некоторые суды запрещают их использование в официальных разбирательствах . [63]

Использование машинного перевода в законодательстве вызвало обеспокоенность по поводу ошибок перевода и конфиденциальности клиентов . Юристы, использующие бесплатные инструменты перевода, такие как Google Translate, могут случайно нарушить конфиденциальность клиента, раскрывая личную информацию поставщикам инструментов перевода. [62] Кроме того, высказывались аргументы о том, что согласие на обыск, полученное с помощью машинного перевода, является недействительным, при этом разные суды выносят разные вердикты относительно обоснованности этих доводов. [64]

Древние языки

Достижения в области сверточных нейронных сетей в последние годы и в машинном переводе с низкими ресурсами (когда для обучения доступен лишь очень ограниченный объем данных и примеров) сделали возможным машинный перевод для древних языков, таких как аккадский и его диалекты вавилонский и ассирийский. [65]

Оценка

Существует множество факторов, влияющих на оценку систем машинного перевода. К этим факторам относятся предполагаемое использование перевода, характер программного обеспечения для машинного перевода и характер процесса перевода.

Разные программы могут хорошо работать для разных целей. Например, статистический машинный перевод (SMT) обычно превосходит машинный перевод на основе примеров (EBMT), но исследователи обнаружили, что при оценке перевода с английского на французский EBMT работает лучше. [66] Та же концепция применяется к техническим документам, которые SMT легче перевести из-за их формального языка.

Однако в некоторых приложениях, например описаниях продуктов, написанных на контролируемом языке , система машинного перевода на основе словаря обеспечивает удовлетворительные переводы, которые не требуют никакого вмешательства человека, за исключением проверки качества. [67]

Существуют различные способы оценки качества вывода систем машинного перевода. Самым старым из них является использование судей-людей [68] для оценки качества перевода. Несмотря на то, что человеческая оценка занимает много времени, она по-прежнему остается наиболее надежным методом сравнения различных систем, таких как системы, основанные на правилах, и статистические системы. [69] К автоматизированным средствам оценки относятся BLEU , NIST , METEOR и LEPOR . [70]

Полагаясь исключительно на неотредактированный машинный перевод, игнорируется тот факт, что общение на человеческом языке встроено в контекст и что человеку необходимо понять контекст исходного текста с разумной степенью вероятности. Конечно, верно, что даже чисто человеческие переводы подвержены ошибкам. Следовательно, чтобы гарантировать, что машинный перевод будет полезен человеку и что будет достигнут перевод качества, пригодного для публикации, такие переводы должны проверяться и редактироваться человеком. [71] Покойный Клод Пирон писал, что машинный перевод в лучшем случае автоматизирует более легкую часть работы переводчика; более сложная и трудоемкая часть обычно включает в себя проведение обширных исследований для устранения двусмысленностей в исходном тексте , которые требуют разрешения грамматических и лексических требований целевого языка. Такое исследование является необходимой прелюдией к предварительному редактированию, необходимому для обеспечения входных данных для программного обеспечения машинного перевода, чтобы выходные данные не были бессмысленными . [72]

Помимо проблем устранения неоднозначности, снижение точности может произойти из-за разных уровней обучающих данных для программ машинного перевода. Как машинный перевод на основе примеров, так и статистический машинный перевод полагаются на огромный массив реальных примеров предложений в качестве основы для перевода, и когда анализируется слишком много или слишком мало предложений, точность ставится под угрозу. Исследователи обнаружили, что когда программа обучается на 203 529 парах предложений, точность фактически снижается. [66] Оптимальный уровень обучающих данных составляет чуть более 100 000 предложений, возможно, потому, что по мере увеличения обучающих данных увеличивается и количество возможных предложений, что затрудняет поиск точного соответствия перевода.

Недостатки машинного перевода известны своей развлекательной ценностью . В двух видеороликах, загруженных на YouTube в апреле 2017 года, два японских иероглифа хираганыえぐ ( э и гу ) неоднократно вставляются в Google Translate, в результате чего переводы быстро деградируют до бессмысленных фраз, таких как «DECEARING EGG» и «Глубоководные деревья». которые затем читаются все более абсурдными голосами; [73] [74] Полнометражная версия видео по состоянию на март 2022 года имеет 6,9 миллиона просмотров. [75]

Машинный перевод и жестовые языки

В начале 2000-х годов возможности машинного перевода между разговорным и жестовым языками были сильно ограничены. Было распространено мнение, что глухие люди могут использовать традиционных переводчиков. Однако ударение, интонация, высота звука и время передаются в разговорных языках по-другому, чем в жестовых языках. Таким образом, глухой человек может неправильно истолковать или запутаться в значении письменного текста, основанного на разговорной речи. [76]

Исследователи Чжао и др. (2000) разработали прототип под названием TEAM (машинный перевод с английского на ASL), который выполнял переводы с английского на американский язык жестов (ASL). Программа сначала проанализирует синтаксические, грамматические и морфологические аспекты английского текста. После этого шага программа получила доступ к синтезатору знаков, который выступал в качестве словаря для ASL. В этом синтезаторе содержался процесс, которому необходимо следовать для создания знаков ASL, а также значения этих знаков. После того, как весь текст проанализирован и знаки, необходимые для завершения перевода, расположены в синтезаторе, появляется сгенерированный компьютером человек, который будет использовать ASL для подписи английского текста пользователю. [76]

Авторские права

Только оригинальные произведения подлежат защите авторских прав , поэтому некоторые ученые утверждают, что результаты машинного перевода не имеют права на защиту авторских прав, поскольку МП не предполагает творчества . [77] Авторское право, о котором идет речь, относится к производному произведению ; автор оригинального произведения на языке оригинала не теряет своих прав при переводе произведения: переводчик должен иметь разрешение на публикацию перевода.

Смотрите также

Примечания

  1. ^ Дюпон, Куинн (январь 2018 г.). «Криптологические истоки машинного перевода: от аль-Кинди до Ткача». Современный . Архивировано из оригинала 14 августа 2019 года . Проверено 2 сентября 2019 г.
  2. ^ Ноулсон, Джеймс (1975). Универсальные языковые схемы в Англии и Франции, 1600-1800 гг . Торонто: Университет Торонто Press. ISBN 0-8020-5296-7.
  3. Бут, Эндрю Д. (1 мая 1953 г.). «МЕХАНИЧЕСКИЙ ПЕРЕВОД». Компьютеры и автоматизация 1953-05: Том 2, выпуск 4. Интернет-архив. Беркли Энтерпрайзис. п. 6.
  4. ^ Дж. Хатчинс (2000). «Уоррен Уивер и запуск MT». Первые годы в машинном переводе (PDF) . Исследования по истории языковых наук. Том. 97. с. 17. дои :10.1075/сихолс.97.05хут. ISBN 978-90-272-4586-1. S2CID  163460375. Архивировано из оригинала (PDF) 28 февраля 2020 г. - через Semantic Scholar .
  5. ^ «Уоррен Уивер, американский математик». 13 июля 2020 года. Архивировано из оригинала 6 марта 2021 года . Проверено 7 августа 2020 г.
  6. ^ 上野, 俊夫 (13 августа 1986 г.).パーソナルコンピュータによる機械翻訳プログラムの制作(на японском языке). Токио: (株)ラッセル社. п. 16. ISBN 494762700X.わが国では1956年、当時の電気試験所が英和翻訳専用機「ヤマト」を実験している。この機械は1962年頃には中学1年の教科書で90点以上の能力に達したと報告されている。(перевод (при помощи Google Translate ): В 1959 году в Японии Национальный институт передовых промышленных наук и технологий (AIST) протестировал подходящую англо-японскую машину перевода Yamato , о которой в 1964 году сообщалось, что она достигла уровня мощности по количеству баллов. 90 баллов по учебнику первого класса средней школы.)
  7. ^ "機械翻訳専用機「やまと」-コンピュータ博物館" . Архивировано из оригинала 19 октября 2016 года . Проверено 4 апреля 2017 г.
  8. ^ Най, Мэри Джо (2016). «Говорить на языках: многовековая охота науки за общим языком». Дистилляции . 2 (1): 40–43. Архивировано из оригинала 3 августа 2020 года . Проверено 20 марта 2018 г.
  9. ^ Гордин, Майкл Д. (2015). Научный Вавилон: как развивалась наука до и после глобального английского языка . Чикаго, Иллинойс: Издательство Чикагского университета. ISBN 9780226000299.
  10. Вольфганг Саксон (28 июля 1995 г.). «Дэвид Г. Хейс, 66 лет, разработчик изучения языка с помощью компьютера». Нью-Йорк Таймс . Архивировано из оригинала 7 февраля 2020 года . Проверено 7 августа 2020 г. написал о компьютерной обработке языка еще в 1957 году. С 1955 по 1968 год был руководителем проекта по компьютерной лингвистике в Рэнд.
  11. ^ 上野, 俊夫 (13 августа 1986 г.).パーソナルコンピュータによる機械翻訳プログラムの制作(на японском языке). Токио: (株)ラッセル社. п. 16. ISBN 494762700X.
  12. ^ abcd Будянский, Стивен (декабрь 1998 г.). "Утрачено при переводе". Атлантический журнал . стр. 81–84.
  13. ^ Шанк, Роджер К. (2014). Концептуальная обработка информации . Нью-Йорк: Эльзевир. п. 5. ISBN 9781483258799.
  14. ^ Фарвелл, Дэвид; Гербер, Лори; Хови, Эдуард (29 июня 2003 г.). Машинный перевод и информационный суп: Третья конференция Ассоциации машинного перевода Америки, AMTA'98, Лангхорн, Пенсильвания, США, 28–31 октября 1998 г. Материалы . Берлин: Шпрингер. п. 276. ИСБН 3540652590.
  15. Бэррон, Бренда (18 ноября 2019 г.). «Вавилонская рыба: что случилось с исходной заявкой на перевод?: Мы расследуем». Digital.com . Архивировано из оригинала 20 ноября 2019 года . Проверено 22 ноября 2019 г.
  16. ^ и привел и другие примеры
  17. ^ Чан, Син-Вай (2015). Энциклопедия технологий перевода Routledge . Оксон: Рутледж. п. 385. ИСБН 9780415524841.
  18. ^ «Переводчик Google: универсальный язык» . Блог.outer-court.com. 25 января 2007 г. Архивировано из оригинала 20 ноября 2008 г. Проверено 12 июня 2012 г.
  19. ^ Антонио Тораль, Шейла Кастильо, Ке Ху и Энди Уэй. 2018. Достижение недостижимого? переоценка утверждений о человеческом равенстве в нейронном машинном переводе. КоРР, абс/1808.10432.
  20. ^ Иветт, Грэм; Барри, Хэддоу; Коэн, Филипп (2019). «Переводчик в оценке машинного перевода». arXiv : 1906.09833 [cs.CL].
  21. Кацнельсон, Алла (29 августа 2022 г.). «Плохое знание английского языка? Новые ИИ помогают исследователям писать лучше». Природа . 609 (7925): 208–209. Бибкод : 2022Natur.609..208K. дои : 10.1038/d41586-022-02767-9 . PMID  36038730. S2CID  251931306.
  22. Кораб, Петр (18 февраля 2022 г.). «DeepL: исключительно великолепный языковой переводчик». Середина . Проверено 9 января 2023 г.
  23. ^ «DeepL превосходит Google Translate – DW – 05.12.2018» . Немецкая волна . Проверено 9 января 2023 г.
  24. ^ Хенди, Амр; Абдельрехим, Мохамед; Шараф, Амр; Раунак, Викас; Габр, Мохамед; Мацусита, Хитокадзу; Ким, Ён Джин; Афифи, Мохамед; Авадалла, Хани (18 февраля 2023 г.). «Насколько хороши модели GPT при машинном переводе? Комплексная оценка». arXiv : 2302.09210 [cs.CL].
  25. ^ Фаделли, Ингрид. «Исследование оценивает качество литературных переводов ИИ путем сравнения их с человеческими переводами». techxplore.com . Проверено 18 декабря 2022 г.
  26. ^ abc Тай, Кэтрин; Карпинская, Маржена; Кришна, Калпеш; Рэй, Билл; Ингиллери, Мойра; Витинг, Джон; Айер, Мохит (25 октября 2022 г.). «Изучение литературного машинного перевода на уровне документа с параллельными абзацами из мировой литературы». arXiv : 2210.14250 [cs.CL].
  27. ^ Кочми, Том; Аврамидис, Элефтериос; Боуден, Рэйчел; Бояр, Ондржей; Дворкович, Антон; Федерманн, Кристиан; Фишел, Марк; Фрайтаг, Маркус; Гауда, Тамме; Грундкевич, Роман; Хэддоу, Барри; Коэн, Филипп; Мари, Бенджамин; Монц, Кристоф; Моришита, Макото (2023). Коэн, Филипп; Хэддоу, Барри; Кочми, Том; Монц, Кристоф (ред.). Результаты конференции по машинному переводу 2023 года (WMT23): степень магистра права здесь, но еще не совсем там. Материалы восьмой конференции по машинному переводу . Сингапур: Ассоциация компьютерной лингвистики. стр. 1–42. дои : 10.18653/v1/2023.wmt-1.1 .
  28. ^ Вехи в машинном переводе - № 6: Бар-Гилель и неосуществимость FAHQT. Архивировано 12 марта 2007 г. в Wayback Machine Джоном Хатчинсом.
  29. ^ Бар-Хилель (1960), «Автоматический перевод языков». Доступно онлайн по адресу http://www.mt-archive.info/Bar-Hillel-1960.pdf. Архивировано 28 сентября 2011 г. на Wayback Machine.
  30. ^ Гибридные подходы к машинному переводу . Коста-Хусса, Марта Р., Рапп, Рейнхард, Ламберт, Патрик, Эберле, Курт, Банчс, Рафаэль Э., Бабич, Богдан. Швейцария. 21 июля 2016 г. ISBN 9783319213101. ОКЛК  953581497.{{cite book}}: CS1 maint: location missing publisher (link) CS1 maint: others (link)
  31. ^ Клод Пирон , Le défi des langues (Языковой вызов), Париж, L'Harmattan, 1994.
  32. ^ Бабич, Богдан; Хартли, Энтони (2003). Повышение качества машинного перевода с помощью автоматического распознавания именованных объектов (PDF) . Доклад, представленный на 7-м Международном семинаре EAMT по MT и другим инструментам языковых технологий... Архивировано из оригинала (PDF) 14 мая 2006 г. Проверено 4 ноября 2013 г.
  33. ^ Хермаякоб У., Найт К. и Хэл Д. (2008). Перевод имен в обучении статистическому машинному переводу. Когда следует транслитерировать. Архивировано 4 января 2018 г. в Wayback Machine . Ассоциация компьютерной лингвистики. 389–397.
  34. ^ аб Нирадж Агравал; Анкуш Сингла. Использование распознавания именованных объектов для улучшения машинного перевода (PDF) . Архивировано (PDF) из оригинала 21 мая 2013 года . Проверено 4 ноября 2013 г.
  35. ^ Шварц, Лейн (2008). Методы перевода из нескольких источников (PDF) . Доклад, представленный на 8-й конференции Ассоциации машинного перевода Америки, проходящей раз в два года. Архивировано (PDF) из оригинала 29 июня 2016 года . Проверено 3 ноября 2017 г.
  36. ^ Кон, Тревор; Лапата, Мирелла (2007). Машинный перевод с помощью триангуляции: эффективное использование многопараллельных корпораций (PDF) . Доклад, представленный на 45-м ежегодном собрании Ассоциации компьютерной лингвистики, 23–30 июня 2007 г., Прага, Чехия. Архивировано (PDF) из оригинала 10 октября 2015 г. Проверено 3 февраля 2015 г.
  37. ^ Наков, Преслав; Нг, Хви Тоу (2012). «Улучшение статистического машинного перевода для языка с ограниченными ресурсами с использованием родственных языков с богатыми ресурсами». Журнал исследований искусственного интеллекта . 44 : 179–222. arXiv : 1401.6876 . дои : 10.1613/jair.3540 .
  38. ^ abc Воссен, Пик: Онтологии . В: Митков, Руслан (ред.) (2003): Справочник по компьютерной лингвистике, глава 25. Оксфорд: Oxford University Press.
  39. ^ Найт, Кевин (1993). «Создание большой онтологии для машинного перевода». Технология человеческого языка: материалы семинара, состоявшегося в Плейнсборо, штат Нью-Джерси, 21–24 марта 1993 г. . Принстон, Нью-Джерси: Ассоциация компьютерной лингвистики. стр. 185–190. дои : 10.3115/1075671.1075713 . ISBN 978-1-55860-324-0.
  40. ^ Найт, Кевин; Люк, Стив К. (1994). Создание крупномасштабной базы знаний по машинному переводу . Доклад, представленный на Двенадцатой национальной конференции по искусственному интеллекту. arXiv : cmp-lg/9407029 .
  41. ^ Мелби, Алан. Возможность языка (Амстердам: Бенджаминс, 1995, 27–41). Бенджаминс.com. 1995. ISBN 9789027216144. Архивировано из оригинала 25 мая 2011 года . Проверено 12 июня 2012 г.
  42. Вутен, Адам (14 февраля 2006 г.). «Простая модель, описывающая технологию перевода». Транспортно-информационный бизнес . Архивировано из оригинала 16 июля 2012 года . Проверено 12 июня 2012 г.
  43. ^ «Приложение III к книге «Современное состояние автоматического перевода языков», «Достижения в области компьютеров», том 1 (1960), стр. 158–163. Перепечатано в Y.Bar-Hillel: Language and information (Reading, Mass.: Аддисон-Уэсли, 1964), стр.174-179» (PDF) . Архивировано из оригинала (PDF) 28 сентября 2018 года . Проверено 12 июня 2012 г.
  44. ^ «Решение для машинного перевода человеческого качества от Ta with you» (на испанском языке). Тауйоу.com. 15 апреля 2009 года. Архивировано из оригинала 22 сентября 2009 года . Проверено 12 июня 2012 г.
  45. ^ «Google Translate добавляет 20 языков в приложение дополненной реальности» . Популярная наука . 30 июля 2015 года . Проверено 9 января 2023 г.
  46. ^ Уитни, Лэнс. «Говорят, что обновление приложения Google Translate сделает преобразование речи в текст еще проще». CNET . Проверено 9 января 2023 г.
  47. ^ "Служба машинного перевода" . 5 августа 2011 года. Архивировано из оригинала 8 сентября 2013 года . Проверено 13 сентября 2013 г.
  48. Уилсон, Кайл (8 мая 2019 г.). «В Википедии проблема с Google Translate». Грань . Проверено 9 января 2023 г.
  49. ^ «Википедия использует Google, чтобы помочь редакторам переводить статьи» . ВенчурБит . 9 января 2019 года . Проверено 9 января 2023 г.
  50. ^ «Инструмент перевода контента помогает создать более полумиллиона статей в Википедии» . Фонд Викимедиа . 23 сентября 2019 г. Проверено 10 января 2023 г.
  51. Журнал Undark (12 августа 2021 г.). «В Википедии проблема с языком. Вот как ее исправить». Журнал «Undark» . Проверено 9 января 2023 г.
  52. ^ «Список Википедий - Мета» . мета.викимедиа.орг . Проверено 9 января 2023 г.
  53. Галлафент, Алекс (26 апреля 2011 г.). «Машинный перевод для военных». PRI — это мир . Архивировано из оригинала 9 мая 2013 года . Проверено 17 сентября 2013 г.
  54. Джексон, Уильям (9 сентября 2003 г.). «GCN – ВВС хотят создать универсальный переводчик» . Gcn.com. Архивировано из оригинала 16 июня 2011 года . Проверено 12 июня 2012 г.
  55. Ён Сил, Юн (26 июня 2023 г.). «Популярность корейских игр на жестком японском игровом рынке растет». БизнесКорея . Проверено 8 августа 2023 г.
  56. ^ Консультативный комитет по автоматической обработке языка, Отдел поведенческих наук, Национальная академия наук, Национальный исследовательский совет (1966). Язык и машины: компьютеры в переводе и лингвистике (PDF) (Отчет). Вашингтон, округ Колумбия: Национальный исследовательский совет Национальной академии наук. Архивировано (PDF) из оригинала 21 октября 2013 года . Проверено 21 октября 2013 г.{{cite report}}: CS1 maint: multiple names: authors list (link)
  57. ^ Рандхава, Гурдишпал; Феррейра, Мариэлла; Ахмед, Рухсана; Эззат, Омар; Потти, Кевин (апрель 2013 г.). «Использование машинного перевода в клинической практике». Канадский семейный врач . 59 (4): 382–383. ПМК 3625087 . PMID  23585608. Архивировано из оригинала 4 мая 2013 года . Проверено 21 октября 2013 г. 
  58. ^ Виейра, Лукас Нуньес; О'Хаган, Минако; О'Салливан, Кэрол (18 августа 2021 г.). «Понимание социального воздействия машинного перевода: критический обзор литературы по медицинским и юридическим случаям использования». Информация, коммуникация и общество . 24 (11): 1515–1532. дои : 10.1080/1369118X.2020.1776370 . hdl : 1983/29727bd1-a1ae-4600-9e8e-018f11ec75fb . ISSN  1369-118Х. S2CID  225694304.
  59. ^ Кхунг, Элейн С.; Стейнбрук, Эрик; Браун, Кортлин; Фернандес, Алисия (1 апреля 2019 г.). «Оценка использования Google Translate для перевода инструкций по выписке из отделения неотложной помощи на испанский и китайский языки». JAMA Внутренняя медицина . 179 (4): 580–582. doi : 10.1001/jamainternmed.2018.7653. ISSN  2168-6106. ПМК 6450297 . ПМИД  30801626. 
  60. Пикколи, Ванесса (5 июля 2022 г.). «Плюрилингвизм, мультимодальность и машинный перевод в медицинских консультациях: пример». Обучение письменному и устному переводу . 17 (1): 42–65. дои :10.1075/tis.21012.pic. ISSN  1932-2798. S2CID  246780731.
  61. ^ Эррера-Эспехель, Паула София; Рэйч, Стефан (20 ноября 2023 г.). «Использование машинного перевода для информационно-пропагандистской деятельности и коммуникации в области здравоохранения в эпидемиологии и общественном здравоохранении: обзорный обзор». JMIR Общественное здравоохранение и надзор . 9 : е50814. дои : 10.2196/50814 . ISSN  2369-2960. ПМЦ 10696499 . ПМИД  37983078. 
  62. ^ ab Legalj (2 января 2023 г.). «Человек против машины: социальные и юридические последствия машинного перевода». Принстонский юридический журнал . Проверено 4 декабря 2023 г.
  63. ^ Чавес, Эдвард Л. (2008). «Успех Нью-Мексико с присяжными, не говорящими по-английски». Журнал судебных инноваций . 1 : 303.
  64. ^ Виейра, Лукас Нуньес; О'Хаган, Минако; О'Салливан, Кэрол (18 августа 2021 г.). «Понимание социального воздействия машинного перевода: критический обзор литературы по медицинским и юридическим случаям использования». Информация, коммуникация и общество . 24 (11): 1515–1532. дои : 10.1080/1369118X.2020.1776370 . hdl : 1983/29727bd1-a1ae-4600-9e8e-018f11ec75fb . ISSN  1369-118Х. S2CID  225694304.
  65. ^ Гутерц, Гай; Гордин, Шай; Саенс, Луис; Леви, Омер; Берант, Джонатан (2 мая 2023 г.). Кернс, Майкл (ред.). «Перевод с аккадского на английский с помощью нейронного машинного перевода». ПНАС Нексус . 2 (5): pgad096. doi : 10.1093/pnasnexus/pgad096. ISSN  2752-6542. ПМЦ 10153418 . ПМИД  37143863. 
  66. ^ Аб Уэй, Энди; Нано Гоф (20 сентября 2005 г.). «Сравнение машинного перевода на основе примеров и статистического машинного перевода». Инженерия естественного языка . 11 (3): 295–309. дои : 10.1017/S1351324905003888. S2CID  3242163.
  67. ^ Muegge (2006), «Полностью автоматический высококачественный машинный перевод ограниченного текста: тематическое исследование, заархивированное 17 октября 2011 года в Wayback Machine », в журнале « Перевод и компьютер» 28. Материалы двадцать восьмой международной конференции по переводу и компьютеру. , 16–17 ноября 2006 г., Лондон , Лондон: Аслиб. ISBN 978-0-85142-483-5
  68. ^ «Сравнение систем MT по оценке человека, май 2008 г.». Морфологический.hu. Архивировано из оригинала 19 апреля 2012 года . Проверено 12 июня 2012 г.
  69. ^ Андерсон, Д.Д. (1995). Машинный перевод как инструмент изучения второго языка. Архивировано 4 января 2018 года на Wayback Machine . Журнал КАЛИКО. 13(1). 68–96.
  70. ^ Хан и др. (2012), «LEPOR: надежная метрика оценки машинного перевода с дополненными факторами, архивировано 4 января 2018 года в Wayback Machine », в материалах 24-й Международной конференции по компьютерной лингвистике (COLING 2012): Плакаты, страницы 441–450 , Мумбаи , Индия.
  71. ^ Дж. М. Коэн отмечает (стр. 14): «Научный перевод — это цель эпохи, которая сводит всю деятельность к методам . Однако невозможно представить машину литературного перевода менее сложной, чем сам человеческий мозг со всеми его знаниями. , чтение и дискриминация».
  72. ^ См. ежегодно проводимые тесты NIST с 2001 г. Архивировано 22 марта 2009 г. в Wayback Machine и Отделе двуязычной оценки.
  73. ^ Абади, Марк. «4 раза Google Translate полностью ошибся». Бизнес-инсайдер .
  74. Ссылки «.ねとら.
  75. ^ «えぐ» - через www.youtube.com.
  76. ^ Аб Чжао Л., Киппер К., Шулер В., Фоглер К. и Палмер М. (2000). Система машинного перевода с английского на американский язык жестов. Архивировано 20 июля 2018 года в Wayback Machine . Конспекты лекций по информатике, 1934: 54–67.
  77. ^ «Машинный перевод: на результат нет авторских прав?» SEO-переводчик со ссылкой на Zimbabwe Independent . Архивировано из оригинала 29 ноября 2012 года . Проверено 24 ноября 2012 г.

дальнейшее чтение

Внешние ссылки