stringtranslate.com

Машинный перевод

Мобильное приложение, переводящее испанский текст на английский

Машинный перевод — это использование вычислительных методов для перевода текста или речи с одного языка на другой, включая контекстные, идиоматические и прагматические нюансы обоих языков.

Ранние подходы были в основном основаны на правилах или статистических . С тех пор эти методы были заменены нейронным машинным переводом [1] и большими языковыми моделями . [2]

История

Происхождение

Истоки машинного перевода можно проследить до работы Аль-Кинди , арабского криптографа девятого века , который разработал методы системного языкового перевода, включая криптоанализ , частотный анализ , вероятность и статистику , которые используются в современном машинном переводе. [3] Идея машинного перевода появилась позже, в 17 веке. В 1629 году Рене Декарт предложил универсальный язык, в котором эквивалентные идеи на разных языках разделяли один символ. [4]

Идея использования цифровых компьютеров для перевода естественных языков была предложена еще в 1947 году англичанином AD Booth [5] и Уорреном Уивером из Фонда Рокфеллера в том же году. «Меморандум, написанный Уорреном Уивером в 1949 году, является, пожалуй, самой влиятельной публикацией на самых ранних этапах машинного перевода». [6] [7] За ним последовали и другие. В 1954 году на машине APEXC в Биркбек-колледже ( Лондонский университет ) была проведена демонстрация элементарного перевода с английского на французский. В то время было опубликовано несколько статей на эту тему и даже статьи в популярных журналах (например, статья Клива и Захарова в сентябрьском выпуске Wireless World за 1955 год ). Аналогичное приложение, также впервые примененное в Биркбек-колледже в то время, было чтением и составлением текстов Брайля с помощью компьютера.

1950-е годы

Первый исследователь в этой области, Иегошуа Бар-Хиллел , начал свои исследования в Массачусетском технологическом институте (1951). Исследовательская группа по МТ Джорджтаунского университета под руководством профессора Майкла Заречнака последовала за ним (1951) с публичной демонстрацией своей экспериментальной системы Джорджтаун-IBM в 1954 году. Исследовательские программы МТ появились в Японии [8] [9] и России (1955), а первая конференция по МТ прошла в Лондоне (1956). [10] [11]

Дэвид Г. Хейс «писал о компьютерной обработке языка еще в 1957 году» и «был руководителем проекта по компьютерной лингвистике в RAND с 1955 по 1968 год». [12]

1960–1975

Исследователи продолжали присоединяться к этой области, когда в США была создана Ассоциация машинного перевода и компьютерной лингвистики (1962), а Национальная академия наук сформировала Консультативный комитет по автоматической обработке языка (ALPAC) для изучения МП (1964). Однако реальный прогресс был гораздо медленнее, и после отчета ALPAC (1966), в котором было установлено, что десятилетние исследования не оправдали ожиданий, финансирование было значительно сокращено. [13] Согласно отчету 1972 года директора по оборонным исследованиям и инжинирингу (DDR&E), осуществимость крупномасштабного МП была восстановлена ​​благодаря успеху системы МП Logos при переводе военных руководств на вьетнамский язык во время этого конфликта.

Французский текстильный институт также использовал машинный перевод для перевода отрывков с французского, английского, немецкого и испанского языков и на них (1970 г.); Университет имени Бригама Янга начал проект по переводу мормонских текстов с помощью автоматизированного перевода (1971 г.).

1975 и далее

SYSTRAN , которая «была пионером в этой области по контрактам с правительством США» [14] в 1960-х годах, использовалась Xerox для перевода технических руководств (1978). Начиная с конца 1980-х годов, по мере того как вычислительная мощность увеличивалась и становилась менее дорогой, все больший интерес проявлялся к статистическим моделям для машинного перевода . MT стал более популярным после появления компьютеров. [15] Первая система внедрения SYSTRAN была реализована в 1988 году онлайн-службой французской почтовой службы под названием Minitel. [16] Были также запущены различные компании по компьютерному переводу, включая Trados (1984), которая была первой, кто разработал и продал технологию Translation Memory (1989), хотя это не то же самое, что MT. Первая коммерческая система MT для русского / английского / немецкого-украинского языков была разработана в Харьковском государственном университете (1991).

К 1998 году «всего за 29,95 долларов» можно было «купить программу для перевода в одном направлении между английским и одним из основных европейских языков по вашему выбору» для работы на ПК. [14]

МП в Интернете начался с SYSTRAN, предлагавшего бесплатный перевод небольших текстов (1996), а затем предоставлявшего его через AltaVista Babelfish, [14] который набирал 500 000 запросов в день (1997). [17] Вторым бесплатным сервисом перевода в Интернете был GlobaLink от Lernout & Hauspie . [14] Atlantic Magazine писал в 1998 году, что «Babelfish от Systran и Comprende от GlobaLink» справились с «Don't stake on it» с «компетентной работой». [18]

Франц Йозеф Ох (будущий глава отдела развития переводов в Google) выиграл конкурс DARPA по скоростному машинному переводу (2003). [19] Другие инновации того времени включали MOSES, открытый исходный код статистического движка машинного перевода (2007), службу перевода текстов/SMS для мобильных телефонов в Японии (2008) и мобильный телефон со встроенной функцией перевода речи для английского, японского и китайского языков (2009). В 2012 году Google объявила, что Google Translate переводит примерно столько текста, сколько хватило бы для заполнения 1 миллиона книг за один день.

Подходы

До появления методов глубокого обучения статистические методы требовали множества правил, сопровождаемых морфологическими , синтаксическими и семантическими аннотациями.

Основанный на правилах

Подход машинного перевода на основе правил использовался в основном при создании словарей и грамматических программ. Его самым большим недостатком было то, что все должно было быть сделано явным: орфографические вариации и ошибочный ввод должны были стать частью анализатора исходного языка, чтобы с ними справиться, а правила лексического выбора должны были быть написаны для всех случаев неоднозначности.

Машинный перевод на основе переноса

Машинный перевод на основе переноса был похож на межъязыковой машинный перевод в том, что он создавал перевод из промежуточного представления, которое имитировало смысл исходного предложения. В отличие от межъязыкового машинного перевода, он частично зависел от языковой пары, задействованной в переводе.

Межъязыковой

Межъязыковой машинный перевод был одним из примеров подходов машинного перевода на основе правил. В этом подходе исходный язык, т. е. текст, который нужно было перевести, был преобразован в межъязыковой язык, т. е. в «языково-нейтральное» представление, которое не зависит от какого-либо языка. Затем целевой язык был сгенерирован из интерлингвы . Единственной межъязыковой системой машинного перевода, которая была введена в эксплуатацию на коммерческом уровне, была система KANT (Nyberg and Mitamura, 1992), которая была разработана для перевода технического английского языка Caterpillar (CTE) на другие языки.

На основе словаря

Машинный перевод использует метод, основанный на словарных записях, что означает, что слова были переведены так, как они были записаны в словаре.

Статистический

Статистический машинный перевод пытался генерировать переводы, используя статистические методы , основанные на двуязычных текстовых корпусах, таких как корпус Canadian Hansard , англо-французский отчет канадского парламента и EUROPARL , отчет Европейского парламента . Там, где такие корпуса были доступны, были достигнуты хорошие результаты при переводе похожих текстов, но такие корпуса были редки для многих языковых пар. Первым программным обеспечением для статистического машинного перевода была CANDIDE от IBM . В 2005 году Google улучшила свои внутренние возможности перевода, используя около 200 миллиардов слов из материалов Организации Объединенных Наций для обучения своей системы; точность перевода улучшилась. [20]

Самым большим недостатком SMT была его зависимость от огромного количества параллельных текстов, проблемы с языками со сложной морфологией (особенно при переводе на такие языки) и неспособность исправлять ошибки, возникающие в отдельных элементах.

Некоторая работа была проделана в использовании многопараллельных корпусов , то есть текстового блока, который был переведен на 3 или более языков. Используя эти методы, текст, который был переведен на 2 или более языков, может быть использован в комбинации для обеспечения более точного перевода на третий язык по сравнению с тем, если бы использовался только один из этих исходных языков. [21] [22] [23]

Нейронный МТ

Подход к машинному переводу на основе глубокого обучения , нейронный машинный перевод, достиг быстрого прогресса в последние годы. Однако, в настоящее время консенсус заключается в том, что так называемый достигнутый человеческий паритет не является реальным, поскольку он полностью основан на ограниченных доменах, языковых парах и определенных тестовых показателях [24] , т. е. ему не хватает статистической значимости. [25]

Переводы с помощью нейронных инструментов машинного перевода, таких как DeepL Translator , которые, как считается, обычно обеспечивают наилучшие результаты машинного перевода по состоянию на 2022 год, как правило, по-прежнему требуют постредактирования человеком. [26] [27] [28]

Вместо обучения специализированных моделей перевода на параллельных наборах данных можно также напрямую побуждать генеративные большие языковые модели , такие как GPT, переводить текст. [29] [30] [31] Этот подход считается многообещающим, [32] но он все еще более ресурсоемкий, чем специализированные модели перевода.

Проблемы

Машинный перевод может привести к появлению непонятных фраз, например, «鸡枞» ( Macrolepiota albuminosa ) может быть преобразовано как «wikipedia».
Ломаный китайский "沒有進入" от машинного перевода в Бали, Индонезия . Ломаное китайское предложение звучит как "запись не существует" или "еще не введено".

Исследования с использованием человеческой оценки (например, профессиональных литературных переводчиков или людей-читателей) систематически выявляли различные проблемы с последними передовыми результатами МП. [31] К распространенным проблемам относится перевод неоднозначных частей, правильный перевод которых требует семантической языковой обработки или контекста, подобной здравому смыслу. [31] Также могут быть ошибки в исходных текстах, отсутствовать высококачественные обучающие данные, а серьезность частоты нескольких типов проблем не может быть снижена с помощью методов, используемых на сегодняшний день, что требует определенного уровня активного участия человека.

Устранение неоднозначности

Разрешение неоднозначности словесного смысла касается поиска подходящего перевода, когда слово может иметь более одного значения. Впервые эта проблема была поднята в 1950-х годах Иегошуа Бар-Хиллелем . [33] Он указал, что без «универсальной энциклопедии» машина никогда не сможет различать два значения слова. [34] Сегодня существует множество подходов, разработанных для решения этой проблемы. Их можно приблизительно разделить на «поверхностные» подходы и «глубокие» подходы.

Поверхностные подходы не предполагают знания текста. Они просто применяют статистические методы к словам, окружающим неоднозначное слово. Глубокие подходы предполагают всестороннее знание слова. До сих пор поверхностные подходы были более успешными. [35]

Клод Пирон , опытный переводчик Организации Объединенных Наций и Всемирной организации здравоохранения , писал, что машинный перевод в лучшем случае автоматизирует простую часть работы переводчика; более сложная и трудоемкая часть обычно включает в себя проведение обширных исследований для устранения двусмысленностей в исходном тексте , которые требуют разрешения грамматических и лексических требований целевого языка :

Почему переводчику нужен целый рабочий день, чтобы перевести пять страниц, а не час или два? ..... Около 90% среднего текста соответствует этим простым условиям. Но, к сожалению, есть и другие 10%. Именно эта часть требует шесть [еще] часов работы. Есть неясности, которые нужно разрешить. Например, автор исходного текста, австралийский врач, привел пример эпидемии, которая была объявлена ​​во время Второй мировой войны в «японском лагере военнопленных». Говорил ли он об американском лагере с японскими военнопленными или о японском лагере с американскими военнопленными? В английском языке есть два смысла. Поэтому необходимо провести исследование, может быть, в объеме телефонного звонка в Австралию. [36]

Идеальный глубокий подход потребовал бы, чтобы программное обеспечение для перевода само провело все необходимые исследования для такого рода устранения неоднозначности; но это потребовало бы более высокой степени ИИ, чем достигнуто до сих пор. Поверхностный подход, который просто угадывал бы смысл двусмысленной английской фразы, которую упоминает Пирон (возможно, на основе того, какой тип лагеря для военнопленных чаще упоминается в данном корпусе), имел бы разумные шансы довольно часто ошибаться. Поверхностный подход, который подразумевает «спросить пользователя о каждой двусмысленности», по оценке Пирона, автоматизировал бы только около 25% работы профессионального переводчика, оставив более сложные 75% для человека.

Нестандартная речь

Одной из главных ловушек машинного перевода является его неспособность переводить нестандартный язык с той же точностью, что и стандартный язык. Эвристический или статистический машинный перевод принимает входные данные из различных источников в стандартной форме языка. Перевод на основе правил по своей природе не включает в себя общие нестандартные использования. Это приводит к ошибкам при переводе с разговорного источника или на разговорный язык. Ограничения на перевод с разговорной речи представляют проблемы при использовании машинного перевода на мобильных устройствах.

Названные сущности

В извлечении информации именованные сущности в узком смысле относятся к конкретным или абстрактным сущностям в реальном мире, таким как люди, организации, компании и места, имеющие собственное имя: Джордж Вашингтон, Чикаго, Microsoft. Это также относится к выражениям времени, пространства и количества, таким как 1 июля 2011 г., 500 долларов.

В предложении «Смит — президент Fabrionix» и Смит , и Fabrionix — именованные сущности, и могут быть дополнительно уточнены с помощью имени или другой информации; «президент» — нет, поскольку Смит мог ранее занимать другую должность в Fabrionix, например, вице-президент. Термин « жесткий десигнатор» определяет эти использования для анализа в статистическом машинном переводе.

Сначала в тексте должны быть идентифицированы именованные сущности; в противном случае они могут быть ошибочно переведены как нарицательные имена, что, скорее всего, не повлияет на рейтинг перевода BLEU , но изменит читаемость текста человеком. [37] Они могут быть исключены из выходного перевода, что также повлияет на читаемость и посыл текста.

Транслитерация включает в себя поиск букв в целевом языке, которые наиболее точно соответствуют названию на исходном языке. Однако это иногда упоминается как ухудшающее качество перевода. [38] Для «Southern California» первое слово должно быть переведено напрямую, а второе слово должно быть транслитерировано. Машины часто транслитерируют оба, поскольку они рассматривают их как единое целое. Такие слова трудно обрабатывать машинным переводчикам, даже тем, у которых есть компонент транслитерации.

Использование списка «непереводимых» слов, имеющего ту же конечную цель — транслитерацию, а не перевод. [39] по-прежнему опирается на правильную идентификацию названных сущностей.

Третий подход — это модель на основе классов. Именованные сущности заменяются токеном, представляющим их «класс»; «Тед» и «Эрика» будут заменены токеном класса «человек». Тогда статистическое распределение и использование имен людей в целом можно анализировать вместо того, чтобы рассматривать распределения «Тед» и «Эрика» по отдельности, так что вероятность данного имени в определенном языке не повлияет на назначенную вероятность перевода. Исследование Стэнфорда по улучшению этой области перевода дает примеры того, что разные вероятности будут назначены для «Дэвид идет на прогулку» и «Анкит идет на прогулку» для английского языка как целевого языка из-за разного количества вхождений каждого имени в обучающих данных. Разочаровывающим результатом того же исследования Стэнфорда (и других попыток улучшить перевод распознавания имен) является то, что во многих случаях снижение оценок BLEU для перевода будет результатом включения методов для перевода именованных сущностей. [39]

Приложения

Хотя ни одна система не обеспечивает идеала полностью автоматического высококачественного машинного перевода неограниченного текста, многие полностью автоматизированные системы выдают приемлемый результат. [40] [41] [42] Качество машинного перевода существенно улучшается, если область ограничена и контролируется. [43] Это позволяет использовать машинный перевод в качестве инструмента для ускорения и упрощения переводов, а также для создания несовершенных, но полезных недорогих или специальных переводов.

Путешествовать

Приложения для машинного перевода также были выпущены для большинства мобильных устройств, включая мобильные телефоны, карманные компьютеры, КПК и т. д. Благодаря своей портативности такие инструменты стали называться мобильными инструментами перевода, позволяющими налаживать деловые связи между партнерами, говорящими на разных языках, или облегчающими как изучение иностранных языков, так и самостоятельные поездки в зарубежные страны без необходимости посредничества человека-переводчика.

Например, приложение Google Translate позволяет иностранцам быстро переводить текст в их окружении с помощью дополненной реальности , используя камеру смартфона, которая накладывает переведенный текст на текст. [44] Оно также может распознавать речь , а затем переводить ее. [45]

Государственное управление

Несмотря на присущие им ограничения, программы MT используются во всем мире. Вероятно, крупнейшим институциональным пользователем является Европейская комиссия . В 2012 году с целью замены MT на основе правил на более новый, статистический MT@EC Европейская комиссия выделила 3,072 млн евро (через свою программу ISA). [46]

Википедия

Машинный перевод также использовался для перевода статей Википедии и может сыграть большую роль в создании, обновлении, расширении и общем улучшении статей в будущем, особенно по мере того, как возможности МП могут улучшиться. Существует «инструмент перевода контента», который позволяет редакторам легче переводить статьи на несколько выбранных языков. [47] [48] [49] Считается, что статьи на английском языке обычно более полны и менее предвзяты, чем их непереведенные эквиваленты на других языках. [50] По состоянию на 2022 год в английской Википедии более 6,5 миллионов статей, в то время как в немецкой и шведской Википедиях всего более 2,5 миллионов статей, [51] каждая из них зачастую гораздо менее полна.

Наблюдение и военные

После террористических атак в западных странах, включая 11 сентября , США и их союзники были больше всего заинтересованы в разработке программ машинного перевода на арабский язык , а также в переводе языков пушту и дари . [ требуется ссылка ] В рамках этих языков основное внимание уделяется ключевым фразам и быстрой коммуникации между военнослужащими и гражданскими лицами с помощью приложений для мобильных телефонов. [52] Управление технологий обработки информации в DARPA организовало такие программы, как TIDES и переводчик Babylon . ВВС США заключили контракт на 1 миллион долларов на разработку технологии языкового перевода. [53]

Социальные сети

Значительный рост популярности социальных сетей в Интернете в последние годы создал еще одну нишу для применения программного обеспечения для машинного перевода — в таких утилитах, как Facebook , или клиентах мгновенного обмена сообщениями, таких как Skype , Google Talk , MSN Messenger и т. д., — что позволяет пользователям, говорящим на разных языках, общаться друг с другом.

Онлайн игры

Lineage W приобрела популярность в Японии благодаря функциям машинного перевода, позволяющим игрокам из разных стран общаться. [54]

Лекарство

Несмотря на то, что в 1966 году Консультативный комитет по автоматизированной обработке языка, созданный правительством США, назвал его недостойным конкурентом человеческому переводу, [55] качество машинного перевода в настоящее время улучшено до такого уровня, что его применение в онлайн-сотрудничестве и в медицинской сфере изучается. Применение этой технологии в медицинских учреждениях, где отсутствуют переводчики-люди, является еще одной темой исследования, но трудности возникают из-за важности точных переводов в медицинских диагнозах. [56]

Исследователи предупреждают, что использование машинного перевода в медицине может привести к неправильному переводу, что может быть опасно в критических ситуациях. [57] [58] Машинный перевод может облегчить врачам общение с пациентами в повседневной деятельности, но рекомендуется использовать машинный перевод только в случае отсутствия других альтернатив, а переведенные медицинские тексты должны проверяться переводчиками-людьми на точность. [59] [60]

Закон

Юридический язык представляет собой значительную проблему для инструментов машинного перевода из-за его точной природы и нетипичного использования обычных слов. По этой причине были разработаны специализированные алгоритмы для использования в юридических контекстах. [61] Из-за риска неправильных переводов, возникающих из-за машинных переводчиков, исследователи рекомендуют, чтобы машинные переводы проверялись переводчиками-людьми на точность, а некоторые суды запрещают его использование в официальных разбирательствах . [62]

Использование машинного перевода в юриспруденции вызвало обеспокоенность по поводу ошибок перевода и конфиденциальности клиентов . Юристы, которые используют бесплатные инструменты перевода, такие как Google Translate, могут случайно нарушить конфиденциальность клиентов, раскрывая личную информацию поставщикам инструментов перевода. [61] Кроме того, были высказаны аргументы о том, что согласие на полицейский обыск, полученное с помощью машинного перевода, является недействительным, при этом разные суды выносят разные вердикты относительно того, являются ли эти аргументы обоснованными. [57]

Древние языки

Достижения в области сверточных нейронных сетей в последние годы и машинного перевода с низкими ресурсами (когда для обучения доступен лишь очень ограниченный объем данных и примеров) сделали возможным машинный перевод для древних языков, таких как аккадский и его диалекты вавилонский и ассирийский. [63]

Оценка

На оценку систем машинного перевода влияет множество факторов. К этим факторам относятся предполагаемое использование перевода, характер программного обеспечения машинного перевода и характер процесса перевода.

Разные программы могут хорошо работать для разных целей. Например, статистический машинный перевод (SMT) обычно превосходит машинный перевод на основе примеров (EBMT), но исследователи обнаружили, что при оценке перевода с английского на французский EBMT работает лучше. [64] Та же концепция применима к техническим документам, которые легче перевести с помощью SMT из-за их формального языка.

Однако в некоторых приложениях, например, описаниях продуктов, написанных на контролируемом языке , система машинного перевода на основе словаря выдала удовлетворительные переводы, не требующие вмешательства человека, за исключением проверки качества. [65]

Существуют различные средства оценки качества вывода систем машинного перевода. Самым старым является использование человеческих судей [66] для оценки качества перевода. Несмотря на то, что человеческая оценка занимает много времени, она по-прежнему является самым надежным методом сравнения различных систем, таких как основанные на правилах и статистические системы. [67] Автоматизированные средства оценки включают BLEU , NIST , METEOR и LEPOR . [68]

Полагаясь исключительно на неотредактированный машинный перевод, мы игнорируем тот факт, что общение на человеческом языке встроено в контекст и что человеку нужно понять контекст исходного текста с разумной степенью вероятности. Конечно, верно, что даже чисто человеческие переводы подвержены ошибкам. Поэтому, чтобы гарантировать, что машинный перевод будет полезен человеку и что будет достигнуто качество перевода, пригодное для публикации, такие переводы должны быть проверены и отредактированы человеком. [69] Покойный Клод Пирон писал, что машинный перевод в лучшем случае автоматизирует легкую часть работы переводчика; более сложная и трудоемкая часть обычно включает в себя проведение обширных исследований для разрешения двусмысленностей в исходном тексте , которые требуют разрешения грамматических и лексических требований целевого языка. Такие исследования являются необходимой прелюдией к предварительному редактированию, необходимому для обеспечения ввода для программного обеспечения машинного перевода таким образом, чтобы вывод не был бессмысленным . [70]

Помимо проблем устранения неоднозначности, снижение точности может происходить из-за различных уровней обучающих данных для программ машинного перевода. Как основанный на примерах, так и статистический машинный перевод опираются на огромный массив реальных примеров предложений в качестве основы для перевода, и когда анализируется слишком много или слишком мало предложений, точность оказывается под угрозой. Исследователи обнаружили, что когда программа обучается на 203 529 парах предложений, точность фактически снижается. [64] Оптимальный уровень обучающих данных, по-видимому, составляет чуть более 100 000 предложений, возможно, потому что по мере увеличения обучающих данных увеличивается и количество возможных предложений, что затрудняет поиск точного соответствия переводу.

Недостатки машинного перевода были отмечены из-за их развлекательной ценности . Два видео, загруженных на YouTube в апреле 2017 года, включают два японских символа хираганыえぐ ( e и gu ), которые многократно вставляются в Google Translate, в результате чего переводы быстро деградируют до бессмысленных фраз, таких как «DECEARING EGG» и «Deep-sea squeeze trees», которые затем читаются все более абсурдными голосами; [71] [72] полная версия видео в настоящее время имеет 6,9 миллионов просмотров по состоянию на март 2022 года. [73]

Машинный перевод и языки жестов

В начале 2000-х годов возможности машинного перевода между устным и жестовым языками были существенно ограничены. Было распространено мнение, что глухие люди могут пользоваться традиционными переводчиками. Однако ударение, интонация, высота тона и время передаются в устных языках по-разному по сравнению с жестовыми языками. Поэтому глухой человек может неправильно истолковать или запутаться в значении письменного текста, основанного на устном языке. [74]

Исследователи Чжао и др. (2000) разработали прототип под названием TEAM (перевод с английского на ASL машиной), который выполнял переводы с английского на американский язык жестов (ASL). Программа сначала анализировала синтаксические, грамматические и морфологические аспекты английского текста. После этого шага программа обращалась к синтезатору жестов, который действовал как словарь для ASL. Этот синтезатор содержал процесс, которому необходимо следовать для завершения знаков ASL, а также значения этих знаков. После того, как весь текст был проанализирован и знаки, необходимые для завершения перевода, были найдены в синтезаторе, появлялся сгенерированный компьютером человек и использовал ASL для жестов английского текста для пользователя. [74]

Авторские права

Только оригинальные работы подлежат защите авторских прав , поэтому некоторые ученые утверждают, что результаты машинного перевода не подлежат защите авторских прав, поскольку машинный перевод не предполагает творчества . [ 75] Авторские права, о которых идет речь, касаются производной работы ; автор оригинальной работы на языке оригинала не теряет своих прав при переводе работы: переводчик должен иметь разрешение на публикацию перевода. [ требуется ссылка ]

Смотрите также

Примечания

  1. ^ "Google Translate Gets a Deep-Learning Upgrade". IEEE Spectrum . 3 октября 2016 г. Получено 7 июля 2024 г.
  2. ^ «Google Translate против ChatGPT: какой переводчик языка лучший?». PCMag UK . 23 февраля 2024 г. Получено 7 июля 2024 г.
  3. ^ DuPont, Quinn (январь 2018 г.). «Криптологическое происхождение машинного перевода: от аль-Кинди до Уивера». Amodern . Архивировано из оригинала 14 августа 2019 г. Получено 2 сентября 2019 г.
  4. ^ Ноулсон, Джеймс (1975). Универсальные языковые схемы в Англии и Франции, 1600-1800 . Торонто: University of Toronto Press. ISBN 0-8020-5296-7.
  5. Бут, Эндрю Д. (1 мая 1953 г.). «МЕХАНИЧЕСКИЙ ПЕРЕВОД». Компьютеры и автоматизация 1953-05: Том 2 Выпуск 4. Berkeley Enterprises. стр. 6.
  6. ^ J. Hutchins (2000). "Уоррен Уивер и запуск МП". Ранние годы в машинном переводе (PDF) . Исследования по истории языковых наук. Том 97. стр. 17. doi :10.1075/sihols.97.05hut. ISBN 978-90-272-4586-1. S2CID  163460375. Архивировано из оригинала (PDF) 28 февраля 2020 г. – через Semantic Scholar .
  7. ^ "Уоррен Уивер, американский математик". 13 июля 2020 г. Архивировано из оригинала 6 марта 2021 г. Получено 7 августа 2020 г.
  8. ^ 上野, 俊夫 (13 августа 1986 г.).パーソナルコンピュータによる機械翻訳プログラムの制作(на японском языке). Токио: (株)ラッセル社. п. 16. ISBN 494762700X.わが国では1956年、当時の電気試験所が英和翻訳専用機「ヤマト」を実験している。この機械は1962年頃には中学1年の教科書で90点以上の能力に達したと報告されている。(перевод (с помощью Google Translate ): In 1959 г. Япония, Национальный институт передовой промышленной науки и технологии (AIST) провел испытания надлежащей англо-японской переводческой машины Yamato , которая в 1964 г. сообщила, что достигла уровня мощности, превышающего оценку в 90 баллов по учебнику для младших классов. Привет, школа.)
  9. ^ "機械翻訳専用機「やまと」-コンピュータ博物館" . Архивировано из оригинала 19 октября 2016 года . Проверено 4 апреля 2017 г.
  10. ^ Най, Мэри Джо (2016). «Разговор на языках: многовековая охота науки за общим языком». Дистилляции . 2 (1): 40–43. Архивировано из оригинала 3 августа 2020 г. Получено 20 марта 2018 г.
  11. ^ Гордин, Майкл Д. (2015). Научный Вавилон: Как наука делалась до и после глобального английского языка . Чикаго, Иллинойс: Издательство Чикагского университета. ISBN 9780226000299.
  12. ^ Вольфганг Саксон (28 июля 1995 г.). «Дэвид Г. Хейс, 66 лет, разработчик компьютерного изучения языка». The New York Times . Архивировано из оригинала 7 февраля 2020 г. . Получено 7 августа 2020 г. . писал о компьютерной обработке языка еще в 1957 г. . был руководителем проекта по компьютерной лингвистике в RAND с 1955 по 1968 г.
  13. ^ 上野, 俊夫 (13 августа 1986 г.).パーソナルコンピュータによる機械翻訳プログラムの制作(на японском языке). Токио: (株)ラッセル社. п. 16. ISBN 494762700X.
  14. ^ abcd Будянский, Стивен (декабрь 1998 г.). «Трудности перевода». Atlantic Magazine . стр. 81–84.
  15. ^ Шанк, Роджер К. (2014). Концептуальная обработка информации . Нью-Йорк: Эльзевир. п. 5. ISBN 9781483258799.
  16. ^ Фарвелл, Дэвид; Гербер, Лори; Хови, Эдуард (29 июня 2003 г.). Машинный перевод и информационный суп: Третья конференция Ассоциации машинного перевода в Америке, AMTA'98, Ланхорн, Пенсильвания, США, 28–31 октября 1998 г. Труды . Берлин: Springer. стр. 276. ISBN 3540652590.
  17. ^ Баррон, Бренда (18 ноября 2019 г.). «Babel Fish: Что случилось с оригинальным приложением для перевода?: Мы расследуем». Digital.com . Архивировано из оригинала 20 ноября 2019 г. Получено 22 ноября 2019 г.
  18. ^ и привел другие примеры тоже
  19. ^ Чан, Син-Вай (2015). Энциклопедия технологий перевода Routledge . Оксон: Routledge. стр. 385. ISBN 9780415524841.
  20. ^ "Google Translator: The Universal Language". Blog.outer-court.com. 25 января 2007 г. Архивировано из оригинала 20 ноября 2008 г. Получено 12 июня 2012 г.
  21. ^ Шварц, Лейн (2008). Методы перевода из нескольких источников (PDF) . Доклад, представленный на 8-й двухгодичной конференции Ассоциации машинного перевода в Америке. Архивировано (PDF) из оригинала 29 июня 2016 года . Получено 3 ноября 2017 года .
  22. ^ Cohn, Trevor; Lapata, Mirella (2007). Machine Translation by Triangulation: Making Effective Use of Multi-Parallel Corpora (PDF) . Доклад, представленный на 45-м ежегодном собрании Ассоциации компьютерной лингвистики, 23–30 июня 2007 г., Прага, Чешская Республика. Архивировано (PDF) из оригинала 10 октября 2015 г. . Получено 3 февраля 2015 г. .
  23. ^ Наков, Преслав; Нг, Хви Тоу (2012). «Улучшение статистического машинного перевода для языка с ограниченными ресурсами с использованием связанных языков с богатыми ресурсами». Журнал исследований искусственного интеллекта . 44 : 179–222. arXiv : 1401.6876 . doi : 10.1613/jair.3540 .
  24. ^ Антонио Торал, Шейла Кастильо, Ке Ху и Энди Уэй. 2018. Достижение недостижимого? Переоценка утверждений о человеческом паритете в нейронном машинном переводе. CoRR, abs/1808.10432.
  25. ^ Иветт, Грэм; Барри, Хэддоу; Кён, Филипп (2019). «Translationese в оценке машинного перевода». arXiv : 1906.09833 [cs.CL].
  26. ^ Кацнельсон, Алла (29 августа 2022 г.). «Плохие навыки английского языка? Новые ИИ помогают исследователям писать лучше». Nature . 609 (7925): 208–209. Bibcode :2022Natur.609..208K. doi : 10.1038/d41586-022-02767-9 . PMID  36038730. S2CID  251931306.
  27. ^ Кораб, Петр (18 февраля 2022 г.). «DeepL: An Exceptionally Magnificent Language Translator». Medium . Получено 9 января 2023 г. .
  28. ^ "DeepL превосходит Google Translate – DW – 12/05/2018". Deutsche Welle . Получено 9 января 2023 г. .
  29. ^ Хенди, Амр; Абдельрехим, Мохамед; Шараф, Амр; Раунак, Викас; Габр, Мохамед; Мацушита, Хитоказу; Ким, Янг Джин; Афифи, Мохамед; Авадалла, Хани (18 февраля 2023 г.). «Насколько хороши модели GPT для машинного перевода? Комплексная оценка». arXiv : 2302.09210 [cs.CL].
  30. ^ Фаделли, Ингрид. «Исследование оценивает качество литературных переводов ИИ, сравнивая их с человеческими переводами». techxplore.com . Получено 18 декабря 2022 г. .
  31. ^ abc Thai, Кэтрин; Карпинска, Маржена; Кришна, Калпеш; Рэй, Билл; Ингиллери, Мойра; Виетинг, Джон; Айер, Мохит (25 октября 2022 г.). «Изучение литературного машинного перевода на уровне документа с параллельными абзацами из мировой литературы». arXiv : 2210.14250 [cs.CL].
  32. ^ Kocmi, Tom; Avramidis, Eleftherios; Bawden, Rachel; Bojar, Ondřej; Dvorkovich, Anton; Federmann, Christian; Fishel, Mark; Freitag, Markus; Gowda, Thamme; Grundkiewicz, Roman; Haddow, Barry; Koehn, Philipp; Marie, Benjamin; Monz, Christof; Morishita, Makoto (2023). Koehn, Philipp; Haddow, Barry; Kocmi, Tom; Monz, Christof (ред.). Результаты конференции по машинному переводу 2023 года (WMT23): LLM уже здесь, но еще не совсем там. Труды восьмой конференции по машинному переводу . Сингапур: Ассоциация компьютерной лингвистики. С. 1–42. doi : 10.18653/v1/2023.wmt-1.1 .
  33. Вехи в машинном переводе – № 6: Бар-Хиллель и невыполнимость FAHQT Архивировано 12 марта 2007 г. в Wayback Machine Джоном Хатчинсом
  34. ^ Бар-Хиллель (1960), "Автоматический перевод языков". Доступно онлайн по адресу http://www.mt-archive.info/Bar-Hillel-1960.pdf Архивировано 28 сентября 2011 года на Wayback Machine
  35. ^ Гибридные подходы к машинному переводу . Коста-Хусса, Марта Р., Рапп, Рейнхард, Ламберт, Патрик, Эберле, Курт, Банчс, Рафаэль Э., Бабич, Богдан. Швейцария. 21 июля 2016 г. ISBN 9783319213101. OCLC  953581497.{{cite book}}: CS1 maint: местоположение отсутствует издатель ( ссылка ) CS1 maint: другие ( ссылка )
  36. ^ Клод Пирон , Le défi des langues (Языковой вызов), Париж, L'Harmattan, 1994.
  37. ^ Бабич, Богдан; Хартли, Энтони (2003). Повышение качества машинного перевода с помощью автоматического распознавания именованных сущностей (PDF) . Доклад, представленный на 7-м международном семинаре EAMT по машинному переводу и другим инструментам языковых технологий... Архивировано из оригинала (PDF) 14 мая 2006 г. Получено 4 ноября 2013 г.
  38. ^ Hermajakob, U., Knight, K., & Hal, D. (2008). Перевод имен в статистическом машинном переводе Обучение, когда транслитерировать Архивировано 4 января 2018 г. в Wayback Machine . Ассоциация компьютерной лингвистики. 389–397.
  39. ^ ab Neeraj Agrawal; Ankush Singla. Использование распознавания именованных сущностей для улучшения машинного перевода (PDF) . Архивировано (PDF) из оригинала 21 мая 2013 г. . Получено 4 ноября 2013 г. .
  40. ^ Мелби, Алан. Возможность языка (Амстердам: Benjamins, 1995, 27–41). Benjamins.com. 1995. ISBN 9789027216144. Архивировано из оригинала 25 мая 2011 . Получено 12 июня 2012 .
  41. ^ Вутен, Адам (14 февраля 2006 г.). «Простая модель, описывающая технологию перевода». T&I Business . Архивировано из оригинала 16 июля 2012 г. Получено 12 июня 2012 г.
  42. ^ "Приложение III к 'Современному состоянию автоматического перевода языков', Advances in Computers, т. 1 (1960), стр. 158-163. Перепечатано в Y.Bar-Hillel: Language and information (Reading, Mass.: Addison-Wesley, 1964), стр. 174-179" (PDF) . Архивировано из оригинала (PDF) 28 сентября 2018 г. . Получено 12 июня 2012 г. .
  43. ^ "Решение для машинного перевода человеческого качества от Ta with you" (на испанском языке). Tauyou.com. 15 апреля 2009 г. Архивировано из оригинала 22 сентября 2009 г. Получено 12 июня 2012 г.
  44. ^ "Google Translate добавляет 20 языков в приложение дополненной реальности". Popular Science . 30 июля 2015 г. Получено 9 января 2023 г.
  45. ^ Уитни, Лэнс. «Обновление приложения Google Translate, как говорят, делает преобразование речи в текст еще проще». CNET . Получено 9 января 2023 г. .
  46. ^ "Служба машинного перевода". 5 августа 2011 г. Архивировано из оригинала 8 сентября 2013 г. Получено 13 сентября 2013 г.
  47. Уилсон, Кайл (8 мая 2019 г.). «У Википедии проблема с Google Translate». The Verge . Получено 9 января 2023 г. .
  48. ^ «Википедия обращается к Google, чтобы помочь редакторам переводить статьи». VentureBeat . 9 января 2019 г. Получено 9 января 2023 г.
  49. ^ «Инструмент перевода контента помогает создать более полумиллиона статей Википедии». Фонд Викимедиа . 23 сентября 2019 г. Получено 10 января 2023 г.
  50. Журнал Undark (12 августа 2021 г.). «У Википедии проблема с языком. Вот как ее исправить». Журнал Undark . Получено 9 января 2023 г.
  51. ^ "Список Википедий - Мета" . мета.викимедиа.орг . Проверено 9 января 2023 г.
  52. ^ Галлафент, Алекс (26 апреля 2011 г.). «Машинный перевод для военных». PRI's the World . Архивировано из оригинала 9 мая 2013 г. Получено 17 сентября 2013 г.
  53. Джексон, Уильям (9 сентября 2003 г.). «GCN – Военно-воздушные силы хотят построить универсальный переводчик». Gcn.com. Архивировано из оригинала 16 июня 2011 г. Получено 12 июня 2012 г.
  54. ^ Ён-силь, Юн (26 июня 2023 г.). «Корейские игры становятся все популярнее на жестком японском игровом рынке». BusinessKorea . Получено 8 августа 2023 г.
  55. ^ Консультативный комитет по автоматической обработке языка, Отдел поведенческих наук, Национальная академия наук, Национальный исследовательский совет (1966). Язык и машины: компьютеры в переводе и лингвистике (PDF) (Отчет). Вашингтон, округ Колумбия: Национальный исследовательский совет, Национальная академия наук. Архивировано (PDF) из оригинала 21 октября 2013 г. . Получено 21 октября 2013 г. .{{cite report}}: CS1 maint: несколько имен: список авторов ( ссылка )
  56. ^ Randhawa, Gurdeeshpal; Ferreyra, Mariella; Ahmed, Rukhsana; Ezzat, Omar; Pottie, Kevin (апрель 2013 г.). «Использование машинного перевода в клинической практике». Canadian Family Physician . 59 (4): 382–383. PMC 3625087. PMID  23585608. Архивировано из оригинала 4 мая 2013 г. Получено 21 октября 2013 г. 
  57. ^ ab Vieira, Lucas Nunes; O'Hagan, Minako; O'Sullivan, Carol (18 августа 2021 г.). «Понимание социальных последствий машинного перевода: критический обзор литературы по медицинским и юридическим случаям использования». Информация, коммуникация и общество . 24 (11): 1515–1532. doi : 10.1080/1369118X.2020.1776370 . hdl : 1983/29727bd1-a1ae-4600-9e8e-018f11ec75fb . ISSN  1369-118X. S2CID  225694304.
  58. ^ Кхунг, Элейн С.; Стейнбрук, Эрик; Браун, Кортлин; Фернандес, Алисия (1 апреля 2019 г.). «Оценка использования Google Translate для испанского и китайского переводов инструкций по выписке из отделения неотложной помощи». JAMA Internal Medicine . 179 (4): 580–582. doi : 10.1001/jamainternmed.2018.7653. ISSN  2168-6106. PMC 6450297. PMID 30801626  . 
  59. ^ Пикколи, Ванесса (5 июля 2022 г.). «Плюрилингвизм, мультимодальность и машинный перевод в медицинских консультациях: исследование случая». Translation and Interpreting Studies . 17 (1): 42–65. doi :10.1075/tis.21012.pic. ISSN  1932-2798. S2CID  246780731.
  60. ^ Эррера-Эспехель, Паула София; Рач, Стефан (20 ноября 2023 г.). «Использование машинного перевода для информационно-просветительской работы и коммуникации в области здравоохранения в эпидемиологии и общественном здравоохранении: обзорный обзор». JMIR Public Health and Surveillance . 9 : e50814. doi : 10.2196/50814 . ISSN  2369-2960. PMC 10696499. PMID 37983078  . 
  61. ^ ab legalj (2 января 2023 г.). «Человек против машины: социальные и правовые последствия машинного перевода». Princeton Legal Journal . Получено 4 декабря 2023 г. .
  62. ^ Чавес, Эдвард Л. (2008). «Успех Нью-Мексико с неанглоговорящими присяжными». Журнал судебных инноваций . 1 : 303.
  63. ^ Гутерц, Гай; Гордин, Шай; Саенс, Луис; Леви, Омер; Берант, Джонатан (2 мая 2023 г.). Кернс, Майкл (ред.). «Перевод с аккадского на английский с помощью нейронного машинного перевода». PNAS Nexus . 2 (5): pgad096. doi :10.1093/pnasnexus/pgad096. ISSN  2752-6542. PMC 10153418 . PMID  37143863. 
  64. ^ ab Way, Andy; Nano Gough (20 сентября 2005 г.). «Сравнение машинного перевода на основе примеров и статистического машинного перевода». Natural Language Engineering . 11 (3): 295–309. doi :10.1017/S1351324905003888. S2CID  3242163.
  65. ^ Muegge (2006), «Полностью автоматический высококачественный машинный перевод ограниченного текста: исследование случая, архивированное 17 октября 2011 г. в Wayback Machine », в Translating and the computer 28. Труды двадцать восьмой международной конференции по переводу и компьютеру, 16–17 ноября 2006 г., Лондон , Лондон: Aslib. ISBN 978-0-85142-483-5
  66. ^ "Сравнение систем МТ по оценке человека, май 2008". Morphologic.hu. Архивировано из оригинала 19 апреля 2012 года . Получено 12 июня 2012 года .
  67. ^ Андерсон, ДД (1995). Машинный перевод как инструмент в изучении второго языка Архивировано 4 января 2018 г. в Wayback Machine . CALICO Journal. 13(1). 68–96.
  68. ^ Хан и др. (2012), «LEPOR: надежная метрика оценки для машинного перевода с расширенными факторами, архивировано 4 января 2018 г. в Wayback Machine », в Трудах 24-й Международной конференции по компьютерной лингвистике (COLING 2012): постеры, страницы 441–450 , Мумбаи, Индия.
  69. ^ Дж. М. Коэн замечает (стр. 14): «Научный перевод — цель эпохи, которая сводит все виды деятельности к технике . Однако невозможно представить себе машину литературного перевода, менее сложную, чем сам человеческий мозг со всеми его знаниями, чтением и различением».
  70. ^ См. ежегодно проводимые тесты NIST с 2001 г. Архивировано 22 марта 2009 г. на Wayback Machine и Bilingual Evaluation Understudy.
  71. ^ Абади, Марк. «4 раза Google Translate полностью провалил игру». Business Insider .
  72. Ссылкиに» .ねとらぼ.
  73. ^ "えぐ". 12 апреля 2017 г. – через www.youtube.com.
  74. ^ ab Zhao, L., Kipper, K., Schuler, W., Vogler, C., & Palmer, M. (2000). Система машинного перевода с английского на американский язык жестов. Архивировано 20 июля 2018 г. в Wayback Machine . Lecture Notes in Computer Science, 1934: 54–67.
  75. ^ «Машинный перевод: нет авторских прав на результат?». SEO Translator, ссылаясь на Zimbabwe Independent . Архивировано из оригинала 29 ноября 2012 г. Получено 24 ноября 2012 г.

Дальнейшее чтение

Внешние ссылки