Машинный перевод — это использование либо основанных на правилах, либо вероятностных (то есть статистических, а в последнее время и основанных на нейронных сетях) подходов машинного обучения для перевода текста или речи с одного языка на другой, включая контекстуальные, идиоматические и прагматические нюансы обоих языков. .
Истоки машинного перевода можно проследить до работы Аль-Кинди , арабского криптографа девятого века , который разработал методы системного языкового перевода, включая криптоанализ , частотный анализ , а также вероятность и статистику , которые используются в современном машинном переводе. [1] Идея машинного перевода появилась позже, в 17 веке. В 1629 году Рене Декарт предложил универсальный язык, в котором эквивалентные идеи на разных языках имеют один и тот же символ. [2]
Идея использования цифровых компьютеров для перевода естественных языков была предложена еще в 1947 году английским А.Д. Бутом [3] и Уорреном Уивером из Фонда Рокфеллера в том же году. «Меморандум, написанный Уорреном Уивером в 1949 году, является, пожалуй, самой влиятельной публикацией на заре машинного перевода». [4] [5] За ним последовали и другие. В 1954 году на машине APEXC в Биркбек-колледже ( Лондонский университет ) была продемонстрирована элементарный перевод английского языка на французский. В то время было опубликовано несколько статей по этой теме и даже статьи в популярных журналах (например, статья Клива и Захарова в сентябрьском номере журнала Wireless World за 1955 год ). Аналогичное приложение, также впервые использованное в то время в Биркбек-колледже, предназначено для чтения и составления текстов Брайля на компьютере.
Первый исследователь в этой области, Иеошуа Бар-Гилель , начал свои исследования в Массачусетском технологическом институте (1951). Исследовательская группа MT из Джорджтаунского университета под руководством профессора Майкла Заречнака в 1951 году провела публичную демонстрацию своей экспериментальной системы Джорджтауна-IBM в 1954 году. Исследовательские программы MT появились в Японии [6] [7] и России (1955 год). и первая конференция МТ состоялась в Лондоне (1956 г.). [8] [9]
Дэвид Г. Хейс «писал о компьютерной обработке речи еще в 1957 году» и «был руководителем проекта по компьютерной лингвистике в Рэнд с 1955 по 1968 год». [10]
Исследователи продолжали присоединяться к этой области, поскольку в США была создана Ассоциация машинного перевода и компьютерной лингвистики (1962 г.), а Национальная академия наук сформировала Консультативный комитет по автоматической обработке языка (ALPAC) для изучения MT (1964 г.). Однако реальный прогресс был гораздо медленнее, и после отчета ALPAC (1966 г.), в котором было установлено, что десятилетнее исследование не оправдало ожиданий, финансирование было значительно сокращено. [11] Согласно отчету директора оборонных исследований и разработок (DDR&E) за 1972 год, возможность крупномасштабного МП была восстановлена благодаря успеху системы Logos MT в переводе военных руководств на вьетнамский язык во время этого конфликта.
Французский текстильный институт также использовал MT для перевода рефератов с французского, английского, немецкого и испанского языков и на них (1970 г.); Университет Бригама Янга начал проект по переводу мормонских текстов с помощью автоматического перевода (1971 г.).
SYSTRAN , который «был пионером в этой области по контрактам с правительством США» [12] в 1960-х годах, использовался Xerox для перевода технических руководств (1978). Начиная с конца 1980-х годов, когда вычислительная мощность увеличилась и стала дешевле, больший интерес стал проявляться к статистическим моделям машинного перевода . MT стал более популярным после появления компьютеров. [13] Первая система внедрения SYSTRAN была внедрена в 1988 году онлайн-службой Французской почтовой службы под названием Minitel. [14] Также были созданы различные компании по компьютерному переводу, в том числе Trados (1984 г.), которая первой разработала и продала технологию Translation Memory (1989 г.), хотя это не то же самое, что MT. Первая коммерческая система МП для русского/английского/немецко-украинского языков была разработана в Харьковском государственном университете (1991 г.).
К 1998 году «всего за 29,95 долларов» можно было «купить программу для перевода в одном направлении между английским и основным европейским языком по вашему выбору» для запуска на ПК. [12]
MT в сети начался с того, что SYSTRAN предлагал бесплатный перевод небольших текстов (1996 г.), а затем предоставлял его через AltaVista Babelfish [12] , которая обрабатывала 500 000 запросов в день (1997 г.). [15] Вторым бесплатным сервисом перевода в сети стал GlobaLink компании Lernout & Hauspie . [12] Журнал Atlantic Magazine написал в 1998 году, что «Babelfish от Systran и Comprende от GlobaLink» справились с «Не рассчитывайте на это» с «компетентным исполнением». [16]
Франц Йозеф Ох (будущий руководитель отдела разработки переводов в Google) выиграл конкурс DARPA на скорость MT (2003). [17] Другие инновации за это время включали MOSES, статистическую систему MT с открытым исходным кодом (2007 г.), службу перевода текста и SMS для мобильных телефонов в Японии (2008 г.) и мобильный телефон со встроенным переводом речи в речь. функциональность для английского, японского и китайского языков (2009 г.). В 2012 году Google объявил, что Google Translate переводит примерно столько текста, что можно было бы заполнить 1 миллион книг за один день.
До появления методов глубокого обучения статистические методы требовали множества правил, сопровождаемых морфологическими , синтаксическими и семантическими аннотациями.
Подход машинного перевода на основе правил использовался в основном при создании словарей и грамматических программ. Самым большим его недостатком было то, что все нужно было сделать явным: орфографические вариации и ошибочные входные данные должны быть включены в анализатор исходного языка, чтобы справиться с ними, а правила лексического выбора должны быть написаны для всех случаев двусмысленности.
Машинный перевод на основе переноса был похож на межъязыковый машинный перевод в том, что он создавал перевод из промежуточного представления, имитирующего значение исходного предложения. В отличие от межъязыкового машинного перевода, он частично зависел от языковой пары, участвующей в переводе.
Межъязыковый машинный перевод был одним из примеров подходов к машинному переводу, основанных на правилах. При таком подходе исходный язык, т. е. текст, подлежащий переводу, преобразуется в межъязыковой язык, т. е. в «языково-нейтральное» представление, независимое от какого-либо языка. Целевой язык затем был создан из интерлингва . Единственной межъязыковой системой машинного перевода, которая была введена в действие на коммерческом уровне, была система KANT (Nyberg and Mitamura, 1992), которая была разработана для перевода технического английского языка Caterpillar (CTE) на другие языки.
В машинном переводе использовался метод, основанный на словарных статьях, что означает, что слова были переведены словарем в том виде, в каком они есть.
Статистический машинный перевод пытался генерировать переводы с использованием статистических методов , основанных на двуязычных текстовых корпусах, таких как канадский корпус Hansard , англо-французский протокол канадского парламента и EUROPARL , протокол Европейского парламента . Там, где такие корпуса были доступны, хорошие результаты были достигнуты при переводе схожих текстов, но для многих языковых пар такие корпуса были редкостью. Первым программным обеспечением для статистического машинного перевода была CANDIDE от IBM . В 2005 году Google улучшила свои внутренние возможности перевода, используя для обучения своей системы около 200 миллиардов слов из материалов Организации Объединенных Наций; точность перевода улучшилась. [18]
Самым большим недостатком SMT была его зависимость от огромного количества параллельных текстов, проблемы с языками с богатой морфологией (особенно с переводом на такие языки) и неспособность исправлять одноэлементные ошибки.
Подход к машинному переводу, основанный на глубоком обучении , — нейронный машинный перевод — в последние годы добился быстрого прогресса. Однако в настоящее время существует консенсус в том, что так называемый человеческий паритет не является реальным, поскольку он полностью основан на ограниченных областях, языковых парах и определенных тестовых тестах [19] , то есть ему не хватает статистической значимости. [20]
Переводы с помощью нейронных инструментов машинного перевода, таких как DeepL Translator , который, как считается, обычно обеспечивает лучшие результаты машинного перевода по состоянию на 2022 год, обычно по-прежнему требуют постредактирования человеком. [21] [22] [23]
Вместо обучения специализированных моделей перевода на параллельных наборах данных можно также напрямую предлагать генеративным моделям больших языков, таким как GPT , переводить текст. [24] [25] [26] Этот подход считается многообещающим, [27] но он по-прежнему более ресурсоемок, чем специализированные модели перевода.
Исследования с использованием человеческой оценки (например, профессиональными литературными переводчиками или читателями) систематически выявляли различные проблемы с новейшими передовыми результатами MT. [26] Общие проблемы включают перевод неоднозначных частей, правильный перевод которых требует семантической языковой обработки или контекста, подобной здравому смыслу. [26] Также могут быть ошибки в исходных текстах, отсутствовать качественные обучающие данные, а серьезность частоты некоторых типов проблем может не быть уменьшена с помощью методов, используемых на сегодняшний день, что требует определенного уровня активного участия человека.
Устранение смысловой неоднозначности заключается в поиске подходящего перевода, когда слово может иметь более одного значения. Впервые эта проблема была поднята в 1950-х годах Иеошуа Бар-Гиллелем . [28] Он отметил, что без «универсальной энциклопедии» машина никогда не сможет различать два значения слова. [29] Сегодня существует множество подходов, призванных решить эту проблему. Их условно можно разделить на «неглубокие» подходы и «глубокие» подходы.
Поверхностный подход предполагает отсутствие знания текста. Они просто применяют статистические методы к словам, окружающим неоднозначное слово. Глубокие подходы предполагают всестороннее знание слова. До сих пор поверхностные подходы были более успешными. [30]
Клод Пирон , долгое время работавший переводчиком в ООН и Всемирной организации здравоохранения , писал, что машинный перевод в лучшем случае автоматизирует более легкую часть работы переводчика; более сложная и трудоемкая часть обычно включает в себя проведение обширных исследований для устранения двусмысленностей в исходном тексте , которые требуют разрешения грамматических и лексических требований целевого языка :
Почему для перевода пяти страниц переводчику нужен целый рабочий день, а не час или два? ..... Этим простым условиям соответствует около 90% среднего текста. Но, к сожалению, есть еще 10%. Именно эта часть требует шести [еще] часов работы. Есть неясности, которые нужно разрешить. Например, автор исходного текста, австралийский врач, привел в пример эпидемию, объявленную во время Второй мировой войны в «японском лагере для военнопленных». Он говорил об американском лагере с японскими пленными или о японском лагере с американскими пленными? У английского языка два чувства. Поэтому необходимо провести исследование, возможно, вплоть до телефонного звонка в Австралию. [31]
Идеальный глубокий подход потребовал бы, чтобы программное обеспечение для перевода самостоятельно провело все исследования, необходимые для такого рода устранения неоднозначности; но для этого потребуется более высокий уровень ИИ , чем тот, который был достигнут до сих пор. Поверхностный подход, который просто угадывает смысл двусмысленной английской фразы, которую упоминает Пирон (возможно, исходя из того, какой тип лагеря для военнопленных чаще упоминается в данном корпусе), имел бы разумный шанс справедливо ошибиться. часто. Поверхностный подход, предполагающий «спрашивать пользователя о каждой двусмысленности», по оценке Пирона, автоматизирует только около 25% работы профессионального переводчика, а более сложные 75% все еще предстоит выполнить человеку.
Одной из основных проблем машинного перевода является его неспособность переводить нестандартный язык с той же точностью, что и стандартный язык. Эвристический или статистический машинный перевод принимает входные данные из различных источников в стандартной форме языка. Перевод на основе правил по своей природе не включает в себя распространенные нестандартные употребления. Это вызывает ошибки при переводе с народного источника или на разговорный язык. Ограничения на перевод повседневной речи создают проблемы при использовании машинного перевода на мобильных устройствах.
При извлечении информации именованные сущности в узком смысле относятся к конкретным или абстрактным сущностям реального мира, таким как люди, организации, компании и места, имеющие собственное имя: Джордж Вашингтон, Чикаго, Microsoft. Это также относится к выражениям времени, пространства и количества, например, 1 июля 2011 года, 500 долларов США.
В предложении «Смит является президентом Fabrionix» и Смит , и Фабрионикс являются именными организациями, и их можно уточнить по имени или другой информации; «Президент» — нет, поскольку Смит ранее мог занимать другую должность в Fabrionix, например, вице-президента. Термин «жесткий указатель » определяет это использование для анализа в статистическом машинном переводе.
Именованные объекты сначала должны быть идентифицированы в тексте; в противном случае они могут быть ошибочно переведены как нарицательные существительные, что, скорее всего, не повлияет на рейтинг перевода BLEU , но изменит удобочитаемость текста. [32] Они могут быть опущены в выходном переводе, что также повлияет на читаемость текста и его содержание.
Транслитерация включает в себя поиск букв на целевом языке, которые наиболее точно соответствуют имени на исходном языке. Однако это иногда приводит к ухудшению качества перевода. [33] Для «Южной Калифорнии» первое слово следует перевести напрямую, а второе слово следует транслитерировать. Машины часто транслитерируют и то, и другое, поскольку рассматривают их как одно целое. Подобные слова трудно обрабатывать машинным переводчикам, даже имеющим компонент транслитерации.
Использование списка «не переводить», который преследует одну и ту же конечную цель — транслитерацию, а не перевод. [34] по-прежнему опирается на правильную идентификацию названных объектов.
Третий подход – это классовая модель. Именованные сущности заменяются токеном, обозначающим их «класс»; «Тед» и «Эрика» будут заменены токеном класса «человек». Тогда статистическое распределение и использование имен людей в целом можно проанализировать вместо того, чтобы рассматривать распределения «Тед» и «Эрика» по отдельности, так что вероятность появления данного имени на конкретном языке не будет влиять на присвоенную вероятность. перевода. Исследование Стэнфорда по улучшению этой области перевода приводит примеры того, что фразам «Дэвид собирается на прогулку» и «Анкит идет на прогулку» для английского языка как целевого языка будут присвоены разные вероятности из-за разного количества повторений. для каждого имени в обучающих данных. Разочаровывающий результат того же исследования, проведенного в Стэнфорде (и других попыток улучшить перевод с распознаванием имен), заключается в том, что во многих случаях снижение оценок BLEU за перевод приводит к включению методов перевода именованных объектов. [34]
Некоторая работа была проделана по использованию мультипараллельных корпусов , то есть текстов, переведенных на три или более языков. Используя эти методы, текст, переведенный на два или более языков, можно использовать в комбинации, чтобы обеспечить более точный перевод на третий язык по сравнению с тем, если бы использовался только один из этих исходных языков. [35] [36] [37]
Онтология — это формальное представление знаний, которое включает понятия (такие как объекты, процессы и т. д.) в предметной области и некоторые отношения между ними. Если хранимая информация имеет языковую природу, можно говорить о лексиконе. [38] В НЛП онтологии могут использоваться в качестве источника знаний для систем машинного перевода. Имея доступ к большой базе знаний, системы могут самостоятельно разрешать многие (особенно лексические) неоднозначности. В следующих классических примерах мы, люди, можем интерпретировать предложную фразу в соответствии с контекстом, потому что мы используем наши знания о мире, хранящиеся в наших лексиконах:
Я видел человека/звезду/молекулу в микроскоп/телескоп/бинокль. [38]
Система машинного перевода изначально не сможет различать значения, поскольку синтаксис не меняется. Однако при наличии достаточно большой онтологии как источника знаний возможные интерпретации неоднозначных слов в конкретном контексте могут быть уменьшены. Другие области использования онтологий в НЛП включают поиск информации , извлечение информации и обобщение текста . [38]
Онтология, созданная для системы машинного перевода, основанной на знаниях PANGLOSS, в 1993 году, может служить примером того, как может быть составлена онтология для целей НЛП : [39] [40]
Хотя ни одна система не обеспечивает идеального полностью автоматического высококачественного машинного перевода неограниченного текста, многие полностью автоматизированные системы обеспечивают приемлемый результат. [41] [42] [43] Качество машинного перевода существенно улучшается, если область ограничена и контролируется. [44] Это позволяет использовать машинный перевод в качестве инструмента для ускорения и упрощения переводов, а также выполнять некорректные, но полезные недорогие или специальные переводы.
Приложения машинного перевода также были выпущены для большинства мобильных устройств, включая мобильные телефоны, карманные компьютеры, КПК и т. д. Благодаря своей портативности такие инструменты стали называть инструментами мобильного перевода , позволяющими создавать мобильные деловые сети между партнерами, говорящими на разных языках, или облегчение как изучения иностранного языка, так и путешествий без сопровождения в зарубежные страны без необходимости посредничества переводчика.
Например, приложение Google Translate позволяет иностранцам быстро переводить окружающий текст с помощью дополненной реальности с помощью камеры смартфона, которая накладывает переведенный текст на текст. [45] Он также может распознавать речь , а затем переводить ее. [46]
Несмотря на присущие им ограничения, программы MT используются во всем мире. Вероятно, крупнейшим институциональным пользователем является Европейская Комиссия . В 2012 году с целью замены основанного на правилах MT на более новый, основанный на статистических данных MT@EC, Европейская комиссия внесла 3,072 миллиона евро (через свою программу ISA). [47]
Машинный перевод также использовался для перевода статей Википедии и может сыграть более важную роль в создании, обновлении, расширении и общем улучшении статей в будущем, особенно по мере улучшения возможностей MT. Существует «инструмент перевода контента», который позволяет редакторам легче переводить статьи на несколько выбранных языков. [48] [49] [50] Статьи на английском языке обычно считаются более полными и менее предвзятыми, чем их непереведенные эквиваленты на других языках. [51] По состоянию на 2022 год в английской Википедии содержится более 6,5 миллионов статей, в то время как в немецкой и шведской Википедии содержится только более 2,5 миллионов статей каждая, [52] каждая из которых зачастую гораздо менее полна.
После террористических атак в западных странах, в том числе 11 сентября , США и их союзники были наиболее заинтересованы в разработке программ машинного перевода на арабский язык, а также в переводе на пушту и дари . [ нужна цитата ] На этих языках основное внимание уделяется ключевым фразам и быстрому общению между военнослужащими и гражданскими лицами с помощью приложений для мобильных телефонов. [53] В Отделе технологий обработки информации DARPA размещались такие программы, как TIDES и Babylon Translator . ВВС США заключили контракт на 1 миллион долларов на разработку технологии языкового перевода. [54]
Заметный рост популярности социальных сетей в Интернете в последние годы создал еще одну нишу для применения программного обеспечения для машинного перевода – в таких утилитах, как Facebook , или в клиентах обмена мгновенными сообщениями , таких как Skype , Google Talk , MSN Messenger и т. д. – позволяющих пользователям говорящие на разных языках для общения друг с другом.
Lineage W приобрела популярность в Японии благодаря функциям машинного перевода, позволяющим общаться игрокам из разных стран. [55]
Несмотря на то, что в 1966 году Консультативный комитет по автоматизированной языковой обработке, созданный правительством США, назвал его недостойным конкурентом человеческого перевода, [56] качество машинного перевода в настоящее время улучшено до такого уровня, что его можно применять в онлайн-сотрудничестве и в медицинская сфера исследуются. Применение этой технологии в медицинских учреждениях, где отсутствуют переводчики-люди, является еще одной темой исследований, но возникают трудности из-за важности точных переводов в медицинских диагнозах. [57]
Исследователи предупреждают, что использование машинного перевода в медицине может привести к ошибкам перевода, которые могут быть опасны в критических ситуациях. [58] [59] Машинный перевод может облегчить врачам общение со своими пациентами в повседневной деятельности, но рекомендуется использовать машинный перевод только тогда, когда нет другой альтернативы, а переведенные медицинские тексты должны проверяться человеческие переводчики для точности. [60] [61]
Юридический язык представляет собой серьезную проблему для инструментов машинного перевода из-за его точной природы и нетипичного использования обычных слов. По этой причине были разработаны специализированные алгоритмы для использования в юридических контекстах. [62] Из-за риска неправильного перевода, возникающего со стороны машинных переводчиков, исследователи рекомендуют, чтобы машинные переводы проверялись переводчиками-людьми на предмет точности, а некоторые суды запрещают их использование в официальных разбирательствах . [63]
Использование машинного перевода в законодательстве вызвало обеспокоенность по поводу ошибок перевода и конфиденциальности клиентов . Юристы, использующие бесплатные инструменты перевода, такие как Google Translate, могут случайно нарушить конфиденциальность клиента, раскрывая личную информацию поставщикам инструментов перевода. [62] Кроме того, высказывались аргументы о том, что согласие на обыск, полученное с помощью машинного перевода, является недействительным, при этом разные суды выносят разные вердикты относительно обоснованности этих доводов. [64]
Достижения в области сверточных нейронных сетей в последние годы и в машинном переводе с низкими ресурсами (когда для обучения доступен лишь очень ограниченный объем данных и примеров) сделали возможным машинный перевод для древних языков, таких как аккадский и его диалекты вавилонский и ассирийский. [65]
Существует множество факторов, влияющих на оценку систем машинного перевода. К этим факторам относятся предполагаемое использование перевода, характер программного обеспечения для машинного перевода и характер процесса перевода.
Разные программы могут хорошо работать для разных целей. Например, статистический машинный перевод (SMT) обычно превосходит машинный перевод на основе примеров (EBMT), но исследователи обнаружили, что при оценке перевода с английского на французский EBMT работает лучше. [66] Та же концепция применяется к техническим документам, которые SMT легче перевести из-за их формального языка.
Однако в некоторых приложениях, например описаниях продуктов, написанных на контролируемом языке , система машинного перевода на основе словаря обеспечивает удовлетворительные переводы, которые не требуют никакого вмешательства человека, за исключением проверки качества. [67]
Существуют различные способы оценки качества вывода систем машинного перевода. Самым старым из них является использование судей-людей [68] для оценки качества перевода. Несмотря на то, что человеческая оценка занимает много времени, она по-прежнему остается наиболее надежным методом сравнения различных систем, таких как системы, основанные на правилах, и статистические системы. [69] К автоматизированным средствам оценки относятся BLEU , NIST , METEOR и LEPOR . [70]
Полагаясь исключительно на неотредактированный машинный перевод, игнорируется тот факт, что общение на человеческом языке встроено в контекст и что человеку необходимо понять контекст исходного текста с разумной степенью вероятности. Конечно, верно, что даже чисто человеческие переводы подвержены ошибкам. Следовательно, чтобы гарантировать, что машинный перевод будет полезен человеку и что будет достигнут перевод качества, пригодного для публикации, такие переводы должны проверяться и редактироваться человеком. [71] Покойный Клод Пирон писал, что машинный перевод в лучшем случае автоматизирует более легкую часть работы переводчика; более сложная и трудоемкая часть обычно включает в себя проведение обширных исследований для устранения двусмысленностей в исходном тексте , которые требуют разрешения грамматических и лексических требований целевого языка. Такое исследование является необходимой прелюдией к предварительному редактированию, необходимому для обеспечения входных данных для программного обеспечения машинного перевода, чтобы выходные данные не были бессмысленными . [72]
Помимо проблем устранения неоднозначности, снижение точности может произойти из-за разных уровней обучающих данных для программ машинного перевода. Как машинный перевод на основе примеров, так и статистический машинный перевод полагаются на огромный массив реальных примеров предложений в качестве основы для перевода, и когда анализируется слишком много или слишком мало предложений, точность ставится под угрозу. Исследователи обнаружили, что когда программа обучается на 203 529 парах предложений, точность фактически снижается. [66] Оптимальный уровень обучающих данных составляет чуть более 100 000 предложений, возможно, потому, что по мере увеличения обучающих данных увеличивается и количество возможных предложений, что затрудняет поиск точного соответствия перевода.
Недостатки машинного перевода известны своей развлекательной ценностью . В двух видеороликах, загруженных на YouTube в апреле 2017 года, два японских иероглифа хираганыえぐ ( э и гу ) неоднократно вставляются в Google Translate, в результате чего переводы быстро деградируют до бессмысленных фраз, таких как «DECEARING EGG» и «Глубоководные деревья». которые затем читаются все более абсурдными голосами; [73] [74] Полнометражная версия видео по состоянию на март 2022 года имеет 6,9 миллиона просмотров. [75]
В начале 2000-х годов возможности машинного перевода между разговорным и жестовым языками были сильно ограничены. Было распространено мнение, что глухие люди могут использовать традиционных переводчиков. Однако ударение, интонация, высота звука и время передаются в разговорных языках по-другому, чем в жестовых языках. Таким образом, глухой человек может неправильно истолковать или запутаться в значении письменного текста, основанного на разговорной речи. [76]
Исследователи Чжао и др. (2000) разработали прототип под названием TEAM (машинный перевод с английского на ASL), который выполнял переводы с английского на американский язык жестов (ASL). Программа сначала проанализирует синтаксические, грамматические и морфологические аспекты английского текста. После этого шага программа получила доступ к синтезатору знаков, который выступал в качестве словаря для ASL. В этом синтезаторе содержался процесс, которому необходимо следовать для создания знаков ASL, а также значения этих знаков. После того, как весь текст проанализирован и знаки, необходимые для завершения перевода, расположены в синтезаторе, появляется сгенерированный компьютером человек, который будет использовать ASL для подписи английского текста пользователю. [76]
Только оригинальные произведения подлежат защите авторских прав , поэтому некоторые ученые утверждают, что результаты машинного перевода не имеют права на защиту авторских прав, поскольку МП не предполагает творчества . [77] Авторское право, о котором идет речь, относится к производному произведению ; автор оригинального произведения на языке оригинала не теряет своих прав при переводе произведения: переводчик должен иметь разрешение на публикацию перевода.
わが国では1956年、当時の電気試験所が英和翻訳専用機「ヤマト」を実験している。この機械は1962年頃には中学1年の教科書で90点以上の能力に達したと報告されている。(перевод (при помощи Google Translate ): В 1959 году в Японии Национальный институт передовых промышленных наук и технологий (AIST) протестировал подходящую англо-японскую машину перевода Yamato , о которой в 1964 году сообщалось, что она достигла уровня мощности по количеству баллов. 90 баллов по учебнику первого класса средней школы.)
написал о компьютерной обработке языка еще в 1957 году. С 1955 по 1968 год был руководителем проекта по компьютерной лингвистике в Рэнд.
{{cite book}}
: CS1 maint: location missing publisher (link) CS1 maint: others (link){{cite report}}
: CS1 maint: multiple names: authors list (link)