Система, разработанная Google для повышения беглости и точности работы Google Translate
Google Neural Machine Translation (GNMT) — система нейронного машинного перевода (NMT), разработанная Google и представленная в ноябре 2016 года, которая использовала искусственную нейронную сеть для повышения беглости и точности в Google Translate . [1] [2] [3] [4] Нейронная сеть состояла из двух основных блоков, кодера и декодера, оба с архитектурой LSTM с 8 слоями шириной 1024 каждый и простым механизмом прямого внимания шириной 1024, соединяющим их. [4] [5] Общее количество параметров по-разному описывалось как более 160 миллионов, [6] приблизительно 210 миллионов, [7] 278 миллионов [8] или 380 миллионов. [9] Она использовала токенизатор WordPiece и стратегию декодирования поиска по лучу . Она работала на тензорных процессорах .
К 2020 году система была заменена другой системой глубокого обучения, основанной на кодере Transformer и декодере RNN. [10]
GNMT улучшила качество перевода, применив метод машинного перевода на основе примеров (EBMT) , в котором система обучается на миллионах примеров языкового перевода. [2] Предложенная GNMT архитектура системного обучения была впервые протестирована на более чем ста языках, поддерживаемых Google Translate. [2] Благодаря большой сквозной структуре система со временем обучается, чтобы создавать лучшие, более естественные переводы. [1] GNMT пытается переводить целые предложения за раз, а не просто часть за частью. [1] Сеть GNMT может выполнять межъязыковой машинный перевод , кодируя семантику предложения, а не запоминая переводы от фразы к фразе. [2] [11]
История
Проект Google Brain был создан в 2011 году в «секретной исследовательской лаборатории Google X» [12] сотрудником Google Джеффом Дином , исследователем Google Грегом Коррадо и профессором компьютерных наук Стэнфордского университета Эндрю Нг . [13] [14] [15] Работа Нг привела к некоторым из крупнейших прорывов в Google и Стэнфорде. [12]
В ноябре 2016 года была представлена система нейронного машинного перевода Google (GNMT). С тех пор Google Translate начал использовать нейронный машинный перевод (NMT) вместо своих предыдущих статистических методов (SMT) [1] [16] [17] [18] , которые использовались с октября 2007 года, с его собственной, внутренней технологией SMT. [19] [20]
Обучение GNMT потребовало больших усилий в то время и, по оценкам OpenAI 2021 года, потребовало порядка 100 ПФЛОП/с*день (до 1022 ФЛОП ) вычислений, что на 1,5 порядка больше, чем у модели Seq2seq 2014 года [21] (но примерно в 2 раза меньше, чем у GPT-J-6B в 2021 году [22] ).
Система NMT Google Translate использует большую искусственную нейронную сеть, способную к глубокому обучению . [1] [2] [3] Используя миллионы примеров, GNMT улучшает качество перевода, [2] используя более широкий контекст для выведения наиболее релевантного перевода. Затем результат перестраивается и адаптируется для приближения к грамматически обоснованному человеческому языку. [1] Предложенная GNMT архитектура системного обучения была впервые протестирована на более чем ста языках, поддерживаемых Google Translate. [2] GNMT не создавала свой собственный универсальный интерлингва, а скорее была нацелена на поиск общности между многими языками, используя идеи из психологии и лингвистики. [23] Новый механизм перевода был впервые включен для восьми языков: с английского и французского, немецкого, испанского, португальского, китайского, японского, корейского и турецкого в ноябре 2016 года. [24] В марте 2017 года были включены три дополнительных языка: русский, хинди и вьетнамский, а также тайский, поддержка которого была добавлена позже. [25] [26] В том же месяце с помощью сообщества Google Translate была добавлена поддержка иврита и арабского языка. [27] В середине апреля 2017 года Google Netherlands объявила о поддержке голландского и других европейских языков, родственных английскому. [28] В конце апреля 2017 года была добавлена дополнительная поддержка для девяти индийских языков: хинди, бенгали, маратхи, гуджарати, пенджаби, тамильский, телугу, малаялам и каннада. [29]
К 2020 году Google изменила методологию, чтобы использовать другую систему нейронных сетей, основанную на трансформаторах , и постепенно отказалась от NMT. [30]
Оценка
Система GNMT, как утверждается, представляет собой усовершенствование по сравнению с прежним Google Translate, поскольку она сможет выполнять «перевод с нуля», то есть напрямую переводить с одного языка на другой (например, с японского на корейский). [2] Ранее Google Translate сначала переводил исходный язык на английский, а затем переводил английский на целевой язык, а не переводил напрямую с одного языка на другой. [11]
Исследование, проведенное в июле 2019 года в Annals of Internal Medicine, показало, что «Google Translate — это жизнеспособный и точный инструмент для перевода исследований на неанглоязычных языках». Только одно разногласие между рецензентами, читающими машинно-переведенные исследования, было вызвано ошибкой перевода. Поскольку многие медицинские исследования исключаются из систематических обзоров, поскольку рецензенты не понимают языка, GNMT может снизить предвзятость и повысить точность таких обзоров. [31]
Языки, поддерживаемые GNMT
По состоянию на декабрь 2021 года все языки Google Translate поддерживают GNMT, причем последним дополнением стала латынь.
Смотрите также
Ссылки
- ^ abcdef Барак Туровский (15 ноября 2016 г.), «Найдено в переводе: Более точные, плавные предложения в Google Translate», Google Blog , получено 11 января 2017 г.
- ^ abcdefgh Майк Шустер; Мелвин Джонсон; Нихил Торат (22 ноября 2016 г.), «Перевод с нулевого удара с помощью многоязыковой системы нейронного машинного перевода Google», Google Research Blog , получено 11 января 2017 г.
- ^ ab Gil Fewster (5 января 2017 г.), «Потрясающее объявление об искусственном интеллекте от Google, которое вы, вероятно, пропустили», freeCodeCamp , получено 11 января 2017 г.
- ^ ab Wu, Yonghui; Schuster, Mike; Chen, Zhifeng; Le, Quoc V.; Norouzi, Mohammad (2016). «Нейронная система машинного перевода Google: преодоление разрыва между человеческим и машинным переводом». arXiv : 1609.08144 . Bibcode :2016arXiv160908144W.
- ^ «Взгляд на архитектуру нейронной сети, используемую для нейронного машинного перевода Google».
- ^ Цинь, Минхай; Чжан, Тяньюнь; Сунь, Фэй; Чен, Йен-Куанг; Фардад, Макан; Ван, Яньчжи; Се, Юань (2021). «Компактные многоуровневые разреженные нейронные сети с независимой от входных данных динамической перемаршрутизацией». arXiv : 2112.10930 [cs.NE].
- ^ «Сжатие модели машинного перевода Google Neural – NLP Architect от Intel® AI Lab 0.5.5».
- ^ Лангроуди, Хамед Ф.; Кария, Ведант; Пандит, Тедж; Кудитипуди, Дхириша (2021). «TENT: Эффективное квантование нейронных сетей на крошечном краю с конусной фиксированной точкой». arXiv : 2104.02233 [cs.LG].
- ^ «Дополнение данных | Как использовать глубокое обучение при ограниченном объеме данных». 19 мая 2021 г.
- ^ "Последние достижения Google Translate". research.google . Получено 8 мая 2024 г. .
- ^ ab Boitet, Christian; Blanchon, Hervé; Seligman, Mark; Bellynck, Valérie (2010). "MT on and for the Web" (PDF) . Архивировано из оригинала (PDF) 29 марта 2017 г. . Получено 1 декабря 2016 г. .
- ^ Роберт Д. Хоф (14 августа 2014 г.). «Китайский интернет-гигант начинает мечтать: Baidu — неотъемлемая часть онлайн-жизни в Китае, но он хочет стать мировой державой. Сможет ли один из ведущих мировых исследователей искусственного интеллекта помочь ему бросить вызов крупнейшим компаниям Кремниевой долины?». Technology Review . Получено 11 января 2017 г.
- ↑ Джефф Дин и Эндрю Нг (26 июня 2012 г.). «Использование крупномасштабных симуляций мозга для машинного обучения и искусственного интеллекта» Официальный блог Google . Получено 26 января 2015 г.
- ^ "Проект Google's Large Scale Deep Neural Networks". YouTube . Получено 25 октября 2015 г.
- ↑ Маркофф, Джон (25 июня 2012 г.). «Сколько компьютеров нужно для идентификации кошки? 16 000». New York Times . Получено 11 февраля 2014 г.
- ↑ Katyanna Quach (17 ноября 2016 г.), «Нейронная сеть Google учится переводить языки, на которых она не была обучена: впервые при машинном переводе было использовано настоящее трансферное обучение», The Register , получено 11 января 2017 г.
- ^ Льюис-Краус, Гидеон (14 декабря 2016 г.). «Великое пробуждение ИИ». The New York Times . Получено 11 января 2017 г.
- ^ Le, Quoc; Schuster, Mike (27 сентября 2016 г.). «Нейронная сеть для машинного перевода в масштабе производства». Блог Google Research . Получено 1 декабря 2016 г.
- ↑ Google переходит на собственную систему перевода, 22 октября 2007 г.
- ^ Барри Шварц (23 октября 2007 г.). «Google Translate отказывается от SYSTRAN для домашнего перевода». Search Engine Land .
- ^ «ИИ и вычисления».
- ^ "Оглавление". GitHub .
- ↑ Крис Макдональд (7 января 2017 г.), Комментарий к статье Гила Фьюстера от 5 января в Atlantic , получено 11 января 2017 г.
- ^ Туровский, Барак (15 ноября 2016 г.). «Найдено в переводе: Более точные, плавные предложения в Google Translate». Ключевое слово Google Blog . Получено 1 декабря 2016 г.
- ^ Перес, Сара (6 марта 2017 г.). «Более интеллектуальная система перевода Google на базе искусственного интеллекта расширяется на большее количество языков». TechCrunch . Oath Inc.
- ^ Туровский, Барак (6 марта 2017 г.). «Высококачественные нейронные переводы для множества других языков». Блог Google по ключевым словам . Получено 6 марта 2017 г.
- ^ Новет, Иордания (30 марта 2017 г.). «Google теперь предоставляет переводы на основе искусственного интеллекта для арабского и иврита». VentureBeat .
- ^ Финге, Рашид (19 апреля 2017 г.). «Grote verbetering voor het Nederlands в Google Translate» [Большое улучшение голландского языка в Google Translate]. Блог Google в Нидерландах (на голландском языке).
- ^ Туровский, Барак (25 апреля 2017 г.). «Сделать интернет более инклюзивным в Индии». Ключевое слово .
- ^ "Последние достижения Google Translate". research.google . Получено 8 мая 2024 г. .
- ^ Джексон, Джеффри Л.; Курияма, Акира; Антон, Андреа; Чой, Эйприл; Фурнье, Жан-Паскаль; Гейер, Энн-Катрин; Жакериоз, Фредерик; Коган, Дмитрий; Шолкофф, Сесилия; Сан, Рао (30 июля 2019 г.). «Точность Google Translate для извлечения данных из неанглоязычных испытаний для систематических обзоров». Annals of Internal Medicine . 171 (9): 678. doi : 10.7326/M19-0891. ISSN 0570-183X. PMID 31357212. S2CID 198980789.
Внешние ссылки
Викиверситет имеет обучающие ресурсы по теме: Компьютерная лингвистика
- Система нейронного машинного перевода Google: преодоление разрыва между человеческим и машинным переводом
- Преимущества и недостатки машинного перевода
- Статистический машинный перевод
- Международная ассоциация машинного перевода (IAMT) Архивировано 24 июня 2010 г. на Wayback Machine
- Архив машинного перевода Архивировано 1 апреля 2019 г. в Wayback Machine Джоном Хатчинсом . Электронный репозиторий (и библиография) статей, книг и документов в области машинного перевода и компьютерных технологий перевода
- Машинный перевод (компьютерный перевод) – Публикации Джона Хатчинса (включая PDF-файлы нескольких книг по машинному переводу)