stringtranslate.com

Нейронный машинный перевод Google

Google Neural Machine Translation (GNMT) — система нейронного машинного перевода (NMT), разработанная Google и представленная в ноябре 2016 года, которая использовала искусственную нейронную сеть для повышения беглости и точности в Google Translate . [1] [2] [3] [4] Нейронная сеть состояла из двух основных блоков, кодера и декодера, оба с архитектурой LSTM с 8 слоями шириной 1024 каждый и простым механизмом прямого внимания шириной 1024, соединяющим их. [4] [5] Общее количество параметров по-разному описывалось как более 160 миллионов, [6] приблизительно 210 миллионов, [7] 278 миллионов [8] или 380 миллионов. [9] Она использовала токенизатор WordPiece и стратегию декодирования поиска по лучу . Она работала на тензорных процессорах .

К 2020 году система была заменена другой системой глубокого обучения, основанной на кодере Transformer и декодере RNN. [10]

GNMT улучшила качество перевода, применив метод машинного перевода на основе примеров (EBMT) , в котором система обучается на миллионах примеров языкового перевода. [2] Предложенная GNMT архитектура системного обучения была впервые протестирована на более чем ста языках, поддерживаемых Google Translate. [2] Благодаря большой сквозной структуре система со временем обучается, чтобы создавать лучшие, более естественные переводы. [1] GNMT пытается переводить целые предложения за раз, а не просто часть за частью. [1] Сеть GNMT может выполнять межъязыковой машинный перевод , кодируя семантику предложения, а не запоминая переводы от фразы к фразе. [2] [11]

История

Проект Google Brain был создан в 2011 году в «секретной исследовательской лаборатории Google X» [12] сотрудником Google Джеффом Дином , исследователем Google Грегом Коррадо и профессором компьютерных наук Стэнфордского университета Эндрю Нг . [13] [14] [15] Работа Нг привела к некоторым из крупнейших прорывов в Google и Стэнфорде. [12]

В ноябре 2016 года была представлена ​​система нейронного машинного перевода Google (GNMT). С тех пор Google Translate начал использовать нейронный машинный перевод (NMT) вместо своих предыдущих статистических методов (SMT) [1] [16] [17] [18] , которые использовались с октября 2007 года, с его собственной, внутренней технологией SMT. [19] [20]

Обучение GNMT потребовало больших усилий в то время и, по оценкам OpenAI 2021 года, потребовало порядка 100 ПФЛОП/с*день (до 1022 ФЛОП ) вычислений, что на 1,5 порядка больше, чем у модели Seq2seq 2014 года [21] (но примерно в 2 раза меньше, чем у GPT-J-6B в 2021 году [22] ).

Система NMT Google Translate использует большую искусственную нейронную сеть, способную к глубокому обучению . [1] [2] [3] Используя миллионы примеров, GNMT улучшает качество перевода, [2] используя более широкий контекст для выведения наиболее релевантного перевода. Затем результат перестраивается и адаптируется для приближения к грамматически обоснованному человеческому языку. [1] Предложенная GNMT архитектура системного обучения была впервые протестирована на более чем ста языках, поддерживаемых Google Translate. [2] GNMT не создавала свой собственный универсальный интерлингва, а скорее была нацелена на поиск общности между многими языками, используя идеи из психологии и лингвистики. [23] Новый механизм перевода был впервые включен для восьми языков: с английского и французского, немецкого, испанского, португальского, китайского, японского, корейского и турецкого в ноябре 2016 года. [24] В марте 2017 года были включены три дополнительных языка: русский, хинди и вьетнамский, а также тайский, поддержка которого была добавлена ​​позже. [25] [26] В том же месяце с помощью сообщества Google Translate была добавлена ​​поддержка иврита и арабского языка. [27] В середине апреля 2017 года Google Netherlands объявила о поддержке голландского и других европейских языков, родственных английскому. [28] В конце апреля 2017 года была добавлена ​​дополнительная поддержка для девяти индийских языков: хинди, бенгали, маратхи, гуджарати, пенджаби, тамильский, телугу, малаялам и каннада. [29]

К 2020 году Google изменила методологию, чтобы использовать другую систему нейронных сетей, основанную на трансформаторах , и постепенно отказалась от NMT. ​​[30]

Оценка

Система GNMT, как утверждается, представляет собой усовершенствование по сравнению с прежним Google Translate, поскольку она сможет выполнять «перевод с нуля», то есть напрямую переводить с одного языка на другой (например, с японского на корейский). [2] Ранее Google Translate сначала переводил исходный язык на английский, а затем переводил английский на целевой язык, а не переводил напрямую с одного языка на другой. [11]

Исследование, проведенное в июле 2019 года в Annals of Internal Medicine, показало, что «Google Translate — это жизнеспособный и точный инструмент для перевода исследований на неанглоязычных языках». Только одно разногласие между рецензентами, читающими машинно-переведенные исследования, было вызвано ошибкой перевода. Поскольку многие медицинские исследования исключаются из систематических обзоров, поскольку рецензенты не понимают языка, GNMT может снизить предвзятость и повысить точность таких обзоров. [31]

Языки, поддерживаемые GNMT

По состоянию на декабрь 2021 года все языки Google Translate поддерживают GNMT, причем последним дополнением стала латынь.

  1. африкаанс
  2. албанский
  3. амхарский
  4. арабский
  5. армянский
  6. азербайджанский
  7. баскский
  8. Белорусский
  9. бенгальский
  10. боснийский
  11. болгарский
  12. бирманский
  13. каталонский
  14. себуанский
  15. Чева
  16. Китайский ( упрощенный )
  17. Китайский ( традиционный )
  18. корсиканский
  19. хорватский
  20. чешский
  21. датский
  22. Голландский
  23. Английский
  24. эсперанто
  25. эстонский
  26. Филиппинский ( тагальский )
  27. финский
  28. Французский
  29. галисийский
  30. грузинский
  31. немецкий
  32. греческий
  33. гуджарати
  34. гаитянский креольский
  35. хауса
  36. гавайский
  37. иврит
  38. хинди
  39. Хмонг
  40. венгерский
  41. исландский
  42. Игбо
  43. индонезийский
  44. ирландский
  45. итальянский
  46. японский
  47. яванский
  48. каннада
  49. казахский
  50. кхмерский
  51. Киньяруанда
  52. корейский
  53. Курдский ( курманджи )
  54. кыргызский
  55. Лаосский
  56. латинский
  57. латышский
  58. литовский
  59. люксембургский
  60. македонский
  61. малагасийский
  62. малайский
  63. малаялам
  64. мальтийский
  65. маори
  66. маратхи
  67. монгольский
  68. непальский
  69. Норвежский ( букмол )
  70. Одиа
  71. пушту
  72. персидский
  73. польский
  74. португальский
  75. Пенджаби ( гурмукхи )
  76. румынский
  77. Русский
  78. самоанский
  79. шотландский гэльский
  80. сербский
  81. Шона
  82. Синдхи
  83. сингальский
  84. словацкий
  85. словенский
  86. сомалийский
  87. Сото
  88. испанский
  89. Суданский
  90. суахили
  91. шведский
  92. таджикский
  93. тамильский
  94. татарский
  95. телугу
  96. тайский
  97. турецкий
  98. туркменский
  99. украинский
  100. урду
  101. уйгурский
  102. узбекский
  103. вьетнамский
  104. валлийский
  105. западно-фризский
  106. Коса
  107. идиш
  108. йоруба
  109. Зулу

Смотрите также

Ссылки

  1. ^ abcdef Барак Туровский (15 ноября 2016 г.), «Найдено в переводе: Более точные, плавные предложения в Google Translate», Google Blog , получено 11 января 2017 г.
  2. ^ abcdefgh Майк Шустер; Мелвин Джонсон; Нихил Торат (22 ноября 2016 г.), «Перевод с нулевого удара с помощью многоязыковой системы нейронного машинного перевода Google», Google Research Blog , получено 11 января 2017 г.
  3. ^ ab Gil Fewster (5 января 2017 г.), «Потрясающее объявление об искусственном интеллекте от Google, которое вы, вероятно, пропустили», freeCodeCamp , получено 11 января 2017 г.
  4. ^ ab Wu, Yonghui; Schuster, Mike; Chen, Zhifeng; Le, Quoc V.; Norouzi, Mohammad (2016). «Нейронная система машинного перевода Google: преодоление разрыва между человеческим и машинным переводом». arXiv : 1609.08144 . Bibcode :2016arXiv160908144W. {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  5. ^ «Взгляд на архитектуру нейронной сети, используемую для нейронного машинного перевода Google».
  6. ^ Цинь, Минхай; Чжан, Тяньюнь; Сунь, Фэй; Чен, Йен-Куанг; Фардад, Макан; Ван, Яньчжи; Се, Юань (2021). «Компактные многоуровневые разреженные нейронные сети с независимой от входных данных динамической перемаршрутизацией». arXiv : 2112.10930 [cs.NE].
  7. ^ «Сжатие модели машинного перевода Google Neural – NLP Architect от Intel® AI Lab 0.5.5».
  8. ^ Лангроуди, Хамед Ф.; Кария, Ведант; Пандит, Тедж; Кудитипуди, Дхириша (2021). «TENT: Эффективное квантование нейронных сетей на крошечном краю с конусной фиксированной точкой». arXiv : 2104.02233 [cs.LG].
  9. ^ «Дополнение данных | Как использовать глубокое обучение при ограниченном объеме данных». 19 мая 2021 г.
  10. ^ "Последние достижения Google Translate". research.google . Получено 8 мая 2024 г. .
  11. ^ ab Boitet, Christian; Blanchon, Hervé; Seligman, Mark; Bellynck, Valérie (2010). "MT on and for the Web" (PDF) . Архивировано из оригинала (PDF) 29 марта 2017 г. . Получено 1 декабря 2016 г. .
  12. ^ Роберт Д. Хоф (14 августа 2014 г.). «Китайский интернет-гигант начинает мечтать: Baidu — неотъемлемая часть онлайн-жизни в Китае, но он хочет стать мировой державой. Сможет ли один из ведущих мировых исследователей искусственного интеллекта помочь ему бросить вызов крупнейшим компаниям Кремниевой долины?». Technology Review . Получено 11 января 2017 г.
  13. Джефф Дин и Эндрю Нг (26 июня 2012 г.). «Использование крупномасштабных симуляций мозга для машинного обучения и искусственного интеллекта» Официальный блог Google . Получено 26 января 2015 г.
  14. ^ "Проект Google's Large Scale Deep Neural Networks". YouTube . Получено 25 октября 2015 г.
  15. Маркофф, Джон (25 июня 2012 г.). «Сколько компьютеров нужно для идентификации кошки? 16 000». New York Times . Получено 11 февраля 2014 г.
  16. Katyanna Quach (17 ноября 2016 г.), «Нейронная сеть Google учится переводить языки, на которых она не была обучена: впервые при машинном переводе было использовано настоящее трансферное обучение», The Register , получено 11 января 2017 г.
  17. ^ Льюис-Краус, Гидеон (14 декабря 2016 г.). «Великое пробуждение ИИ». The New York Times . Получено 11 января 2017 г.
  18. ^ Le, Quoc; Schuster, Mike (27 сентября 2016 г.). «Нейронная сеть для машинного перевода в масштабе производства». Блог Google Research . Получено 1 декабря 2016 г.
  19. Google переходит на собственную систему перевода, 22 октября 2007 г.
  20. ^ Барри Шварц (23 октября 2007 г.). «Google Translate отказывается от SYSTRAN для домашнего перевода». Search Engine Land .
  21. ^ «ИИ и вычисления».
  22. ^ "Оглавление". GitHub .
  23. Крис Макдональд (7 января 2017 г.), Комментарий к статье Гила Фьюстера от 5 января в Atlantic , получено 11 января 2017 г.
  24. ^ Туровский, Барак (15 ноября 2016 г.). «Найдено в переводе: Более точные, плавные предложения в Google Translate». Ключевое слово Google Blog . Получено 1 декабря 2016 г.
  25. ^ Перес, Сара (6 марта 2017 г.). «Более интеллектуальная система перевода Google на базе искусственного интеллекта расширяется на большее количество языков». TechCrunch . Oath Inc.
  26. ^ Туровский, Барак (6 марта 2017 г.). «Высококачественные нейронные переводы для множества других языков». Блог Google по ключевым словам . Получено 6 марта 2017 г.
  27. ^ Новет, Иордания (30 марта 2017 г.). «Google теперь предоставляет переводы на основе искусственного интеллекта для арабского и иврита». VentureBeat .
  28. ^ Финге, Рашид (19 апреля 2017 г.). «Grote verbetering voor het Nederlands в Google Translate» [Большое улучшение голландского языка в Google Translate]. Блог Google в Нидерландах (на голландском языке).
  29. ^ Туровский, Барак (25 апреля 2017 г.). «Сделать интернет более инклюзивным в Индии». Ключевое слово .
  30. ^ "Последние достижения Google Translate". research.google . Получено 8 мая 2024 г. .
  31. ^ Джексон, Джеффри Л.; Курияма, Акира; Антон, Андреа; Чой, Эйприл; Фурнье, Жан-Паскаль; Гейер, Энн-Катрин; Жакериоз, Фредерик; Коган, Дмитрий; Шолкофф, Сесилия; Сан, Рао (30 июля 2019 г.). «Точность Google Translate для извлечения данных из неанглоязычных испытаний для систематических обзоров». Annals of Internal Medicine . 171 (9): 678. doi : 10.7326/M19-0891. ISSN  0570-183X. PMID  31357212. S2CID  198980789.

Внешние ссылки