stringtranslate.com

Распознавание и синтез речи

Speech Recognition & Synthesis , ранее известное как Speech Services , [3] — это приложение для чтения с экрана , разработанное Google для операционной системы Android . Оно позволяет приложениям читать вслух (проговаривать) текст на экране с поддержкой многих языков. Text-to-Speech может использоваться такими приложениями, как Google Play Books для чтения книг вслух, Google Translate для чтения вслух переводов для произношения слов, Google TalkBack и другими приложениями с поддержкой голосовой обратной связи, а также сторонними приложениями. Пользователи должны установить голосовые данные для каждого языка.

Поддерживаемые языки

История

Некоторые разработчики приложений начали адаптировать и настраивать свои приложения Android Auto, чтобы включить функцию преобразования текста в речь, как это сделала Hyundai в 2015 году. [4] Такие приложения, как textPlus и WhatsApp, используют функцию преобразования текста в речь для чтения уведомлений вслух и предоставления функции голосового ответа.

Google Cloud Text-to-Speech работает на базе WaveNet [5], программного обеспечения, созданного дочерней компанией Google в области искусственного интеллекта DeepMind , базирующейся в Великобритании и купленной Google в 2014 году [6] . Оно пытается выделиться среди конкурентов, Amazon и Microsoft [7] .

Большинство синтезаторов голоса (включая Siri от Apple ) используют конкатенативный синтез [5] , в котором программа сохраняет отдельные фонемы , а затем объединяет их вместе, чтобы сформировать слова и предложения. WaveNet синтезирует речь с человеческим акцентом и интонацией на слогах, фонемах и словах. В отличие от большинства других систем преобразования текста в речь, модель WaveNet создает необработанные звуковые волны с нуля. Модель использует нейронную сеть, обученную с использованием большого объема речевых образцов. Во время обучения сеть извлекает базовую структуру речи, например, какие тоны следуют друг за другом и как выглядит реалистичная речевая волна. При вводе текста обученная модель WaveNet может генерировать соответствующие речевые волны с нуля, по одному образцу за раз, со скоростью до 24 000 образцов в секунду и плавными переходами между отдельными звуками. [5]

В 2023 году сервис был переименован в «Распознавание и синтез речи». [ необходима цитата ]

Смотрите также

Ссылки

  1. ^ "Распознавание и синтез речи". Google Play . Получено 2024-11-15 .
  2. ^ "Распознавание и синтез речи googletts.google-speech-apk_20241028.00_p1.694553964". APKMirror . 2024-11-12 . Получено 2024-11-15 .
  3. ^ Ван, Жюль (8 ноября 2021 г.). «Вы никогда не угадаете, какое последнее приложение Google установили более 10 миллиардов раз (серьёзно)». Android Police . Архивировано из оригинала 8 ноября 2021 г. . Получено 18 ноября 2021 г. .
  4. ^ "Google и Hyundai представляют новые сторонние приложения Android Auto". CNET . CBS Interactive . Получено 17 января 2015 г. .
  5. ^ abc "WaveNet". www.deepmind.com . Получено 2023-06-22 .
  6. ^ Гиббс, Сэмюэл (27.01.2014). «Google покупает британский стартап в области искусственного интеллекта Deepmind за 400 млн фунтов стерлингов». The Guardian . ISSN  0261-3077 . Получено 22.06.2023 .
  7. ^ "Искусственный интеллект для преобразования текста в речь: синтез реалистичной речи". Google Cloud . Получено 22.06.2023 .

Внешние ссылки