Распознавание и синтез речи

Speech Recognition & Synthesis , ранее известное как Speech Services , ^[3] — это приложение для чтения с экрана , разработанное Google для операционной системы Android . Оно позволяет приложениям читать вслух (проговаривать) текст на экране с поддержкой многих языков. Text-to-Speech может использоваться такими приложениями, как Google Play Books для чтения книг вслух, Google Translate для чтения вслух переводов для произношения слов, Google TalkBack и другими приложениями с поддержкой голосовой обратной связи, а также сторонними приложениями. Пользователи должны установить голосовые данные для каждого языка.

Поддерживаемые языки

Африкаанс (Южная Африка)
Албанский (Албания)
Амхарский (Эфиопия)
Арабский (Саудовская Аравия)
Ассамский (Индия)
Баскский (Испания)
Бенгальский (Бангладеш)
Бенгальский (Индия)
Бодо (Индия)
Боснийский (Босния и Герцеговина)
Болгарский (Болгария)
Бирманский (Мьянма)
Кантонский (Гонконг)
Каталанский (Испания)
Китайский (Китай)
Китайский (Тайвань)
Хорватский (Хорватия)
Чешский (Чешская Республика)
Датский (Дания)
Догри (Индия)
Голландский (Бельгия)
Голландский (Нидерланды)
Английский (Австралия)
Английский (Нигерия)
Английский (Индия)
Английский (Великобритания)
Английский (США)
Эстонский (Эстония)
Филиппинский (Филиппины)
Финский (Финляндия)
Французский (Канада)
Французский (Франция)
Галисийский (Испания)
Немецкий (Германия)
Греческий (Греция)
Гуджарати (Индия)
Хауса (Нигерия)
Иврит (Израиль)
Хинди (Индия)
Венгерский (Венгрия)
Исландский (Исландия)
Индонезийский (Индонезия)
Итальянский (Италия)
Японский (Япония)
Яванский (Индонезия)
Каннада (Индия)
Кашмири (Индия)
Кхмерский (Камбоджа)
Конкани (Индия)
Корейский (Южная Корея)
Латынь (Ватикан)
Латышский (Латвия)
Литовский (Литва)
Майтхили (Индия)
Малайский (Малайзия)
Малаялам (Индия)
Манипури (Индия)
Маратхи (Индия)
Непали (Непал)
Норвежский (Норвегия)
Одиа (Индия)
Польский (Польша)
Португальский (Бразилия)
Португальский (Португалия)
Пенджаби (Индия)
Румынский (Румыния)
Русский (Россия)
Санскрит (Индия)
Сантали (Индия)
Сербский (Сербия)
Синдхи (Индия)
Сингальский (Шри-Ланка)
Словацкий (Словакия)
Словенский (Словения)
Испанский (Испания)
Испанский (США)
Суданский (Индонезия)
Суахили (Кения)
Шведский (Швеция)
Тамильский (Индия)
Телугу (Индия)
Тайский (Таиланд)
Турецкий (Турция)
Украинский (Украина)
Урду (Пакистан)
Урду (Индия)
Вьетнамский (Вьетнам)
Валлийский (Великобритания)

История

Некоторые разработчики приложений начали адаптировать и настраивать свои приложения Android Auto, чтобы включить функцию преобразования текста в речь, как это сделала Hyundai в 2015 году. ^[4] Такие приложения, как textPlus и WhatsApp, используют функцию преобразования текста в речь для чтения уведомлений вслух и предоставления функции голосового ответа.

Google Cloud Text-to-Speech работает на базе WaveNet ^[5], программного обеспечения, созданного дочерней компанией Google в области искусственного интеллекта DeepMind , базирующейся в Великобритании и купленной Google в 2014 году ^[6] . Оно пытается выделиться среди конкурентов, Amazon и Microsoft ^[7] .

Большинство синтезаторов голоса (включая Siri от Apple ) используют конкатенативный синтез ^[5] , в котором программа сохраняет отдельные фонемы , а затем объединяет их вместе, чтобы сформировать слова и предложения. WaveNet синтезирует речь с человеческим акцентом и интонацией на слогах, фонемах и словах. В отличие от большинства других систем преобразования текста в речь, модель WaveNet создает необработанные звуковые волны с нуля. Модель использует нейронную сеть, обученную с использованием большого объема речевых образцов. Во время обучения сеть извлекает базовую структуру речи, например, какие тоны следуют друг за другом и как выглядит реалистичная речевая волна. При вводе текста обученная модель WaveNet может генерировать соответствующие речевые волны с нуля, по одному образцу за раз, со скоростью до 24 000 образцов в секунду и плавными переходами между отдельными звуками. ^[5]

В 2023 году сервис был переименован в «Распознавание и синтез речи». ^{[ необходима цитата ]}

Смотрите также

Ссылки

^ "Распознавание и синтез речи". Google Play . Получено 2024-11-15 .
^ "Распознавание и синтез речи googletts.google-speech-apk_20241028.00_p1.694553964". APKMirror . 2024-11-12 . Получено 2024-11-15 .
^ Ван, Жюль (8 ноября 2021 г.). «Вы никогда не угадаете, какое последнее приложение Google установили более 10 миллиардов раз (серьёзно)». Android Police . Архивировано из оригинала 8 ноября 2021 г. . Получено 18 ноября 2021 г. .
^ "Google и Hyundai представляют новые сторонние приложения Android Auto". CNET . CBS Interactive . Получено 17 января 2015 г. .
^ abc "WaveNet". www.deepmind.com . Получено 2023-06-22 .
^ Гиббс, Сэмюэл (27.01.2014). «Google покупает британский стартап в области искусственного интеллекта Deepmind за 400 млн фунтов стерлингов». The Guardian . ISSN 0261-3077 . Получено 22.06.2023 .
^ "Искусственный интеллект для преобразования текста в речь: синтез реалистичной речи". Google Cloud . Получено 22.06.2023 .

Внешние ссылки

Распознавание и синтез речи в Google Play