stringtranslate.com

Синтез китайской речи

Синтез китайской речи — это применение синтеза речи к китайскому языку (обычно стандартному китайскому ). Это создает дополнительные трудности из-за того, что китайские иероглифы часто имеют разное произношение в разных контекстах и ​​сложную просодию , которая необходима для передачи смысла слов, а иногда и трудности в достижении согласия между носителями языка относительно правильного произношения определенных фонем .

Конкатенация (Ekho и KeyTip)

Записи можно объединять в любую желаемую комбинацию, но соединения звучат натянуто (как это обычно бывает при простом синтезе речи на основе конкатенации ), и это может серьезно повлиять на просодию; эти синтезаторы также негибки с точки зрения скорости и экспрессии. Однако, поскольку эти синтезаторы не полагаются на корпус, заметного ухудшения производительности при воспроизведении более необычных или неловких фраз не наблюдается.

Ekho — это TTS с открытым исходным кодом, который просто объединяет сэмплированные слоги. [1] В настоящее время он поддерживает кантонский , мандаринский и экспериментально корейский . Некоторые слоги мандаринского были нормализованы по тону в Praat . Их модифицированная версия используется в «синтезе из частичных» Gradint. [2]

cjkware.com раньше поставлял продукт под названием KeyTip Putonghua Reader, который работал схожим образом; он содержал 120 мегабайт звукозаписей (сжатых GSM до 40 мегабайт в ознакомительной версии), включающих 10 000 многосложных словарных слов, а также односложные записи в 6 различных просодиях (4 тона, нейтральный тон и дополнительная запись третьего тона для использования в конце фразы).

Легкие синтезаторы (eSpeak и Yuet)

Легкий проект с открытым исходным кодом eSpeak , имеющий собственный подход к синтезу, экспериментировал с мандаринским и кантонским диалектами. eSpeak использовался Google Translate с мая 2010 года [3] по декабрь 2010 года [4].

Коммерческий продукт «Yuet» также является легким (он предназначен для использования в средах с ограниченными ресурсами, таких как встроенные системы ); он был написан с нуля на ANSI C, начиная с 2013 года. Yuet заявляет о встроенной модели обработки естественного языка , которая не требует отдельного словаря; речь, синтезируемая движком, заявляет о четких границах слов и акценте на соответствующих словах. Для получения копии требуется общение с его автором. [5]

И eSpeak, и Yuet могут синтезировать речь для кантонского и мандаринского диалектов из одного и того же входного текста и выводить соответствующую романизацию (для кантонского диалекта Yuet использует йель , а eSpeak использует ютпхин ; оба используют пиньинь для мандаринского диалекта). eSpeak не заботится о границах слов, если они не влияют на вопрос о том, какой слог следует произносить.

Корпусный

Подход «на основе корпуса» может звучать очень естественно в большинстве случаев, но может давать сбои при работе с необычными фразами, если их невозможно сопоставить с корпусом. [6] Механизм синтезатора обычно очень большой (сотни или даже тысячи мегабайт) из-за размера корпуса.

iFlyTek

Anhui USTC iFlyTek Co., Ltd (iFlyTek) опубликовала документ W3C , в котором они адаптировали язык разметки синтеза речи для создания языка разметки под названием Chinese Speech Synthesis Markup Language (CSSML), который может включать дополнительную разметку для уточнения произношения символов и добавления некоторой информации о просодии. [7] Объем задействованных данных не раскрывается iFlyTek, но его можно увидеть из коммерческих продуктов, для которых iFlyTek лицензировала свою технологию; например, SpeechPlus от Bider — это загрузка объемом 1,3 гигабайта, 1,2 гигабайта из которых используются для сильно сжатых данных для одного китайского голоса. Синтезатор iFlyTek также может синтезировать смешанный китайский и английский текст одним и тем же голосом (например, китайские предложения, содержащие некоторые английские слова); они утверждают, что их английский синтез является «средним».

Корпус iFlyTek, по-видимому, сильно зависит от китайских иероглифов , и его невозможно синтезировать только из пиньинь . Иногда возможно с помощью CSSML добавить пиньинь к иероглифам, чтобы устранить неоднозначность между несколькими возможными произношениями, но это не всегда работает.

NeoSpeech

Существует интерактивная онлайн-демонстрация синтеза речи NeoSpeech [8] , которая принимает китайские иероглифы, а также пиньинь , если они включены в их фирменную разметку «VTML». [9]

ОС Mac

В Mac OS китайские синтезаторы речи были доступны вплоть до версии 9. Они были удалены в версии 10.0 и восстановлены в версии 10.7 (Lion). [10]

Синтезаторы на основе исторических корпусов (больше не доступны)

Подход на основе корпуса был принят Университетом Цинхуа в SinoSonic, при этом голосовые данные диалекта Харбина заняли 800 мегабайт. Планировалось, что это будет предложено для скачивания, но ссылка так и не была активирована. В настоящее время на него можно найти только ссылки в Internet Archive . [11]

Подход Bell Labs, продемонстрированный в сети в 1997 году, но впоследствии удаленный, был описан в монографии «Многоязычный синтез текста в речь: подход Bell Labs» (Springer, 31 октября 1997 г., ISBN  978-0-7923-8027-6 ), а бывший сотрудник, отвечавший за проект, Чилин Ши (впоследствии работавший в Иллинойсском университете) разместил некоторые заметки о своих методах на своем веб-сайте. [12]

Ссылки

  1. ^ Эхо
  2. ^ Градиент
  3. ^ «Дать голос большему количеству языков в Google Translate».
  4. ^ «Послушайте нас сейчас!».
  5. ^ «Yuet, крошечный движок TTS для кантонского диалекта, движок синтеза речи для кантонского диалекта для автономной встроенной системы».
  6. ^ «Китайские ошибки в коммерческих синтезаторах речи».
  7. ^ http://www.w3.org/2005/08/SSML/Papers/iFLYTech.pdf [ пустой URL-адрес PDF ]
  8. ^ "Главная". neospeech.com .
  9. ^ например <vtml_phoneme alphabet="x-pinyin" ph="ni3hao3"></vtml_phoneme>; см. страницы 7 и 25-27 https://ondemand.neospeech.com/vt_eng-Engine-VTML-v3.9.0-3.pdf
  10. ^ Голосовые пакеты автоматически загружаются по мере необходимости при выборе в Системных настройках, Настройки речи, Текст в речь, Системный голос, Настроить. В системе доступны три китайских женских голоса. По одному для материкового Китая, Гонконга и Тайваня.
  11. ^ "Исследовательская группа по взаимодействию речи человека и компьютера". hcsi.cs.tsinghua.edu.cn . Архивировано из оригинала 13 августа 2004 года . Получено 12 января 2022 года .
  12. Домашняя страница: Chilin Shih (ссылка на интернет-архив)