stringtranslate.com

Артикуляционный синтез

3D-модель речевого тракта для артикуляционного синтеза. Основанная на моделировании коартикуляции согласных и гласных, немецкая фраза « Lea und Doreen mögen Bananen. » была воспроизведена из естественно произнесенного предложения с точки зрения основной частоты и длительности фонов. [1]

Артикуляционный синтез относится к вычислительным методам синтеза речи на основе моделей человеческого голосового тракта и процессов артикуляции, происходящих в нем. Форму голосового тракта можно контролировать несколькими способами, которые обычно включают изменение положения речевых артикуляторов, таких как язык , челюсть и губы. Речь создается путем цифрового моделирования потока воздуха через представление голосового тракта.

Механические говорящие головы

Существует долгая история попыток построить механические « говорящие головы ». [2] Говорят, что Герберт (ум. 1003), Альбертус Магнус (1198–1280) и Роджер Бэкон (1214–1294) построили говорящие головы ( Wheatstone 1837). Однако исторически подтвержденный синтез речи начинается с Вольфганга фон Кемпелена (1734–1804), который опубликовал отчет о своих исследованиях в 1791 году (см. также Dudley & Tarnoczy 1950).

Электрические аналоги голосового тракта

Первые электрические аналоги голосового тракта были статическими, как у Данна (1950), Кена Стивенса и коллег (1953), Гуннара Фанта (1960). Розен (1958) построил динамический голосовой тракт (DAVO), который Деннис (1963) позже попытался контролировать с помощью компьютера. Деннис и др. (1964), Хики и др. (1968) и Бакстер и Стронг (1969) также описали аппаратные аналоги голосового тракта. Келли и Лохбаум (1962) провели первую компьютерную симуляцию; позже были проведены цифровые компьютерные симуляции, например, Наката и Мицуока (1965), Мацуи (1968) и Пол Мермельштейн (1971). Хонда и др. (1968) провели аналоговую компьютерную симуляцию.

Модели Хаскинса и Маэды

Первый программный артикуляционный синтезатор, регулярно используемый для лабораторных экспериментов, был разработан в Haskins Laboratories в середине 1970-х годов Филиппом Рубином , Томом Бэром и Полом Мермельштейном. Этот синтезатор, известный как ASY, [3] был вычислительной моделью производства речи, основанной на моделях речевого тракта, разработанных в Bell Laboratories в 1960-х и 1970-х годах Полом Мермельштейном, Сесилом Кокером и коллегами. Другая популярная модель, которая часто использовалась, — это модель Синдзи Маэды, которая использует факторный подход для управления формой языка .

Современные модели

Недавний прогресс в визуализации производства речи, моделировании артикуляционного контроля и моделировании биомеханики языка привел к изменениям в способе выполнения артикуляционного синтеза [1] [ постоянная мертвая ссылка ] . Примерами служат модель Haskins CASY (Configurable Articulatory Synthesis) [4] , разработанная Филиппом Рубином , Марком Тиде [2] Архивировано 01.09.2006 в Wayback Machine и Луисом Голдштейном [3], которая сопоставляет среднесагиттальные голосовые тракты с фактическими данными магнитно-резонансной томографии (МРТ) и использует данные МРТ для построения 3D-модели голосового тракта. Полная 3D-модель артикуляционного синтеза была описана Оловом Энгваллом. Геометрически основанный 3D-артикуляционный синтезатор речи был разработан Питером Биркхольцем (VocalTractLab [5] ). Модель Directions Into Velocities of Articulators (DIVA) , подход управления с прямой связью, который учитывает нейронные вычисления, лежащие в основе производства речи, был разработан Фрэнком Х. Гюнтером в Бостонском университете . Проект ArtiSynth [6] , возглавляемый Сидни Фелсом [4] в Университете Британской Колумбии , представляет собой набор инструментов для трехмерного биомеханического моделирования для голосового тракта и верхних дыхательных путей человека. Биомеханическое моделирование артикуляторов, таких как язык , было впервые разработано рядом ученых, включая Райнера Вильгельма-Трикарико [5], Йохана Пайана [6] и Жана-Мишеля Жерара [7], Цзяньву Данга и Киёси Хонда [8].

Коммерческие модели

Одной из немногих коммерческих систем артикуляционного синтеза речи является система на основе NeXT, изначально разработанная и продаваемая Trillium Sound Research, дочерней компанией Университета Калгари , где проводилась большая часть оригинальных исследований. После упадка различных воплощений NeXT (начатых Стивом Джобсом в конце 1980-х и объединенных с Apple Computer в 1997 году), программное обеспечение Trillium было опубликовано под лицензией GNU General Public License , а работа продолжилась под названием gnuspeech . Система, впервые выпущенная на рынок в 1994 году, обеспечивает полное артикуляционное преобразование текста в речь с использованием волновода или передающей линии, аналога человеческого ротового и носового трактов, контролируемого «моделью отличительной области» Рене Карре. [7]

Смотрите также

Сноски

  1. ^ Биркхольц, Питер (2013). «Моделирование коартикуляции согласных и гласных для артикуляционного синтеза речи». PLOS ONE . 8 (4): e60603. Bibcode : 2013PLoSO...860603B. doi : 10.1371/journal.pone.0060603 . PMC 3628899. PMID  23613734 . 
  2. ^ "Talking Heads". Архивировано из оригинала 2006-12-07 . Получено 2006-12-06 .
  3. ^ АСЫ
  4. ^ "CASY". Архивировано из оригинала 2006-08-28 . Получено 2006-12-06 .
  5. ^ VocalTractLab
  6. ^ Артисинт
  7. ^ Синтез артикуляционной речи в реальном времени по правилам

Библиография

Внешние ссылки