Артикуляционный синтез

3D-модель речевого тракта для артикуляционного синтеза. Основанная на моделировании коартикуляции согласных и гласных, немецкая фраза « Lea und Doreen mögen Bananen. » была воспроизведена из естественно произнесенного предложения с точки зрения основной частоты и длительности фонов.^[1]

Артикуляционный синтез относится к вычислительным методам синтеза речи на основе моделей человеческого голосового тракта и процессов артикуляции, происходящих в нем. Форму голосового тракта можно контролировать несколькими способами, которые обычно включают изменение положения речевых артикуляторов, таких как язык , челюсть и губы. Речь создается путем цифрового моделирования потока воздуха через представление голосового тракта.

Механические говорящие головы

Существует долгая история попыток построить механические « говорящие головы ». ^[2] Говорят, что Герберт (ум. 1003), Альбертус Магнус (1198–1280) и Роджер Бэкон (1214–1294) построили говорящие головы ( Wheatstone 1837). Однако исторически подтвержденный синтез речи начинается с Вольфганга фон Кемпелена (1734–1804), который опубликовал отчет о своих исследованиях в 1791 году (см. также Dudley & Tarnoczy 1950).

Электрические аналоги голосового тракта

Первые электрические аналоги голосового тракта были статическими, как у Данна (1950), Кена Стивенса и коллег (1953), Гуннара Фанта (1960). Розен (1958) построил динамический голосовой тракт (DAVO), который Деннис (1963) позже попытался контролировать с помощью компьютера. Деннис и др. (1964), Хики и др. (1968) и Бакстер и Стронг (1969) также описали аппаратные аналоги голосового тракта. Келли и Лохбаум (1962) провели первую компьютерную симуляцию; позже были проведены цифровые компьютерные симуляции, например, Наката и Мицуока (1965), Мацуи (1968) и Пол Мермельштейн (1971). Хонда и др. (1968) провели аналоговую компьютерную симуляцию.

Модели Хаскинса и Маэды

Первый программный артикуляционный синтезатор, регулярно используемый для лабораторных экспериментов, был разработан в Haskins Laboratories в середине 1970-х годов Филиппом Рубином , Томом Бэром и Полом Мермельштейном. Этот синтезатор, известный как ASY, ^[3] был вычислительной моделью производства речи, основанной на моделях речевого тракта, разработанных в Bell Laboratories в 1960-х и 1970-х годах Полом Мермельштейном, Сесилом Кокером и коллегами. Другая популярная модель, которая часто использовалась, — это модель Синдзи Маэды, которая использует факторный подход для управления формой языка .

Современные модели

Недавний прогресс в визуализации производства речи, моделировании артикуляционного контроля и моделировании биомеханики языка привел к изменениям в способе выполнения артикуляционного синтеза [1] ^{[ постоянная мертвая ссылка ]} . Примерами служат модель Haskins CASY (Configurable Articulatory Synthesis) ^[4] , разработанная Филиппом Рубином , Марком Тиде [2] Архивировано 01.09.2006 в Wayback Machine и Луисом Голдштейном [3], которая сопоставляет среднесагиттальные голосовые тракты с фактическими данными магнитно-резонансной томографии (МРТ) и использует данные МРТ для построения 3D-модели голосового тракта. Полная 3D-модель артикуляционного синтеза была описана Оловом Энгваллом. Геометрически основанный 3D-артикуляционный синтезатор речи был разработан Питером Биркхольцем (VocalTractLab ^[5] ). Модель Directions Into Velocities of Articulators (DIVA) , подход управления с прямой связью, который учитывает нейронные вычисления, лежащие в основе производства речи, был разработан Фрэнком Х. Гюнтером в Бостонском университете . Проект ArtiSynth ^[6] , возглавляемый Сидни Фелсом [4] в Университете Британской Колумбии , представляет собой набор инструментов для трехмерного биомеханического моделирования для голосового тракта и верхних дыхательных путей человека. Биомеханическое моделирование артикуляторов, таких как язык , было впервые разработано рядом ученых, включая Райнера Вильгельма-Трикарико [5], Йохана Пайана [6] и Жана-Мишеля Жерара [7], Цзяньву Данга и Киёси Хонда [8].

Коммерческие модели

Одной из немногих коммерческих систем артикуляционного синтеза речи является система на основе NeXT, изначально разработанная и продаваемая Trillium Sound Research, дочерней компанией Университета Калгари , где проводилась большая часть оригинальных исследований. После упадка различных воплощений NeXT (начатых Стивом Джобсом в конце 1980-х и объединенных с Apple Computer в 1997 году), программное обеспечение Trillium было опубликовано под лицензией GNU General Public License , а работа продолжилась под названием gnuspeech . Система, впервые выпущенная на рынок в 1994 году, обеспечивает полное артикуляционное преобразование текста в речь с использованием волновода или передающей линии, аналога человеческого ротового и носового трактов, контролируемого «моделью отличительной области» Рене Карре. ^[7]

Смотрите также

Сноски

^ Биркхольц, Питер (2013). «Моделирование коартикуляции согласных и гласных для артикуляционного синтеза речи». PLOS ONE . 8 (4): e60603. Bibcode : 2013PLoSO...860603B. doi : 10.1371/journal.pone.0060603 . PMC 3628899. PMID 23613734 .
^ "Talking Heads". Архивировано из оригинала 2006-12-07 . Получено 2006-12-06 .
^ АСЫ
^ "CASY". Архивировано из оригинала 2006-08-28 . Получено 2006-12-06 .
^ VocalTractLab
^ Артисинт
^ Синтез артикуляционной речи в реальном времени по правилам

Библиография

Бакстер, Брент и Уильям Дж. Стронг. (1969). WINDBAG — аналоговый синтезатор речи на основе вокального тракта. Журнал акустического общества Америки , 45, 309(A).
Биркхольц П., Джекел Д., Крёгер Б.Дж. (2007) Моделирование потерь из-за турбулентности в изменяющейся во времени голосовой системе. Труды IEEE по обработке звука, речи и языка 15: 1218-1225
Биркхольц П., Джекел Д., Крёгер Б.Дж. (2006) Построение и управление трехмерной моделью голосового тракта. Труды Международной конференции по акустике, речи и обработке сигналов (ICASSP 2006) (Тулуза, Франция) стр. 873–876
Coker. CH (1968). Синтез речи с параметрической артикуляционной моделью. Proc. Speech. Symp., Киото, Япония , статья A-4.
Coker, CH (1976). «Модель артикуляционной динамики и управления». Труды IEEE . 64 (4): 452–460. doi :10.1109/PROC.1976.10154. S2CID 1412611.
Coker; Fujimura, O. (1966). "Модель спецификации функции области голосового тракта". Журнал акустического общества Америки . 40 (5): 1271. Bibcode : 1966ASAJ...40.1271C. doi : 10.1121/1.2143456 .
Деннис, Джек Б. (1963). Компьютерное управление аналоговым голосовым трактом. Журнал Акустического Общества Америки , 35, 1115(A).
Дадли, Хомер; Тарноци, Томас Х. (1950). «Говорящая машина Вольфганга фон Кемпелена» (PDF) . Журнал Акустического общества Америки . 22 (2): 151–166. Bibcode :1950ASAJ...22..151D. doi :10.1121/1.1906583.
Данн, Хью К. (1950). «Расчет резонансов гласных и электрический голосовой тракт». Журнал Акустического общества Америки . 22 (6): 740–53. Bibcode : 1950ASAJ...22..740D. doi : 10.1121/1.1906681.
Engwall, O. (2003). Объединение измерений МРТ, ЭМА и ЭПГ в трехмерной модели языка. Речевая коммуникация, 41, 303–329.
Фант, К. Гуннар М. (1960). Акустическая теория речеобразования . Гаага, Мутон.
Гариэль, М. (1879). «Машинный разговор М. Фабера». J. Physique Théorique et Appliquée . 8 : 274–5. doi : 10.1051/jphystap: 018790080027401.
Gerard, JM; Wilhelms-Tricarico, R.; Perrier, P.; Payan, Y. (2003). "Трехмерная динамическая биомеханическая модель языка для изучения речевого моторного контроля" (PDF) . Последние научные разработки в области биомеханики . 1 : 49–64.
Хенке, В. Л. (1966). Динамическая артикуляционная модель производства речи с использованием компьютерного моделирования. Неопубликованная докторская диссертация, Массачусетский технологический институт, Кембридж, Массачусетс.
Хонда, Такаши, Сейити Иноуэ и Ясуо Огава. (1968). Гибридная система управления имитатором человеческого голосового тракта. Доклады 6-го Международного конгресса по акустике , под ред. Ё. Кохаси, стр. 175–8. Токио, Международный совет научных союзов.
Келли, Джон Л. и Кэрол Лохбаум. (1962). Синтез речи. Труды семинара по речевой коммуникации , статья F7. Стокгольм, Лаборатория передачи речи, Королевский технологический институт.
Кемпелен, Вольфганг Р. фон. (1791). Mechanismus der menschlichen Sprache необходим для Beschreibung seiner sprechenden Maschine . Вена, Дж. Б. Деген.
Маеда, С. (1988). Улучшенная артикуляционная модель. Журнал акустического общества Америки , 84, Sup. 1, S146.
Маэда, С. (1990). Компенсаторная артикуляция во время речи: доказательства анализа и синтеза форм голосового тракта с использованием артикуляционной модели. В WJ Hardcastle и A. Marchal (ред.), Speech Production and Speech Modelling , Kluwer Academic, Дордрехт, 131–149.
Мацуи, Эйити. (1968). Компьютерно-моделируемые голосовые органы. Доклады 6-го Международного конгресса по акустике , под ред. Ё. Кохаси, стр. 151–4. Токио, Международный совет научных союзов.
Мермельштейн, Пол. (1969). Компьютерное моделирование артикуляционной активности при речеобразовании. Труды Международной совместной конференции по искусственному интеллекту , Вашингтон, округ Колумбия, 1969, под ред. DE Walker и LM Norton. Нью-Йорк, Gordon & Breach.
Mermelstein, P. (1973). «Артикуляторная модель для изучения производства речи». Журнал акустического общества Америки . 53 (4): 1070–1082. Bibcode : 1973ASAJ...53.1070M. doi : 10.1121/1.1913427. PMID 4697807.
Наката, Казуо; Мицуока, Т. (1965). «Фонематическое преобразование и аспекты управления синтезом связной речи». J. Radio Res. Labs . 12 : 171–86.
Рахим, М.; Гудьир, К.; Клейн, В.; Шрётер, Дж.; Сонди, М. (1993). «Об использовании нейронных сетей в артикуляционном синтезе речи». Журнал акустического общества Америки . 93 (2): 1109–1121. Bibcode : 1993ASAJ...93.1109R. doi : 10.1121/1.405559. S2CID 120130348.
Розен, Джордж (1958). «Динамический аналоговый синтезатор речи». Журнал Акустического общества Америки . 30 (3): 201–9. Bibcode :1958ASAJ...30..201R. doi :10.1121/1.1909541. hdl : 1721.1/118106 .
Рубин, П.Е.; Бэр, Т.; Мермельштейн, П. (1981). «Артикуляторный синтезатор для перцептивных исследований». Журнал акустического общества Америки . 70 (2): 321–328. Bibcode : 1981ASAJ...70..321R. doi : 10.1121/1.386780.
Рубин, П., Зальцман, Э., Голдштейн, Л., МакГоуэн, Р., Тиде, М. и Брауман, К. (1996). CASY и расширения к модели динамики задач. Труды 1-го учебного и исследовательского семинара ESCA по моделированию создания речи - 4-й семинар по созданию речи , 125–128.
Стивенс, Кеннет Н.; Касовски, С.; Фант, К. Гуннар М. (1953). «Электрический аналог голосового тракта». Журнал Акустического Общества Америки . 25 (4): 734–42. Bibcode : 1953ASAJ...25..734S. doi : 10.1121/1.1907169.

Внешние ссылки

«От МРТ и акустических данных до артикуляционного синтеза». Архивировано из оригинала 14 августа 2007 г.
"Smithsonian Speech Synthesis History Project (SSSHP) 1986-2002". Архивировано из оригинала 3 октября 2013 года.
Введение в артикуляционный синтез речи
Имитация пения с помощью поющего робота Pavarobotti на YouTube или описание от BBC того, как робот синтезировал пение на YouTube .
Pink Trombone — онлайн-инструмент для синтеза речи голыми руками и демонстрационный видеоклип на YouTube