Синтез речи

Синтетический голос объявляет о прибытии поезда в Швеции.

Проблемы с воспроизведением этого файла? Смотрите справку по медиа .

Синтез речи — это искусственное воспроизведение человеческой речи . Компьютерная система, используемая для этой цели, называется синтезатором речи и может быть реализована в программных или аппаратных продуктах. Система преобразования текста в речь ( TTS ) преобразует обычный языковой текст в речь; другие системы преобразуют символические языковые представления, такие как фонетические транскрипции, в речь. ^[1] Обратный процесс — распознавание речи .

Синтезированная речь может быть создана путем объединения фрагментов записанной речи, которые хранятся в базе данных . Системы различаются по размеру хранимых речевых единиц; система, которая хранит фоны или дифоны, обеспечивает наибольший диапазон вывода, но может быть недостаточно четкой. ^{[ необходима цитата ]} Для определенных областей использования хранение целых слов или предложений позволяет получить высококачественный вывод. В качестве альтернативы синтезатор может включать модель речевого тракта и другие характеристики человеческого голоса для создания полностью «синтетического» голосового вывода. ^[2]

Качество синтезатора речи оценивается по его схожести с человеческим голосом и по его способности быть понятым ясно. Понятная программа преобразования текста в речь позволяет людям с нарушениями зрения или чтения слушать написанные слова на домашнем компьютере. Многие компьютерные операционные системы включают синтезаторы речи с начала 1990-х годов. ^{[ необходима цитата ]}

Система преобразования текста в речь (или «движок») состоит из двух частей: ^[3] интерфейса и бэкэнда . У интерфейса две основные задачи. Во-первых, он преобразует необработанный текст, содержащий символы, такие как числа и сокращения, в эквивалент написанных слов. Этот процесс часто называют нормализацией текста , предварительной обработкой или токенизацией . Затем интерфейс назначает фонетические транскрипции каждому слову и делит и размечает текст на просодические единицы , такие как фразы , предложения и предложения . Процесс назначения фонетических транскрипций словам называется преобразованием текста в фонему или графемы в фонему . Фонетические транскрипции и информация о просодии вместе составляют символическое лингвистическое представление, которое выводится интерфейсом. Затем интерфейс, часто называемый синтезатором , преобразует символическое лингвистическое представление в звук. В некоторых системах эта часть включает вычисление целевой просодии (контура высоты тона, длительности фонем) ^[4] , которая затем накладывается на выходную речь.

История

Задолго до изобретения электронной обработки сигналов некоторые люди пытались построить машины, имитирующие человеческую речь. Некоторые ранние легенды о существовании « Медных голов » связаны с папой Сильвестром II (ум. 1003 г. н. э.), Альбертом Великим (1198–1280 гг.) и Роджером Бэконом (1214–1294 гг.).

В 1779 году немецко - датский ученый Христиан Готлиб Кратценштейн выиграл первую премию на конкурсе, объявленном Российской императорской академией наук и искусств, за построенные им модели человеческого голосового тракта , которые могли воспроизводить пять долгих гласных звуков (в нотации Международного фонетического алфавита : [aː] , [eː] , [iː] , [oː] и [uː] ). ^[5] Затем последовала работающая на мехах « акустико-механическая речевая машина » Вольфганга фон Кемпелена из Пресбурга , Венгрия, описанная в статье 1791 года. ^[6] Эта машина добавила модели языка и губ, что позволило ей воспроизводить согласные и гласные. В 1837 году Чарльз Уитстон создал «говорящую машину», основанную на конструкции фон Кемпелена, а в 1846 году Йозеф Фабер продемонстрировал « Эуфонию ». В 1923 году Пейджет возродил конструкцию Уитстона. ^[7]

В 1930-х годах Bell Labs разработала вокодер , который автоматически анализировал речь на ее основные тона и резонансы. На основе своей работы над вокодером Гомер Дадли разработал синтезатор голоса с клавиатурным управлением под названием Voder (Voice Demonstrator), который он представил на Всемирной выставке в Нью-Йорке в 1939 году .

Доктор Франклин С. Купер и его коллеги из Haskins Laboratories построили Pattern playback в конце 1940-х годов и завершили его в 1950 году. Существовало несколько различных версий этого аппаратного устройства; в настоящее время сохранилась только одна. Машина преобразует изображения акустических моделей речи в форме спектрограммы обратно в звук. Используя это устройство, Элвин Либерман и его коллеги обнаружили акустические сигналы для восприятия фонетических сегментов (согласных и гласных).

Электронные устройства

Первые компьютерные системы синтеза речи появились в конце 1950-х годов. Норико Умеда и др. разработали первую общеанглийскую систему преобразования текста в речь в 1968 году в Электротехнической лаборатории в Японии. ^[8] В 1961 году физик Джон Ларри Келли-младший и его коллега Луис Герстман ^[9] использовали компьютер IBM 704 для синтеза речи, что стало одним из самых выдающихся событий в истории Bell Labs . ^{[ требуется ссылка ]} Синтезатор речевого рекордера Келли ( вокодер ) воссоздал песню « Daisy Bell » с музыкальным сопровождением Макса Мэтьюза . По совпадению, Артур Кларк навещал своего друга и коллегу Джона Пирса в здании Bell Labs в Мюррей-Хилле. Кларк был настолько впечатлен демонстрацией, что использовал ее в кульминационной сцене своего сценария к роману « Космическая одиссея 2001 года»^[10] , где компьютер HAL 9000 поет ту же песню, пока астронавт Дэйв Боумен усыпляет его. ^[11] Несмотря на успех чисто электронного синтеза речи, исследования механических синтезаторов речи продолжаются. ^[12]^{[ необходим сторонний источник ]}

Линейное предсказательное кодирование (LPC), форма кодирования речи , начало развиваться с работы Фумитады Итакуры из Университета Нагои и Шузо Сайто из Nippon Telegraph and Telephone (NTT) в 1966 году. Дальнейшие разработки в технологии LPC были сделаны Бишну С. Аталом и Манфредом Р. Шредером в Bell Labs в 1970-х годах. ^[13] Позднее LPC стал основой для ранних микросхем синтезатора речи, таких как речевые микросхемы LPC компании Texas Instruments, используемые в игрушках Speak & Spell с 1978 года.

В 1975 году Фумитада Итакура разработал метод линейных спектральных пар (LSP) для кодирования речи с высокой степенью сжатия, работая в NTT. ^[14]^[15]^[16] С 1975 по 1981 год Итакура изучал проблемы анализа и синтеза речи на основе метода LSP. ^[16] В 1980 году его команда разработала чип синтезатора речи на основе LSP. LSP является важной технологией для синтеза и кодирования речи, и в 1990-х годах был принят почти всеми международными стандартами кодирования речи в качестве важного компонента, способствуя улучшению цифровой речевой связи по мобильным каналам и через Интернет. ^[15]

В 1975 году была выпущена MUSA , которая стала одной из первых систем синтеза речи. Она состояла из автономного компьютерного оборудования и специализированного программного обеспечения, которое позволяло ей читать по-итальянски. Вторая версия, выпущенная в 1978 году, также могла петь по-итальянски в стиле « а капелла ». ^[17]

Демо-запись DECtalk с использованием голосов Perfect Paul и Uppity Ursula

Доминирующими системами в 1980-х и 1990-х годах были система DECtalk , основанная в основном на работах Денниса Клатта из Массачусетского технологического института, и система Bell Labs; ^[18] последняя была одной из первых многоязычных систем, независимых от языка, широко использующих методы обработки естественного языка .

Речевой вывод из Fidelity Voice Chess Challenger

Портативная электроника с синтезом речи начала появляться в 1970-х годах. Одним из первых был портативный калькулятор для слепых Telesensory Systems Inc. (TSI) Speech+, выпущенный в 1976 году. ^[19]^[20] Другие устройства имели в основном образовательные цели, например, игрушка Speak & Spell, выпущенная Texas Instruments в 1978 году. ^[21] Fidelity выпустила говорящую версию своего электронного шахматного компьютера в 1979 году. ^[22] Первой видеоигрой с синтезом речи была аркадная игра- стрелялка 1980 года Stratovox (известная в Японии как Speak & Rescue ) от Sun Electronics . ^[23]^[24] Первой игрой для персональных компьютеров с синтезом речи была Manbiki Shoujo ( Shoplifting Girl ), выпущенная в 1980 году для PET 2001 , для которой разработчик игры Хироши Судзуки разработал технику программирования « zero cross » для создания синтезированной речевой волны. ^[25] Другой ранний пример — аркадная версия Berzerk , также датируемая 1980 годом. В том же году компания Milton Bradley выпустила первую многопользовательскую электронную игру с использованием голосового синтеза, Milton .

В 1976 году Computalker Consultants выпустила свой синтезатор речи CT-1. Разработанный Д. Ллойдом Райсом и Джимом Купером, это был аналоговый синтезатор, созданный для работы с микрокомпьютерами, использующими стандарт шины S-100. ^[26]

Ранние электронные синтезаторы речи звучали как роботы и часто были едва понятны. Качество синтезированной речи неуклонно улучшалось, но по состоянию на 2016 год ^{[обновлять]}вывод современных систем синтеза речи по-прежнему четко отличался от реальной человеческой речи.

Синтезированные голоса обычно звучали как мужские до 1990 года, пока Энн Сирдал из AT&T Bell Laboratories не создала женский голос. ^[27]

В 2005 году Курцвейл предсказал, что по мере того, как соотношение цены и производительности приведет к тому, что синтезаторы речи станут дешевле и доступнее, больше людей получат выгоду от использования программ преобразования текста в речь. ^[28]

Технологии синтезатора

Наиболее важными качествами системы синтеза речи являются естественность и разборчивость . ^[29] Естественность описывает, насколько близко выходной сигнал звучит как человеческая речь, в то время как разборчивость — это легкость, с которой выходной сигнал понимается. Идеальный синтезатор речи одновременно естественный и разборчивый. Системы синтеза речи обычно пытаются максимизировать обе характеристики.

Две основные технологии, генерирующие синтетические речевые формы волн, — это конкатенативное синтезирование и формантное синтезирование . Каждая технология имеет свои сильные и слабые стороны, и предполагаемое использование системы синтеза обычно определяет, какой подход использовать.

Синтез конкатенации

Конкатенативное синтезирование основано на конкатенации (связывании) сегментов записанной речи. Как правило, конкатенативное синтезирование производит наиболее естественно звучащую синтезированную речь. Однако различия между естественными вариациями речи и природой автоматизированных методов сегментации волновых форм иногда приводят к слышимым помехам на выходе. Существует три основных подтипа конкатенативного синтеза.

Синтез выбора блока

Синтез выбора единиц использует большие базы данных записанной речи. Во время создания базы данных каждое записанное высказывание сегментируется на некоторые или все из следующих: отдельные фоны , дифоны , полуфоны, слоги , морфемы , слова , фразы и предложения . Обычно разделение на сегменты выполняется с помощью специально модифицированного распознавателя речи , установленного в режим «принудительного выравнивания» с некоторой ручной коррекцией впоследствии, используя визуальные представления, такие как форма волны и спектрограмма . ^[30] Затем создается индекс единиц в базе данных речи на основе сегментации и акустических параметров, таких как основная частота ( высота тона ), длительность, положение в слоге и соседние фоны. Во время выполнения желаемое целевое высказывание создается путем определения наилучшей цепочки единиц-кандидатов из базы данных (выбор единиц). Этот процесс обычно достигается с помощью специально взвешенного дерева решений .

Выбор единиц обеспечивает наибольшую естественность, поскольку он применяет только небольшое количество цифровой обработки сигнала (DSP) к записанной речи. DSP часто делает записанную речь менее естественной, хотя некоторые системы используют небольшое количество обработки сигнала в точке конкатенации, чтобы сгладить форму волны. Выходные данные лучших систем выбора единиц часто неотличимы от настоящих человеческих голосов, особенно в контекстах, для которых была настроена система TTS. Однако максимальная естественность обычно требует, чтобы базы данных речи выбора единиц были очень большими, в некоторых системах достигая гигабайт записанных данных, что представляет собой десятки часов речи. ^[31] Кроме того, известно, что алгоритмы выбора единиц выбирают сегменты из места, которое приводит к неидеальному синтезу (например, второстепенные слова становятся неясными), даже если в базе данных существует лучший выбор. ^[32] Недавно исследователи предложили различные автоматизированные методы для обнаружения неестественных сегментов в системах синтеза речи выбора единиц. ^[33]

Дифонический синтез

Дифонный синтез использует минимальную речевую базу данных, содержащую все дифоны (звуко-звуковые переходы), встречающиеся в языке. Количество дифонов зависит от фонотактики языка: например, в испанском языке около 800 дифонов, а в немецком около 2500. В дифонном синтезе в речевой базе данных содержится только один пример каждого дифона. Во время выполнения целевая просодия предложения накладывается на эти минимальные единицы с помощью цифровых методов обработки сигналов , таких как линейное предиктивное кодирование , PSOLA ^[34] или MBROLA [ ^35] или более современных методов, таких как изменение высоты тона в исходной области с использованием дискретного косинусного преобразования ^[36] . Дифонный синтез страдает от звуковых сбоев конкатенативного синтеза и роботизированной природы формантного синтеза и имеет мало преимуществ любого из подходов, кроме небольшого размера. Таким образом, его использование в коммерческих приложениях снижается, ^{[ необходима ссылка ]} , хотя он продолжает использоваться в исследованиях, поскольку существует ряд свободно доступных реализаций программного обеспечения. Ранним примером синтеза Diphone является обучающий робот Leachim , который был изобретен Майклом Дж. Фрименом . ^[37] Leachim содержал информацию о программе класса и определенную биографическую информацию об учениках, которых он был запрограммирован обучать. ^[38] Он был протестирован в классе четвертого класса в Бронксе, Нью-Йорк . ^[39]^[40]

Доменно-специфический синтез

Синтез, специфичный для домена, объединяет предварительно записанные слова и фразы для создания полных высказываний. Он используется в приложениях, где разнообразие текстов, которые система будет выводить, ограничено определенным доменом, например, объявления о расписании движения транспорта или прогнозы погоды. ^[41] Технология очень проста в реализации и уже давно используется в коммерческих целях в таких устройствах, как говорящие часы и калькуляторы. Уровень естественности этих систем может быть очень высоким, поскольку разнообразие типов предложений ограничено, и они близко соответствуют просодии и интонации исходных записей. ^{[ необходима цитата ]}

Поскольку эти системы ограничены словами и фразами в своих базах данных, они не являются универсальными и могут синтезировать только те комбинации слов и фраз, с которыми они были предварительно запрограммированы. Однако смешение слов в естественном разговорном языке все еще может вызывать проблемы, если не учитывать многочисленные вариации. Например, в неротических диалектах английского языка «r» в таких словах, как «clear» /ˈklɪə/, обычно произносится только тогда, когда следующее слово имеет гласную в качестве первой буквы (например, «clear out» реализуется как /ˌklɪəɹˈʌʊt/ ). Аналогично во французском языке многие конечные согласные больше не становятся немыми, если за ними следует слово, начинающееся с гласной, эффект, называемый связью . Это чередование не может быть воспроизведено простой системой конкатенации слов, которая потребовала бы дополнительной сложности для того, чтобы быть контекстно-зависимой .

Формантный синтез

Синтез формант не использует образцы человеческой речи во время выполнения. Вместо этого синтезированный речевой вывод создается с помощью аддитивного синтеза и акустической модели ( синтез физического моделирования ). ^[42] Такие параметры, как основная частота , голосоведение и уровни шума , изменяются с течением времени для создания формы волны искусственной речи. Этот метод иногда называют синтезом на основе правил ; однако многие конкатенативные системы также имеют компоненты на основе правил. Многие системы, основанные на технологии синтеза формант, генерируют искусственную, звучащую как робот речь, которую никогда не примут за человеческую. Однако максимальная естественность не всегда является целью системы синтеза речи, и системы синтеза формант имеют преимущества перед конкатенативными системами. Синтезированная формантами речь может быть надежно понята даже на очень высоких скоростях, избегая акустических сбоев, которые обычно преследуют конкатенативные системы. Высокоскоростная синтезированная речь используется слабовидящими для быстрой навигации по компьютерам с помощью программы чтения с экрана . Синтезаторы формант обычно представляют собой меньшие программы, чем конкатенативные системы, поскольку у них нет базы данных образцов речи. Поэтому их можно использовать во встроенных системах , где память и мощность микропроцессора особенно ограничены. Поскольку системы на основе формант полностью контролируют все аспекты выходной речи, можно выводить широкий спектр просодий и интонаций , передавая не только вопросы и утверждения, но и разнообразные эмоции и тона голоса.

Примерами нереального времени, но очень точного управления интонацией в формантном синтезе являются работы, проделанные в конце 1970-х годов для игрушки Texas Instruments Speak & Spell , а также в начале 1980-х годов для игровых автоматов Sega ^[43] и во многих аркадных играх Atari, Inc. ^[44] с использованием микросхем TMS5220 LPC . Создание правильной интонации для этих проектов было кропотливым, и результаты еще не были достигнуты интерфейсами преобразования текста в речь в реальном времени. ^[45]

Артикуляционный синтез

Артикуляционный синтез состоит из вычислительных методов синтеза речи на основе моделей человеческого голосового тракта и процессов артикуляции, происходящих в нем. Первый артикуляционный синтезатор, регулярно используемый для лабораторных экспериментов, был разработан в Haskins Laboratories в середине 1970-х годов Филиппом Рубином , Томом Бэром и Полом Мермельштейном. Этот синтезатор, известный как ASY, был основан на моделях голосового тракта, разработанных в Bell Laboratories в 1960-х и 1970-х годах Полом Мермельштейном, Сесилом Кокером и коллегами.

До недавнего времени модели артикуляционного синтеза не были включены в коммерческие системы синтеза речи. Заметным исключением является система на основе NeXT, изначально разработанная и продаваемая Trillium Sound Research, дочерней компанией Университета Калгари , где проводилась большая часть оригинальных исследований. После упадка различных воплощений NeXT (начатых Стивом Джобсом в конце 1980-х годов и объединенных с Apple Computer в 1997 году), программное обеспечение Trillium было опубликовано под лицензией GNU General Public License, и работа продолжилась как gnuspeech . Система, впервые выпущенная на рынок в 1994 году, обеспечивает полное артикуляционное преобразование текста в речь с использованием волновода или передающей линии, аналога человеческого ротового и носового трактов, контролируемого «моделью отличительной области» Карре.

Более поздние синтезаторы, разработанные Хорхе К. Лусеро и его коллегами, включают модели биомеханики голосовых связок, аэродинамики голосовой щели и распространения акустических волн в бронхах, трахее, носовой и ротовой полостях, и, таким образом, представляют собой полноценные системы моделирования речи на основе физики. ^[46]^[47]

Синтез на основе HMM

Синтез на основе HMM — это метод синтеза, основанный на скрытых марковских моделях , также называемый статистическим параметрическим синтезом. В этой системе частотный спектр ( речевой тракт ), основная частота (источник голоса) и длительность ( просодия ) речи одновременно моделируются HMM. Речевые волны генерируются из самих HMM на основе критерия максимального правдоподобия . ^[48]

Синтез синусоидального сигнала

Синтез синусоидальной волны — это метод синтеза речи путем замены формант (основных полос энергии) чистыми тональными свистками. ^[49]

Синтез на основе глубокого обучения

Пример синтеза речи с использованием нейронного вокодера HiFi-GAN

Синтез речи с глубоким обучением использует глубокие нейронные сети (DNN) для создания искусственной речи из текста (текст-в-речь) или спектра (вокодер). Глубокие нейронные сети обучаются с использованием большого количества записанной речи и, в случае системы текст-в-речь, связанных меток и/или входного текста.

15.ai использует модель с несколькими говорящими — сотни голосов обучаются одновременно, а не последовательно, что сокращает необходимое время обучения и позволяет модели изучать и обобщать общий эмоциональный контекст, даже для голосов, не подверженных такому эмоциональному контексту. ^[50] Модель глубокого обучения , используемая приложением, является недетерминированной : каждый раз, когда речь генерируется из одной и той же строки текста, интонация речи будет немного отличаться. Приложение также поддерживает ручное изменение эмоций сгенерированной строки с помощью эмоциональных контекстуализаторов (термин, придуманный этим проектом), предложения или фразы, которые передают эмоцию дубля, который служит руководством для модели во время вывода. ^[51]^[52]

ElevenLabs в первую очередь известна своим браузерным программным обеспечением для преобразования текста в речь с помощью искусственного интеллекта Speech Synthesis, которое может воспроизводить реалистичную речь, синтезируя голосовые эмоции и интонацию . ^[53] Компания заявляет, что ее программное обеспечение создано для регулировки интонации и темпа доставки на основе контекста используемого языкового ввода. ^[54] Оно использует передовые алгоритмы для анализа контекстных аспектов текста, стремясь обнаружить такие эмоции, как гнев, грусть, счастье или тревога, что позволяет системе понимать настроение пользователя, ^[55] что приводит к более реалистичной и человеческой интонации. Другие функции включают многоязычную генерацию речи и создание длинного контента с помощью голосов, учитывающих контекст. ^[56]^[57]

Синтезаторы речи на основе DNN приближаются к естественности человеческого голоса. Примерами недостатков метода являются низкая надежность при недостаточности данных, отсутствие управляемости и низкая производительность в авторегрессионных моделях.

Для тональных языков, таких как китайский или тайваньский языки, требуются разные уровни тонового сандхи , и иногда вывод синтезатора речи может приводить к ошибкам тонового сандхи. ^[58]

Аудио дипфейки

Аудиодипфейк (также известный как клонирование голоса или дипфейк - аудио) — это продукт искусственного интеллекта ^[59], используемый для создания убедительных речевых предложений, которые звучат так, как будто конкретные люди говорят то, чего они не говорили. ^[60]^[61]^[62] Эта технология изначально была разработана для различных приложений, чтобы улучшить жизнь человека. Например, ее можно использовать для создания аудиокниг, ^[63] а также для помощи людям, потерявшим голос (из-за заболеваний горла или других медицинских проблем), вернуть его. ^[64]^[65] С коммерческой точки зрения она открыла дверь для нескольких возможностей. Эта технология также может создавать более персонализированных цифровых помощников и естественно звучащие текст-в-речь, а также услуги по переводу речи .

В 2023 году репортер VICE Джозеф Кокс опубликовал результаты исследования, согласно которым он записал пять минут своего разговора, а затем использовал инструмент, разработанный ElevenLabs, для создания фальшивых голосов, которые обошли систему голосовой аутентификации банка . ^[66]

Вызовы

Проблемы нормализации текста

Процесс нормализации текста редко бывает простым. Тексты полны гетеронимов , чисел и сокращений , которые все требуют расширения в фонетическое представление. В английском языке существует много написаний, которые произносятся по-разному в зависимости от контекста. Например, «My latest project is to learn how to better project my voice» содержит два произношения слова «project».

Большинство систем преобразования текста в речь (TTS) не генерируют семантические представления своих входных текстов, поскольку процессы для этого ненадежны, плохо понятны и вычислительно неэффективны. В результате используются различные эвристические методы для угадывания правильного способа устранения неоднозначности омографов , например, изучение соседних слов и использование статистики о частоте встречаемости.

Недавно системы TTS начали использовать HMM (обсуждавшиеся выше) для генерации « частей речи », чтобы помочь в устранении неоднозначности омографов. Этот метод довольно успешен во многих случаях, например, когда «read» следует произносить как «red», подразумевая прошедшее время, или как «reed», подразумевая настоящее время. Типичные показатели ошибок при использовании HMM таким образом обычно составляют менее пяти процентов. Эти методы также хорошо работают для большинства европейских языков, хотя доступ к требуемым учебным корпусам часто затруднен в этих языках.

Еще одной проблемой, которую приходится решать системам TTS, является решение вопроса о том, как преобразовать числа. Это простая задача программирования — преобразовать число в слова (по крайней мере, на английском языке), например, «1325» становится «одна тысяча триста двадцать пять». Однако числа встречаются во многих различных контекстах; «1325» также может читаться как «один три два пять», «тринадцать двадцать пять» или «тринадцатьсот двадцать пять». Система TTS часто может сделать вывод о том, как расширить число, основываясь на окружающих словах, числах и знаках препинания, а иногда система предоставляет способ указать контекст, если он неоднозначен. ^[67] Римские цифры также могут читаться по-разному в зависимости от контекста. Например, «Генрих VIII» читается как «Генрих Восьмой», в то время как «Глава VIII» читается как «Глава Восьмая».

Аналогично, сокращения могут быть неоднозначными. Например, сокращение "in" для "inches" должно быть отделено от слова "in", а адрес "12 St John St." использует одно и то же сокращение для "Saint" и "Street". Системы TTS с интеллектуальными интерфейсами могут делать обоснованные предположения о неоднозначных сокращениях, в то время как другие выдают один и тот же результат во всех случаях, что приводит к бессмысленным (а иногда и комичным) выводам, например, " Ulysses S. Grant " отображается как "Ulysses South Grant".

Проблемы преобразования текста в фонему

Системы синтеза речи используют два основных подхода для определения произношения слова на основе его написания , процесс, который часто называют преобразованием текста в фонему или графемы в фонему ( фонема — это термин, используемый лингвистами для описания отличительных звуков в языке ). Самый простой подход к преобразованию текста в фонему — это подход на основе словаря, где большой словарь, содержащий все слова языка и их правильное произношение , хранится программой. Определение правильного произношения каждого слова заключается в поиске каждого слова в словаре и замене написания на произношение, указанное в словаре. Другой подход основан на правилах, в котором правила произношения применяются к словам для определения их произношения на основе их написания. Это похоже на подход «проговаривания» или синтетической фонетики к обучению чтению.

Каждый подход имеет свои преимущества и недостатки. Подход на основе словаря быстр и точен, но полностью терпит неудачу, если ему дано слово, которого нет в его словаре. По мере роста размера словаря растут и требования к объему памяти системы синтеза. С другой стороны, подход на основе правил работает с любыми входными данными, но сложность правил существенно возрастает, поскольку система учитывает нерегулярные написания или произношения. (Учтите, что слово "of" очень распространено в английском языке, но это единственное слово, в котором буква "f" произносится [v] .) В результате почти все системы синтеза речи используют комбинацию этих подходов.

Языки с фонематической орфографией имеют очень регулярную систему письма, и предсказание произношения слов на основе их написания является довольно успешным. Системы синтеза речи для таких языков часто широко используют метод, основанный на правилах, прибегая к словарям только для тех немногих слов, таких как иностранные имена и заимствованные слова, произношение которых не очевидно из их написания. С другой стороны, системы синтеза речи для таких языков, как английский, которые имеют крайне нерегулярные системы правописания, с большей вероятностью будут полагаться на словари и использовать методы, основанные на правилах, только для необычных слов или слов, которых нет в их словарях.

Проблемы оценки

Последовательная оценка систем синтеза речи может быть затруднена из-за отсутствия общепризнанных объективных критериев оценки. Разные организации часто используют разные речевые данные. Качество систем синтеза речи также зависит от качества производственной техники (которая может включать аналоговую или цифровую запись) и от оборудования, используемого для воспроизведения речи. Поэтому оценка систем синтеза речи часто ставилась под угрозу из-за различий между производственной техникой и оборудованием для воспроизведения.

Однако с 2005 года некоторые исследователи начали оценивать системы синтеза речи, используя общий набор речевых данных. ^[68]

Просодика и эмоциональное содержание

Исследование, проведенное Эми Драхотой и коллегами из Портсмутского университета ( Великобритания) в журнале Speech Communication , показало, что слушатели записей голоса могли определить с точностью, превышающей случайную, улыбался ли говорящий. ^[69]^[70]^[71] Было высказано предположение, что идентификация вокальных особенностей, которые сигнализируют об эмоциональном содержании, может использоваться для того, чтобы сделать синтезированную речь более естественной. Одной из связанных проблем является изменение контура высоты тона предложения в зависимости от того, является ли оно утвердительным, вопросительным или восклицательным предложением. Один из методов изменения высоты тона ^[72] использует дискретное косинусное преобразование в исходной области ( остаток линейного предсказания ). Такие методы синхронной модификации высоты тона требуют априорной маркировки высоты тона базы данных синтезированной речи с использованием таких методов, как извлечение эпох с использованием динамического индекса взрывного взрыва , применяемого к интегрированному остатку линейного предсказания вокализованных областей речи. ^[73] В целом, просодия остается проблемой для синтезаторов речи и является активной темой исследований.

Выделенное аппаратное обеспечение

Айкофон
Общий инструмент SP0256-AL2
National Semiconductor DT1050 Digitalker (Mozer – Форрест Мозер )
Речевые чипы LPC от Texas Instruments ^[74]

Аппаратные и программные системы

Популярные системы, предлагающие синтез речи как встроенную функцию.

Техасские инструменты

Демонстрация речи TI-99/4A с использованием встроенного словаря

В начале 1980-х годов TI была известна как пионер в области синтеза речи, и для TI-99/4 и 4A был доступен очень популярный подключаемый модуль синтезатора речи. Речевые синтезаторы предлагались бесплатно при покупке ряда картриджей и использовались во многих видеоиграх, написанных TI (игры, предлагаемые с речью во время этой акции, включали Alpiner и Parsec ). Синтезатор использует вариант линейного предиктивного кодирования и имеет небольшой встроенный словарь. Первоначально предполагалось выпустить небольшие картриджи, которые подключались бы непосредственно к блоку синтезатора, что увеличило бы встроенный словарь устройства. Однако успех программного преобразования текста в речь в картридже Terminal Emulator II отменил этот план.

Маттел

Игровая консоль Mattel Intellivision предложила модуль Intellivoice Voice Synthesis в 1982 году. Он включал в себя чип синтезатора речи SP0256 Narrator на съемном картридже. Narrator имел 2 КБ постоянной памяти (ROM), и это использовалось для хранения базы данных общих слов, которые можно было комбинировать для создания фраз в играх Intellivision. Поскольку чип Orator также мог принимать речевые данные из внешней памяти, любые необходимые дополнительные слова или фразы можно было хранить внутри самого картриджа. Данные состояли из строк коэффициентов аналогового фильтра для изменения поведения модели синтетического речевого тракта чипа, а не из простых оцифрованных образцов.

СЭМ

Демонстрация SAM на C64

Также выпущенная в 1982 году, Software Automatic Mouth была первой коммерческой программой для полностью программного синтеза голоса. Позднее она была использована в качестве основы для Macintalk . Программа была доступна для компьютеров Apple, отличных от Macintosh (включая Apple II и Lisa), различных моделей Atari и Commodore 64. Версия Apple предпочитала дополнительное оборудование, содержащее ЦАП, хотя вместо этого она могла использовать однобитный аудиовыход компьютера (с добавлением большого количества искажений), если карта отсутствовала. Atari использовала встроенный аудиочип POKEY. Воспроизведение речи на Atari обычно отключало запросы прерывания и отключало чип ANTIC во время голосового вывода. Звуковой вывод представляет собой чрезвычайно искаженную речь, когда экран включен. Commodore 64 использовал встроенный аудиочип SID 64.

Атари

Демонстрация синтеза речи Atari ST

Вероятно, первой речевой системой, интегрированной в операционную систему, были невыпущенные примерно в 1983 году компьютеры Atari 1400XL/1450XL . Они использовали чип Votrax SC01 и конечный автомат для включения синтеза текста в речь World English Spelling. ^[75]

Компьютеры Atari ST продавались с файлом «stspeech.tos» на дискете.

Яблоко

Демонстрация MacinTalk 1

Демонстрация MacinTalk 2 с голосами мистера Хьюза и Марвина

Первой речевой системой, интегрированной в операционную систему , которая поставлялась в больших количествах, была MacInTalk от Apple Computer . Программное обеспечение было лицензировано сторонними разработчиками Джозефом Кацем и Марком Бартоном (позже SoftVoice, Inc.) и было представлено во время представления компьютера Macintosh в 1984 году. Для этой январской демонстрации требовалось 512 килобайт оперативной памяти. В результате она не могла работать в 128 килобайтах оперативной памяти, с которыми фактически поставлялся первый Mac. ^[76] Итак, демонстрация была выполнена на прототипе 512k Mac, хотя присутствующим об этом не сообщили, и демонстрация синтеза вызвала значительный ажиотаж вокруг Macintosh. В начале 1990-х годов Apple расширила свои возможности, предложив общесистемную поддержку преобразования текста в речь. С появлением более быстрых компьютеров на базе PowerPC они включили более качественную выборку голоса. Apple также внедрила в свои системы распознавание речи , что обеспечило гибкий набор команд. Совсем недавно Apple добавила голоса на основе выборок. Начиная с диковинки, речевая система Apple Macintosh превратилась в полностью поддерживаемую программу PlainTalk для людей с проблемами зрения. VoiceOver впервые был представлен в 2005 году в Mac OS X Tiger (10.4). В течение 10.4 (Tiger) и первых выпусков 10.5 ( Leopard ) в Mac OS X был только один стандартный голос. Начиная с 10.6 ( Snow Leopard ), пользователь может выбирать из широкого списка нескольких голосов. Голоса VoiceOver включают реалистично звучащие вдохи между предложениями, а также улучшенную четкость при высоких скоростях чтения по сравнению с PlainTalk. Mac OS X также включает say, приложение на основе командной строки , которое преобразует текст в слышимую речь. Стандартные дополнения AppleScript включают глагол say, который позволяет скрипту использовать любой из установленных голосов и управлять высотой тона, скоростью речи и модуляцией произносимого текста.

Амазонка

Используется в Alexa и в качестве программного обеспечения как услуги в AWS ^[77] (с 2017 г.).

AmigaOS

Пример синтеза речи с помощью встроенной утилиты Say в Workbench 1.3

Второй операционной системой с расширенными возможностями синтеза речи была AmigaOS , представленная в 1985 году. Синтез голоса был лицензирован Commodore International у SoftVoice, Inc., которая также разработала оригинальную систему преобразования текста в речь MacinTalk . Она включала полную систему эмуляции голоса для американского английского языка с мужскими и женскими голосами и маркерами индикатора «стресса», что стало возможным благодаря аудиочипсету Amiga . [ ^78] Система синтеза была разделена на библиотеку переводчика, которая преобразовывала неограниченный английский текст в стандартный набор фонетических кодов, и устройство рассказчика, которое реализовывало формантную модель генерации речи. AmigaOS также включала высокоуровневый « Speak Handler », который позволял пользователям командной строки перенаправлять текстовый вывод в речь. Синтез речи иногда использовался в сторонних программах, в частности, в текстовых процессорах и образовательном программном обеспечении. Программное обеспечение синтеза оставалось в значительной степени неизменным с первого выпуска AmigaOS, и Commodore в конечном итоге удалил поддержку синтеза речи из AmigaOS 2.1 и далее.

Несмотря на ограничение фонем американского английского языка, была разработана неофициальная версия с многоязычным синтезом речи. Она использовала расширенную версию библиотеки переводчика, которая могла переводить несколько языков, учитывая набор правил для каждого языка. ^[79]

Майкрософт Виндоус

Современные настольные системы Windows могут использовать компоненты SAPI 4 и SAPI 5 для поддержки синтеза речи и распознавания речи . SAPI 4.0 был доступен как дополнительный модуль для Windows 95 и Windows 98. В Windows 2000 был добавлен Narrator , утилита преобразования текста в речь для людей с нарушениями зрения. Сторонние программы, такие как JAWS для Windows, Window-Eyes, Non-visual Desktop Access, Supernova и System Access, могут выполнять различные задачи преобразования текста в речь, такие как чтение вслух текста с указанного веб-сайта, учетной записи электронной почты, текстового документа, буфера обмена Windows, набора текста на клавиатуре пользователя и т. д. Не все программы могут использовать синтез речи напрямую. ^[80] Некоторые программы могут использовать подключаемые модули, расширения или модули для чтения текста вслух. Доступны сторонние программы, которые могут читать текст из системного буфера обмена.

Microsoft Speech Server — это серверный пакет для синтеза и распознавания голоса. Он предназначен для сетевого использования с веб-приложениями и колл-центрами .

Вотракс

Синтезатор речи Votrax Type 'N Talk (1980)

С 1971 по 1996 год Votrax производила ряд коммерческих компонентов синтезатора речи. Синтезатор Votrax был включен в первое поколение читающей машины Kurzweil для слепых.

Системы преобразования текста в речь

Текст в речь (TTS) относится к способности компьютеров читать текст вслух. Механизм TTS преобразует письменный текст в фонематическое представление, затем преобразует фонематическое представление в формы волн, которые могут быть выведены как звук. Механизмы TTS с различными языками, диалектами и специализированными словарями доступны через сторонних издателей. ^[81]

андроид

В версии Android 1.6 добавлена поддержка синтеза речи (TTS). ^[82]

Интернет

В настоящее время существует ряд приложений , плагинов и гаджетов, которые могут читать сообщения непосредственно из почтового клиента и веб-страницы из веб-браузера или панели инструментов Google . Некоторое специализированное программное обеспечение может озвучивать RSS-каналы . С одной стороны, онлайн-рассказчики RSS упрощают доставку информации, позволяя пользователям прослушивать любимые источники новостей и конвертировать их в подкасты . С другой стороны, онлайн-ридеры RSS доступны практически на любом персональном компьютере, подключенном к Интернету. Пользователи могут загружать сгенерированные аудиофайлы на портативные устройства, например, с помощью приемника подкастов , и слушать их во время ходьбы, пробежки или по дороге на работу.

Растущей областью в Интернет-ориентированном TTS является веб-ориентированная вспомогательная технология , например, «Browsealoud» от британской компании и Readspeaker . Она может предоставить функциональность TTS любому человеку (в целях доступности, удобства, развлечения или информации) с доступом к веб-браузеру. Некоммерческий проект Pediaphon был создан в 2006 году для предоставления аналогичного веб-ориентированного TTS-интерфейса для Википедии. ^[83]

Другая работа ведется в контексте W3C через Группу аудиоинкубатора W3C при участии BBC и Google Inc.

С открытым исходным кодом

Доступны некоторые системы программного обеспечения с открытым исходным кодом , такие как:

eSpeak , поддерживающий широкий спектр языков.
Система синтеза речи Festival , которая использует синтез на основе дифонов, а также более современные и звучащие технологии.
gnuspeech , который использует артикуляционный синтез ^[84] из Free Software Foundation .

Другие

После коммерческого провала аппаратной Intellivoice разработчики игр экономно использовали программный синтез в более поздних играх ^{[ нужна цитата ]} . Более ранние системы от Atari, такие как Atari 5200 (Baseball) и Atari 2600 ( Quadrun и Open Sesame), также имели игры, использующие программный синтез. ^{[ нужна цитата ]}
Некоторые устройства для чтения электронных книг , такие как Amazon Kindle , Samsung E6, PocketBook eReader Pro, enTourage eDGe и Bebook Neo.
В BBC Micro используется чип синтеза речи TMS5220 компании Texas Instruments.
Некоторые модели домашних компьютеров Texas Instruments, выпущенные в 1979 и 1981 годах ( Texas Instruments TI-99/4 и TI-99/4A ), были способны синтезировать текст в фонемы или произносить полные слова и фразы (текст в словарь), используя очень популярное периферийное устройство синтезатора речи. TI использовала собственный кодек для встраивания полных произнесенных фраз в приложения, в первую очередь в видеоигры. ^[85]
В состав OS/2 Warp 4 компании IBM входила система VoiceType, предшественник IBM ViaVoice .
Навигационные GPS- устройства производства Garmin , Magellan , TomTom и других используют синтез речи для автомобильной навигации.
В 1999 году Yamaha выпустила музыкальный синтезатор Yamaha FS1R , который включал в себя возможность синтеза формант. Последовательности до 512 отдельных гласных и согласных формант могли быть сохранены и воспроизведены, что позволяло синтезировать короткие вокальные фразы.

Цифровые звуковые аналоги

На конференции по системам обработки нейронной информации (NeurIPS) 2018 года исследователи из Google представили работу «Перенос обучения с проверки говорящего на многоговорящий синтез текста в речь», которая переносит обучение с проверки говорящего на достижение синтеза текста в речь, который может заставить звучать почти как кто угодно, используя речевой образец продолжительностью всего 5 секунд. ^[86]

Исследователи из Baidu Research также представили систему клонирования голоса с аналогичными целями на конференции NeurIPS 2018 года ^[87] , хотя результат оказался довольно неубедительным.

К 2019 году цифровые звукоподражатели попали в руки преступников, поскольку исследователям Symantec известно о трех случаях, когда технология цифровых звукоподражателей использовалась в преступных целях. ^[88]^[89]

Это усиливает напряжение в связи с ситуацией дезинформации в сочетании с теми фактами, что

С начала 2000-х годов синтез изображений человека достиг таких успехов, что человек уже не может отличить настоящего человека, снятого с помощью настоящей камеры, от его имитации, снятой с помощью имитации камеры.
В 2016 году были представлены методы подделки 2D-видео, которые позволяют практически в реальном времени подделывать выражения лиц в существующих 2D-видео. ^[90]
В SIGGRAPH 2017 исследователи из Вашингтонского университета представили цифровую модель верхней части туловища Барака Обамы, управляемую звуком . Она управлялась только голосовой дорожкой в качестве исходных данных для анимации после завершения фазы обучения для получения синхронизации губ и более широкой информации о лице из учебного материала, состоящего из 2D-видео со звуком. ^[91]

В марте 2020 года было выпущено бесплатное веб-приложение под названием 15.ai , которое генерирует высококачественные голоса из множества вымышленных персонажей из различных медиаисточников. ^[92] Первоначальными персонажами были GLaDOS из Portal , Twilight Sparkle и Fluttershy из шоу My Little Pony: Friendship Is Magic и Десятый Доктор из Doctor Who .

Языки разметки синтеза речи

Для представления текста в виде речи в формате, совместимом с XML , было создано несколько языков разметки . Самым последним из них является Speech Synthesis Markup Language (SSML), который стал рекомендацией W3C в 2004 году. Более старые языки разметки синтеза речи включают Java Speech Markup Language ( JSML ) и SABLE . Хотя каждый из них был предложен в качестве стандарта, ни один из них не получил широкого распространения. ^[^{необходима цитата}^]

Языки разметки синтеза речи отличаются от языков разметки диалогов. VoiceXML , например, включает теги, связанные с распознаванием речи, управлением диалогами и тональным набором, в дополнение к разметке преобразования текста в речь. ^{[ необходима цитата ]}

Приложения

Синтез речи уже давно является жизненно важным вспомогательным технологическим инструментом, и его применение в этой области является значительным и широко распространенным. Он позволяет устранить барьеры окружающей среды для людей с широким спектром инвалидности. Самое продолжительное применение было в использовании экранных дикторов для людей с нарушениями зрения, но системы преобразования текста в речь теперь широко используются людьми с дислексией и другими нарушениями чтения , а также детьми, не имеющими грамотности. ^[93] Они также часто используются для помощи людям с серьезными нарушениями речи , как правило, с помощью специального средства голосового вывода . ^[94] Работа по персонализации синтетического голоса для лучшего соответствия личности человека или историческому голосу становится доступной. ^[95] Известным применением синтеза речи была читающая машина Kurzweil для слепых , которая включала программное обеспечение преобразования текста в фонетику, основанное на работе Haskins Laboratories , и синтезатор черного ящика, созданный Votrax . ^[96]

Методы синтеза речи также используются в развлекательных постановках, таких как игры и анимация. В 2007 году Animo Limited объявила о разработке пакета программного обеспечения на основе своего программного обеспечения для синтеза речи FineSpeech, явно ориентированного на клиентов в индустрии развлечений, способного генерировать повествование и строки диалогов в соответствии с требованиями пользователя. ^[97] Приложение достигло зрелости в 2008 году, когда NEC Biglobe анонсировала веб-сервис, который позволяет пользователям создавать фразы из голосов персонажей из японского аниме- сериала Code Geass: Lelouch of the Rebellion R2 . ^[98] 15.ai часто использовался для создания контента в различных фэндомах , включая фэндом My Little Pony: Friendship Is Magic , фэндом Team Fortress 2 , фэндом Portal и фэндом SpongeBob SquarePants . ^{[ необходима цитата ]}

Широко доступны средства для преобразования текста в речь для людей с ограниченными возможностями и ослабленной коммуникацией. Преобразование текста в речь также находит новые применения; например, синтез речи в сочетании с распознаванием речи позволяет взаимодействовать с мобильными устройствами через интерфейсы обработки естественного языка . Некоторые пользователи также создали виртуальных помощников ИИ с помощью 15.ai и внешнего программного обеспечения для голосового управления. ^[99]^[100]

Текст в речь также используется для освоения второго языка. Например, Voki — это образовательный инструмент, созданный Oddcast, который позволяет пользователям создавать собственные говорящие аватары, используя разные акценты. Их можно отправлять по электронной почте, встраивать на веб-сайты или делиться в социальных сетях.

Создатели контента использовали инструменты клонирования голоса для воссоздания своих голосов для подкастов, ^[101]^[102] повествования, ^[103] и комедийных шоу. ^[104]^[105]^[106] Издатели и авторы также использовали такое программное обеспечение для озвучивания аудиокниг и информационных бюллетеней. ^[107]^[108] Другая область применения — создание видео с использованием ИИ с говорящими головами. Веб-приложения и видеоредакторы, такие как Elai.io или Synthesia, позволяют пользователям создавать видеоконтент с участием ИИ-аватаров, которые заставляют говорить с помощью технологии преобразования текста в речь. ^[109]^[110]

Синтез речи является ценным вычислительным средством для анализа и оценки речевых расстройств. Синтезатор качества голоса , разработанный Хорхе К. Лусеро и др. в Университете Бразилиа , имитирует физику фонации и включает модели дрожания и тремора голосовой частоты, шума воздушного потока и асимметрии гортани. ^[46] Синтезатор использовался для имитации тембра дисфонических ораторов с контролируемыми уровнями грубости, придыхания и напряжения. ^[47]

Синтез пения

В 2010-х годах технология синтеза пения воспользовалась последними достижениями в области искусственного интеллекта — глубокого слушания и машинного обучения, чтобы лучше представлять нюансы человеческого голоса. Новые библиотеки образцов высокой точности в сочетании с цифровыми звуковыми рабочими станциями облегчают редактирование в мельчайших деталях, например, смену форматов, настройку вибрато и корректировку гласных и согласных. Доступны библиотеки образцов для различных языков и различных акцентов. Благодаря сегодняшним достижениям в области синтеза вокала артисты иногда используют библиотеки образцов вместо бэк-вокалистов. ^[111]

Смотрите также

Ссылки

^ Аллен, Джонатан; Ханникатт, М. Шарон; Клатт, Деннис (1987). От текста к речи: система MITalk . Cambridge University Press. ISBN 978-0-521-30641-6.
^ Рубин, П.; Бэр, Т.; Мермельштейн, П. (1981). «Артикуляторный синтезатор для перцептивных исследований». Журнал акустического общества Америки . 70 (2): 321–328. Bibcode : 1981ASAJ...70..321R. doi : 10.1121/1.386780.
^ ван Сантен, Ян П.Х.; Спроат, Ричард В.; Олив, Джозеф П.; Хиршберг, Джулия (1997). Прогресс в синтезе речи . Спрингер. ISBN 978-0-387-94701-3.
^ Ван Сантен, Дж. (апрель 1994 г.). «Назначение сегментной длительности при синтезе текста в речь». Computer Speech & Language . 8 (2): 95–128. doi :10.1006/csla.1994.1005.
↑ История и развитие синтеза речи, Хельсинкский технологический университет, получено 4 ноября 2006 г.
^ Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine («Механизм человеческой речи с описанием ее говорящей машины», JB Degen, Вена). (на немецком языке)
^ Mattingly, Ignatius G. (1974). Sebeok, Thomas A. (ред.). "Speech synthesis for phonetic and phonological models" (PDF) . Current Trends in Linguistics . 12 . Mouton, The Hague: 2451–2487. Архивировано из оригинала (PDF) 2013-05-12 . Получено 2011-12-13 .
^ Klatt, D (1987). «Обзор преобразования текста в речь для английского языка». Журнал акустического общества Америки . 82 (3): 737–93. Bibcode : 1987ASAJ...82..737K. doi : 10.1121/1.395275. PMID 2958525.
↑ Ламберт, Брюс (21 марта 1992 г.). «Луи Герстман, 61 год, специалист по речевым расстройствам и процессам». The New York Times .
^ "Биография Артура С. Кларка". Архивировано из оригинала 11 декабря 1997 года . Получено 5 декабря 2017 года .
^ "Где "HAL" впервые заговорил (сайт Bell Labs Speech Synthesis)". Bell Labs. Архивировано из оригинала 2000-04-07 . Получено 2010-02-17 .
^ Антропоморфный говорящий робот Waseda-Talker Series Архивировано 2016-03-04 на Wayback Machine
^ Грей, Роберт М. (2010). «История цифровой речи в реальном времени в пакетных сетях: часть II линейного предиктивного кодирования и интернет-протокола» (PDF) . Найдено. Trends Signal Process . 3 (4): 203–303. doi : 10.1561/2000000036 . ISSN 1932-8346. Архивировано (PDF) из оригинала 2022-10-09.
^ Zheng, F.; Song, Z.; Li, L.; Yu, W. (1998). "The Distance Measure for Line Spectrum Pairs Applied to Speech Recognition" (PDF) . Труды 5-й Международной конференции по обработке устной речи (ICSLP'98) (3): 1123–6. Архивировано (PDF) из оригинала 2022-10-09.
^ ab "Список вех IEEE". IEEE . Получено 15 июля 2019 г. .
^ ab "Устная история Фумитада Итакура". IEEE Global History Network. 20 мая 2009 г. Получено 21 июля 2009 г.
^ Билли, Роберто; Канавесио, Франко; Чарамелла, Альберто ; Неббия, Лучано (1 ноября 1995 г.). «Интерактивная голосовая технология в действии: опыт CSELT». Речевое общение . 17 (3): 263–271. дои : 10.1016/0167-6393(95)00030-R.
^ Спроут, Ричард В. (1997). Многоязычный синтез текста в речь: подход Bell Labs . Springer. ISBN 978-0-7923-8027-6.
^ [TSI Speech+ и другие калькуляторы для говорения]
^ Геварьяху, Джонатан, [ "TSI S14001A Speech Synthesizer LSI Integrated Circuit Guide"] ^{[ мертвая ссылка ]}
^ Бреслоу и др. US 4326710 : «Говорящая электронная игра», 27 апреля 1982 г.
^ Голосовой шахматный претендент
^ Самые важные эволюции игр Архивировано 2011-06-15 в Wayback Machine , GamesRadar
^ Адлум, Эдди (ноябрь 1985 г.). «Годы повтора: размышления Эдди Адлума». RePlay . Том 11, № 2. стр. 134-175 (160-3).
^ Szczepaniak, Джон (2014). Нерассказанная история японских разработчиков игр . Том 1. SMG Szczepaniak. С. 544–615. ISBN 978-0992926007.
^ "Краткая история Computalker". Проект истории синтеза речи Смитсоновского института .
^ CadeMetz (2020-08-20). «Энн Сирдал, которая помогла дать компьютерам женский голос, умерла в возрасте 74 лет». The New York Times . Получено 23-08-2020 .
^ Курцвейл, Рэймонд (2005). Сингулярность рядом . Penguin Books . ISBN 978-0-14-303788-0.
^ Тейлор, Пол (2009). Синтез текста в речь . Кембридж, Великобритания: Cambridge University Press. стр. 3. ISBN 9780521899277.
^ Алан В. Блэк , Идеальный синтез для всех людей и во все времена. Семинар IEEE TTS 2002.
^ Джон Коминек и Алан В. Блэк . (2003). Базы данных CMU ARCTIC для синтеза речи. CMU-LTI-03-177. Институт языковых технологий, Школа компьютерных наук, Университет Карнеги-Меллона.
^ Джулия Чжан. Генерация языка и синтез речи в диалогах для изучения языка, магистерская диссертация, раздел 5.6 на стр. 54.
^ Уильям Ян Ван и Каллиррой Георгила. (2011). Автоматическое обнаружение неестественных сегментов на уровне слов в синтезе речи с выбором единиц, IEEE ASRU 2011.
^ "Pitch-Synchronous Overlap and Add (PSOLA) Synthesis". Архивировано из оригинала 22 февраля 2007 г. Получено 28 мая 2008 г.
^ Т. Дютуа, В. Пагель, Н. Пьерре, Ф. Батай, О. ван дер Врекен. Проект MBROLA: к созданию набора высококачественных синтезаторов речи для некоммерческих целей. Труды ICSLP , 1996.
^ Муралишанкар, Р.; Рамакришнан, АГ; Пратибха, П. (2004). «Модификация высоты тона с использованием DCT в исходной области». Речевая коммуникация . 42 (2): 143–154. doi :10.1016/j.specom.2003.05.001.
^ "Образование: Чудо Бронкса". Время . 1974-04-01. ISSN 0040-781X . Получено 2019-05-28 .
^ "1960 - Руди Робот - Майкл Фримен (американец)". cyberneticzoo.com . 2010-09-13 . Получено 2019-05-23 .
↑ New York Magazine. New York Media, LLC. 1979-07-30.
↑ Футурист. Мировое будущее общество. 1978. С. 359, 360, 361.
^ Л. Ф. Ламель , Ж. Л. Говен, Б. Праутс, К. Буйе, Р. Беш. Генерация и синтез широковещательных сообщений, Труды семинара ESCA-NATO и применение речевых технологий , сентябрь 1993 г.
↑ Дартмутский колледж: Музыка и компьютеры. Архивировано 8 июня 2011 г. в Wayback Machine , 1993 г.
^ Примеры включают Astro Blaster , Space Fury и Star Trek: Strategic Operations Simulator.
↑ Примеры включают «Звёздные войны» , «Firefox» , «Возвращение джедая» , «Дорожный бегун» , «Империя наносит ответный удар» , «Индиана Джонс и Храм судьбы» , «720°» , «Gauntlet» , «Gauntlet II» , «APB» , «Газетчик» , «RoadBlasters» , «Vindicators Part II», «Побег с планеты роботов-монстров» .
^ Джон Холмс и Венди Холмс (2001). Синтез и распознавание речи (2-е изд.). CRC. ISBN 978-0-7484-0856-6.
^ ab Lucero, JC; Schoentgen, J.; Behlau, M. (2013). "Физический синтез неупорядоченных голосов" (PDF) . Interspeech 2013 . Лион, Франция: Международная ассоциация речевой коммуникации: 587–591. doi :10.21437/Interspeech.2013-161. S2CID 17451802 . Получено 27 августа 2015 г. .
^ ab Englert, Marina; Madazio, Glaucya; Gielow, Ingrid; Lucero, Jorge; Behlau, Mara (2016). «Ошибка восприятия идентификации человеческих и синтезированных голосов». Journal of Voice . 30 (5): 639.e17–639.e23. doi :10.1016/j.jvoice.2015.07.017. PMID 26337775.
^ "Система синтеза речи на основе HMM". Hts.sp.nitech.ac.j. Архивировано из оригинала 2012-02-13 . Получено 2012-02-22 .
^ Remez, R.; Rubin, P.; Pisoni, D.; Carrell, T. (22 мая 1981 г.). «Восприятие речи без традиционных речевых сигналов» (PDF) . Science . 212 (4497): 947–949. Bibcode :1981Sci...212..947R. doi :10.1126/science.7233191. PMID 7233191. Архивировано из оригинала (PDF) 2011-12-16 . Получено 2011-12-14 .
^ Валле, Рафаэль (2020). «Меллотрон: синтез выразительного голоса для нескольких динамиков с помощью ритма, высоты тона и глобальных стилевых маркеров». arXiv : 1910.11997 [eess].
^ Куросава, Юки (19 января 2021 г.). "ゲームキャラ音声読み上げソフト「15.ai」公開中。『Undertale』や『Portal』のキャラに好きなセリフを言ってもらえる». АВТОМАТОН . Архивировано из оригинала 19 января 2021 г. Проверено 19 января 2021 г.
^ Ёсиюки, Фурусима (18 января 2021 г.). «『Portal』のGLaDOSや『UNDERTALE』のサンズがテキストを読み上げてくれる。文章に込められた感情まで再現することを目指すサービス「15.ai」が話題に». Denfaminicogamer . Архивировано из оригинала 18 января 2021 г. Получено 18.01.2021 .
^ "Генеративный ИИ приходит в кинодублирование: стартап ElevenLabs, занимающийся аудио-ИИ, привлекает предварительные инвестиции". Просеяно . 23 января 2023 г. Получено 03.02.2023 .
^ Эшворт, Бун (12 апреля 2023 г.). «ИИ может клонировать голос вашего любимого ведущего подкаста». Wired . Получено 25.04.2023 .
^ Сотрудники WIRED. «Этот подкаст не размещен клонами голоса ИИ. Мы клянемся». Wired . ISSN 1059-1028 . Получено 25.07.2023 .
^ Виггерс, Кайл (2023-06-20). «Платформа генерации голоса ElevenLabs привлекает $19 млн, запускает инструмент обнаружения». TechCrunch . Получено 25 июля 2023 г.
^ Бонк, Лоуренс. «Мощный новый инструмент искусственного интеллекта ElevenLabs позволяет вам создать полноценную аудиокнигу за считанные минуты». Lifewire . Получено 25 июля 2023 г.
^ Чжу, Цзянь (2020-05-25). «Исследование фонетических и фонологических знаний тонов в моделях TTS на китайском языке». Speech Prosody 2020. ISCA: ISCA: 930–934. arXiv : 1912.10915 . doi : 10.21437/speechprosody.2020-190. S2CID 209444942.
^ Смит, Ханна; Манстед, Кэтрин (1 апреля 2020 г.). Вооруженные дипфейки: Национальная безопасность и демократия . Том 28. Австралийский институт стратегической политики . С. 11–13. ISSN 2209-9689.{{cite book}}: CS1 maint: дата и год ( ссылка )
^ Лю, Сивэй (2020). «Deepfake Detection: Current Challenges and Next Steps». IEEE International Conference on Multimedia & Expo Workshops 2020 (ICMEW) . С. 1–6. arXiv : 2003.09234 . doi : 10.1109/icmew46912.2020.9105991. ISBN 978-1-7281-1485-9. S2CID 214605906 . Получено 29.06.2022 .
^ Диакопулос, Николас; Джонсон, Дебора (июнь 2020 г.). «Ожидание и решение этических последствий дипфейков в контексте выборов». Новые медиа и общество . 23 (7) (опубликовано 05.06.2020): 2072–2098. doi : 10.1177/1461444820925811. ISSN 1461-4448. S2CID 226196422.
^ Мерфи, Марджи (20 февраля 2024 г.). «Бум аудиоподдельных файлов использует искусственный интеллект стартапа стоимостью в миллиард долларов». Bloomberg.
^ Чадха, Анупама; Кумар, Вайбхав; Кашьяп, Сону; Гупта, Маянк (2021), Сингх, Прадип Кумар; Вежчонь, Славомир Т.; Танвар, Судип; Ганжа, Мария (ред.), «Deepfake: An Overview», Труды Второй международной конференции по вычислениям, коммуникациям и кибербезопасности , Lecture Notes in Networks and Systems, т. 203, Сингапур: Springer Singapore, стр. 557–566, doi :10.1007/978-981-16-0733-2_39, ISBN 978-981-16-0732-5, S2CID 236666289 , получено 2022-06-29
^ «ИИ вернул Вэлу Килмеру его голос. Но критики опасаются, что технология может быть использована не по назначению». Washington Post . ISSN 0190-8286 . Получено 29.06.2022 .
^ Этьен, Ванесса (19 августа 2021 г.). «Вэл Килмер вернул себе голос после борьбы с раком горла с помощью технологии искусственного интеллекта: узнайте результаты». PEOPLE.com . Получено 01.07.2022 .
^ Ньюман, Лили Хей. «Голосовые подделки, созданные искусственным интеллектом, пока не так уж и хороши». Wired . ISSN 1059-1028 . Получено 25 июля 2023 г.
^ "Синтез речи". Организация Всемирной паутины.
^ "Blizzard Challenge". Festvox.org . Получено 22.02.2012 .
^ «Улыбнись — и мир тебя услышит». Университет Портсмута. 9 января 2008 г. Архивировано из оригинала 17 мая 2008 г.
^ «Улыбнись – и мир услышит тебя, даже если ты спрячешься». Science Daily . Январь 2008 г.
^ Drahota, A. (2008). «Голосовая коммуникация разных видов улыбок» (PDF) . Речевая коммуникация . 50 (4): 278–287. doi :10.1016/j.specom.2007.10.001. S2CID 46693018. Архивировано из оригинала (PDF) 2013-07-03.
^ Муралишанкар, Р.; Рамакришнан, АГ; Пратибха, П. (февраль 2004 г.). «Модификация высоты тона с использованием DCT в исходной области». Речевая коммуникация . 42 (2): 143–154. doi :10.1016/j.specom.2003.05.001.
^ Пратош, AP; Рамакришнан, AG; Анантападманабха, TV (декабрь 2013 г.). «Извлечение эпох на основе остатка интегрированного линейного предсказания с использованием индекса plosion». IEEE Trans. Обработка языка аудиоречи . 21 (12): 2471–2480. doi :10.1109/TASL.2013.2273717. S2CID 10491251.
^ EE Times. «TI прекратит выпуск специализированных чипов для синтеза речи и переведет продукцию в Sensory. Архивировано 28 мая 2012 г. на Wayback Machine ». 14 июня 2001 г.
^ "1400XL/1450XL Speech Handler External Reference Specification" (PDF) . Архивировано из оригинала (PDF) 2012-03-24 . Получено 2012-02-22 .
^ "Как здорово выбраться из этой сумки!". folklore.org . Получено 24.03.2013 .
^ "Amazon Polly". Amazon Web Services, Inc. Получено 28.04.2020 .
^ Майнер, Джей и др. (1991). Amiga Hardware Reference Manual (3-е изд.). Addison-Wesley Publishing Company, Inc. ISBN 978-0-201-56776-2.
^ Девитт, Франческо (30 июня 1995 г.). "Библиотека переводчика (многоязычная версия)". Архивировано из оригинала 26 февраля 2012 г. Получено 9 апреля 2013 г.
^ "Учебники по специальным возможностям для Windows XP: использование экранного диктора". Microsoft. 2011-01-29. Архивировано из оригинала 21 июня 2003 г. Получено 2011-01-29 .
^ "Как настроить и использовать функцию преобразования текста в речь в Windows XP и Windows Vista". Microsoft. 2007-05-07 . Получено 2010-02-17 .
^ Жан-Мишель Триви (23.09.2009). «Введение в преобразование текста в речь в Android». Android-developers.blogspot.com . Получено 17.02.2010 .
^ Андреас Бишофф, The Pediaphon – речевой интерфейс к бесплатной энциклопедии Wikipedia для мобильных телефонов, КПК и MP3-плееров, Труды 18-й Международной конференции по приложениям баз данных и экспертных систем, Страницы: 575–579 ISBN 0-7695-2932-1 , 2007
^ "gnuspeech". Gnu.org . Получено 2010-02-17 .
^ "Smithsonian Speech Synthesis History Project (SSSHP) 1986–2002". Mindspring.com. Архивировано из оригинала 2013-10-03 . Получено 2010-02-17 .
^ Цзя, Йе; Чжан, Ю; Вайс, Рон Дж. (2018-06-12), «Перенос обучения с проверки говорящего на многоговорящий синтез текста в речь», Достижения в нейронных системах обработки информации , 31 : 4485–4495, arXiv : 1806.04558
^ Арик, Серкан О.; Чэнь, Цзитонг; Пэн, Кайнан; Пин, Вэй; Чжоу, Яньци (2018), «Нейронное клонирование голоса с помощью нескольких образцов», Достижения в области нейронных систем обработки информации , 31 , arXiv : 1802.06006
^ «Поддельные голоса «помогают киберпреступникам красть деньги». bbc.com . BBC . 2019-07-08 . Получено 2019-09-11 .
^ Дрю, Харвелл (2019-09-04). «Первый искусственный интеллект: программное обеспечение, имитирующее голос, как сообщается, использовалось при крупной краже». Washington Post . Получено 2019-09-08 .
^ Thies, Justus (2016). "Face2Face: захват лиц в реальном времени и реконструкция видео RGB". Proc. Computer Vision and Pattern Recognition (CVPR), IEEE . Получено 18 июня 2016 г.
^ Suwajanakorn, Supasorn; Seitz, Steven; Kemelmacher-Shlizerman, Ira (2017), Synthesizing Obama: Learning Lip Sync from Audio, Университет Вашингтона , получено 2018-03-02
^ Нг, Эндрю (2020-04-01). «Голосовое клонирование для масс». deeplearning.ai . The Batch. Архивировано из оригинала 2020-08-07 . Получено 2020-04-02 .
^ Брунов, Дэвид А.; Каллен, Тереза А. (2021-07-03). «Влияние преобразования текста в речь и чтения человеком на понимание на слух у учащихся с трудностями в обучении». Компьютеры в школах . 38 (3): 214–231. doi : 10.1080/07380569.2021.1953362. hdl : 11244/316759 . ISSN 0738-0569. S2CID 243101945.
^ Триандафилиди, Иоанис И.; Татарникова, ТМ; Попонин, А.С. (2022-05-30). «Система синтеза речи для людей с ограниченными возможностями». 2022 Волновая электроника и ее применение в информационно-телекоммуникационных системах (WECONF) . Санкт-Петербург, Российская Федерация: IEEE. стр. 1–5. doi :10.1109/WECONF55058.2022.9803600. ISBN 978-1-6654-7083-4. S2CID 250118756.
^ Чжао, Юньсинь; Сун, Мингуан; Юэ, Янхао; Курувилла-Дугдейл, Мили (2021-07-27). «Персонализация голосов TTS для прогрессирующей дизартрии». Международная конференция IEEE EMBS по биомедицинской и медицинской информатике (BHI) 2021 года . Афины, Греция: IEEE. стр. 1–4. doi :10.1109/BHI50953.2021.9508522. ISBN 978-1-6654-0358-0. S2CID 236982893.
^ «Эволюция читающих машин для слепых: исследование Haskins Laboratories как история болезни» (PDF) . Журнал исследований и разработок в области реабилитации . 21 (1). 1984.
^ "Анонсировано программное обеспечение для синтеза речи для аниме". Anime News Network . 2007-05-02 . Получено 2010-02-17 .
^ "Code Geass Speech Synthesizer Service Offered in Japan". Animenewsnetwork.com. 2008-09-09 . Получено 2010-02-17 .
^ Куросава, Юки (19 января 2021 г.). "ゲームキャラ音声読み上げソフト「15.ai」公開中。『Undertale』や『Portal』のキャラに好きなセリフを言ってもらえる». АВТОМАТОН . Архивировано из оригинала 19 января 2021 г. Проверено 19 января 2021 г.
^ Ёсиюки, Фурусима (18 января 2021 г.). «『Portal』のGLaDOSや『UNDERTALE』のサンズがテキストを読み上げてくれる。文章に込められた感情まで再現することを目指すサービス「15.ai」が話題に». Denfaminicogamer . Архивировано из оригинала 18 января 2021 г. Получено 18.01.2021 .
^ "А теперь послушайте это: стартап ElevenLabs, занимающийся клонированием голоса, получил $19 млн от a16z и других крупных игроков". VentureBeat . 2023-06-20 . Получено 25-07-2023 .
^ "Sztuczna inteligencja czyta głosem Jarosława Kuźniara. Rewolucja w radiu i podcastach" . Press.pl (на польском языке). 9 апреля 2023 г. . Проверено 25 апреля 2023 г.
^ Эшворт, Бун (12 апреля 2023 г.). «ИИ может клонировать голос вашего любимого ведущего подкаста». Wired . Получено 25.04.2023 .
^ Ниббс, Кейт. «Подкасты о генеративном ИИ уже здесь. Приготовьтесь к скуке». Wired . ISSN 1059-1028 . Получено 25 июля 2023 г.
^ Сучиу, Питер. «Пародия на «Arrested Succession» на YouTube содержит «закадровый текст» Рона Ховарда, созданный с помощью искусственного интеллекта». Forbes . Получено 25 июля 2023 г.
^ Фадулу, Лола (2023-07-06). «Может ли ИИ быть смешным? Эта труппа так думает». The New York Times . ISSN 0362-4331 . Получено 2023-07-25 .
^ Канеткар, Риддхи. «Горячий стартап в области искусственного интеллекта ElevenLabs, основанный бывшими сотрудниками Google и Palantir, собирается привлечь 18 миллионов долларов при оценке в 100 миллионов долларов. Ознакомьтесь с 14-слайдовой презентацией, которую он использовал для своего предварительного посева в размере 2 миллионов долларов». Business Insider . Получено 25 июля 2023 г.
^ «Компания, занимающаяся созданием голосов с помощью искусственного интеллекта, принимает меры после того, как 4chan использует голоса знаменитостей для злоупотреблений». www.vice.com . 30 января 2023 г. . Получено 03.02.2023 .
^ "Использование преобразования текста в речь при генерации видео с помощью ИИ". elai.io . Получено 10 августа 2022 г. .
^ "AI Text to speech for videos". synthesia.io . Получено 12 октября 2023 г. .
^ Бруно, Челси А. (2014-03-25). Вокальный синтез и глубокое слушание (диссертация на степень магистра музыки). Международный университет Флориды. doi : 10.25148/etd.fi14040802 .

Внешние ссылки

На Викискладе есть медиафайлы по теме Синтез речи .

Синтез речи в Curlie
Имитация пения с помощью поющего робота Pavarobotti или описание от BBC того, как робот синтезировал пение.