stringtranslate.com

Синтез речи

Синтез речи – это искусственное производство человеческой речи . Компьютерная система, используемая для этой цели, называется синтезатором речи и может быть реализована в программных или аппаратных продуктах. Система преобразования текста в речь ( TTS ) преобразует обычный языковой текст в речь; другие системы преобразуют в речь символические лингвистические представления , такие как фонетическая транскрипция . [1] Обратный процесс — распознавание речи .

Синтезированная речь может быть создана путем объединения фрагментов записанной речи, хранящихся в базе данных . Системы различаются размером хранимых речевых единиц; система, в которой хранятся телефоны или дифоны , обеспечивает самый большой диапазон выходного сигнала, но может не иметь четкости. Для определенных областей использования хранение целых слов или предложений позволяет получить высококачественный результат. Альтернативно, синтезатор может включать в себя модель речевого тракта и других характеристик человеческого голоса для создания полностью «синтетического» голосового вывода. [2]

О качестве синтезатора речи судят по его сходству с человеческим голосом и способности четко понимать его. Разборчивая программа преобразования текста в речь позволяет людям с нарушениями зрения или нарушениями чтения слушать написанные слова на домашнем компьютере. Многие компьютерные операционные системы включают в себя синтезаторы речи с начала 1990-х годов.

Обзор типичной системы TTS

Система преобразования текста в речь (или «движок » ) состоит из двух частей: [3] внешней и внутренней частей . Передняя часть имеет две основные задачи. Во-первых, он преобразует необработанный текст, содержащий такие символы, как цифры и сокращения, в эквивалент написанных слов. Этот процесс часто называют нормализацией текста , предварительной обработкой или токенизацией . Затем интерфейсная часть назначает фонетическую транскрипцию каждому слову, а также разделяет и размечает текст на просодические единицы , такие как фразы , предложения и предложения . Процесс присвоения фонетических транскрипций словам называется преобразованием текста в фонему или графемы в фонему . Фонетическая транскрипция и просодическая информация вместе составляют символическое лингвистическое представление, которое выводится внешним интерфейсом. Серверная часть, часто называемая синтезатором , затем преобразует символическое лингвистическое представление в звук. В некоторых системах эта часть включает в себя вычисление целевой просодии (контура высоты тона, длительности фонем) [4] , которая затем накладывается на выходную речь.

История

Задолго до изобретения электронной обработки сигналов некоторые люди пытались создать машины, имитирующие человеческую речь. Некоторые ранние легенды о существовании « Медных голов » касались Папы Сильвестра II (ум. 1003 г. н.э.), Альберта Великого (1198–1280) и Роджера Бэкона (1214–1294).

В 1779 году немецко - датский учёный Кристиан Готлиб Краценштейн выиграл первую премию на конкурсе, объявленном Российской Императорской Академией наук и художеств, за построенные им модели речевого тракта человека , способные воспроизводить пять долгих гласных звуков (в обозначениях Международного фонетического алфавита). : [aː] , [eː] , [iː] , [oː] и [uː] ). [5] Затем последовала « акустико-механическая речевая машина » с сильфонным приводом Вольфганга фон Кемпелена из Прессбурга , Венгрия, описанная в статье 1791 года. [6] Эта машина добавила модели языка и губ, что позволило ей воспроизводить как согласные, так и гласные. В 1837 году Чарльз Уитстон изготовил «говорящую машину» по конструкции фон Кемпелена, а в 1846 году Джозеф Фабер выставил «Эуфонию » . В 1923 году Пейджет возродил дизайн Уитстона. [7]

В 1930-х годах лаборатория Белла разработала вокодер , который автоматически анализировал речь на ее основные тона и резонансы. На основе своей работы над вокодером Гомер Дадли разработал клавиатурный синтезатор голоса под названием The Voder (Voice Demonstrator), который он продемонстрировал на Всемирной выставке в Нью-Йорке в 1939 году .

Доктор Франклин С. Купер и его коллеги из Haskins Laboratories создали устройство воспроизведения паттернов в конце 1940-х годов и завершили его в 1950 году. Существовало несколько различных версий этого аппаратного устройства; в настоящее время выживает только один. Машина преобразует изображения акустических паттернов речи в виде спектрограммы обратно в звук. Используя это устройство, Элвин Либерман и его коллеги обнаружили акустические сигналы для восприятия фонетических сегментов (согласных и гласных).

Электронные устройства

Корпус компьютера и синтезатора речи, использовавшийся Стивеном Хокингом в 1999 году.

Первые компьютерные системы синтеза речи возникли в конце 1950-х годов. Норико Умеда и др. разработал первую систему преобразования текста в речь на общем английском языке в 1968 году в Электротехнической лаборатории в Японии. [8] В 1961 году физик Джон Ларри Келли-младший и его коллега Луи Герстман [9] использовали компьютер IBM 704 для синтеза речи, и это событие было одним из самых выдающихся в истории Bell Labs . [ нужна цитация ] Синтезатор диктофона Келли ( вокодер ) воссоздал песню « Daisy Bell », с музыкальным сопровождением от Макса Мэтьюза . По совпадению, Артур Кларк гостил у своего друга и коллеги Джона Пирса в лаборатории Bell Labs в Мюррей-Хилл. Кларк был настолько впечатлен демонстрацией, что использовал ее в кульминационной сцене сценария своего романа « 2001: Космическая одиссея» , [10] где компьютер HAL 9000 поет ту же песню, которую астронавт Дэйв Боуман усыпляет. [11] Несмотря на успех чисто электронного синтеза речи, исследования механических синтезаторов речи продолжаются. [12] [ нужен сторонний источник ]

Линейное предсказательное кодирование (LPC), форма речевого кодирования , начало развиваться с работы Фумитады Итакуры из Нагойского университета и Сюдзо Сайто из Nippon Telegraph and Telephone (NTT) в 1966 году. Дальнейшие разработки в технологии LPC были сделаны Бишну С. Аталом. и Манфред Р. Шредер из Bell Labs в 1970-е годы. [13] Позже LPC стал основой для ранних микросхем синтезаторов речи, таких как речевые чипы LPC от Texas Instruments, используемые в игрушках Speak & Spell с 1978 года.

В 1975 году Фумитада Итакура разработал метод линейных спектральных пар (LSP) для кодирования речи с высокой степенью сжатия, находясь в NTT. [14] [15] [16] С 1975 по 1981 год Итакура изучал проблемы анализа и синтеза речи на основе метода LSP. [16] В 1980 году его команда разработала чип синтезатора речи на основе LSP. LSP является важной технологией синтеза и кодирования речи, и в 1990-х годах она была принята почти всеми международными стандартами кодирования речи в качестве важного компонента, способствуя совершенствованию цифровой речевой связи по мобильным каналам и Интернету. [15]

В 1975 году была выпущена MUSA , которая стала одной из первых систем синтеза речи. Он состоял из автономного компьютерного оборудования и специализированного программного обеспечения, позволяющего читать по-итальянски. Вторая версия, выпущенная в 1978 году, также могла петь по-итальянски в стиле « а капелла ». [17]

Демо-запись DECtalk с использованием голосов Perfect Paul и Uppity Ursula.

Доминирующими системами в 1980-х и 1990-х годах были система DECtalk , основанная в основном на работах Денниса Клатта из Массачусетского технологического института, и система Bell Labs; [18] последняя была одной из первых многоязычных, независимых от языка систем, широко использующих методы обработки естественного языка .

Fidelity Voice Chess Challenger (1979), первый говорящий шахматный компьютер
Речевой вывод Fidelity Voice Chess Challenger

Портативная электроника с синтезатором речи начала появляться в 1970-х годах. Одним из первых был портативный калькулятор Speech+ для слепых Telesensory Systems Inc. (TSI) в 1976 году. [19] [20] Другие устройства преследовали в первую очередь образовательные цели, например игрушка Speak & Spell , выпущенная Texas Instruments в 1978 году . 21] Fidelity выпустила говорящую версию своего электронного шахматного компьютера в 1979 году. [22] Первой видеоигрой , в которой использовался синтез речи , была аркадная игра -стрелялка 1980 года Stratovox (известная в Японии как Speak & Rescue ) от Sun Electronics. . [23] [24] Первой компьютерной игрой с синтезатором речи была Manbiki Shoujo ( «Девушка-воровка »), выпущенная в 1980 году для PET 2001 , для которой разработчик игры Хироши Судзуки разработал технику программирования « нулевого креста » для создания синтезированная речевая волна. [25] Другой ранний пример, аркадная версия Berzerk , также датируется 1980 годом. Компания Milton Bradley выпустила первую многопользовательскую электронную игру с использованием синтеза голоса, Milton , в том же году.

Ранние электронные синтезаторы речи звучали как роботы и часто были едва разборчивы. Качество синтезированной речи неуклонно улучшается, но по состоянию на 2016 год выходные данные современных систем синтеза речи по-прежнему четко отличаются от реальной человеческой речи.

Синтезированные голоса обычно звучали мужскими до 1990 года, когда Энн Сирдал из AT&T Bell Laboratories создала женский голос. [26]

В 2005 году Курцвейл предсказал, что, поскольку соотношение цены и качества привело к тому, что синтезаторы речи стали дешевле и доступнее, больше людей выиграют от использования программ преобразования текста в речь. [27]

Синтезаторные технологии

Важнейшими качествами системы синтеза речи являются естественность и разборчивость . [28] Естественность характеризует то, насколько близко вывод похож на человеческую речь, а разборчивость — это легкость, с которой вывод воспринимается. Идеальный синтезатор речи одновременно естественен и понятен. Системы синтеза речи обычно пытаются максимизировать обе характеристики.

Двумя основными технологиями, генерирующими синтетические речевые сигналы, являются конкатенативный синтез и формантный синтез . У каждой технологии есть сильные и слабые стороны, и предполагаемое использование системы синтеза обычно определяет, какой подход используется.

Синтез конкатенации

Конкатенативный синтез основан на конкатенации (связывании) сегментов записанной речи. Как правило, конкатенативный синтез дает наиболее естественно звучащую синтезированную речь. Однако различия между естественными изменениями речи и характером автоматизированных методов сегментации сигналов иногда приводят к слышимым сбоям на выходе. Существует три основных подтипа конкатенативного синтеза.

Синтез выбора единиц измерения

Синтез выбора единиц измерения использует большие базы данных записанной речи. Во время создания базы данных каждое записанное высказывание сегментируется на некоторые или все из следующих элементов: отдельные звуки , дифоны , полуфоны, слоги , морфемы , слова , фразы и предложения . Обычно разделение на сегменты выполняется с помощью специально модифицированного распознавателя речи , установленного в режим «принудительного выравнивания» с последующей ручной коррекцией, с использованием визуальных представлений, таких как форма волны и спектрограмма . [29] Затем создается индекс единиц в базе данных речи на основе сегментации и акустических параметров, таких как основная частота ( высота тона ), длительность , положение в слоге и соседние звуки. Во время выполнения желаемое целевое высказывание создается путем определения лучшей цепочки возможных единиц из базы данных (выбор единицы). Этот процесс обычно достигается с помощью специально взвешенного дерева решений .

Выбор единиц измерения обеспечивает максимальную естественность, поскольку к записанной речи применяется лишь небольшая часть цифровой обработки сигналов (DSP). DSP часто делает звук записанной речи менее естественным, хотя некоторые системы используют небольшую обработку сигнала в точке конкатенации для сглаживания формы сигнала. Результаты лучших систем выбора единиц часто неотличимы от реальных человеческих голосов, особенно в контекстах, для которых была настроена система TTS. Однако максимальная естественность обычно требует, чтобы базы данных речевых данных с выбором единиц были очень большими, в некоторых системах до гигабайт записанных данных, что соответствует десяткам часов речи. [30] Также известно, что алгоритмы выбора единиц выбирают сегменты из того места, что приводит к далеко не идеальному синтезу (например, второстепенные слова становятся неясными), даже если в базе данных существует лучший выбор. [31] Недавно исследователи предложили различные автоматизированные методы обнаружения неестественных сегментов в системах синтеза речи с выбором единиц. [32]

Дифонный синтез

Синтез дифонов использует минимальную речевую базу данных, содержащую все дифоны (переходы между звуками), встречающиеся в языке. Количество дифонов зависит от фонотактики языка: например, в испанском языке около 800 дифонов, а в немецком - около 2500. При синтезе дифонов в речевой базе данных содержится только один пример каждого дифона. Во время выполнения целевая просодия предложения накладывается на эти минимальные единицы с помощью методов цифровой обработки сигналов , таких как кодирование с линейным предсказанием , PSOLA [33] или MBROLA . [34] или более поздние методы, такие как изменение высоты тона в исходной области с использованием дискретного косинусного преобразования . [35] Синтез дифонов страдает от звуковых сбоев конкатенативного синтеза и роботизированного характера формантного синтеза и имеет мало преимуществ любого подхода, кроме небольшого размера. Таким образом, его использование в коммерческих приложениях сокращается, хотя его продолжают использовать в исследованиях , поскольку существует ряд свободно доступных программных реализаций . Ранним примером синтеза дифонов является обучающий робот Leachim, изобретенный Майклом Дж. Фриманом . [36] Leachim содержал информацию об учебной программе класса и определенную биографическую информацию об учениках, для обучения которых он был запрограммирован. [37] Оно было протестировано в четвертом классе в Бронксе, Нью-Йорк . [38] [39]

Доменно-специфичный синтез

Специализированный для предметной области синтез объединяет заранее записанные слова и фразы для создания законченных высказываний. Он используется в приложениях, где разнообразие текстов, выводимых системой, ограничено определенным доменом, например, объявления о расписании общественного транспорта или сводки погоды. [40] Эту технологию очень просто реализовать, и она уже давно используется в коммерческих целях в таких устройствах, как говорящие часы и калькуляторы. Уровень естественности этих систем может быть очень высоким, поскольку разнообразие типов предложений ограничено, и они точно соответствуют просодии и интонации оригинальных записей. [ нужна цитата ]

Поскольку эти системы ограничены количеством слов и фраз в своих базах данных, они не являются универсальными и могут синтезировать только те комбинации слов и фраз, которые были заранее запрограммированы. Однако смешение слов в естественном разговорном языке все равно может вызвать проблемы, если не принять во внимание множество вариаций. Например, в неротических диалектах английского языка буква «r» в таких словах, как «clear» /ˈklɪə/, обычно произносится только тогда, когда в следующем слове в качестве первой буквы стоит гласная (например, «clear out» реализуется как /ˌklɪəɹˈʌʊt/). ). Аналогично во французском языке многие конечные согласные перестают молчать, если за ними следует слово, начинающееся с гласной — эффект, называемый связью . Это чередование не может быть воспроизведено с помощью простой системы конкатенации слов, которая потребует дополнительной сложности, чтобы быть контекстно-зависимой .

Формантный синтез

Формантный синтез не использует образцы человеческой речи во время выполнения. Вместо этого синтезированный речевой вывод создается с использованием аддитивного синтеза и акустической модели ( синтез физического моделирования ). [41] Такие параметры, как основная частота , тембр голоса и уровни шума , изменяются со временем, создавая форму волны искусственной речи. Этот метод иногда называют синтезом на основе правил ; однако многие конкатенативные системы также имеют компоненты, основанные на правилах. Многие системы, основанные на технологии формантного синтеза, генерируют искусственную, роботизированную речь, которую никогда нельзя спутать с человеческой речью. Однако максимальная естественность не всегда является целью системы синтеза речи, и системы формантного синтеза имеют преимущества перед конкатенативными системами. Формантно-синтезированная речь может быть надежно разборчивой даже на очень высоких скоростях, избегая акустических сбоев, которые обычно мешают конкатенативным системам. Высокоскоростная синтезированная речь используется слабовидящими для быстрой навигации по компьютеру с помощью программы чтения с экрана . Формантные синтезаторы обычно представляют собой программы меньшего размера, чем конкатенативные системы, поскольку у них нет базы данных образцов речи. Поэтому их можно использовать во встроенных системах , где память и мощность микропроцессора особенно ограничены. Поскольку системы на основе формант полностью контролируют все аспекты выходной речи, можно выводить самые разнообразные просодии и интонации , передавая не только вопросы и утверждения, но и различные эмоции и тона голоса.

Примеры нереального, но высокоточного управления интонацией при синтезе формант включают работу, проделанную в конце 1970-х годов для игрушки Texas Instruments Speak & Spell , а также в начале 1980-х годов для аркадных автоматов Sega [42] и во многих Atari, Inc. аркадные игры [43] с использованием чипов TMS5220 LPC . Создание правильной интонации для этих проектов было кропотливым процессом, и результаты еще не были подтверждены интерфейсами преобразования текста в речь в реальном времени. [44]

Артикуляционный синтез

Артикуляционный синтез — это вычислительные методы синтеза речи, основанные на моделях речевого тракта человека и происходящих там артикуляционных процессов. Первый артикуляционный синтезатор, регулярно используемый для лабораторных экспериментов, был разработан в лабораториях Хаскинса в середине 1970-х годов Филипом Рубином , Томом Баером и Полом Мермельштейном. Этот синтезатор, известный как ASY, был основан на моделях голосового тракта, разработанных в Bell Laboratories в 1960-х и 1970-х годах Полом Мермельштейном, Сесилом Кокером и его коллегами.

До недавнего времени модели артикуляционного синтеза не были включены в коммерческие системы синтеза речи. Заметным исключением является система на базе NeXT , первоначально разработанная и продаваемая Trillium Sound Research, дочерней компанией Университета Калгари , где была проведена большая часть первоначальных исследований. После упадка различных воплощений NeXT (начатой ​​Стивом Джобсом в конце 1980-х годов и объединенной с Apple Computer в 1997 году) программное обеспечение Trillium было опубликовано под лицензией GNU General Public License, а работа продолжалась как gnuspech . Система, впервые представленная на рынке в 1994 году, обеспечивает полное артикуляционное преобразование текста в речь с использованием волновода или аналога линии передачи ротового и носового трактов человека, управляемого «моделью отличительной области» Карре.

Более поздние синтезаторы, разработанные Хорхе К. Лусеро и его коллегами, включают модели биомеханики голосовых связок, голосовой аэродинамики и распространения акустических волн в бронхах, трахее, носовой и ротовой полостях и, таким образом, представляют собой полноценные системы моделирования речи на основе физики. [45] [46]

Синтез на основе HMM

Синтез на основе HMM — это метод синтеза, основанный на скрытых марковских моделях , также называемый статистическим параметрическим синтезом. В этой системе частотный спектр ( голосовой тракт ), основная частота (источник голоса) и длительность ( просодия ) речи моделируются одновременно с помощью HMM. Речевые сигналы генерируются из самих HMM на основе критерия максимального правдоподобия . [47]

Синусоидальный синтез

Синусоидальный синтез — это метод синтеза речи путем замены формант (основных полос энергии) чистыми тонами свиста. [48]

Синтез на основе глубокого обучения

Синтез речи с глубоким обучением использует глубокие нейронные сети (DNN) для создания искусственной речи из текста (текст в речь) или спектра (вокодер). Глубокие нейронные сети обучаются с использованием большого количества записанной речи и, в случае системы преобразования текста в речь, связанных с ней меток и/или входного текста.

15.ai использует модель с несколькими динамиками — сотни голосов обучаются одновременно, а не последовательно, что сокращает необходимое время обучения и позволяет модели изучать и обобщать общий эмоциональный контекст, даже для голосов, не подвергающихся воздействию такого эмоционального контекста. [49] Модель глубокого обучения , используемая приложением, является недетерминированной : каждый раз, когда речь генерируется из одной и той же текстовой строки, интонация речи будет немного отличаться. Приложение также поддерживает ручное изменение эмоций сгенерированной строки с помощью эмоциональных контекстуализаторов (термин, придуманный в рамках этого проекта), предложения или фразы, передающей эмоции дубля, которые служат руководством для модели во время вывода. [50] [51] [52]

ElevenLabs в первую очередь известна своим браузерным программным обеспечением для преобразования текста в речь с помощью искусственного интеллекта Speech Synthesis, которое может воспроизводить реалистичную речь путем синтеза голосовых эмоций и интонации . [53] Компания заявляет, что ее программное обеспечение позволяет корректировать интонацию и темп речи в зависимости от контекста используемого языка. [54] Он использует передовые алгоритмы для анализа контекстуальных аспектов текста с целью обнаружения таких эмоций, как гнев, печаль, счастье или тревога, что позволяет системе понимать чувства пользователя, [55] что приводит к более реалистичному и человечному изображению. как перегиб. Другие функции включают в себя генерацию многоязычной речи и создание длинного контента с помощью контекстно-зависимых голосов. [56] [57]

Синтезаторы речи на основе DNN приближаются к естественности человеческого голоса. Примерами недостатков метода являются низкая устойчивость при недостаточности данных, отсутствие управляемости и низкая производительность в авторегрессионных моделях.

Для тональных языков, таких как китайский или тайваньский язык, требуются разные уровни тонального сандхи, и иногда выходные данные синтезатора речи могут приводить к ошибкам тонального сандхи. [58]

Аудио дипфейки

Аудио -дипфейк (также известный как клонирование голоса) — это тип искусственного интеллекта , используемый для создания убедительных речевых предложений, которые звучат так, как будто конкретные люди говорят то, чего они не говорили. [59] [60] Эта технология изначально разрабатывалась для различных приложений по улучшению жизни человека. Например, его можно использовать для создания аудиокниг, [61] а также для помощи людям, потерявшим голос (из-за заболевания горла или других медицинских проблем), вернуть его. [62] [63] В коммерческом плане это открыло двери нескольким возможностям. Эта технология также может создавать более персонализированных цифровых помощников и естественно звучащие услуги преобразования текста в речь , а также услуги по переводу речи .

В 2023 году репортер VICE Джозеф Кокс опубликовал данные о том, что он записал пять минут своего разговора, а затем использовал инструмент, разработанный ElevenLabs, для создания голосовых дипфейков, которые обошли систему голосовой аутентификации банка . [64]

Проблемы

Проблемы с нормализацией текста

Процесс нормализации текста редко бывает простым. Тексты полны гетеронимов , цифр и сокращений , которые требуют расширения в фонетическое представление. В английском языке существует множество вариантов написания, которые произносятся по-разному в зависимости от контекста. Например, фраза «Мой последний проект — научиться лучше выражать свой голос» содержит два варианта произношения слова «проект».

Большинство систем преобразования текста в речь (TTS) не генерируют семантические представления входных текстов, поскольку процессы для этого ненадежны, плохо поняты и вычислительно неэффективны. В результате для угадывания правильного способа устранения неоднозначности омографов используются различные эвристические методы , такие как проверка соседних слов и использование статистики частоты встречаемости.

Недавно системы TTS начали использовать HMM (обсуждаемые выше) для генерации « частей речи », чтобы помочь устранить неоднозначность омографов. Этот метод весьма успешен во многих случаях, например, следует ли произносить слово «read» как «red», подразумевающее прошедшее время, или как «reed», подразумевающее настоящее время. Типичный уровень ошибок при таком использовании HMM обычно составляет менее пяти процентов. Эти методы также хорошо работают для большинства европейских языков, хотя доступ к необходимым учебным корпусам для этих языков часто затруднен.

Решение о том, как преобразовывать числа, — еще одна проблема, которую приходится решать системам TTS. Преобразовать число в слова (по крайней мере, на английском языке) — это простая задача программирования, например, «1325» в «одна тысяча триста двадцать пять». Однако числа встречаются во многих разных контекстах; «1325» также можно читать как «один три два пять», «тринадцать двадцать пять» или «тринадцатьсот двадцать пять». Система TTS часто может определить, как расширить число, на основе окружающих слов, цифр и знаков препинания, а иногда система предоставляет способ указать контекст, если он неоднозначен. [65] Римские цифры также могут читаться по-разному в зависимости от контекста. Например, «Генрих VIII» читается как «Генрих Восьмой», а «Глава VIII» читается как «Глава восьмая».

Точно так же сокращения могут быть неоднозначными. Например, аббревиатуру «in» для «дюймов» следует отличать от слова «in» и адреса «12 St John St.» использует одну и ту же аббревиатуру как для «Святого», так и для «Улицы». Системы TTS с интеллектуальным интерфейсом могут делать обоснованные предположения о неоднозначных сокращениях, в то время как другие дают один и тот же результат во всех случаях, что приводит к бессмысленным (а иногда и комичным) выводам, например, « Улисс С. Грант » отображается как «Улисс Южный Грант». .

Проблемы преобразования текста в фонему

Системы синтеза речи используют два основных подхода для определения произношения слова на основе его написания . Этот процесс часто называют преобразованием текста в фонему или графемы в фонему ( фонема — это термин, используемый лингвистами для описания отличительных звуков в речи). язык ) . Самый простой подход к преобразованию текста в фонему - это подход на основе словаря, при котором программа хранит большой словарь, содержащий все слова языка и их правильное произношение . Определение правильного произношения каждого слова заключается в поиске каждого слова в словаре и замене написания на произношение, указанное в словаре. Другой подход основан на правилах, при котором правила произношения применяются к словам, чтобы определить их произношение на основе их написания. Это похоже на «озвучивание», или синтетический фонетический подход к обучению чтению.

Каждый подход имеет преимущества и недостатки. Подход на основе словаря является быстрым и точным, но полностью терпит неудачу, если ему дано слово, которого нет в его словаре. По мере роста размера словаря растут и требования к объему памяти системы синтеза. С другой стороны, подход, основанный на правилах, работает с любыми входными данными, но сложность правил существенно возрастает, поскольку система учитывает неправильные написания и произношения. (Учтите, что слово «of» очень распространено в английском языке, но при этом является единственным словом, в котором буква «f» произносится как [v] .) В результате почти все системы синтеза речи используют комбинацию этих подходов.

Языки с фонематической орфографией имеют очень регулярную систему письма, и предсказание произношения слов на основе их написания весьма успешно. Системы синтеза речи для таких языков часто широко используют метод, основанный на правилах, прибегая к словарям только для тех немногих слов, таких как иностранные имена и заимствованные слова, произношение которых не очевидно из их написания. С другой стороны, системы синтеза речи для таких языков, как английский, которые имеют чрезвычайно нерегулярную систему правописания, чаще полагаются на словари и используют методы, основанные на правилах, только для необычных слов или слов, которых нет в их словарях.

Проблемы оценки

Последовательная оценка систем синтеза речи может быть затруднена из-за отсутствия общепринятых объективных критериев оценки. Разные организации часто используют разные речевые данные. Качество систем синтеза речи также зависит от качества технологии производства (которая может включать аналоговую или цифровую запись) и от средств, используемых для воспроизведения речи. Поэтому оценка систем синтеза речи часто затрудняется различиями между методами производства и средствами воспроизведения.

Однако с 2005 года некоторые исследователи начали оценивать системы синтеза речи, используя общий набор речевых данных. [66]

Просодика и эмоциональное содержание

Исследование, проведенное Эми Драготой и ее коллегами из Портсмутского университета ( Великобритания ), опубликованное в журнале Speech Communication , показало, что слушатели голосовых записей могут с большей вероятностью определить, улыбается ли говорящий. [67] [68] [69] Было высказано предположение, что идентификация голосовых особенностей, которые сигнализируют об эмоциональном содержании, может быть использована, чтобы сделать звучание синтезированной речи более естественным. Одним из связанных с этим вопросов является изменение тонального контура предложения в зависимости от того, является ли оно утвердительным, вопросительным или восклицательным. Один из методов модификации шага [70] использует дискретное косинусное преобразование в исходной области ( остаток линейного предсказания ). Такие способы изменения основного тона синхронного тона требуют априорной маркировки основного тона базы данных синтезированной речи с использованием таких методов, как извлечение эпохи с использованием индекса динамического взрыва , применяемого к интегрированному остатку линейного предсказания вокализованных областей речи. [71]

Выделенное оборудование

Комплект синтеза речи производства Bell System.

Аппаратно-программные комплексы

Популярные системы, предлагающие синтез речи в качестве встроенной возможности.

Инструменты Техаса

Демонстрация речи TI-99/4A с использованием встроенного словаря

В начале 1980-х годов компания TI была известна как пионер в области синтеза речи, и для TI-99/4 и 4A был доступен очень популярный подключаемый модуль синтезатора речи. Синтезаторы речи предлагались бесплатно при покупке некоторого количества картриджей и использовались во многих видеоиграх, написанных TI (игры с речью, предлагаемые во время этой акции, включали Alpiner и Parsec ). Синтезатор использует вариант кодирования с линейным предсказанием и имеет небольшой встроенный словарь. Первоначальная цель заключалась в выпуске небольших картриджей, подключаемых непосредственно к синтезатору, что позволило бы расширить встроенный словарь устройства. Однако успех программного преобразования текста в речь в картридже Terminal Emulator II отменил этот план.

Маттел

В 1982 году игровая консоль Mattel Intellivision предлагала модуль Intellivoice Voice Synthesis. Он включал в себя микросхему синтезатора речи SP0256 Narrator на съемном картридже. У Рассказчика было 2 КБ постоянной памяти (ПЗУ), которая использовалась для хранения базы данных общих слов, которые можно было комбинировать для создания фраз в играх Intellivision. Поскольку чип Orator также мог принимать речевые данные из внешней памяти, любые дополнительные слова или фразы могли храниться внутри самого картриджа. Данные состояли из строк коэффициентов аналогового фильтра, предназначенных для изменения поведения синтетической модели речевого тракта чипа, а не из простых оцифрованных выборок.

СЭМ

Демонстрация ЗРК на C64

Software Automatic Mouth , также выпущенная в 1982 году, была первой коммерческой полностью программной программой синтеза голоса. Позже он был использован в качестве основы для Macintalk . Программа была доступна для компьютеров Apple, отличных от Macintosh (включая Apple II и Lisa), различных моделей Atari и Commodore 64. Версия Apple предпочитала дополнительное оборудование, содержащее ЦАП, хотя вместо этого она могла использовать однобитный звук компьютера. вывод (с добавлением большого количества искажений), если карты не было. В Atari использовался встроенный аудиочип POKEY. Воспроизведение речи на Atari обычно отключало запросы на прерывание и отключало чип ANTIC во время вывода голоса. Звуковой сигнал представляет собой сильно искаженную речь, когда экран включен. В Commodore 64 использовался встроенный в 64 аудиочип SID.

Атари

Вероятно, первой речевой системой, интегрированной в операционную систему , были персональные компьютеры 1400XL/1450XL, разработанные Atari, Inc. с использованием чипа Votrax SC01 в 1983 году. Компьютеры 1400XL/1450XL использовали конечный автомат, позволяющий передавать текст World English Spelling. -синтез речи. [73] К сожалению, персональные компьютеры 1400XL/1450XL никогда не поставлялись в больших количествах.

Компьютеры Atari ST продавались с файлом «stspeech.tos» на дискете.

Яблоко

Демонстрация MacinTalk 1
Демо MacinTalk 2 с голосами мистера Хьюза и Марвина

Первой речевой системой, интегрированной в операционную систему , которая поставлялась в больших количествах, была MacInTalk от Apple Computer . Программное обеспечение было лицензировано у сторонних разработчиков Джозефа Каца и Марка Бартона (позже SoftVoice, Inc.) и было представлено во время представления компьютера Macintosh в 1984 году. Для этой январской демо-версии требовалось 512 килобайт оперативной памяти. В результате он не мог работать со 128 килобайтами оперативной памяти, с которыми фактически поставлялся первый Mac. [74] Итак, демонстрация была проведена на прототипе Mac 512k, хотя присутствующим об этом не сообщили, а демонстрация синтеза вызвала значительный ажиотаж вокруг Macintosh. В начале 1990-х годов Apple расширила свои возможности, предложив общесистемную поддержку преобразования текста в речь. С появлением более быстрых компьютеров на базе PowerPC они включили в себя более качественную выборку голоса. Apple также внедрила распознавание речи в свои системы, что обеспечило гибкий набор команд. Совсем недавно Apple добавила голоса на основе сэмплов. Начав с любопытства, речевая система Apple Macintosh превратилась в полностью поддерживаемую программу PlainTalk для людей с проблемами зрения. VoiceOver впервые был представлен в 2005 году в Mac OS X Tiger (10.4). В версии 10.4 (Tiger) и первых выпусках 10.5 ( Leopard ) в Mac OS X была только одна стандартная голосовая доставка. Начиная с версии 10.6 ( Snow Leopard ), пользователь может выбирать несколько голосов из широкого списка. Голоса VoiceOver обеспечивают реалистичное дыхание между предложениями, а также улучшенную четкость при высокой скорости чтения по сравнению с PlainTalk. Mac OS X также включает, скажем, приложение на основе командной строки , которое преобразует текст в звуковую речь. Стандартные дополнения AppleScript включают глагол «сказать», который позволяет сценарию использовать любой из установленных голосов и контролировать высоту звука, скорость речи и модуляцию произнесенного текста.

Амазонка

Используется в Alexa и как «Программное обеспечение как услуга» в AWS [75] (с 2017 г.).

АмигаОС

Пример синтеза речи с включенной утилитой Say в Workbench 1.3

Второй операционной системой с расширенными возможностями синтеза речи была AmigaOS , представленная в 1985 году. Синтез голоса был лицензирован Commodore International у компании SoftVoice, Inc., которая также разработала оригинальную систему преобразования текста в речь MacinTalk . В нем была реализована полная система голосовой эмуляции американского английского с мужскими и женскими голосами и маркерами индикатора «стресса», что стало возможным благодаря аудиочипсету Amiga . [76] Система синтеза была разделена на библиотеку переводчика, которая преобразовывала неограниченный английский текст в стандартный набор фонетических кодов, и устройство рассказчика, реализовавшее формантную модель генерации речи. AmigaOS также имела высокоуровневый « Speak Handler », что позволяло пользователям командной строки перенаправлять текстовый вывод в речь. Синтез речи иногда использовался в сторонних программах, особенно в текстовых процессорах и образовательном программном обеспечении. Программное обеспечение синтеза практически не изменилось с момента первого выпуска AmigaOS, и Commodore в конечном итоге удалил поддержку синтеза речи, начиная с AmigaOS 2.1.

Несмотря на ограничение фонем американского английского языка, была разработана неофициальная версия с многоязычным синтезатором речи. При этом использовалась расширенная версия библиотеки переводчика, которая могла переводить несколько языков с учетом набора правил для каждого языка. [77]

Майкрософт Виндоус

Современные настольные системы Windows могут использовать компоненты SAPI 4 и SAPI 5 для поддержки синтеза и распознавания речи . SAPI 4.0 был доступен как дополнительное дополнение для Windows 95 и Windows 98 . В Windows 2000 добавлен экранный диктор — утилита преобразования текста в речь для людей с нарушениями зрения. Сторонние программы, такие как JAWS для Windows, Window-Eyes, Non-visual Desktop Access, Supernova и System Access, могут выполнять различные задачи преобразования текста в речь, такие как чтение текста вслух с указанного веб-сайта, учетной записи электронной почты, текстового документа, Буфер обмена Windows, набор текста с клавиатуры пользователя и т. д. Не все программы могут использовать синтез речи напрямую. [78] Некоторые программы могут использовать плагины, расширения или надстройки для чтения текста вслух. Доступны сторонние программы, которые могут читать текст из системного буфера обмена.

Microsoft Speech Server — это серверный пакет для синтеза и распознавания голоса. Он предназначен для использования в сети с веб-приложениями и центрами обработки вызовов .

Вотракс

С 1971 по 1996 год Votrax произвела ряд коммерческих компонентов синтезаторов речи. Синтезатор Votrax был включен в читальную машину Kurzweil первого поколения для слепых.

Системы преобразования текста в речь

Преобразование текста в речь (TTS) означает способность компьютеров читать текст вслух. Механизм TTS преобразует письменный текст в фонематическое представление, а затем преобразует фонематическое представление в сигналы, которые можно вывести в виде звука. Движки TTS с разными языками, диалектами и специализированными словарями доступны через сторонних издателей. [79]

Андроид

В версии Android 1.6 добавлена ​​поддержка синтеза речи (TTS). [80]

Интернет

В настоящее время существует ряд приложений , плагинов и гаджетов, которые могут читать сообщения непосредственно из почтового клиента и веб-страницы из веб-браузера или панели инструментов Google . Некоторые специализированные программы могут комментировать RSS-каналы . С одной стороны, онлайн-рассказчики RSS упрощают доставку информации, позволяя пользователям слушать свои любимые источники новостей и конвертировать их в подкасты . С другой стороны, онлайновые программы чтения RSS доступны практически на любом персональном компьютере, подключенном к Интернету. Пользователи могут загружать сгенерированные аудиофайлы на портативные устройства, например, с помощью приемника подкастов , и слушать их во время прогулки, пробежки или по дороге на работу.

Растущей областью TTS на базе Интернета являются вспомогательные веб-технологии , например, «Browseloud» от британской компании и Readspeaker . Он может предоставить функциональность TTS любому человеку (по соображениям доступности, удобства, развлечения или информации), имеющему доступ к веб-браузеру. Некоммерческий проект Pediaphon был создан в 2006 году для предоставления веб-интерфейса TTS, аналогичного Википедии. [81]

Другая работа проводится в контексте W3C через группу W3C Audio Incubator Group с участием BBC и Google Inc.

Открытый источник

Доступны некоторые системы программного обеспечения с открытым исходным кодом , такие как:

Другие

Аналоги цифрового звука

На конференции по нейронным системам обработки информации (NeurIPS) 2018 года исследователи из Google представили работу «Перенос обучения от проверки говорящего к синтезу текста в речь с несколькими динамиками», которая переносит обучение от проверки говорящего для достижения синтеза речи, что можно заставить звучать почти так же, как кто-либо, используя образец речи продолжительностью всего 5 секунд. [84]

Также исследователи из Baidu Research представили систему клонирования голоса с аналогичными целями на конференции NeurIPS 2018 года [85] , хотя результат оказался довольно неубедительным.

К 2019 году цифровые звуковые копии попали в руки преступников: исследователям Symantec известны три случая, когда технология цифровых звуковых аналогов использовалась в преступных целях. [86] [87]

Это увеличивает нагрузку на ситуацию с дезинформацией в сочетании с фактами, которые

В марте 2020 года было выпущено бесплатное веб-приложение 15.ai , которое генерирует высококачественные голоса множества вымышленных персонажей из различных медиа-источников. [90] Первоначальными персонажами были ГЛаДОС из «Портала» , Сумеречная Искорка и Флаттершай из сериала « Мой маленький пони: Дружба – это чудо» , а также Десятый Доктор из «Доктора Кто» .

Языки разметки синтеза речи

Для преобразования текста в речь в формате, совместимом с XML , создан ряд языков разметки . Самым последним из них является язык разметки синтеза речи (SSML), который стал рекомендацией W3C в 2004 году. Более старые языки разметки синтеза речи включают язык разметки речи Java ( JSML ) и SABLE . Хотя каждый из них был предложен в качестве стандарта, ни один из них не получил широкого распространения. [ нужна цитата ]

Языки разметки синтеза речи отличаются от языков разметки диалогов. VoiceXML , например, включает в себя теги, связанные с распознаванием речи, управлением диалогами и тональным набором номера, в дополнение к разметке преобразования текста в речь. [ нужна цитата ]

Приложения

Синтез речи уже давно стал жизненно важным инструментом ассистивных технологий, и его применение в этой области значимо и широко распространено. Это позволяет устранить экологические барьеры для людей с широким спектром инвалидности. Самым долгим применением программ чтения с экрана для людей с нарушениями зрения является использование систем преобразования текста в речь в настоящее время широко используется людьми с дислексией и другими нарушениями чтения , а также детьми, не умеющими читать. [91] Их также часто используют для помощи людям с серьезными нарушениями речи , обычно с помощью специального средства голосовой связи . [92] Работа по персонализации синтетического голоса, чтобы он лучше соответствовал личности человека или историческому голосу, становится доступной. [93] Известным применением синтеза речи была « Читающая машина для слепых» Kurzweil , которая включала в себя программное обеспечение для преобразования текста в фонетику, основанное на разработках Haskins Laboratories , и синтезатор «черного ящика», созданный Votrax . [94]

Стивен Хокинг был одним из самых известных людей, использовавших речевой компьютер для общения.

Методы синтеза речи также используются в развлекательных программах, таких как игры и анимация. В 2007 году Animo Limited объявила о разработке пакета программных приложений на основе своего программного обеспечения для синтеза речи FineSpeech, специально предназначенного для клиентов в индустрии развлечений и способного генерировать повествование и строки диалога в соответствии с требованиями пользователя. [95] Приложение достигло зрелости в 2008 году, когда NEC Biglobe анонсировала веб-сервис, который позволяет пользователям создавать фразы из голосов персонажей японского аниме- сериала Code Geass: Lelouch of the Rebellion R2 . [96] 15.ai часто использовался для создания контента в различных фандомах , включая фандом My Little Pony: Friendship Is Magic , фандом Team Fortress 2 , фандом Portal и фандом SpongeBob SquarePants . [97]

Преобразование текста в речь для людей с ограниченными возможностями и средства коммуникации с нарушениями речи стали широко доступны. Преобразование текста в речь также находит новые применения; например, синтез речи в сочетании с распознаванием речи позволяет взаимодействовать с мобильными устройствами через интерфейсы обработки естественного языка . Некоторые пользователи также создали виртуальных помощников с искусственным интеллектом , используя 15.ai и внешнее программное обеспечение для голосового управления. [98] [99]

Преобразование текста в речь также используется при овладении вторым языком. Например, Voki — это образовательный инструмент, созданный Oddcast, который позволяет пользователям создавать свои собственные говорящие аватары, используя разные акценты. Их можно отправлять по электронной почте, размещать на веб-сайтах или публиковать в социальных сетях.

Создатели контента использовали инструменты клонирования голоса, чтобы воссоздать свои голоса для подкастов, [100] [101] повествования, [102] и комедийных шоу. [103] [104] [105] Издатели и авторы также использовали такое программное обеспечение для озвучивания аудиокниг и информационных бюллетеней. [106] [107] Другая область применения — создание видео с помощью ИИ с говорящими головами. Веб-приложения и видеоредакторы, такие как Elai.io или Synthesia , позволяют пользователям создавать видеоконтент с участием аватаров искусственного интеллекта, которые заставляют говорить с использованием технологии преобразования текста в речь. [108] [109]

Синтез речи является ценным вычислительным средством для анализа и оценки речевых нарушений. Синтезатор качества голоса , разработанный Хорхе К. Лусеро и др. в Университете Бразилиа имитирует физику фонации и включает модели дрожания и тремора голосовых частот, шума воздушного потока и асимметрии гортани. [45] Синтезатор использовался для имитации тембра дисфонических динамиков с контролируемыми уровнями шероховатости, одышки и напряжения. [46]

Певческий синтез

В 2010-х годах технология синтеза пения воспользовалась последними достижениями в области искусственного интеллекта — глубокого прослушивания и машинного обучения, чтобы лучше передавать нюансы человеческого голоса. Новые библиотеки семплов высокого качества в сочетании с рабочими станциями цифрового аудио упрощают редактирование в мельчайших деталях, например, изменение форматов, настройку вибрато и настройку гласных и согласных. Доступны библиотеки примеров для разных языков и различных акцентов. Благодаря сегодняшним достижениям в области синтеза вокала артисты иногда используют библиотеки сэмплов вместо бэк-вокалистов. [110]

Смотрите также

Рекомендации

  1. ^ Аллен, Джонатан; Ханникатт, М. Шарон; Клатт, Деннис (1987). От текста к речи: система MITalk . Издательство Кембриджского университета. ISBN 978-0-521-30641-6.
  2. ^ Рубин, П.; Баер, Т.; Мермельштейн, П. (1981). «Артикуляционный синтезатор для исследования восприятия». Журнал Акустического общества Америки . 70 (2): 321–328. Бибкод : 1981ASAJ...70..321R. дои : 10.1121/1.386780.
  3. ^ ван Сантен, Ян П.Х.; Спроат, Ричард В.; Олив, Джозеф П.; Хиршберг, Джулия (1997). Прогресс в синтезе речи . Спрингер. ISBN 978-0-387-94701-3.
  4. ^ Ван Сантен, Дж. (апрель 1994 г.). «Назначение сегментной длительности при синтезе речи». Компьютерная речь и язык . 8 (2): 95–128. дои : 10.1006/csla.1994.1005.
  5. История и развитие синтеза речи, Хельсинкский технологический университет, дата обращения 4 ноября 2006 г.
  6. ^ Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine («Механизм человеческой речи с описанием ее говорящей машины», JB Degen, Вена). (на немецком)
  7. ^ Маттингли, Игнатиус Г. (1974). Себеок, Томас А. (ред.). «Синтез речи для фонетических и фонологических моделей» (PDF) . Современные тенденции в лингвистике . Мутон, Гаага. 12 : 2451–2487. Архивировано из оригинала (PDF) 12 мая 2013 г. Проверено 13 декабря 2011 г.
  8. ^ Клатт, Д. (1987). «Обзор преобразования текста в речь для английского языка». Журнал Акустического общества Америки . 82 (3): 737–93. Бибкод : 1987ASAJ...82..737K. дои : 10.1121/1.395275. ПМИД  2958525.
  9. Ламберт, Брюс (21 марта 1992 г.). «Луи Герстман, 61 год, специалист по нарушениям и процессам речи». Нью-Йорк Таймс .
  10. ^ "Биография Артура Кларка" . Архивировано из оригинала 11 декабря 1997 года . Проверено 5 декабря 2017 г.
  11. ^ «Где впервые заговорил «HAL» (веб-сайт Bell Labs Speech Synthesis)» . Лаборатории Белла. Архивировано из оригинала 7 апреля 2000 г. Проверено 17 февраля 2010 г.
  12. Серия антропоморфных говорящих роботов Waseda-Talker. Архивировано 4 марта 2016 г. в Wayback Machine.
  13. ^ Грей, Роберт М. (2010). «История цифровой речи в реальном времени в пакетных сетях: Часть II линейного прогнозирующего кодирования и интернет-протокола» (PDF) . Найденный. Процесс сигналов трендов . 3 (4): 203–303. дои : 10.1561/2000000036 . ISSN  1932-8346. Архивировано (PDF) из оригинала 9 октября 2022 г.
  14. ^ Чжэн, Ф.; Песня, З.; Ли, Л.; Ю, В. (1998). «Мера расстояния для пар линейных спектров, применяемая к распознаванию речи» (PDF) . Материалы 5-й Международной конференции по обработке разговорной речи (ICSLP'98) (3): 1123–6. Архивировано (PDF) из оригинала 9 октября 2022 г.
  15. ^ ab «Список вех IEEE». ИИЭЭ . Проверено 15 июля 2019 г.
  16. ^ ab "Устная история Фумитада Итакура". Сеть глобальной истории IEEE. 20 мая 2009 года . Проверено 21 июля 2009 г.
  17. ^ Билли, Роберто; Канавесио, Франко; Чарамелла, Альберто ; Неббия, Лучано (1 ноября 1995 г.). «Интерактивная голосовая технология в действии: опыт CSELT». Речевое общение . 17 (3): 263–271. дои : 10.1016/0167-6393(95)00030-R.
  18. ^ Спроат, Ричард В. (1997). Многоязычный синтез речи в речь: подход Bell Labs . Спрингер. ISBN 978-0-7923-8027-6.
  19. ^ [TSI Speech+ и другие говорящие калькуляторы]
  20. ^ Геварьяху, Джонатан, [ «Руководство по интегральной схеме речевого синтезатора LSI TSI S14001A»] [ мертвая ссылка ]
  21. ^ Бреслоу и др. США 4326710  : «Говорящая электронная игра», 27 апреля 1982 г.
  22. ^ Голосовой шахматный претендент
  23. ^ Наиболее важные изменения в играх. Архивировано 15 июня 2011 г. на Wayback Machine , GamesRadar.
  24. ^ Адлум, Эдди (ноябрь 1985 г.). «Годы повтора: размышления Эдди Адлума». Повторное воспроизведение . Том. 11, нет. 2. С. 134–175 (160–3).
  25. ^ Щепаньяк, Джон (2014). Нерассказанная история японских разработчиков игр . Том. 1. Пистолет-пулемет Щепаньяк. стр. 544–615. ISBN 978-0992926007.
  26. ^ CadeMetz (20 августа 2020 г.). «Энн Сирдал, которая помогла компьютерам обрести женский голос, умерла в возрасте 74 лет». Нью-Йорк Таймс . Проверено 23 августа 2020 г.
  27. ^ Курцвейл, Раймонд (2005). Сингулярность уже близко . Книги о пингвинах . ISBN 978-0-14-303788-0.
  28. ^ Тейлор, Пол (2009). Синтез текста в речь . Кембридж, Великобритания: Издательство Кембриджского университета. п. 3. ISBN 9780521899277.
  29. ^ Алан В. Блэк , Идеальный синтез для всех людей в любое время. Семинар IEEE TTS 2002.
  30. ^ Джон Коминек и Алан В. Блэк . (2003). Базы данных CMU ARCTIC для синтеза речи. КМУ-ЛТИ-03-177. Институт языковых технологий, Школа компьютерных наук, Университет Карнеги-Меллон.
  31. ^ Джулия Чжан. Генерация языка и синтез речи в диалогах для изучения языка, магистерская диссертация, раздел 5.6 на стр. 54.
  32. ^ Уильям Ян Ван и Каллиррой Джорджила. (2011). Автоматическое обнаружение неестественных сегментов на уровне слов при синтезе речи с выбором единицы измерения, IEEE ASRU 2011.
  33. ^ «Синтез синхронного перекрытия и добавления (PSOLA)» . Архивировано из оригинала 22 февраля 2007 года . Проверено 28 мая 2008 г.
  34. ^ Т. Дютуа, В. Пагель, Н. Пьерре, Ф. Батай, О. ван дер Врекен. Проект MBROLA: Создание набора высококачественных синтезаторов речи для использования в некоммерческих целях. Слушания ICSLP , 1996.
  35. ^ Муралишанкар, Р; Рамакришнан, АГ; Пратибха, П. (2004). «Модификация высоты звука с использованием DCT в исходной области». Речевое общение . 42 (2): 143–154. doi :10.1016/j.specom.2003.05.001.
  36. ^ «Образование: Чудо Бронкса». Время . 1 апреля 1974 г. ISSN  0040-781X . Проверено 28 мая 2019 г.
  37. ^ "1960 - Робот Руди - Майкл Фриман (американец)" . www.cyberneticzoo.com . 13 сентября 2010 г. Проверено 23 мая 2019 г.
  38. ^ Журнал Нью-Йорк. Нью-Йорк Медиа, ООО. 1979-07-30.
  39. ^ Футурист. Мировое общество будущего. 1978. стр. 359, 360, 361.
  40. ^ Л.Ф. Ламель , Дж.Л. Говен, Б. Праутс, К. Бухье, Р. Боеш. Генерация и синтез широковещательных сообщений, материалы семинара ESCA-NATO и применение речевых технологий , сентябрь 1993 г.
  41. Дартмутский колледж: Музыка и компьютеры. Архивировано 8 июня 2011 г. в Wayback Machine , 1993.
  42. ^ Примеры: Astro Blaster , Space Fury и Star Trek: Strategic Operations Simulator.
  43. ^ Примеры: «Звездные войны» , «Firefox» , «Возвращение джедая» , « Дорожный бегун » , «Империя наносит ответный удар» , «Индиана Джонс и Храм судьбы» , «720°» , «Gauntlet» , « Gauntlet II » , APB , Paperboy , RoadBlasters , «Виндикаторы, часть II», «Побег из мира». Планета роботов-монстров .
  44. ^ Джон Холмс и Венди Холмс (2001). Синтез речи и распознавание (2-е изд.). КПР. ISBN 978-0-7484-0856-6.
  45. ^ аб Лусеро, JC; Шентген, Дж.; Бехлау, М. (2013). «Физический синтез неупорядоченных голосов» (PDF) . Интерспич 2013 . Лион, Франция: Международная ассоциация речевой коммуникации: 587–591. doi : 10.21437/Interspeech.2013-161. S2CID  17451802 . Проверено 27 августа 2015 г.
  46. ^ аб Энглерт, Марина; Мадацио, Главция; Гилоу, Ингрид; Лусеро, Хорхе; Бехлау, Мара (2016). «Идентификация ошибок восприятия человеческих и синтезированных голосов». Журнал голоса . 30 (5): 639.e17–639.e23. дои : 10.1016/j.jvoice.2015.07.017. ПМИД  26337775.
  47. ^ «Система синтеза речи на основе HMM» . Hts.sp.nitech.ac.j . Проверено 22 февраля 2012 г.
  48. ^ Ремез, Р.; Рубин, П.; Пизони, Д.; Каррелл, Т. (22 мая 1981 г.). «Восприятие речи без традиционных речевых сигналов» (PDF) . Наука . 212 (4497): 947–949. Бибкод : 1981Sci...212..947R. дои : 10.1126/science.7233191. PMID  7233191. Архивировано из оригинала (PDF) 16 декабря 2011 г. Проверено 14 декабря 2011 г.
  49. ^ Валле, Рафаэль (2020). «Меллотрон: экспрессивный синтез голоса с несколькими динамиками путем регулирования ритма, высоты тона и токенов глобального стиля». arXiv : 1910.11997 [ees].
  50. ^ Чандрасета, Рионди (19 января 2021 г.). «Создавайте голосовые реплики ваших любимых персонажей с помощью машинного обучения». На пути к науке о данных . Архивировано из оригинала 21 января 2021 г. Проверено 23 января 2021 г.
  51. ^ Куросава, Юки (19 января 2021 г.). "ゲームキャラ音声読み上げソフト「15.ai」公開中。『Undertale』や『Portal』のキャラに好きなセリフを言ってもらえる». АВТОМАТОН . АВТОМАТ. Архивировано из оригинала 19 января 2021 г. Проверено 19 января 2021 г.
  52. ^ Ёсиюки, Фурусима (18 января 2021 г.). «『Portal』のGLaDOSや『UNDERTALE』のサンズがテキストを読み上げてくれる。文章に込められた感情まで再現することを目指すサービス「15.ai」が話題に». Denfaminicogamer . Архивировано из оригинала 18 января 2021 г. Проверено 18 января 2021 г.
  53. ^ «Генераторный ИИ используется для дубляжа кино: стартап ElevenLabs, занимающийся аудиоИИ, собирает предварительную посевную информацию» . Просеянный . 23 января 2023 г. . Проверено 3 февраля 2023 г.
  54. Эшворт, Бун (12 апреля 2023 г.). «ИИ может клонировать голос вашего любимого ведущего подкаста». Проводной . Проверено 25 апреля 2023 г.
  55. ^ ПРОВОДНОЙ персонал. «Этот подкаст не ведется клонами AI Voice. Мы клянемся». Проводной . ISSN  1059-1028 . Проверено 25 июля 2023 г.
  56. ^ Виггерс, Кайл (20 июня 2023 г.). «Платформа генерации голоса ElevenLabs привлекла 19 миллионов долларов и запускает инструмент обнаружения» . ТехКранч . Проверено 25 июля 2023 г.
  57. ^ Бонк, Лоуренс. «Новый мощный инструмент искусственного интеллекта от ElevenLabs позволяет создать полноценную аудиокнигу за считанные минуты». Жизненный провод . Проверено 25 июля 2023 г.
  58. ^ Чжу, Цзянь (25 мая 2020 г.). «Исследование фонетических и фонологических знаний тонов в моделях мандаринского TTS». Речевая просодия 2020 . ИСКА: ИСКА. arXiv : 1912.10915 . дои : 10.21437/speechprosody.2020-190.
  59. ^ Лю, Сивэй (2020). «Обнаружение дипфейков: текущие проблемы и следующие шаги». Международная конференция IEEE по мультимедиа и выставочным семинарам 2020 года (ICMEW) . стр. 1–6. arXiv : 2003.09234 . doi : 10.1109/icmew46912.2020.9105991. ISBN 978-1-7281-1485-9. S2CID  214605906 . Проверено 29 июня 2022 г.
  60. ^ Диакопулос, Николас; Джонсон, Дебора (июнь 2020 г.). «Предвидение и устранение этических последствий дипфейков в контексте выборов». Новые медиа и общество (опубликовано 5 июня 2020 г.). 23 (7): 2072–2098. дои : 10.1177/1461444820925811. ISSN  1461-4448. S2CID  226196422.
  61. ^ Чадха, Анупама; Кумар, Вайбхав; Кашьяп, Сону; Гупта, Маянк (2021), Сингх, Прадип Кумар; Вежхонь, Славомир Т.; Танвар, Судип; Ганжа, Мария (ред.), «Deepfake: Обзор», Материалы Второй международной конференции по вычислительной технике, коммуникациям и кибербезопасности , Конспекты лекций по сетям и системам, Сингапур: Springer Singapore, vol. 203, стр. 557–566, номер документа : 10.1007/978-981-16-0733-2_39, ISBN. 978-981-16-0732-5, S2CID  236666289 , получено 29 июня 2022 г.
  62. ^ «ИИ вернул Вэлу Килмеру голос. Но критики опасаются, что технология может быть использована не по назначению». Вашингтон Пост . ISSN  0190-8286 . Проверено 29 июня 2022 г.
  63. Этьен, Ванесса (19 августа 2021 г.). «Вэл Килмер возвращает себе голос после битвы с раком горла с использованием технологии искусственного интеллекта: узнайте результаты». ЛЮДИ.com . Проверено 1 июля 2022 г.
  64. ^ Ньюман, Лили Хэй. «Голосовые дипфейки, генерируемые искусственным интеллектом, пока не так уж и хороши». Проводной . ISSN  1059-1028 . Проверено 25 июля 2023 г.
  65. ^ «Синтез речи». Организация Всемирной паутины.
  66. ^ "Вызов метели". Festvox.org . Проверено 22 февраля 2012 г.
  67. ^ «Улыбнитесь - и мир вас услышит». Университет Портсмута. 9 января 2008 г. Архивировано из оригинала 17 мая 2008 г.
  68. ^ «Улыбнитесь – и мир услышит вас, даже если вы спрячетесь» . Наука Дейли . Январь 2008 года.
  69. ^ Драгота, А. (2008). «Вокальная коммуникация разных видов улыбки» (PDF) . Речевое общение . 50 (4): 278–287. doi :10.1016/j.specom.2007.10.001. S2CID  46693018. Архивировано из оригинала (PDF) 3 июля 2013 г.
  70. ^ Муралишанкар, Р.; Рамакришнан, АГ; Пратибха, П. (февраль 2004 г.). «Модификация высоты звука с использованием DCT в исходном домене». Речевое общение . 42 (2): 143–154. doi :10.1016/j.specom.2003.05.001.
  71. ^ Пратош, AP; Рамакришнан, АГ; Анантападманабха, ТВ (декабрь 2013 г.). «Извлечение эпох на основе интегрированного остатка линейного предсказания с использованием индекса взрыва». IEEE Транс. Обработка аудио речи . 21 (12): 2471–2480. дои : 10.1109/TASL.2013.2273717. S2CID  10491251.
  72. ^ ЭЭ Таймс. «TI прекратит выпуск специализированных чипов синтеза речи и перенесет продукты в сенсорный архив, заархивированный 28 мая 2012 г., в Wayback Machine ». 14 июня 2001 г.
  73. ^ «1400XL/1450XL Внешняя справочная спецификация обработчика речи» (PDF) . Архивировано из оригинала (PDF) 24 марта 2012 г. Проверено 22 февраля 2012 г.
  74. ^ «Вылезти из этой сумки - это здорово!». фольклор.орг . Проверено 24 марта 2013 г.
  75. ^ "Амазонка Полли". Amazon Веб-сервисы, Inc. Проверено 28 апреля 2020 г.
  76. ^ Майнер, Джей ; и другие. (1991). Справочное руководство по оборудованию Amiga (3-е изд.). ISBN издательской компании Addison-Wesley , Inc. 978-0-201-56776-2.
  77. Девитт, Франческо (30 июня 1995 г.). «Библиотека переводчика (Мультиязычная версия)». Архивировано из оригинала 26 февраля 2012 года . Проверено 9 апреля 2013 г.
  78. ^ «Учебные пособия по специальным возможностям для Windows XP: использование экранного диктора» . Майкрософт. 29 января 2011 г. Архивировано из оригинала 21 июня 2003 года . Проверено 29 января 2011 г.
  79. ^ «Как настроить и использовать преобразование текста в речь в Windows XP и Windows Vista». Майкрософт. 07.05.2007 . Проверено 17 февраля 2010 г.
  80. ^ Жан-Мишель Триви (23 сентября 2009 г.). «Введение в преобразование текста в речь в Android». Android-developers.blogspot.com . Проверено 17 февраля 2010 г.
  81. ^ Андреас Бишофф, Педиафон - речевой интерфейс к бесплатной энциклопедии Википедии для мобильных телефонов, КПК и MP3-плееров, Материалы 18-й Международной конференции по приложениям баз данных и экспертных систем, Страницы: 575–579 ISBN 0-7695-2932-1 , 2007 г. 
  82. ^ "гнуспич". Gnu.org . Проверено 17 февраля 2010 г.
  83. ^ "Смитсоновский проект истории синтеза речи (SSSHP) 1986–2002" . Mindspring.com. Архивировано из оригинала 3 октября 2013 г. Проверено 17 февраля 2010 г.
  84. ^ Цзя, Йе; Чжан, Ю; Вайс, Рон Дж. (12 июня 2018 г.), «Перенос обучения от проверки говорящего к синтезу речи нескольких говорящих», « Достижения в области нейронных систем обработки информации» , 31 : 4485–4495, arXiv : 1806.04558
  85. ^ Арик, Серкан О.; Чен, Цзитун; Пэн, Кайнан; Пин, Вэй; Чжоу, Яньци (2018), «Нейронное клонирование голоса с помощью нескольких образцов», Достижения в области нейронных систем обработки информации , 31 , arXiv : 1802.06006
  86. ^ «Фальшивые голоса помогают киберпреступникам украсть деньги»» . bbc.com . Би-би-си . 08.07.2019 . Проверено 11 сентября 2019 г.
  87. ^ Дрю, Харвелл (4 сентября 2019 г.). «Сначала искусственный интеллект: программное обеспечение, имитирующее голос, как сообщается, использовалось при крупной краже». Вашингтон Пост . Проверено 08 сентября 2019 г.
  88. ^ Тис, Юстус (2016). «Face2Face: захват лиц в реальном времени и воспроизведение RGB-видео». Учеб. Компьютерное зрение и распознавание образов (CVPR), IEEE . Проверено 18 июня 2016 г.
  89. ^ Суваджанакорн, Супасорн; Зейтц, Стивен; Кемельмахер-Шлизерман, Ира (2017), Синтезируя Обаму: обучение синхронизации губ по аудио, Вашингтонский университет , получено 2 марта 2018 г.
  90. ^ Нг, Эндрю (01 апреля 2020 г.). «Клонирование голоса для масс». глубокое обучение.ай . Пакет. Архивировано из оригинала 07 августа 2020 г. Проверено 02 апреля 2020 г.
  91. ^ Брунов, Дэвид А.; Каллен, Тереза ​​А. (3 июля 2021 г.). «Влияние преобразования текста в речь и человеческого чтения на понимание на слух у учащихся с ограниченными возможностями обучения». Компьютеры в школах . 38 (3): 214–231. дои : 10.1080/07380569.2021.1953362. hdl : 11244/316759 . ISSN  0738-0569. S2CID  243101945.
  92. ^ Триандафилиди, Иоаннис I.; Татарникова, ТМ; Попонин А.С. (30 мая 2022 г.). «Система синтеза речи для людей с ограниченными возможностями». 2022 Волновая электроника и ее применение в информационных и телекоммуникационных системах (WECONF) . Санкт-Петербург, Российская Федерация: IEEE. стр. 1–5. doi : 10.1109/WECONF55058.2022.9803600. ISBN 978-1-6654-7083-4. S2CID  250118756.
  93. ^ Чжао, Юньсинь; Сун, Мингуан; Юэ, Янхао; Курувилла-Дагдейл, Мили (27 июля 2021 г.). «Персонализация голосов TTS при прогрессирующей дизартрии». Международная конференция IEEE EMBS 2021 по биомедицинской и медицинской информатике (BHI) . Афины, Греция: IEEE. стр. 1–4. дои : 10.1109/BHI50953.2021.9508522. ISBN 978-1-6654-0358-0. S2CID  236982893.
  94. ^ «Эволюция читающих машин для слепых: исследование Haskins Laboratories как история болезни» (PDF) . Журнал исследований и разработок в области реабилитации . 21 (1). 1984.
  95. ^ «Анонсировано программное обеспечение для синтеза речи для аниме» . Сеть новостей аниме . 2 мая 2007 г. Проверено 17 февраля 2010 г.
  96. ^ «Услуга синтезатора речи Code Geass, предлагаемая в Японии» . Animenewsnetwork.com. 9 сентября 2008 г. Проверено 17 февраля 2010 г.
  97. ^ Чандрасета, Рионди (19 января 2021 г.). «Создавайте голосовые реплики ваших любимых персонажей с помощью машинного обучения». На пути к науке о данных . Архивировано из оригинала 21 января 2021 г. Проверено 23 января 2021 г.
  98. ^ Куросава, Юки (19 января 2021 г.). "ゲームキャラ音声読み上げソフト「15.ai」公開中。『Undertale』や『Portal』のキャラに好きなセリフを言ってもらえる». АВТОМАТОН . АВТОМАТ. Архивировано из оригинала 19 января 2021 г. Проверено 19 января 2021 г.
  99. ^ Ёсиюки, Фурусима (18 января 2021 г.). «『Portal』のGLaDOSや『UNDERTALE』のサンズがテキストを読み上げてくれる。文章に込められた感情まで再現することを目指すサービス「15.ai」が話題に». Denfaminicogamer . Архивировано из оригинала 18 января 2021 г. Проверено 18 января 2021 г.
  100. ^ «А теперь послушайте: стартап ElevenLabs, занимающийся клонированием голоса, получил 19 миллионов долларов от a16z и других крупных игроков» . ВенчурБит . 20 июня 2023 г. Проверено 25 июля 2023 г.
  101. ^ "Sztuczna inteligencja czyta głosem Jarosława Kuzniara. Rewolucja w radiu i podcastach" . Press.pl (на польском языке). 9 апреля 2023 г. . Проверено 25 апреля 2023 г.
  102. Эшворт, Бун (12 апреля 2023 г.). «ИИ может клонировать голос вашего любимого ведущего подкаста». Проводной . Проверено 25 апреля 2023 г.
  103. ^ Ниббс, Кейт. «Подкасты о генеративном искусственном интеллекте уже здесь. Приготовьтесь скучать». Проводной . ISSN  1059-1028 . Проверено 25 июля 2023 г.
  104. ^ Сучу, Питер. «Пародия на арест престолонаследия на YouTube включает «повествование», созданное искусственным интеллектом Рона Ховарда» . Форбс . Проверено 25 июля 2023 г.
  105. ^ Фадулу, Лола (6 июля 2023 г.). «Может ли ИИ быть забавным? Эта труппа так думает». Нью-Йорк Таймс . ISSN  0362-4331 . Проверено 25 июля 2023 г.
  106. ^ Канеткар, Риддхи. «Горячий стартап в области искусственного интеллекта ElevenLabs, основанный бывшими сотрудниками Google и Palantir, собирается привлечь 18 миллионов долларов при оценке в 100 миллионов долларов. Посмотрите презентацию из 14 слайдов, которую он использовал для своего предварительного посевного предложения на 2 миллиона долларов». Бизнес-инсайдер . Проверено 25 июля 2023 г.
  107. ^ «Фирма, производящая голоса, генерируемые искусственным интеллектом, прекращает работу после того, как 4chan использует голоса знаменитостей для злоупотреблений» . www.vice.com . 30 января 2023 г. . Проверено 3 февраля 2023 г.
  108. ^ «Использование преобразования текста в речь при создании видео с помощью искусственного интеллекта» . элай.io. _ Проверено 10 августа 2022 г.
  109. ^ «Преобразование речи AI для видео» . Synthesia.io . Проверено 12 октября 2023 г.
  110. ^ Бруно, Челси А (25 марта 2014 г.). Вокальный синтез и глубокое прослушивание (музыкальная диссертация). Международный университет Флориды. дои : 10.25148/etd.fi14040802 .

Внешние ссылки