Синтез речи — это искусственное воспроизведение человеческой речи . Компьютерная система, используемая для этой цели, называется синтезатором речи и может быть реализована в программных или аппаратных продуктах. Система преобразования текста в речь ( TTS ) преобразует обычный языковой текст в речь; другие системы преобразуют символические языковые представления, такие как фонетические транскрипции, в речь. [1] Обратный процесс — распознавание речи .
Синтезированная речь может быть создана путем объединения фрагментов записанной речи, которые хранятся в базе данных . Системы различаются по размеру хранимых речевых единиц; система, которая хранит фоны или дифоны, обеспечивает наибольший диапазон вывода, но может быть недостаточно четкой. [ необходима цитата ] Для определенных областей использования хранение целых слов или предложений позволяет получить высококачественный вывод. В качестве альтернативы синтезатор может включать модель речевого тракта и другие характеристики человеческого голоса для создания полностью «синтетического» голосового вывода. [2]
Качество синтезатора речи оценивается по его схожести с человеческим голосом и по его способности быть понятым ясно. Понятная программа преобразования текста в речь позволяет людям с нарушениями зрения или чтения слушать написанные слова на домашнем компьютере. Многие компьютерные операционные системы включают синтезаторы речи с начала 1990-х годов. [ необходима цитата ]
Система преобразования текста в речь (или «движок») состоит из двух частей: [3] интерфейса и бэкэнда . У интерфейса две основные задачи. Во-первых, он преобразует необработанный текст, содержащий символы, такие как числа и сокращения, в эквивалент написанных слов. Этот процесс часто называют нормализацией текста , предварительной обработкой или токенизацией . Затем интерфейс назначает фонетические транскрипции каждому слову и делит и размечает текст на просодические единицы , такие как фразы , предложения и предложения . Процесс назначения фонетических транскрипций словам называется преобразованием текста в фонему или графемы в фонему . Фонетические транскрипции и информация о просодии вместе составляют символическое лингвистическое представление, которое выводится интерфейсом. Затем интерфейс, часто называемый синтезатором , преобразует символическое лингвистическое представление в звук. В некоторых системах эта часть включает вычисление целевой просодии (контура высоты тона, длительности фонем) [4] , которая затем накладывается на выходную речь.
Задолго до изобретения электронной обработки сигналов некоторые люди пытались построить машины, имитирующие человеческую речь. Некоторые ранние легенды о существовании « медных голов » связаны с папой Сильвестром II (ум. 1003 г. н. э.), Альбертом Великим (1198–1280 гг.) и Роджером Бэконом (1214–1294 гг.).
В 1779 году немецко - датский ученый Христиан Готлиб Кратценштейн выиграл первую премию на конкурсе, объявленном Российской императорской академией наук и искусств за модели человеческого голосового тракта , которые могли воспроизводить пять долгих гласных звуков (в нотации Международного фонетического алфавита : [aː] , [eː] , [iː] , [oː] и [uː] ). [5] Затем последовала работающая на мехах « акустико-механическая речевая машина » Вольфганга фон Кемпелена из Пресбурга , Венгрия, описанная в статье 1791 года. [6] Эта машина добавила модели языка и губ, что позволило ей воспроизводить согласные и гласные. В 1837 году Чарльз Уитстон создал «говорящую машину», основанную на конструкции фон Кемпелена, а в 1846 году Йозеф Фабер продемонстрировал « Эуфонию ». В 1923 году Пейджет возродил конструкцию Уитстона. [7]
В 1930-х годах Bell Labs разработала вокодер , который автоматически анализировал речь на ее основные тона и резонансы. На основе своей работы над вокодером Гомер Дадли разработал синтезатор голоса с клавиатурным управлением под названием Voder (Voice Demonstrator), который он представил на Всемирной выставке в Нью-Йорке в 1939 году .
Доктор Франклин С. Купер и его коллеги из Haskins Laboratories построили Pattern playback в конце 1940-х годов и завершили его в 1950 году. Существовало несколько различных версий этого аппаратного устройства; в настоящее время сохранилась только одна. Машина преобразует изображения акустических моделей речи в форме спектрограммы обратно в звук. Используя это устройство, Элвин Либерман и его коллеги обнаружили акустические сигналы для восприятия фонетических сегментов (согласных и гласных).
Первые компьютерные системы синтеза речи появились в конце 1950-х годов. Норико Умеда и др. разработали первую общеанглийскую систему преобразования текста в речь в 1968 году в Электротехнической лаборатории в Японии. [8] В 1961 году физик Джон Ларри Келли-младший и его коллега Луис Герстман [9] использовали компьютер IBM 704 для синтеза речи, что стало одним из самых выдающихся событий в истории Bell Labs . [ требуется ссылка ] Синтезатор речевого рекордера Келли ( вокодер ) воссоздал песню « Daisy Bell » с музыкальным сопровождением Макса Мэтьюза . По совпадению, Артур Кларк навещал своего друга и коллегу Джона Пирса в здании Bell Labs в Мюррей-Хилле. Кларк был настолько впечатлен демонстрацией, что использовал ее в кульминационной сцене своего сценария к роману «2001: Космическая одиссея» [10] , где компьютер HAL 9000 поет ту же песню, пока астронавт Дэйв Боумен усыпляет его. [11] Несмотря на успех чисто электронного синтеза речи, исследования механических синтезаторов речи продолжаются. [12] [ необходим сторонний источник ]
Линейное предсказательное кодирование (LPC), форма кодирования речи , начало развиваться с работы Фумитады Итакуры из Университета Нагои и Шузо Сайто из Nippon Telegraph and Telephone (NTT) в 1966 году. Дальнейшие разработки в технологии LPC были сделаны Бишну С. Аталом и Манфредом Р. Шредером в Bell Labs в 1970-х годах. [13] Позднее LPC стал основой для ранних микросхем синтезатора речи, таких как речевые микросхемы LPC компании Texas Instruments, используемые в игрушках Speak & Spell с 1978 года.
В 1975 году Фумитада Итакура разработал метод линейных спектральных пар (LSP) для кодирования речи с высокой степенью сжатия, работая в NTT. [14] [15] [16] С 1975 по 1981 год Итакура изучал проблемы анализа и синтеза речи на основе метода LSP. [16] В 1980 году его команда разработала чип синтезатора речи на основе LSP. LSP является важной технологией для синтеза и кодирования речи, и в 1990-х годах был принят почти всеми международными стандартами кодирования речи в качестве важного компонента, способствуя улучшению цифровой речевой связи по мобильным каналам и через Интернет. [15]
В 1975 году была выпущена MUSA , которая стала одной из первых систем синтеза речи. Она состояла из автономного компьютерного оборудования и специализированного программного обеспечения, которое позволяло ей читать по-итальянски. Вторая версия, выпущенная в 1978 году, также могла петь по-итальянски в стиле « а капелла ». [17]
Доминирующими системами в 1980-х и 1990-х годах были система DECtalk , основанная в основном на работах Денниса Клатта из Массачусетского технологического института, и система Bell Labs; [18] последняя была одной из первых многоязычных систем, независимых от языка, широко использующих методы обработки естественного языка .
Портативная электроника с синтезом речи начала появляться в 1970-х годах. Одним из первых был портативный калькулятор для слепых Telesensory Systems Inc. (TSI) Speech+, выпущенный в 1976 году. [19] [20] Другие устройства имели в основном образовательные цели, например, игрушка Speak & Spell, выпущенная Texas Instruments в 1978 году. [21] Fidelity выпустила говорящую версию своего электронного шахматного компьютера в 1979 году. [22] Первой видеоигрой с синтезом речи была аркадная игра- стрелялка 1980 года Stratovox (известная в Японии как Speak & Rescue ) от Sun Electronics . [23] [24] Первой игрой для персональных компьютеров с синтезом речи была Manbiki Shoujo ( Shoplifting Girl ), выпущенная в 1980 году для PET 2001 , для которой разработчик игры Хироши Судзуки разработал технику программирования « zero cross » для создания синтезированной речевой волны. [25] Другой ранний пример — аркадная версия Berzerk , также датируемая 1980 годом. В том же году компания Milton Bradley выпустила первую многопользовательскую электронную игру с использованием голосового синтеза, Milton .
В 1976 году Computalker Consultants выпустила свой синтезатор речи CT-1. Разработанный Д. Ллойдом Райсом и Джимом Купером, это был аналоговый синтезатор, созданный для работы с микрокомпьютерами, использующими стандарт шины S-100. [26]
Ранние электронные синтезаторы речи звучали как роботы и часто были едва понятны. Качество синтезированной речи неуклонно улучшалось, но по состоянию на 2016 год [обновлять]вывод современных систем синтеза речи по-прежнему четко отличался от реальной человеческой речи.
Синтезированные голоса обычно звучали как мужские до 1990 года, пока Энн Сирдал из AT&T Bell Laboratories не создала женский голос. [27]
В 2005 году Курцвейл предсказал, что по мере того, как соотношение цены и производительности приведет к тому, что синтезаторы речи станут дешевле и доступнее, больше людей получат выгоду от использования программ преобразования текста в речь. [28]
Наиболее важными качествами системы синтеза речи являются естественность и разборчивость . [29] Естественность описывает, насколько близко выходной сигнал звучит как человеческая речь, в то время как разборчивость — это легкость, с которой выходной сигнал понимается. Идеальный синтезатор речи одновременно естественный и разборчивый. Системы синтеза речи обычно пытаются максимизировать обе характеристики.
Две основные технологии, генерирующие синтетические речевые формы волн, — это конкатенативное синтезирование и формантное синтезирование . Каждая технология имеет свои сильные и слабые стороны, и предполагаемое использование системы синтеза обычно определяет, какой подход использовать.
Конкатенативное синтезирование основано на конкатенации (связывании) сегментов записанной речи. Как правило, конкатенативное синтезирование производит наиболее естественно звучащую синтезированную речь. Однако различия между естественными вариациями речи и природой автоматизированных методов сегментации волновых форм иногда приводят к слышимым помехам на выходе. Существует три основных подтипа конкатенативного синтеза.
Синтез выбора единиц использует большие базы данных записанной речи. Во время создания базы данных каждое записанное высказывание сегментируется на некоторые или все из следующих: отдельные фоны , дифоны , полуфоны, слоги , морфемы , слова , фразы и предложения . Обычно разделение на сегменты выполняется с помощью специально модифицированного распознавателя речи , установленного в режим «принудительного выравнивания» с некоторой ручной коррекцией впоследствии, используя визуальные представления, такие как форма волны и спектрограмма . [30] Затем создается индекс единиц в базе данных речи на основе сегментации и акустических параметров, таких как основная частота ( высота тона ), длительность, положение в слоге и соседние фоны. Во время выполнения желаемое целевое высказывание создается путем определения наилучшей цепочки единиц-кандидатов из базы данных (выбор единиц). Этот процесс обычно достигается с помощью специально взвешенного дерева решений .
Выбор единиц обеспечивает наибольшую естественность, поскольку он применяет только небольшое количество цифровой обработки сигнала (DSP) к записанной речи. DSP часто делает записанную речь менее естественной, хотя некоторые системы используют небольшое количество обработки сигнала в точке конкатенации, чтобы сгладить форму волны. Выходные данные лучших систем выбора единиц часто неотличимы от настоящих человеческих голосов, особенно в контекстах, для которых была настроена система TTS. Однако максимальная естественность обычно требует, чтобы базы данных речи выбора единиц были очень большими, в некоторых системах достигая гигабайт записанных данных, что представляет собой десятки часов речи. [31] Кроме того, известно, что алгоритмы выбора единиц выбирают сегменты из места, которое приводит к неидеальному синтезу (например, второстепенные слова становятся неясными), даже если в базе данных существует лучший выбор. [32] Недавно исследователи предложили различные автоматизированные методы для обнаружения неестественных сегментов в системах синтеза речи выбора единиц. [33]
Дифонный синтез использует минимальную речевую базу данных, содержащую все дифоны (звуко-звуковые переходы), встречающиеся в языке. Количество дифонов зависит от фонотактики языка: например, в испанском языке около 800 дифонов, а в немецком около 2500. В дифонном синтезе в речевой базе данных содержится только один пример каждого дифона. Во время выполнения целевая просодия предложения накладывается на эти минимальные единицы с помощью цифровых методов обработки сигналов , таких как линейное предиктивное кодирование , PSOLA [34] или MBROLA [ 35] или более современных методов, таких как изменение высоты тона в исходной области с использованием дискретного косинусного преобразования [36] . Дифонный синтез страдает от звуковых сбоев конкатенативного синтеза и роботизированной природы формантного синтеза и имеет мало преимуществ любого из подходов, кроме небольшого размера. Таким образом, его использование в коммерческих приложениях снижается, [ необходима ссылка ] , хотя он продолжает использоваться в исследованиях, поскольку существует ряд свободно доступных реализаций программного обеспечения. Ранним примером синтеза Diphone является обучающий робот Leachim , который был изобретен Майклом Дж. Фрименом . [37] Leachim содержал информацию о программе класса и определенную биографическую информацию об учениках, которых он был запрограммирован обучать. [38] Он был протестирован в классе четвертого класса в Бронксе, Нью-Йорк . [39] [40]
Синтез, специфичный для домена, объединяет предварительно записанные слова и фразы для создания полных высказываний. Он используется в приложениях, где разнообразие текстов, которые система будет выводить, ограничено определенным доменом, например, объявления о расписании движения транспорта или прогнозы погоды. [41] Технология очень проста в реализации и уже давно используется в коммерческих целях в таких устройствах, как говорящие часы и калькуляторы. Уровень естественности этих систем может быть очень высоким, поскольку разнообразие типов предложений ограничено, и они близко соответствуют просодии и интонации исходных записей. [ необходима цитата ]
Поскольку эти системы ограничены словами и фразами в своих базах данных, они не являются универсальными и могут синтезировать только те комбинации слов и фраз, с которыми они были предварительно запрограммированы. Однако смешение слов в естественном разговорном языке все еще может вызывать проблемы, если не учитывать многочисленные вариации. Например, в неротических диалектах английского языка «r» в таких словах, как «clear» /ˈklɪə/, обычно произносится только тогда, когда следующее слово имеет гласную в качестве первой буквы (например, «clear out» реализуется как /ˌklɪəɹˈʌʊt/ ). Аналогично во французском языке многие конечные согласные больше не становятся немыми, если за ними следует слово, начинающееся с гласной, эффект, называемый связью . Это чередование не может быть воспроизведено простой системой конкатенации слов, которая потребовала бы дополнительной сложности для того, чтобы быть контекстно-зависимой .
Синтез формант не использует образцы человеческой речи во время выполнения. Вместо этого синтезированный речевой вывод создается с помощью аддитивного синтеза и акустической модели ( синтез физического моделирования ). [42] Такие параметры, как основная частота , голосоведение и уровни шума , изменяются с течением времени для создания формы волны искусственной речи. Этот метод иногда называют синтезом на основе правил ; однако многие конкатенативные системы также имеют компоненты на основе правил. Многие системы, основанные на технологии синтеза формант, генерируют искусственную, звучащую как робот речь, которую никогда не спутаешь с человеческой речью. Однако максимальная естественность не всегда является целью системы синтеза речи, и системы синтеза формант имеют преимущества перед конкатенативными системами. Синтезированная формантами речь может быть надежно понята даже на очень высоких скоростях, избегая акустических сбоев, которые обычно преследуют конкатенативные системы. Высокоскоростная синтезированная речь используется слабовидящими для быстрой навигации по компьютерам с помощью программы чтения с экрана . Синтезаторы формант обычно представляют собой меньшие программы, чем конкатенативные системы, поскольку у них нет базы данных образцов речи. Поэтому их можно использовать во встроенных системах , где память и мощность микропроцессора особенно ограничены. Поскольку системы на основе формант полностью контролируют все аспекты выходной речи, можно выводить широкий спектр просодий и интонаций , передавая не только вопросы и утверждения, но и разнообразные эмоции и тона голоса.
Примерами нереального времени, но очень точного управления интонацией в формантном синтезе являются работы, проделанные в конце 1970-х годов для игрушки Texas Instruments Speak & Spell , а также в начале 1980-х годов для игровых автоматов Sega [43] и во многих аркадных играх Atari, Inc. [44] с использованием микросхем TMS5220 LPC . Создание правильной интонации для этих проектов было кропотливым, и результаты еще не были достигнуты интерфейсами преобразования текста в речь в реальном времени. [45]
Артикуляционный синтез состоит из вычислительных методов синтеза речи на основе моделей человеческого голосового тракта и процессов артикуляции, происходящих в нем. Первый артикуляционный синтезатор, регулярно используемый для лабораторных экспериментов, был разработан в Haskins Laboratories в середине 1970-х годов Филиппом Рубином , Томом Бэром и Полом Мермельштейном. Этот синтезатор, известный как ASY, был основан на моделях голосового тракта, разработанных в Bell Laboratories в 1960-х и 1970-х годах Полом Мермельштейном, Сесилом Кокером и коллегами.
До недавнего времени модели артикуляционного синтеза не были включены в коммерческие системы синтеза речи. Заметным исключением является система на основе NeXT, изначально разработанная и продаваемая Trillium Sound Research, дочерней компанией Университета Калгари , где проводилась большая часть оригинальных исследований. После упадка различных воплощений NeXT (начатых Стивом Джобсом в конце 1980-х годов и объединенных с Apple Computer в 1997 году), программное обеспечение Trillium было опубликовано под лицензией GNU General Public License, и работа продолжилась как gnuspeech . Система, впервые выпущенная на рынок в 1994 году, обеспечивает полное артикуляционное преобразование текста в речь с использованием волновода или линии передачи аналоговых трактов ротовой полости и носа человека, контролируемых «моделью отличительной области» Карре.
Более поздние синтезаторы, разработанные Хорхе К. Лусеро и его коллегами, включают модели биомеханики голосовых связок, аэродинамики голосовой щели и распространения акустических волн в бронхах, трахее, носовой и ротовой полостях, и, таким образом, представляют собой полноценные системы моделирования речи на основе физики. [46] [47]
Синтез на основе HMM — это метод синтеза, основанный на скрытых марковских моделях , также называемый статистическим параметрическим синтезом. В этой системе частотный спектр ( речевой тракт ), основная частота (источник голоса) и длительность ( просодия ) речи одновременно моделируются HMM. Речевые волны генерируются из самих HMM на основе критерия максимального правдоподобия . [48]
Синтез синусоидальной волны — это метод синтеза речи путем замены формант (основных полос энергии) чистыми тонами свиста. [49]
Синтез речи с глубоким обучением использует глубокие нейронные сети (DNN) для создания искусственной речи из текста (текст-в-речь) или спектра (вокодер). Глубокие нейронные сети обучаются с использованием большого количества записанной речи и, в случае системы текст-в-речь, связанных меток и/или входного текста.
15.ai использует модель с несколькими говорящими — сотни голосов обучаются одновременно, а не последовательно, что сокращает необходимое время обучения и позволяет модели изучать и обобщать общий эмоциональный контекст, даже для голосов, не подверженных такому эмоциональному контексту. [50] Модель глубокого обучения , используемая приложением, является недетерминированной : каждый раз, когда речь генерируется из одной и той же строки текста, интонация речи будет немного отличаться. Приложение также поддерживает ручное изменение эмоций сгенерированной строки с помощью эмоциональных контекстуализаторов (термин, придуманный этим проектом), предложения или фразы, которые передают эмоции дубля, который служит руководством для модели во время вывода. [51] [52]
ElevenLabs в первую очередь известна своим браузерным программным обеспечением для преобразования текста в речь с помощью искусственного интеллекта Speech Synthesis, которое может воспроизводить реалистичную речь, синтезируя голосовые эмоции и интонацию . [53] Компания заявляет, что ее программное обеспечение создано для регулировки интонации и темпа доставки на основе контекста используемого языкового ввода. [54] Оно использует передовые алгоритмы для анализа контекстных аспектов текста, стремясь обнаружить такие эмоции, как гнев, грусть, счастье или тревога, что позволяет системе понимать настроение пользователя, [55] что приводит к более реалистичной и человеческой интонации. Другие функции включают многоязычную генерацию речи и создание длинного контента с помощью голосов, учитывающих контекст. [56] [57]
Синтезаторы речи на основе DNN приближаются к естественности человеческого голоса. Примерами недостатков метода являются низкая надежность при недостаточности данных, отсутствие управляемости и низкая производительность в авторегрессионных моделях.
Для тональных языков, таких как китайский или тайваньский языки, требуются разные уровни тонового сандхи , и иногда вывод синтезатора речи может приводить к ошибкам тонового сандхи. [58]
В 2023 году репортер VICE Джозеф Кокс опубликовал результаты исследования, согласно которым он записал пять минут своего разговора, а затем использовал инструмент, разработанный ElevenLabs, для создания фальшивых голосов, которые обошли систему голосовой аутентификации банка . [66]
Процесс нормализации текста редко бывает простым. Тексты полны гетеронимов , чисел и сокращений , которые все требуют расширения в фонетическое представление. В английском языке существует много написаний, которые произносятся по-разному в зависимости от контекста. Например, «My latest project is to learn how to better project my voice» содержит два произношения слова «project».
Большинство систем преобразования текста в речь (TTS) не генерируют семантические представления своих входных текстов, поскольку процессы для этого ненадежны, плохо понятны и вычислительно неэффективны. В результате используются различные эвристические методы для угадывания правильного способа устранения неоднозначности омографов , например, изучение соседних слов и использование статистики о частоте встречаемости.
Недавно системы TTS начали использовать HMM (обсуждавшиеся выше) для генерации « частей речи », чтобы помочь в устранении неоднозначности омографов. Этот метод довольно успешен во многих случаях, например, когда «read» следует произносить как «red», подразумевая прошедшее время, или как «reed», подразумевая настоящее время. Типичные показатели ошибок при использовании HMM таким образом обычно составляют менее пяти процентов. Эти методы также хорошо работают для большинства европейских языков, хотя доступ к требуемым учебным корпусам часто затруднен в этих языках.
Еще одной проблемой, которую приходится решать системам TTS, является решение вопроса о том, как преобразовать числа. Это простая задача программирования — преобразовать число в слова (по крайней мере, на английском языке), например, «1325» становится «одна тысяча триста двадцать пять». Однако числа встречаются во многих различных контекстах; «1325» также может читаться как «один три два пять», «тринадцать двадцать пять» или «тринадцатьсот двадцать пять». Система TTS часто может сделать вывод о том, как расширить число, основываясь на окружающих словах, числах и знаках препинания, а иногда система предоставляет способ указать контекст, если он неоднозначен. [67] Римские цифры также могут читаться по-разному в зависимости от контекста. Например, «Генрих VIII» читается как «Генрих Восьмой», в то время как «Глава VIII» читается как «Глава Восьмая».
Аналогично, сокращения могут быть неоднозначными. Например, сокращение "in" для "inches" должно быть отделено от слова "in", а адрес "12 St John St." использует одно и то же сокращение для "Saint" и "Street". Системы TTS с интеллектуальными интерфейсами могут делать обоснованные предположения о неоднозначных сокращениях, в то время как другие выдают один и тот же результат во всех случаях, что приводит к бессмысленным (а иногда и комичным) выводам, например, " Ulysses S. Grant " отображается как "Ulysses South Grant".
Системы синтеза речи используют два основных подхода для определения произношения слова на основе его написания , процесс, который часто называют преобразованием текста в фонему или графемы в фонему ( фонема — это термин, используемый лингвистами для описания отличительных звуков в языке ). Самый простой подход к преобразованию текста в фонему — это подход на основе словаря, где большой словарь, содержащий все слова языка и их правильное произношение , хранится программой. Определение правильного произношения каждого слова заключается в поиске каждого слова в словаре и замене написания на произношение, указанное в словаре. Другой подход основан на правилах, в котором правила произношения применяются к словам для определения их произношения на основе их написания. Это похоже на подход «проговаривания» или синтетической фонетики , подход к обучению чтению.
Каждый подход имеет свои преимущества и недостатки. Подход на основе словаря быстр и точен, но полностью терпит неудачу, если ему дано слово, которого нет в его словаре. По мере роста размера словаря растут и требования к объему памяти системы синтеза. С другой стороны, подход на основе правил работает с любыми входными данными, но сложность правил существенно возрастает, поскольку система учитывает нерегулярные написания или произношения. (Учтите, что слово "of" очень распространено в английском языке, но это единственное слово, в котором буква "f" произносится [v] .) В результате почти все системы синтеза речи используют комбинацию этих подходов.
Языки с фонематической орфографией имеют очень регулярную систему письма, и предсказание произношения слов на основе их написания является довольно успешным. Системы синтеза речи для таких языков часто широко используют метод, основанный на правилах, прибегая к словарям только для тех немногих слов, таких как иностранные имена и заимствованные слова, произношение которых не очевидно из их написания. С другой стороны, системы синтеза речи для таких языков, как английский, которые имеют крайне нерегулярные системы правописания, с большей вероятностью будут полагаться на словари и использовать методы, основанные на правилах, только для необычных слов или слов, которых нет в их словарях.
Последовательная оценка систем синтеза речи может быть затруднена из-за отсутствия общепризнанных объективных критериев оценки. Разные организации часто используют разные речевые данные. Качество систем синтеза речи также зависит от качества производственной техники (которая может включать аналоговую или цифровую запись) и от оборудования, используемого для воспроизведения речи. Поэтому оценка систем синтеза речи часто ставилась под угрозу из-за различий между производственной техникой и оборудованием для воспроизведения.
Однако с 2005 года некоторые исследователи начали оценивать системы синтеза речи, используя общий набор речевых данных. [68]
Исследование, проведенное Эми Драхотой и ее коллегами из Портсмутского университета ( Великобритания) в журнале Speech Communication , показало, что слушатели записей голоса могли определить с точностью, превышающей случайную, улыбался ли говорящий. [69] [70] [71] Было высказано предположение, что идентификация вокальных особенностей, которые сигнализируют об эмоциональном содержании, может использоваться для придания синтезированной речи более естественного звучания. Одной из связанных с этим проблем является изменение контура высоты тона предложения в зависимости от того, является ли оно утвердительным, вопросительным или восклицательным предложением. Один из методов изменения высоты тона [72] использует дискретное косинусное преобразование в исходной области ( остаток линейного предсказания ). Такие методы синхронной модификации высоты тона требуют априорной маркировки высоты тона базы данных синтезированной речи с использованием таких методов, как извлечение эпох с использованием динамического индекса взрывного взрыва , применяемого к интегрированному остатку линейного предсказания вокализованных областей речи. [73] В целом, просодия остается проблемой для синтезаторов речи и является активной темой исследований.
Популярные системы, предлагающие синтез речи как встроенную функцию.
В начале 1980-х годов TI была известна как пионер в области синтеза речи, и для TI-99/4 и 4A был доступен очень популярный подключаемый модуль синтезатора речи. Речевые синтезаторы предлагались бесплатно при покупке ряда картриджей и использовались во многих видеоиграх, написанных TI (игры, предлагаемые с речью во время этой акции, включали Alpiner и Parsec ). Синтезатор использует вариант линейного предиктивного кодирования и имеет небольшой встроенный словарь. Первоначально предполагалось выпустить небольшие картриджи, которые подключались бы непосредственно к блоку синтезатора, что увеличило бы встроенный словарь устройства. Однако успех программного преобразования текста в речь в картридже Terminal Emulator II отменил этот план.
Игровая консоль Mattel Intellivision предложила модуль Intellivoice Voice Synthesis в 1982 году. Он включал в себя чип синтезатора речи SP0256 Narrator на съемном картридже. Narrator имел 2 КБ постоянной памяти (ROM), и это использовалось для хранения базы данных общих слов, которые можно было комбинировать для создания фраз в играх Intellivision. Поскольку чип Orator также мог принимать речевые данные из внешней памяти, любые необходимые дополнительные слова или фразы можно было хранить внутри самого картриджа. Данные состояли из строк коэффициентов аналогового фильтра для изменения поведения модели синтетического речевого тракта чипа, а не из простых оцифрованных образцов.
Также выпущенная в 1982 году, Software Automatic Mouth была первой коммерческой программой для полностью программного синтеза голоса. Позднее она была использована в качестве основы для Macintalk . Программа была доступна для компьютеров Apple, отличных от Macintosh (включая Apple II и Lisa), различных моделей Atari и Commodore 64. Версия Apple предпочитала дополнительное оборудование, содержащее ЦАП, хотя вместо этого она могла использовать однобитный аудиовыход компьютера (с добавлением большого количества искажений), если карта отсутствовала. Atari использовала встроенный аудиочип POKEY. Воспроизведение речи на Atari обычно отключало запросы прерываний и отключало чип ANTIC во время голосового вывода. Звуковой вывод представляет собой чрезвычайно искаженную речь, когда экран включен. Commodore 64 использовал встроенный аудиочип SID 64.
Вероятно, первой речевой системой, интегрированной в операционную систему, были невыпущенные примерно в 1983 году компьютеры Atari 1400XL/1450XL . Они использовали чип Votrax SC01 и конечный автомат для включения синтеза текста в речь World English Spelling. [75]
Компьютеры Atari ST продавались с файлом «stspeech.tos» на дискете.
Первой речевой системой, интегрированной в операционную систему , которая поставлялась в больших количествах, была MacInTalk от Apple Computer . Программное обеспечение было лицензировано сторонними разработчиками Джозефом Кацем и Марком Бартоном (позже SoftVoice, Inc.) и было представлено во время представления компьютера Macintosh в 1984 году. Для этой январской демонстрации требовалось 512 килобайт оперативной памяти. В результате она не могла работать в 128 килобайтах оперативной памяти, с которыми фактически поставлялся первый Mac. [76] Итак, демонстрация была выполнена на прототипе 512k Mac, хотя присутствующим об этом не сообщили, и демонстрация синтеза вызвала значительный ажиотаж вокруг Macintosh. В начале 1990-х годов Apple расширила свои возможности, предложив общесистемную поддержку преобразования текста в речь. С появлением более быстрых компьютеров на базе PowerPC они включили более качественную выборку голоса. Apple также внедрила в свои системы распознавание речи , что обеспечило гибкий набор команд. Совсем недавно Apple добавила голоса на основе выборок. Начиная с диковинки, речевая система Apple Macintosh превратилась в полностью поддерживаемую программу PlainTalk для людей с проблемами зрения. VoiceOver впервые был представлен в 2005 году в Mac OS X Tiger (10.4). В течение 10.4 (Tiger) и первых выпусков 10.5 ( Leopard ) в Mac OS X был только один стандартный голос. Начиная с 10.6 ( Snow Leopard ), пользователь может выбирать из широкого списка нескольких голосов. Голоса VoiceOver включают реалистично звучащие вдохи между предложениями, а также улучшенную четкость при высоких скоростях чтения по сравнению с PlainTalk. Mac OS X также включает say, приложение на основе командной строки , которое преобразует текст в слышимую речь. Стандартные дополнения AppleScript включают глагол say, который позволяет скрипту использовать любой из установленных голосов и управлять высотой тона, скоростью речи и модуляцией произносимого текста.
Используется в Alexa и в качестве программного обеспечения как услуги в AWS [77] (с 2017 г.).
Второй операционной системой с расширенными возможностями синтеза речи была AmigaOS , представленная в 1985 году. Синтез голоса был лицензирован Commodore International у SoftVoice, Inc., которая также разработала оригинальную систему преобразования текста в речь MacinTalk . Она включала полную систему эмуляции голоса для американского английского языка с мужскими и женскими голосами и маркерами индикатора «стресса», что стало возможным благодаря аудиочипсету Amiga . [ 78] Система синтеза была разделена на библиотеку переводчика, которая преобразовывала неограниченный английский текст в стандартный набор фонетических кодов, и устройство рассказчика, которое реализовывало формантную модель генерации речи. AmigaOS также включала высокоуровневый « Speak Handler », который позволял пользователям командной строки перенаправлять текстовый вывод в речь. Синтез речи иногда использовался в сторонних программах, в частности, в текстовых процессорах и образовательном программном обеспечении. Программное обеспечение синтеза оставалось в значительной степени неизменным с первого выпуска AmigaOS, и Commodore в конечном итоге удалил поддержку синтеза речи из AmigaOS 2.1 и далее.
Несмотря на ограничение фонем американского английского языка, была разработана неофициальная версия с многоязычным синтезом речи. Она использовала расширенную версию библиотеки переводчика, которая могла переводить несколько языков, учитывая набор правил для каждого языка. [79]
Современные настольные системы Windows могут использовать компоненты SAPI 4 и SAPI 5 для поддержки синтеза и распознавания речи . SAPI 4.0 был доступен как дополнительный модуль для Windows 95 и Windows 98. В Windows 2000 был добавлен Narrator , утилита преобразования текста в речь для людей с нарушениями зрения. Сторонние программы, такие как JAWS для Windows, Window-Eyes, Non-visual Desktop Access, Supernova и System Access, могут выполнять различные задачи преобразования текста в речь, такие как чтение вслух текста с указанного веб-сайта, учетной записи электронной почты, текстового документа, буфера обмена Windows, набора текста с клавиатуры пользователя и т. д. Не все программы могут использовать синтез речи напрямую. [80] Некоторые программы могут использовать подключаемые модули, расширения или модули для чтения текста вслух. Доступны сторонние программы, которые могут читать текст из системного буфера обмена.
Microsoft Speech Server — серверный пакет для синтеза и распознавания голоса. Он предназначен для сетевого использования с веб-приложениями и колл-центрами .
С 1971 по 1996 год Votrax производила ряд коммерческих компонентов синтезатора речи. Синтезатор Votrax был включен в первое поколение читающей машины Kurzweil для слепых.
Текст в речь (TTS) относится к способности компьютеров читать текст вслух. Механизм TTS преобразует письменный текст в фонемное представление, затем преобразует фонемное представление в формы волн, которые могут быть выведены как звук. Механизмы TTS с различными языками, диалектами и специализированными словарями доступны через сторонних издателей. [81]
В версии Android 1.6 добавлена поддержка синтеза речи (TTS). [82]
В настоящее время существует ряд приложений , плагинов и гаджетов, которые могут читать сообщения непосредственно из почтового клиента и веб-страницы из веб-браузера или панели инструментов Google . Некоторое специализированное программное обеспечение может озвучивать RSS-каналы . С одной стороны, онлайн-рассказчики RSS упрощают доставку информации, позволяя пользователям прослушивать любимые источники новостей и конвертировать их в подкасты . С другой стороны, онлайн-ридеры RSS доступны практически на любом персональном компьютере, подключенном к Интернету. Пользователи могут загружать сгенерированные аудиофайлы на портативные устройства, например, с помощью приемника подкастов , и слушать их во время ходьбы, пробежки или по дороге на работу.
Растущей областью в Интернет-ориентированном TTS является веб-ориентированная вспомогательная технология , например, «Browsealoud» от британской компании и Readspeaker . Она может предоставить функциональность TTS любому человеку (по соображениям доступности, удобства, развлечения или информации) с доступом к веб-браузеру. Некоммерческий проект Pediaphon был создан в 2006 году для предоставления аналогичного веб-ориентированного TTS-интерфейса для Википедии. [83]
Другая работа ведется в контексте W3C через Группу аудиоинкубатора W3C при участии BBC и Google Inc.
Доступны некоторые системы программного обеспечения с открытым исходным кодом , такие как:
На конференции по системам обработки нейронной информации (NeurIPS) 2018 года исследователи из Google представили работу «Перенос обучения с проверки говорящего на многоговорящий синтез текста в речь», которая переносит обучение с проверки говорящего на достижение синтеза текста в речь, который может заставить звучать почти как кто угодно, используя речевой образец продолжительностью всего 5 секунд. [86]
Исследователи из Baidu Research также представили систему клонирования голоса с аналогичными целями на конференции NeurIPS 2018 года [87] , хотя результат оказался довольно неубедительным.
К 2019 году цифровые звукоподражатели попали в руки преступников, поскольку исследователям Symantec известно о трех случаях, когда технология цифровых звукоподражателей использовалась в преступных целях. [88] [89]
Это усиливает напряжение в связи с ситуацией дезинформации в сочетании с фактами, которые
В марте 2020 года было выпущено бесплатное веб-приложение под названием 15.ai , которое генерирует высококачественные голоса из множества вымышленных персонажей из различных медиаисточников. [92] Первоначальными персонажами были GLaDOS из Portal , Twilight Sparkle и Fluttershy из шоу My Little Pony: Friendship Is Magic и Десятый Доктор из Doctor Who .
Для представления текста в виде речи в формате, совместимом с XML , было создано несколько языков разметки . Самым последним из них является Speech Synthesis Markup Language (SSML), который стал рекомендацией W3C в 2004 году. Более старые языки разметки синтеза речи включают Java Speech Markup Language ( JSML ) и SABLE . Хотя каждый из них был предложен в качестве стандарта, ни один из них не получил широкого распространения. [ необходима цитата ]
Языки разметки синтеза речи отличаются от языков разметки диалогов. VoiceXML , например, включает теги, связанные с распознаванием речи, управлением диалогами и тональным набором, в дополнение к разметке преобразования текста в речь. [ необходима цитата ]
Синтез речи уже давно является жизненно важным вспомогательным технологическим инструментом, и его применение в этой области является значительным и широко распространенным. Он позволяет устранить барьеры окружающей среды для людей с широким спектром инвалидности. Самое продолжительное применение было в использовании экранных дикторов для людей с нарушениями зрения, но системы преобразования текста в речь теперь широко используются людьми с дислексией и другими нарушениями чтения , а также детьми, не имеющими грамотности. [93] Они также часто используются для помощи людям с серьезными нарушениями речи , как правило, с помощью специального средства голосового вывода . [94] Работа по персонализации синтетического голоса для лучшего соответствия личности человека или историческому голосу становится доступной. [95] Известным применением синтеза речи была читающая машина Kurzweil для слепых , которая включала программное обеспечение преобразования текста в фонетику, основанное на работе Haskins Laboratories , и синтезатор черного ящика, созданный Votrax . [96]
Методы синтеза речи также используются в развлекательных постановках, таких как игры и анимация. В 2007 году Animo Limited объявила о разработке пакета программного обеспечения на основе своего программного обеспечения для синтеза речи FineSpeech, явно ориентированного на клиентов в индустрии развлечений, способного генерировать повествование и строки диалога в соответствии с требованиями пользователя. [97] Приложение достигло зрелости в 2008 году, когда NEC Biglobe анонсировала веб-сервис, который позволяет пользователям создавать фразы из голосов персонажей из японского аниме- сериала Code Geass: Lelouch of the Rebellion R2 . [98] 15.ai часто использовался для создания контента в различных фэндомах , включая фэндом My Little Pony: Friendship Is Magic , фэндом Team Fortress 2 , фэндом Portal и фэндом SpongeBob SquarePants . [ необходима цитата ]
Широко доступны средства для преобразования текста в речь для людей с ограниченными возможностями и ослабленной коммуникацией. Преобразование текста в речь также находит новые применения; например, синтез речи в сочетании с распознаванием речи позволяет взаимодействовать с мобильными устройствами через интерфейсы обработки естественного языка . Некоторые пользователи также создали виртуальных помощников ИИ , используя 15.ai и внешнее программное обеспечение для голосового управления. [51] [52]
Текст в речь также используется для освоения второго языка. Например, Voki — это образовательный инструмент, созданный Oddcast, который позволяет пользователям создавать собственные говорящие аватары, используя разные акценты. Их можно отправлять по электронной почте, встраивать на веб-сайты или делиться в социальных сетях.
Создатели контента использовали инструменты клонирования голоса для воссоздания своих голосов для подкастов, [99] [100] повествования, [54] и комедийных шоу. [101] [102] [103] Издатели и авторы также использовали такое программное обеспечение для озвучивания аудиокниг и информационных бюллетеней. [104] [105] Другая область применения — создание видео с использованием ИИ с говорящими головами. Веб-приложения и видеоредакторы, такие как Elai.io или Synthesia, позволяют пользователям создавать видеоконтент с участием ИИ-аватаров, которые заставляют говорить с помощью технологии преобразования текста в речь. [106] [107]
Синтез речи является ценным вычислительным средством для анализа и оценки речевых расстройств. Синтезатор качества голоса , разработанный Хорхе К. Лусеро и др. в Университете Бразилиа , имитирует физику фонации и включает модели дрожания и тремора голосовой частоты, шума воздушного потока и асимметрии гортани. [46] Синтезатор использовался для имитации тембра дисфонических ораторов с контролируемыми уровнями грубости, придыхания и напряжения. [47]
{{cite book}}
: CS1 maint: date and year (link)