stringtranslate.com

PlainTalk

PlainTalk — собирательное название нескольких технологий синтеза речи ( MacinTalk ) и распознавания речи , разработанных Apple Inc. В 1990 году Apple вложила много труда и денег в технологию распознавания речи, наняв множество исследователей в этой области. Результатом стал «PlainTalk», выпущенный вместе с AV-моделями серии Macintosh Quadra с 1993 года. Он стал стандартным системным компонентом в System 7 .1.2 и с тех пор поставляется на все PowerPC и некоторые Macintosh 68k .

Программное обеспечение

Синтез речи

Технологии

Преобразование текста в речь Apple использует дифоны . По сравнению с другими методами синтеза речи он не очень ресурсозатратен, но ограничивает естественность синтеза речи . Были доступны версии американского английского и испанского языков, но с появлением Mac OS X Apple поставляла только голоса американского английского языка, полагаясь на сторонних поставщиков, таких как Acapela Group, для предоставления голосов для других языков (в OS X 10.7 Apple лицензировала множество сторонних голосов и сделали их доступными для скачивания в панели управления речью).

Интерфейс прикладного программирования, известный как Speech Manager, позволяет сторонним разработчикам использовать синтез речи в своих приложениях. Существуют различные управляющие последовательности, которые можно использовать для точной настройки интонации и ритма. Громкость , высоту и скорость речи также можно настроить, что позволяет петь.

Входом в синтезатор можно управлять явно с помощью специального алфавита фонем.

Оригинальный MacinTalk

Демонстрация MacinTalk 1

Первоначальный механизм преобразования текста в речь Macintosh, MacinTalk (названный Дениз Чендлер), использовался Apple при представлении Macintosh в 1984 году, когда компьютер заявил о себе миру (и высмеивал вес компьютера IBM). . Хотя он был включен в операционную систему Macintosh, он официально не поддерживался Apple (хотя информация о программировании была доступна в Техническом примечании Apple [1] [2] ). MacinTalk был разработан Джозефом Кацем и Марком Бартоном, которые позже основали компанию SoftVoice, Inc., которая в настоящее время продает механизмы TTS для Windows, Linux и встроенных платформ. MacinTalk использовал прямой доступ к оригинальному звуковому оборудованию Macintosh, и все попытки Apple лицензировать исходный код для его обновления для новых компьютеров Mac потерпели неудачу. [3] [4]

MacinTalk 2

Демо MacinTalk 2 с голосами мистера Хьюза и Марвина

В конце концов, Apple выпустила поддерживаемую систему синтеза речи под названием MacinTalk 2. Она поддерживает любой Macintosh, на котором установлено системное программное обеспечение 6.0.7 или более поздней версии. Она оставалась рекомендуемой версией для более медленных компьютеров даже после выпуска MacinTalk 3 и Pro.

MacinTalk 3, Про

MacinTalk 3 представил большое разнообразие голосов. Помимо стандартных взрослых голосов «Ральф», «Фред» и «Кэти», а также детских голосов, таких как «Принцесса» (переименованная в «Суперзвезда» в macOS Ventura ) и «Джуниор», были включены различные новые голоса, такие как «Шепот», «Зарвокс» (роботизированный голос с мелодичными фоновыми звуками, включая также похожий голос под названием «Триноиды»), «Виолончель» (голос, который пел текст на мелодию Эдварда Грига , также известную как «В Зале Горы»). Кинг» с одинаковыми поющими голосами, такими как «Хорошие новости», «Плохие новости», «Орган»), «Альберт» (хриплый голос), «Колокольчики», «Боинг», «Пузыри» и другие.

Каждый из этих голосов сопровождался собственным примером текста, который можно было бы произнести, если нажать кнопку «Тест» на панели управления речью. Некоторые просто называли свое имя, язык и версию MacinTalk, с которой они познакомились. Другие говорили смешные вещи, например: «Мне очень нравится находиться внутри этого модного компьютера», «У меня лягушка в горле... Нет, я имею в виду настоящую лягушку!», «Надо радоваться этому болезненному голосу» (а пародия на западные церковные гимны с органной музыкой ), или «Свет, который вы видите в конце туннеля, — это фара быстро приближающегося поезда». Эти голоса до сих пор присутствуют в macOS . (Некоторые имена голосов и их тестовые тексты были изменены в macOS Ventura , а затем все их тестовые тексты были изменены в macOS Sonoma на «Здравствуйте, меня зовут [имя голоса]».)

Благодаря увеличению вычислительной мощности, обеспечиваемому компьютерами AV Mac и Macintosh на базе PowerPC, Apple могла себе позволить повысить качество синтеза. Для MacinTalk 3 требовался процессор 68030 с тактовой частотой 33 МГц , а для MacinTalk Pro требовался процессор 68040 или выше и не менее 1 МБ ОЗУ . Каждый синтезатор поддерживал свой набор голосов.

Преобразование текста в речь в Mac OS X

Преобразование текста в речь было частью каждой версии Mac OS X (позже macOS). Голос Виктории был значительно улучшен в Mac OS X v10.3 и добавлен как Вики (Виктория не была удалена). Его размер был почти в 20 раз больше за счет использования более качественных образцов дифонов.

Новый, гораздо более естественный голос по имени «Алекс» был добавлен в список преобразования текста в речь Mac с выпуском Mac OS X 10.5 Leopard. [5]

В Mac OS X 10.7 Lion голоса доступны на дополнительном американском английском и других английских акцентах, а также на 21 другом языке.[6]

Функция «Проговаривать выделенный текст при нажатии клавиши» позволяет читать выбранный текст из любого приложения с помощью комбинации клавиш. Начиная с Mac OS X 10.1 до Mac OS X 10.6 , эта функция копировала выделенный текст в буфер обмена и считывала его оттуда. Начиная с Mac OS X 10.7 до Mac OS X 10.10 , новая реализация этой функции требовала от разработчиков программного обеспечения внедрения API синтеза речи в свои приложения. [7] [8] Это предотвратило перезапись буфера обмена, но также означало, что для приложений, которые не использовали API, эта функция не работала должным образом, считывая строку заголовка, а не выделенный текст. [9] [10]

В macOS Sierra 10.12 Siri была представлена ​​для Mac, однако голос не был доступен в качестве системного голоса, а это означало, что голоса Siri можно было использовать только в Siri. Siri была доступна как системный голос в macOS Catalina 10.15, поэтому она могла работать с любым текстом. Голоса Siri работают совершенно по-другому, и sayкоманда по-прежнему не может использовать Siri.

В обновлении macOS Big Sur 11.3 гендерные ссылки на все голоса были удалены, что совпало с изменением голосов Siri в iOS 14.5 и macOS 11.3 и более поздних версиях в рамках усилий Apple по продвижению гендерной инклюзивности.

Распознавание речи

В 1990 году Apple наняла множество исследователей в области распознавания речи. Примерно через год они продемонстрировали технологию под кодовым названием Casper. Он был выпущен как часть пакета PlainTalk в 1993 году. Хотя он был доступен для всех PowerPC Macintosh и машин AV 68k (это было одно из немногих приложений, использовавших DSP в Centris 660AV и Quadra 840AV ), он не входил в состав пакета PlainTalk. установка системы по умолчанию до Mac OS X, требующая от пользователя выполнения выборочной установки ОС, чтобы получить возможности распознавания речи.

В Mac OS X 10.7 Lion и более ранних версиях распознавание речи Apple было ориентировано только на голосовые команды, то есть не предназначалось для диктовки. Его можно настроить на прослушивание команд при нажатии горячей клавиши после обращения к ним с помощью фразы активации, например «Компьютер» или «Макинтош», или без запроса. Графический монитор состояния, часто в виде анимированного персонажа, обеспечивает визуальную и текстовую информацию о состоянии прослушивания, доступных командах и действиях. Он также может общаться с пользователем, используя синтез речи.

Ранние версии распознавания речи обеспечивали полный доступ к меню. Позже эта поддержка была удалена, поскольку она требовала слишком много ресурсов и делала распознавание менее надежным, но была повторно добавлена ​​в Mac OS X 10.3 как «технология универсального доступа», называемая разговорным пользовательским интерфейсом.

Пользователь может запускать элементы, расположенные в специальной папке под названием «Speakable Items», просто произнося их имя (пока система находится в режиме прослушивания ). Apple поместила в эту папку несколько AppleScripts , но псевдонимы , документы и папки можно открывать таким же образом.

Дополнительный функционал обеспечивается отдельными приложениями. Интерфейс прикладного программирования позволяет программам определять и изменять доступный словарь . Например, Finder предоставляет словарь для управления файлами и окнами .

В OS X 10.8 Mountain Lion Apple представила «Диктовку, [11] », предназначенную для общего текста. Первоначально требовалось отправлять аудиоданные на серверы Apple для обработки. В OS X 10.9 Mavericks Apple добавила возможность загрузки поддержки диктовки без подключения к Интернету. Начиная с OS X 10.9.3, поддерживается восемь языков (19 диалектов).

Аппаратное обеспечение

Apple выпустила два микрофона под названием «Apple PlainTalk Microphone». [ нужна цитация ] Первый поставлялся в комплекте с Macintosh LC и ранними моделями Performa и имел круглый вид. Он был разработан для размещения в держателе, прикрепленном сбоку к ЭЛТ-дисплею , и его можно было поднимать и держать ртом во время разговора. [ нужна цитация ] Вторая модель была представлена ​​вместе с моделями AV в серии Macintosh Quadra в 1993 году, но также продавалась отдельно. Он был спроектирован так, чтобы располагаться сверху экрана и был чувствителен к звуку спереди. Обе модели имели более длинный разъем, наконечник которого использовался для подачи на микрофон напряжения смещения .

Рекомендации

  1. ^ Джинджер Джерниган; Джим Рикс (июнь 1989 г.) [апрель 1985 г.]. «Техническое примечание № 019: Как добиться непрерывного звука без щелчков». Apple Computer Inc. Проверено 18 сентября 2019 г.
  2. Джим Рикс (1 февраля 1990 г.). «Техническая записка PT22, также известная как № 268: MacinTalk — последняя глава от MacinTalk — последняя глава». Apple Computer Inc. Проверено 18 сентября 2019 г.Результатом этой работы стал MacinTalk. MacinTalk — это файл, который можно поместить в системную папку обычного компьютера Macintosh и который позволяет преобразовывать текст в речь для представления в 1984 году. Это было сочтено интересным программным обеспечением, поэтому Apple предоставила его разработчикам. Были опубликованы интерфейсы для MacinTalk, и лицензирование программного обеспечения Apple позволило включать его в продукты разработчиков. Первоначальный проект заключался в получении речевого драйвера для Macintosh, но он не включал получение исходного кода этого драйвера. У Apple есть только то, что она дает разработчикам: файл, который нужно скопировать в системную папку, и этот файл нельзя изменить, поскольку у Apple нет исходного кода. [Оригинал] MacinTalk использует задачу VBL для записи данных непосредственно на звуковое оборудование материнских плат Macintosh Plus и SE — метод, который Apple не поддерживает. Только благодаря усилиям Sound Manager программное обеспечение, записывающее непосредственно на это звуковое оборудование, продолжает работать. MacinTalk продолжает записывать по аппаратным адресам материнской платы Macintosh 128K, но Sound Manager и Apple Sound Chip работают вместе, позволяя таким программам, как MacinTalk, продолжать работать на новых машинах. Sound Manager и звуковой чип Apple [ASC] были представлены в Macintosh II. Sound Manager отслеживает аппаратные адреса, которые раньше присутствовали на Macintosh. Когда Sound Manager обнаруживает активность по одному из этих адресов, он переходит в режим «совместимости». В этом режиме данные перенаправляются на реальное звуковое оборудование, но пока это происходит, правильный код Sound Manager не может работать — даже _SysBeep Sound Manager не работает, когда используется MacinTalk. Более того, режим совместимости нельзя отключить до тех пор, пока требующее его приложение не вызовет _ExitToShell. Даже приложение, которое правильно использует звук и имеет правильный код, не будет работать, если другое приложение откроет драйвер MacinTalk. Решений этой несовместимости нет... Другими словами, если MacinTalk вам кажется интересным и интересным — купите его. Напишите немного кода и наслаждайтесь. Однако имейте в виду, что MacinTalk не следует включать в состав какого-либо коммерческого продукта. Apple Computer, Inc. не предоставляет никакой поддержки MacinTalk, кроме той, которая приобретается вместе с самим пакетом, и в будущем поддержка не будет. Apple стремится предоставить сообществу разработчиков набор речевых технологий, интегрированных с Sound Manager... Ничего больше не будет сделано [с оригинальным MacinTalk]. Это риск совместимости... приводит к сбою Sound Manager... не будет работать с новым Sound Manager, запланированным для системы 7.0... может вообще не работать с будущими версиями оборудования Macintosh. ....#000: О технических примечаниях для Macintosh.... Мы не налагаем никаких ограничений на копирование технических примечаний, за исключением того, что вы не можете их перепродавать, поэтому читайте, наслаждайтесь и делитесь ими.Альтернативный URL
  3. ^ "Макинток".
  4. ^ "МацинТок".
  5. ^ «Специальные возможности — OS X» . Яблоко . Проверено 27 апреля 2016 г.
  6. ^ «Apple — OS X Lion — универсальный доступ» . Архивировано из оригинала 24 сентября 2011 года . Проверено 23 июля 2011 г.
  7. ^ «Введение в руководство по программированию синтеза речи» . Разработчик.apple.com . 05 сентября 2006 г. Проверено 27 апреля 2016 г.
  8. ^ «Синтез речи в OS X». Разработчик.apple.com . 05 сентября 2006 г. Проверено 27 апреля 2016 г.
  9. ^ «[Решено] Преобразование текста в речь читает только заголовок документа (Просмотреть тему) • Форум сообщества Apache OpenOffice» . Форум.openoffice.org . Проверено 27 апреля 2016 г.
  10. ^ «scottmartin/speak-selected-text-sublime: плагин для преобразования текста в речь Mac из Sublime Text 2» . GitHub.com . Проверено 27 апреля 2016 г.
  11. ^ «Используйте голос для ввода текста на Mac — Служба поддержки Apple». Поддержка.apple.com . 05 апреля 2016 г. Проверено 27 апреля 2016 г.

Внешние ссылки