Программное обеспечение для распознавания речи для Linux

По состоянию на начало 2000-х годов для Linux существовало несколько пакетов программного обеспечения для распознавания речи (SR) . Некоторые из них являются бесплатными и имеют открытый исходный код , а другие являются проприетарным программным обеспечением . Распознавание речи обычно относится к программному обеспечению, которое пытается различать тысячи слов на человеческом языке. Голосовое управление может относиться к программному обеспечению, используемому для передачи рабочих команд компьютеру.

Распознавание речи на родном языке Linux

История

В конце 1990-х годов Linux-версия ViaVoice , созданная IBM , стала доступна пользователям бесплатно. В 2002 году бесплатный комплект разработки программного обеспечения (SDK) был удален разработчиком.

Статус разработки

В начале 2000-х годов был сделан толчок к разработке высококачественного движка распознавания речи для Linux. В результате было начато несколько проектов, посвященных созданию программ распознавания речи для Linux, таких как Mycroft , который похож на Microsoft Cortana , но имеет открытый исходный код.

Краудсорсинг образцов речи

Необходимо составить речевой корпус для создания акустических моделей для проектов распознавания речи . VoxForge — это бесплатный репозиторий речевых корпусов и акустических моделей, созданный для сбора транскрибированной речи для использования в проектах распознавания речи. VoxForge принимает краудсорсинговые образцы речи и исправления распознанных речевых последовательностей. Он лицензирован в соответствии с лицензией GNU General Public License (GPL).

Концепция распознавания речи

Первый шаг — начать запись аудиопотока на компьютере. У пользователя есть два основных варианта обработки:

Дискретное распознавание речи (DSR) – обрабатывает информацию полностью на локальной машине. Это относится к автономным системам, в которых все аспекты SR выполняются полностью на компьютере пользователя. Это становится критически важным для защиты интеллектуальной собственности (ИС) и предотвращения нежелательного наблюдения (2018).
Удаленный или серверный SR – передает аудиофайл с речью на удаленный сервер для преобразования файла в текстовый файл. Благодаря последним схемам облачного хранения и интеллектуальному анализу данных этот метод позволяет легче осуществлять слежку, кражу информации и внедрение вредоносного ПО.

Раньше удаленное распознавание использовалось смартфонами , поскольку им не хватало производительности, рабочей памяти или хранилища для обработки распознавания речи в телефоне. Эти ограничения в значительной степени преодолены, хотя серверное SR на мобильных устройствах остается универсальным.

Распознавание речи в браузере

Дискретное распознавание речи может быть выполнено в веб-браузере и хорошо работает с поддерживаемыми браузерами. Remote SR не требует установки программного обеспечения на настольный компьютер или мобильное устройство, поскольку это в основном серверная система с присущими ей проблемами безопасности, указанными выше.

Удаленно : Служба диктовки записывает звуковую дорожку пользователя через веб-браузер.
DSR : Некоторые решения работают только на клиенте, не отправляя данные на серверы.

Бесплатные системы распознавания речи

Ниже приведен список проектов, посвященных реализации распознавания речи в Linux, и основные собственные решения. Это не приложения для конечного пользователя. Это библиотеки программирования , которые могут использоваться для разработки приложений для конечного пользователя.

CMU Sphinx — это общий термин, описывающий группу систем распознавания речи, разработанных в Университете Карнеги — Меллона.
HTK — наиболее известная и широко используемая программа распознавания речи до Kaldi.
Julius — это высокопроизводительное двухпроходное программное обеспечение для декодирования слитной речи с большим словарным запасом (LVCSR), предназначенное для исследователей и разработчиков, работающих с речью.
Kaldi — это набор инструментов для распознавания речи, предоставляемый по лицензии Apache.
Mozilla DeepSpeech разрабатывает движок с открытым исходным кодом для преобразования речи в текст на основе исследовательской работы Baidu по глубокой речи. ^[1]

VoxForge — это бесплатный репозиторий речевых корпусов и акустических моделей для систем распознавания речи с открытым исходным кодом.

Собственные механизмы распознавания речи

Janus Recognition Toolkit (JRTk) — это набор инструментов для распознавания речи с закрытым исходным кодом, ориентированный в основном на Linux, разработанный Interactive Systems Laboratories в Университете Карнеги — Меллона и Технологическом институте Карлсруэ, для которого доступны коммерческие и исследовательские лицензии. ^[2]

Голосовое управление и сочетания клавиш

Распознавание речи обычно относится к программному обеспечению, которое пытается различать тысячи слов на человеческом языке. Голосовое управление может относиться к программному обеспечению, используемому для отправки рабочих команд на компьютер или устройство. Голосовое управление обычно требует гораздо меньшего словарного запаса и, таким образом, гораздо проще в реализации.

Простое программное обеспечение в сочетании с сочетаниями клавиш имеет самый ранний потенциал для практически точного голосового управления в Linux.

Запуск программного обеспечения для распознавания речи Windows в Linux

Через уровень совместимости

Можно использовать такие программы, как Dragon NaturallySpeaking в Linux, используя Wine , хотя могут возникнуть некоторые проблемы в зависимости от используемой версии. ^[3]

Через виртуализированный Windows

Также возможно использовать программное обеспечение распознавания речи Windows под Linux. Используя бесплатное программное обеспечение виртуализации , можно запустить Windows и NaturallySpeaking под Linux. VMware Server или VirtualBox поддерживают копирование и вставку в/из виртуальной машины, что позволяет легко переносить продиктованный текст на/из виртуальной машины.

Смотрите также

Список программ распознавания речи
Руководство по речевому интерфейсу – Руководство по проектированию интерфейсов, управляемых человеческим голосом

Ссылки

^ "Реализация архитектуры DeepSpeech от Baidu на TensorFlow". Mozilla. 2017-12-05 . Получено 2017-12-05 .
^ (IAR), Рёддер, Маргит (26 января 2018 г.). «KIT - Набор инструментов для распознавания Януса». isl.ira.uka.de.{{cite web}}: CS1 maint: multiple names: authors list (link)
^ "WineHQ – Дракон, говорящий естественным образом". appdb.winehq.org .

Внешние ссылки

Доступность, Распознавание речи – Ubuntu Help