stringtranslate.com

Программное обеспечение для распознавания речи для Linux

По состоянию на начало 2000-х годов для Linux существовало несколько пакетов программного обеспечения для распознавания речи (SR) . Некоторые из них являются бесплатными и имеют открытый исходный код , а другие являются проприетарным программным обеспечением . Распознавание речи обычно относится к программному обеспечению, которое пытается различать тысячи слов на человеческом языке. Голосовое управление может относиться к программному обеспечению, используемому для передачи рабочих команд компьютеру.

Распознавание речи на родном языке Linux

История

В конце 1990-х годов Linux-версия ViaVoice , созданная IBM , стала доступна пользователям бесплатно. В 2002 году бесплатный комплект разработки программного обеспечения (SDK) был удален разработчиком.

Статус разработки

В начале 2000-х годов был сделан толчок к разработке высококачественного движка распознавания речи для Linux. В результате было начато несколько проектов, посвященных созданию программ распознавания речи для Linux, таких как Mycroft , который похож на Microsoft Cortana , но имеет открытый исходный код.

Краудсорсинг образцов речи

Необходимо составить речевой корпус для создания акустических моделей для проектов распознавания речи . VoxForge — это бесплатный репозиторий речевых корпусов и акустических моделей, созданный для сбора транскрибированной речи для использования в проектах распознавания речи. VoxForge принимает краудсорсинговые образцы речи и исправления распознанных речевых последовательностей. Он лицензирован в соответствии с лицензией GNU General Public License (GPL).

Концепция распознавания речи

Первый шаг — начать запись аудиопотока на компьютере. У пользователя есть два основных варианта обработки:

Раньше удаленное распознавание использовалось смартфонами , поскольку им не хватало производительности, рабочей памяти или хранилища для обработки распознавания речи в телефоне. Эти ограничения в значительной степени преодолены, хотя серверное SR на мобильных устройствах остается универсальным.

Распознавание речи в браузере

Дискретное распознавание речи может быть выполнено в веб-браузере и хорошо работает с поддерживаемыми браузерами. Remote SR не требует установки программного обеспечения на настольный компьютер или мобильное устройство, поскольку это в основном серверная система с присущими ей проблемами безопасности, указанными выше.

Бесплатные системы распознавания речи

Ниже приведен список проектов, посвященных реализации распознавания речи в Linux, и основные собственные решения. Это не приложения для конечного пользователя. Это библиотеки программирования , которые могут использоваться для разработки приложений для конечного пользователя.

Собственные механизмы распознавания речи

Голосовое управление и сочетания клавиш

Распознавание речи обычно относится к программному обеспечению, которое пытается различать тысячи слов на человеческом языке. Голосовое управление может относиться к программному обеспечению, используемому для отправки рабочих команд на компьютер или устройство. Голосовое управление обычно требует гораздо меньшего словарного запаса и, таким образом, гораздо проще в реализации.

Простое программное обеспечение в сочетании с сочетаниями клавиш имеет самый ранний потенциал для практически точного голосового управления в Linux.

Запуск программного обеспечения для распознавания речи Windows в Linux

Через уровень совместимости

Можно использовать такие программы, как Dragon NaturallySpeaking в Linux, используя Wine , хотя могут возникнуть некоторые проблемы в зависимости от используемой версии. [3]

Через виртуализированный Windows

Также возможно использовать программное обеспечение распознавания речи Windows под Linux. Используя бесплатное программное обеспечение виртуализации , можно запустить Windows и NaturallySpeaking под Linux. VMware Server или VirtualBox поддерживают копирование и вставку в/из виртуальной машины, что позволяет легко переносить продиктованный текст на/из виртуальной машины.

Смотрите также

Ссылки

  1. ^ "Реализация архитектуры DeepSpeech от Baidu на TensorFlow". Mozilla. 2017-12-05 . Получено 2017-12-05 .
  2. ^ (IAR), Рёддер, Маргит (26 января 2018 г.). «KIT - Набор инструментов для распознавания Януса». isl.ira.uka.de.{{cite web}}: CS1 maint: multiple names: authors list (link)
  3. ^ "WineHQ – Дракон, говорящий естественным образом". appdb.winehq.org .

Внешние ссылки