По состоянию на начало 2000-х годов для Linux существовало несколько пакетов программного обеспечения для распознавания речи (SR) . Некоторые из них являются бесплатными и имеют открытый исходный код , а другие являются проприетарным программным обеспечением . Распознавание речи обычно относится к программному обеспечению, которое пытается различать тысячи слов на человеческом языке. Голосовое управление может относиться к программному обеспечению, используемому для передачи рабочих команд компьютеру.
В конце 1990-х годов Linux-версия ViaVoice , созданная IBM , стала доступна пользователям бесплатно. В 2002 году бесплатный комплект разработки программного обеспечения (SDK) был удален разработчиком.
В начале 2000-х годов был сделан толчок к разработке высококачественного движка распознавания речи для Linux. В результате было начато несколько проектов, посвященных созданию программ распознавания речи для Linux, таких как Mycroft , который похож на Microsoft Cortana , но имеет открытый исходный код.
Необходимо составить речевой корпус для создания акустических моделей для проектов распознавания речи . VoxForge — это бесплатный репозиторий речевых корпусов и акустических моделей, созданный для сбора транскрибированной речи для использования в проектах распознавания речи. VoxForge принимает краудсорсинговые образцы речи и исправления распознанных речевых последовательностей. Он лицензирован в соответствии с лицензией GNU General Public License (GPL).
Первый шаг — начать запись аудиопотока на компьютере. У пользователя есть два основных варианта обработки:
Раньше удаленное распознавание использовалось смартфонами , поскольку им не хватало производительности, рабочей памяти или хранилища для обработки распознавания речи в телефоне. Эти ограничения в значительной степени преодолены, хотя серверное SR на мобильных устройствах остается универсальным.
Дискретное распознавание речи может быть выполнено в веб-браузере и хорошо работает с поддерживаемыми браузерами. Remote SR не требует установки программного обеспечения на настольный компьютер или мобильное устройство, поскольку это в основном серверная система с присущими ей проблемами безопасности, указанными выше.
Ниже приведен список проектов, посвященных реализации распознавания речи в Linux, и основные собственные решения. Это не приложения для конечного пользователя. Это библиотеки программирования , которые могут использоваться для разработки приложений для конечного пользователя.
Распознавание речи обычно относится к программному обеспечению, которое пытается различать тысячи слов на человеческом языке. Голосовое управление может относиться к программному обеспечению, используемому для отправки рабочих команд на компьютер или устройство. Голосовое управление обычно требует гораздо меньшего словарного запаса и, таким образом, гораздо проще в реализации.
Простое программное обеспечение в сочетании с сочетаниями клавиш имеет самый ранний потенциал для практически точного голосового управления в Linux.
Можно использовать такие программы, как Dragon NaturallySpeaking в Linux, используя Wine , хотя могут возникнуть некоторые проблемы в зависимости от используемой версии. [3]
Также возможно использовать программное обеспечение распознавания речи Windows под Linux. Используя бесплатное программное обеспечение виртуализации , можно запустить Windows и NaturallySpeaking под Linux. VMware Server или VirtualBox поддерживают копирование и вставку в/из виртуальной машины, что позволяет легко переносить продиктованный текст на/из виртуальной машины.
{{cite web}}
: CS1 maint: multiple names: authors list (link)