Программное обеспечение для транскрипции помогает преобразовывать человеческую речь в текстовую расшифровку. Аудио- или видеофайлы можно транскрибировать вручную или автоматически. [1] Транскрибаторы могут несколько раз воспроизвести запись в редакторе транскрипции и набрать то, что они слышат. Используя горячие клавиши транскрипции, можно ускорить ручную транскрипцию, отфильтровать звук, выровнять его или отрегулировать темп, если четкость не очень хорошая. С помощью технологии распознавания речи транскрибаторы могут автоматически преобразовывать записи в текстовые расшифровки, открывая записи на ПК и загружая их в облако для автоматической транскрипции, или транскрибировать записи в реальном времени с помощью цифровой диктовки . В зависимости от качества записей, машинно-генерируемые расшифровки могут по-прежнему нуждаться в ручной проверке. Уровень точности автоматической транскрипции зависит от нескольких факторов, таких как фоновые шумы, расстояние говорящих от микрофона и акценты.
Программное обеспечение для транскрипции, как и услуги транскрипции , часто предоставляется для деловых, юридических или медицинских целей . По сравнению с аудиоконтентом, текстовая транскрипция доступна для поиска, занимает меньше памяти компьютера и может использоваться в качестве альтернативного метода общения, например, для субтитров и скрытых титров .
Определение транскрипционного «программного обеспечения», по сравнению с транскрипционным «сервисом», заключается в том, что первое достаточно автоматизировано, чтобы пользователь мог управлять всей системой без привлечения внешнего персонала. Однако появление моделей «программное обеспечение как услуга» и облачных вычислений стирает это различие. Оно использует искусственный интеллект , машинное обучение и обработку естественного языка для преобразования речи в текст и постоянного изучения новых фраз и акцентов. [2]
Исследовательская группа Google выпустила бесплатное приложение для Android Google Live Transcribe, работающее на Google Cloud . [3] [4] Google Chrome разработал и имеет встроенную функцию Live Caption на английском языке. [5] Google Docs , Google Translate , Google Assistant , GBoard. Google Text to Speech engine также поддерживает инструмент транскрипции. [6] [7] [8] [9]
В сентябре 2022 года OpenAI запустила Whisper — модель глубокого обучения с открытым исходным кодом для распознавания речи . [10]