Голосовой пользовательский интерфейс ( VUI ) обеспечивает голосовое взаимодействие человека с компьютерами, используя распознавание речи для понимания произнесенных команд и ответа на вопросы , и, как правило, преобразование текста в речь для воспроизведения ответа. Устройство голосовых команд — это устройство, управляемое с помощью голосового пользовательского интерфейса.
Голосовые пользовательские интерфейсы были добавлены в автомобили , системы домашней автоматизации , компьютерные операционные системы , бытовые приборы, такие как стиральные машины и микроволновые печи , а также пульты дистанционного управления телевизорами . Они являются основным способом взаимодействия с виртуальными помощниками на смартфонах и интеллектуальных колонках . Старые автосекретари (которые направляют телефонные звонки на правильный добавочный номер) и интерактивные системы голосового ответа (которые выполняют более сложные транзакции по телефону) могут реагировать на нажатие кнопок клавиатуры с помощью тонов DTMF , но те, у которых есть полный голосовой пользовательский интерфейс, позволяют звонящим произносить запросы и ответы без необходимости нажимать какие-либо кнопки.
Новые устройства голосовых команд не зависят от говорящего, поэтому они могут реагировать на несколько голосов, независимо от акцента или диалектных влияний. Они также способны реагировать на несколько команд одновременно, разделяя голосовые сообщения и предоставляя соответствующую обратную связь , точно имитируя естественный разговор. [1]
VUI — это интерфейс для любого речевого приложения. Еще совсем недавно управление машиной путем простого разговора с ней было возможно только в научной фантастике . До недавнего времени эта область считалась областью искусственного интеллекта . Однако достижения в таких технологиях, как преобразование текста в речь, преобразование речи в текст, обработка естественного языка и облачные сервисы, способствовали массовому принятию этих типов интерфейсов. VUI стали более распространенными, и люди пользуются преимуществами, которые предоставляют эти интерфейсы без рук и глаз во многих ситуациях.
VUI должны надежно реагировать на ввод, иначе они будут отвергнуты и часто высмеяны своими пользователями. Разработка хорошего VUI требует междисциплинарных талантов в области компьютерных наук , лингвистики и психологии человеческого фактора — все это навыки, которые дороги и труднодоступны. Даже с передовыми инструментами разработки, создание эффективного VUI требует глубокого понимания как задач, которые должны быть выполнены, так и целевой аудитории, которая будет использовать конечную систему. Чем ближе VUI соответствует ментальной модели задачи пользователя, тем проще будет его использовать с небольшим обучением или без него, что приведет как к более высокой эффективности, так и к более высокому удовлетворению пользователя.
VUI, разработанный для широкой публики, должен подчеркивать простоту использования и предоставлять много помощи и руководства для впервые звонящих. Напротив, VUI, разработанный для небольшой группы опытных пользователей (включая работников выездных служб), должен больше фокусироваться на производительности и меньше на помощи и руководстве. Такие приложения должны упорядочивать потоки вызовов, минимизировать подсказки, исключать ненужные итерации и позволять сложные « диалоги смешанной инициативы », которые позволяют звонящим вводить несколько фрагментов информации в одном высказывании и в любом порядке или комбинации. Короче говоря, речевые приложения должны быть тщательно разработаны для конкретного бизнес-процесса, который автоматизируется.
Не все бизнес-процессы одинаково хорошо подходят для автоматизации речи. В целом, чем сложнее запросы и транзакции, тем сложнее их автоматизировать и тем больше вероятность, что они потерпят неудачу у широкой общественности. В некоторых сценариях автоматизация просто неприменима, поэтому единственным вариантом является помощь живого агента. Например, горячую линию юридической консультации было бы очень сложно автоматизировать. С другой стороны, речь идеально подходит для обработки быстрых и рутинных транзакций, таких как изменение статуса рабочего заказа, заполнение записи времени или расходов или перевод средств между счетами.
Ранние приложения VUI включали голосовой набор телефонов, как напрямую, так и через (обычно Bluetooth ) гарнитуру или аудиосистему автомобиля.
В 2007 году в деловой статье CNN сообщалось, что голосовое управление — это индустрия с оборотом более миллиарда долларов, и что такие компании, как Google и Apple, пытаются создать функции распознавания речи. [2] За годы, прошедшие с момента публикации статьи, мир стал свидетелем множества устройств голосового управления. Кроме того, Google создала систему распознавания речи под названием Pico TTS, а Apple выпустила Siri. Устройства голосового управления становятся все более доступными, и постоянно создаются инновационные способы использования человеческого голоса. Например, Business Week предполагает, что будущим пультом дистанционного управления будет человеческий голос. В настоящее время Xbox Live позволяет использовать такие функции, и Джобс намекнул на такую функцию в новом Apple TV . [3]
И Apple Mac , и Windows PC предоставляют встроенные функции распознавания речи для своих новейших операционных систем .
Две операционные системы Microsoft, Windows 7 и Windows Vista , предоставляют возможности распознавания речи. Microsoft интегрировала голосовые команды в свои операционные системы, чтобы предоставить механизм для людей, которые хотят ограничить использование мыши и клавиатуры, но при этом хотят сохранить или повысить общую производительность. [4]
С помощью голосового управления Windows Vista пользователь может диктовать документы и электронные письма в основных приложениях, запускать и переключаться между приложениями, управлять операционной системой, форматировать документы, сохранять документы, редактировать файлы, эффективно исправлять ошибки и заполнять формы в Интернете . Программное обеспечение для распознавания речи автоматически обучается каждый раз, когда его использует пользователь, и распознавание речи доступно на английском (США), английском (Великобритания), немецком (Германия), французском (Франция), испанском (Испания), японском, китайском (традиционном) и китайском (упрощенном) языках. Кроме того, программное обеспечение поставляется с интерактивным учебником, который можно использовать для обучения как пользователя, так и механизма распознавания речи. [5]
В дополнение ко всем функциям, представленным в Windows Vista, Windows 7 предоставляет мастер настройки микрофона и руководство по использованию этой функции. [6]
Все компьютеры Mac OS X поставляются с предустановленным программным обеспечением для распознавания речи. Программное обеспечение не зависит от пользователя и позволяет пользователю «перемещаться по меню и вводить сочетания клавиш; произносить названия флажков, радиокнопок, элементов списков и кнопок; а также открывать, закрывать, управлять и переключаться между приложениями». [7] Однако веб-сайт Apple рекомендует пользователю купить коммерческий продукт под названием Dictate . [7]
Если пользователь не удовлетворен встроенным программным обеспечением для распознавания речи или у пользователя нет встроенного программного обеспечения для распознавания речи в его ОС, то пользователь может поэкспериментировать с коммерческим продуктом, таким как Braina Pro или DragonNaturallySpeaking для ПК с Windows [8] и Dictate, название того же программного обеспечения для Mac OS. [9]
Любое мобильное устройство под управлением ОС Android, Microsoft Windows Phone, iOS 9 или более поздней версии или ОС Blackberry обеспечивает возможности голосового управления. В дополнение к встроенному программному обеспечению распознавания речи для каждой операционной системы мобильного телефона, пользователь может загрузить сторонние приложения голосового управления из магазина приложений каждой операционной системы: Apple App Store , Google Play , Windows Phone Marketplace (первоначально Windows Marketplace for Mobile ) или BlackBerry App World .
Google разработала операционную систему с открытым исходным кодом под названием Android , которая позволяет пользователю выполнять голосовые команды, такие как: отправлять текстовые сообщения, слушать музыку, получать указания, звонить компаниям, звонить контактам, отправлять электронную почту, просматривать карту, переходить на веб-сайты, писать заметки и выполнять поиск в Google. [10] Программное обеспечение для распознавания речи доступно для всех устройств, начиная с Android 2.2 «Froyo» , но настройки должны быть установлены на английский язык. [10] Google позволяет пользователю менять язык, и при первом использовании функции распознавания речи пользователю предлагается, хочет ли он или она, чтобы его голосовые данные были прикреплены к его учетной записи Google. Если пользователь решает подписаться на эту услугу, это позволяет Google обучить программное обеспечение голосу пользователя. [11]
Google представила Google Assistant с Android 7.0 "Nougat" . Он гораздо более продвинут, чем старая версия.
На Amazon.com есть Echo , использующий специальную версию Android от Amazon для обеспечения голосового интерфейса.
Windows Phone — это операционная система мобильных устройств Microsoft. В Windows Phone 7.5 речевое приложение не зависит от пользователя и может использоваться для: звонка кому-либо из вашего списка контактов, звонка на любой номер телефона, повторного набора последнего номера, отправки текстового сообщения, вызова вашей голосовой почты, открытия приложения, чтения встреч, запроса статуса телефона и поиска в Интернете. [ 12] [13] Кроме того, речь также может использоваться во время телефонного звонка, и во время телефонного звонка возможны следующие действия: нажатие номера, включение громкой связи или звонок кому-либо, что переводит текущий звонок в режим удержания. [13]
В Windows 10 представлена Cortana — система голосового управления, которая заменяет ранее использовавшееся голосовое управление на телефонах Windows.
Apple добавила голосовое управление в свое семейство устройств iOS в качестве новой функции iPhone OS 3. iPhone 4S , iPad 3 , iPad Mini 1G , iPad Air , iPad Pro 1G , iPod Touch 5G и более поздние модели оснащены более продвинутым голосовым помощником Siri . Голосовое управление по-прежнему можно включить через меню настроек новых устройств. Siri — это независимая от пользователя встроенная функция распознавания речи, которая позволяет пользователю отдавать голосовые команды. С помощью Siri пользователь может отдавать такие команды, как отправить текстовое сообщение, проверить погоду, установить напоминание, найти информацию, запланировать встречи, отправить электронное письмо, найти контакт, установить будильник, получить маршрут, отслеживать свои акции, установить таймер и попросить примеры запросов голосовых команд. [14] Кроме того, Siri работает с Bluetooth и проводными наушниками. [15]
Apple представила Personal Voice как функцию доступности в iOS 17 , выпущенной 18 сентября 2023 года. [16] Эта функция позволяет пользователям создавать персонализированную версию своего голоса, созданную с помощью машинного обучения (ИИ), для использования в приложениях преобразования текста в речь . Разработанный специально для людей с нарушениями речи , Personal Voice помогает сохранить уникальный звук голоса пользователя. Он улучшает Siri и другие инструменты доступности, предоставляя более персонализированный и инклюзивный пользовательский опыт . Personal Voice отражает постоянную приверженность Apple доступности и инновациям . [17] [18]
В 2014 году Amazon представила умное домашнее устройство Alexa . Его основным предназначением был просто умный динамик, который позволял потребителю управлять устройством с помощью голоса. В конце концов, он превратился в новаторское устройство, которое имело возможность управлять бытовыми приборами с помощью голоса. Теперь почти все приборы управляются с помощью Alexa, включая лампочки и температуру. Благодаря голосовому управлению Alexa может подключаться к технологии умного дома, позволяя вам запирать свой дом, контролировать температуру и активировать различные устройства. Эта форма ИИ позволяет кому-то просто задать ему вопрос, и в ответ Alexa ищет, находит и произносит вам ответ. [19]
По мере совершенствования автомобильных технологий в автомобили будут добавляться новые функции, и эти функции потенциально могут отвлекать водителя. Голосовые команды для автомобилей, по данным CNET , должны позволять водителю отдавать команды и не отвлекаться. CNET заявила, что Nuance предполагает, что в будущем они создадут программное обеспечение, похожее на Siri, но для автомобилей. [20] Большинство программного обеспечения для распознавания речи на рынке в 2011 году имели всего около 50-60 голосовых команд, но у Ford Sync их было 10 000. [20] Однако CNET предположила, что даже 10 000 голосовых команд недостаточно, учитывая сложность и разнообразие задач, которые пользователь может захотеть выполнить во время вождения. [20] Голосовые команды для автомобилей отличаются от голосовых команд для мобильных телефонов и компьютеров, поскольку водитель может использовать эту функцию для поиска близлежащих ресторанов, поиска заправки, маршрутов движения, дорожных условий и местоположения ближайшего отеля. [20] В настоящее время технология позволяет водителю отдавать голосовые команды как на портативном GPS, таком как Garmin , так и на навигационной системе производителя автомобиля. [21]
Список систем голосового управления, предоставляемых производителями двигателей:
Хотя большинство голосовых пользовательских интерфейсов разработаны для поддержки взаимодействия посредством устной речи человека, в последнее время также проводились исследования по разработке интерфейсов, принимающих в качестве входных данных невербальные человеческие звуки. [22] [23] В этих системах пользователь управляет интерфейсом, издавая неречевые звуки, такие как гудение, свист или дуновение в микрофон. [24]
Одним из таких примеров невербального голосового пользовательского интерфейса является Blendie [25] [26], интерактивная художественная инсталляция, созданная Келли Добсон. Произведение включало классический блендер 1950-х годов, который был модернизирован для реагирования на микрофонный ввод. Чтобы управлять блендером, пользователь должен имитировать жужжащие механические звуки, которые обычно издает блендер: блендер будет медленно вращаться в ответ на низкочастотное рычание пользователя и увеличивать скорость, когда пользователь издает более высокие голосовые звуки.
Другим примером является VoiceDraw, [27] исследовательская система, которая позволяет людям с ограниченными двигательными способностями заниматься цифровым рисованием. VoiceDraw позволяет пользователям «рисовать» мазки на цифровом холсте, модулируя гласные звуки, которые сопоставляются с направлениями кисти. Модуляция других паралингвистических функций (например, громкости голоса) позволяет пользователю контролировать различные функции рисунка, такие как толщина мазка кисти.
Другие подходы включают использование невербальных звуков для дополнения сенсорных интерфейсов (например, на мобильном телефоне) для поддержки новых типов жестов, которые были бы невозможны при вводе только пальцами. [24]
Голосовые интерфейсы создают значительное количество проблем для удобства использования. В отличие от графических пользовательских интерфейсов (GUI), лучшие практики для проектирования голосовых интерфейсов все еще находятся в стадии разработки. [28]
При чисто аудио-взаимодействии голосовые пользовательские интерфейсы, как правило, страдают от низкой обнаруживаемости : [28] пользователям сложно понять объем возможностей системы. Для того, чтобы система могла передать то, что возможно без визуального отображения, ей необходимо перечислить доступные варианты, что может стать утомительным или неосуществимым. Низкая обнаруживаемость часто приводит к тому, что пользователи сообщают о замешательстве относительно того, что им «разрешено» говорить, или о несоответствии ожиданий относительно широты понимания системы. [29] [30]
Хотя технология распознавания речи значительно улучшилась за последние годы, голосовые пользовательские интерфейсы по-прежнему страдают от ошибок синтаксического анализа или транскрипции, при которых речь пользователя интерпретируется неправильно. [31] Эти ошибки, как правило, особенно распространены, когда в речевом содержании используется техническая лексика (например, медицинская терминология) или нетрадиционные варианты написания, такие как названия музыкальных исполнителей или песен. [32]
Эффективная разработка системы для максимального понимания разговора остается открытой областью исследований. Голосовые пользовательские интерфейсы, которые интерпретируют и управляют состоянием разговора, сложно проектировать из-за неотъемлемой трудности интеграции сложных задач обработки естественного языка, таких как разрешение кореферентности , распознавание именованных сущностей , поиск информации и управление диалогами . [33] Большинство голосовых помощников сегодня способны очень хорошо выполнять отдельные команды, но ограничены в своей способности управлять диалогом за пределами узкой задачи или пары поворотов в разговоре. [34]
Проблемы конфиденциальности возникают из-за того, что голосовые команды доступны поставщикам голосовых пользовательских интерфейсов в незашифрованном виде и, таким образом, могут быть переданы третьим лицам и обработаны несанкционированным или неожиданным образом. [35] [36] Помимо лингвистического содержания записанной речи, манера выражения и голосовые характеристики пользователя могут неявно содержать информацию о его или ее биометрической личности, чертах личности, форме тела, состоянии физического и психического здоровья, поле, гендере, настроении и эмоциях , социально-экономическом статусе и географическом происхождении. [37]
{{cite journal}}
: Цитировать журнал требует |journal=
( помощь ){{cite journal}}
: Цитировать журнал требует |journal=
( помощь ){{cite journal}}
: Цитировать журнал требует |journal=
( помощь ){{cite journal}}
: Цитировать журнал требует |journal=
( помощь ){{cite journal}}
: Цитировать журнал требует |journal=
( помощь ){{cite journal}}
: Цитировать журнал требует |journal=
( помощь ){{cite journal}}
: Цитировать журнал требует |journal=
( помощь ){{cite journal}}
: Цитировать журнал требует |journal=
( помощь )