Голосовой пользовательский интерфейс

Голосовой пользовательский интерфейс ( VUI ) обеспечивает голосовое взаимодействие человека с компьютерами, используя распознавание речи для понимания произнесенных команд и ответа на вопросы , и, как правило, преобразование текста в речь для воспроизведения ответа. Устройство голосовых команд — это устройство, управляемое с помощью голосового пользовательского интерфейса.

Голосовые пользовательские интерфейсы были добавлены в автомобили , системы домашней автоматизации , компьютерные операционные системы , бытовые приборы, такие как стиральные машины и микроволновые печи , а также пульты дистанционного управления телевизорами . Они являются основным способом взаимодействия с виртуальными помощниками на смартфонах и интеллектуальных колонках . Старые автосекретари (которые направляют телефонные звонки на правильный добавочный номер) и интерактивные системы голосового ответа (которые выполняют более сложные транзакции по телефону) могут реагировать на нажатие кнопок клавиатуры с помощью тонов DTMF , но те, у которых есть полный голосовой пользовательский интерфейс, позволяют звонящим произносить запросы и ответы без необходимости нажимать какие-либо кнопки.

Новые устройства голосовых команд не зависят от говорящего, поэтому они могут реагировать на несколько голосов, независимо от акцента или диалектных влияний. Они также способны реагировать на несколько команд одновременно, разделяя голосовые сообщения и предоставляя соответствующую обратную связь , точно имитируя естественный разговор. ^[1]

Обзор

VUI — это интерфейс для любого речевого приложения. Еще совсем недавно управление машиной путем простого разговора с ней было возможно только в научной фантастике . До недавнего времени эта область считалась областью искусственного интеллекта . Однако достижения в таких технологиях, как преобразование текста в речь, преобразование речи в текст, обработка естественного языка и облачные сервисы, способствовали массовому принятию этих типов интерфейсов. VUI стали более распространенными, и люди пользуются преимуществами, которые предоставляют эти интерфейсы без рук и глаз во многих ситуациях.

VUI должны надежно реагировать на ввод, иначе они будут отвергнуты и часто высмеяны своими пользователями. Разработка хорошего VUI требует междисциплинарных талантов в области компьютерных наук , лингвистики и психологии человеческого фактора — все это навыки, которые дороги и труднодоступны. Даже с передовыми инструментами разработки, создание эффективного VUI требует глубокого понимания как задач, которые должны быть выполнены, так и целевой аудитории, которая будет использовать конечную систему. Чем ближе VUI соответствует ментальной модели задачи пользователя, тем проще будет его использовать с небольшим обучением или без него, что приведет как к более высокой эффективности, так и к более высокому удовлетворению пользователя.

VUI, разработанный для широкой публики, должен подчеркивать простоту использования и предоставлять много помощи и руководства для впервые звонящих. Напротив, VUI, разработанный для небольшой группы опытных пользователей (включая работников выездных служб), должен больше фокусироваться на производительности и меньше на помощи и руководстве. Такие приложения должны упорядочивать потоки вызовов, минимизировать подсказки, исключать ненужные итерации и позволять сложные « диалоги смешанной инициативы », которые позволяют звонящим вводить несколько фрагментов информации в одном высказывании и в любом порядке или комбинации. Короче говоря, речевые приложения должны быть тщательно разработаны для конкретного бизнес-процесса, который автоматизируется.

Не все бизнес-процессы одинаково хорошо подходят для автоматизации речи. В целом, чем сложнее запросы и транзакции, тем сложнее их автоматизировать и тем больше вероятность, что они потерпят неудачу у широкой общественности. В некоторых сценариях автоматизация просто неприменима, поэтому единственным вариантом является помощь живого агента. Например, горячую линию юридической консультации было бы очень сложно автоматизировать. С другой стороны, речь идеально подходит для обработки быстрых и рутинных транзакций, таких как изменение статуса рабочего заказа, заполнение записи времени или расходов или перевод средств между счетами.

История

Ранние приложения VUI включали голосовой набор телефонов, как напрямую, так и через (обычно Bluetooth ) гарнитуру или аудиосистему автомобиля.

В 2007 году в деловой статье CNN сообщалось, что голосовое управление — это индустрия с оборотом более миллиарда долларов, и что такие компании, как Google и Apple, пытаются создать функции распознавания речи. ^[2] За годы, прошедшие с момента публикации статьи, мир стал свидетелем множества устройств голосового управления. Кроме того, Google создала систему распознавания речи под названием Pico TTS, а Apple выпустила Siri. Устройства голосового управления становятся все более доступными, и постоянно создаются инновационные способы использования человеческого голоса. Например, Business Week предполагает, что будущим пультом дистанционного управления будет человеческий голос. В настоящее время Xbox Live позволяет использовать такие функции, и Джобс намекнул на такую функцию в новом Apple TV . ^[3]

Программные продукты с голосовым управлением на вычислительных устройствах

И Apple Mac , и Windows PC предоставляют встроенные функции распознавания речи для своих новейших операционных систем .

Майкрософт Виндоус

Две операционные системы Microsoft, Windows 7 и Windows Vista , предоставляют возможности распознавания речи. Microsoft интегрировала голосовые команды в свои операционные системы, чтобы предоставить механизм для людей, которые хотят ограничить использование мыши и клавиатуры, но при этом хотят сохранить или повысить общую производительность. ^[4]

Windows Vista

С помощью голосового управления Windows Vista пользователь может диктовать документы и электронные письма в основных приложениях, запускать и переключаться между приложениями, управлять операционной системой, форматировать документы, сохранять документы, редактировать файлы, эффективно исправлять ошибки и заполнять формы в Интернете . Программное обеспечение для распознавания речи автоматически обучается каждый раз, когда его использует пользователь, и распознавание речи доступно на английском (США), английском (Великобритания), немецком (Германия), французском (Франция), испанском (Испания), японском, китайском (традиционном) и китайском (упрощенном) языках. Кроме того, программное обеспечение поставляется с интерактивным учебником, который можно использовать для обучения как пользователя, так и механизма распознавания речи. ^[5]

Виндовс 7

В дополнение ко всем функциям, представленным в Windows Vista, Windows 7 предоставляет мастер настройки микрофона и руководство по использованию этой функции. ^[6]

Mac OS X

Все компьютеры Mac OS X поставляются с предустановленным программным обеспечением для распознавания речи. Программное обеспечение не зависит от пользователя и позволяет пользователю «перемещаться по меню и вводить сочетания клавиш; произносить названия флажков, радиокнопок, элементов списков и кнопок; а также открывать, закрывать, управлять и переключаться между приложениями». ^[7] Однако веб-сайт Apple рекомендует пользователю купить коммерческий продукт под названием Dictate . ^[7]

Коммерческая продукция

Если пользователь не удовлетворен встроенным программным обеспечением для распознавания речи или у пользователя нет встроенного программного обеспечения для распознавания речи в его ОС, то пользователь может поэкспериментировать с коммерческим продуктом, таким как Braina Pro или DragonNaturallySpeaking для ПК с Windows ^[8] и Dictate, название того же программного обеспечения для Mac OS. ^[9]

Мобильные устройства с голосовым управлением

Любое мобильное устройство под управлением ОС Android, Microsoft Windows Phone, iOS 9 или более поздней версии или ОС Blackberry обеспечивает возможности голосового управления. В дополнение к встроенному программному обеспечению распознавания речи для каждой операционной системы мобильного телефона, пользователь может загрузить сторонние приложения голосового управления из магазина приложений каждой операционной системы: Apple App Store , Google Play , Windows Phone Marketplace (первоначально Windows Marketplace for Mobile ) или BlackBerry App World .

ОС Android

Google разработала операционную систему с открытым исходным кодом под названием Android , которая позволяет пользователю выполнять голосовые команды, такие как: отправлять текстовые сообщения, слушать музыку, получать указания, звонить компаниям, звонить контактам, отправлять электронную почту, просматривать карту, переходить на веб-сайты, писать заметки и выполнять поиск в Google. ^[10] Программное обеспечение для распознавания речи доступно для всех устройств, начиная с Android 2.2 «Froyo» , но настройки должны быть установлены на английский язык. ^[10] Google позволяет пользователю менять язык, и при первом использовании функции распознавания речи пользователю предлагается, хочет ли он или она, чтобы его голосовые данные были прикреплены к его учетной записи Google. Если пользователь решает подписаться на эту услугу, это позволяет Google обучить программное обеспечение голосу пользователя. ^[11]

Google представила Google Assistant с Android 7.0 "Nougat" . Он гораздо более продвинут, чем старая версия.

На Amazon.com есть Echo , использующий специальную версию Android от Amazon для обеспечения голосового интерфейса.

Майкрософт Виндоус

Windows Phone — это операционная система мобильных устройств Microsoft. В Windows Phone 7.5 речевое приложение не зависит от пользователя и может использоваться для: звонка кому-либо из вашего списка контактов, звонка на любой номер телефона, повторного набора последнего номера, отправки текстового сообщения, вызова вашей голосовой почты, открытия приложения, чтения встреч, запроса статуса телефона и поиска в Интернете. [ ^12]^[13] Кроме того, речь также может использоваться во время телефонного звонка, и во время телефонного звонка возможны следующие действия: нажатие номера, включение громкой связи или звонок кому-либо, что переводит текущий звонок в режим удержания. ^[13]

В Windows 10 представлена Cortana — система голосового управления, которая заменяет ранее использовавшееся голосовое управление на телефонах Windows.

iOS

Apple добавила голосовое управление в свое семейство устройств iOS в качестве новой функции iPhone OS 3. iPhone 4S , iPad 3 , iPad Mini 1G , iPad Air , iPad Pro 1G , iPod Touch 5G и более поздние модели оснащены более продвинутым голосовым помощником Siri . Голосовое управление по-прежнему можно включить через меню настроек новых устройств. Siri — это независимая от пользователя встроенная функция распознавания речи, которая позволяет пользователю отдавать голосовые команды. С помощью Siri пользователь может отдавать такие команды, как отправить текстовое сообщение, проверить погоду, установить напоминание, найти информацию, запланировать встречи, отправить электронное письмо, найти контакт, установить будильник, получить маршрут, отслеживать свои акции, установить таймер и попросить примеры запросов голосовых команд. ^[14] Кроме того, Siri работает с Bluetooth и проводными наушниками. ^[15]

Apple представила Personal Voice как функцию доступности в iOS 17 , выпущенной 18 сентября 2023 года. ^[16] Эта функция позволяет пользователям создавать персонализированную версию своего голоса, созданную с помощью машинного обучения (ИИ), для использования в приложениях преобразования текста в речь . Разработанный специально для людей с нарушениями речи , Personal Voice помогает сохранить уникальный звук голоса пользователя. Он улучшает Siri и другие инструменты доступности, предоставляя более персонализированный и инклюзивный пользовательский опыт . Personal Voice отражает постоянную приверженность Apple доступности и инновациям . ^[17] ^[18]

Амазон Алекса

В 2014 году Amazon представила умное домашнее устройство Alexa . Его основным предназначением был просто умный динамик, который позволял потребителю управлять устройством с помощью голоса. В конце концов, он превратился в новаторское устройство, которое имело возможность управлять бытовыми приборами с помощью голоса. Теперь почти все приборы управляются с помощью Alexa, включая лампочки и температуру. Благодаря голосовому управлению Alexa может подключаться к технологии умного дома, позволяя вам запирать свой дом, контролировать температуру и активировать различные устройства. Эта форма ИИ позволяет кому-то просто задать ему вопрос, и в ответ Alexa ищет, находит и произносит вам ответ. ^[19]

Распознавание речи в автомобилях

По мере совершенствования автомобильных технологий в автомобили будут добавляться новые функции, и эти функции потенциально могут отвлекать водителя. Голосовые команды для автомобилей, по данным CNET , должны позволять водителю отдавать команды и не отвлекаться. CNET заявила, что Nuance предполагает, что в будущем они создадут программное обеспечение, похожее на Siri, но для автомобилей. ^[20] Большинство программного обеспечения для распознавания речи на рынке в 2011 году имели всего около 50-60 голосовых команд, но у Ford Sync их было 10 000. ^[20] Однако CNET предположила, что даже 10 000 голосовых команд недостаточно, учитывая сложность и разнообразие задач, которые пользователь может захотеть выполнить во время вождения. ^[20] Голосовые команды для автомобилей отличаются от голосовых команд для мобильных телефонов и компьютеров, поскольку водитель может использовать эту функцию для поиска близлежащих ресторанов, поиска заправки, маршрутов движения, дорожных условий и местоположения ближайшего отеля. ^[20] В настоящее время технология позволяет водителю отдавать голосовые команды как на портативном GPS, таком как Garmin , так и на навигационной системе производителя автомобиля. ^[21]

Список систем голосового управления, предоставляемых производителями двигателей:

Форд Синхронизация
Голосовое управление Lexus
Chrysler UConnect
Хонда Аккорд
GM IntelliLink
BMW
Мерседес
Пионер
Харман
Хёндай

Невербальный ввод

Хотя большинство голосовых пользовательских интерфейсов разработаны для поддержки взаимодействия посредством устной речи человека, в последнее время также проводились исследования по разработке интерфейсов, принимающих в качестве входных данных невербальные человеческие звуки. ^[22]^[23] В этих системах пользователь управляет интерфейсом, издавая неречевые звуки, такие как гудение, свист или дуновение в микрофон. ^[24]

Одним из таких примеров невербального голосового пользовательского интерфейса является Blendie ^[25]^[26], интерактивная художественная инсталляция, созданная Келли Добсон. Произведение включало классический блендер 1950-х годов, который был модернизирован для реагирования на микрофонный ввод. Чтобы управлять блендером, пользователь должен имитировать жужжащие механические звуки, которые обычно издает блендер: блендер будет медленно вращаться в ответ на низкочастотное рычание пользователя и увеличивать скорость, когда пользователь издает более высокие голосовые звуки.

Другим примером является VoiceDraw, ^[27] исследовательская система, которая позволяет людям с ограниченными двигательными способностями заниматься цифровым рисованием. VoiceDraw позволяет пользователям «рисовать» мазки на цифровом холсте, модулируя гласные звуки, которые сопоставляются с направлениями кисти. Модуляция других паралингвистических функций (например, громкости голоса) позволяет пользователю контролировать различные функции рисунка, такие как толщина мазка кисти.

Другие подходы включают использование невербальных звуков для дополнения сенсорных интерфейсов (например, на мобильном телефоне) для поддержки новых типов жестов, которые были бы невозможны при вводе только пальцами. ^[24]

Проблемы дизайна

Голосовые интерфейсы создают значительное количество проблем для удобства использования. В отличие от графических пользовательских интерфейсов (GUI), лучшие практики для проектирования голосовых интерфейсов все еще находятся в стадии разработки. ^[28]

Обнаруживаемость

При чисто аудио-взаимодействии голосовые пользовательские интерфейсы, как правило, страдают от низкой обнаруживаемости : ^[28] пользователям сложно понять объем возможностей системы. Для того, чтобы система могла передать то, что возможно без визуального отображения, ей необходимо перечислить доступные варианты, что может стать утомительным или неосуществимым. Низкая обнаруживаемость часто приводит к тому, что пользователи сообщают о замешательстве относительно того, что им «разрешено» говорить, или о несоответствии ожиданий относительно широты понимания системы. ^[29]^[30]

Транскрипция

Хотя технология распознавания речи значительно улучшилась за последние годы, голосовые пользовательские интерфейсы по-прежнему страдают от ошибок синтаксического анализа или транскрипции, при которых речь пользователя интерпретируется неправильно. ^[31] Эти ошибки, как правило, особенно распространены, когда в речевом содержании используется техническая лексика (например, медицинская терминология) или нетрадиционные варианты написания, такие как названия музыкальных исполнителей или песен. ^[32]

Понимание

Эффективная разработка системы для максимального понимания разговора остается открытой областью исследований. Голосовые пользовательские интерфейсы, которые интерпретируют и управляют состоянием разговора, сложно проектировать из-за неотъемлемой трудности интеграции сложных задач обработки естественного языка, таких как разрешение кореферентности , распознавание именованных сущностей , поиск информации и управление диалогами . ^[33] Большинство голосовых помощников сегодня способны очень хорошо выполнять отдельные команды, но ограничены в своей способности управлять диалогом за пределами узкой задачи или пары поворотов в разговоре. ^[34]

Последствия нарушения конфиденциальности

Проблемы конфиденциальности возникают из-за того, что голосовые команды доступны поставщикам голосовых пользовательских интерфейсов в незашифрованном виде и, таким образом, могут быть переданы третьим лицам и обработаны несанкционированным или неожиданным образом. ^[35]^[36] Помимо лингвистического содержания записанной речи, манера выражения и голосовые характеристики пользователя могут неявно содержать информацию о его или ее биометрической личности, чертах личности, форме тела, состоянии физического и психического здоровья, поле, гендере, настроении и эмоциях , социально-экономическом статусе и географическом происхождении. ^[37]

Смотрите также

Ссылки

^ "Голосовое управление стиральной машиной". Журнал Appliance .
↑ Борзо, Жанетт (8 февраля 2007 г.). «Теперь ты говоришь». CNN Money . Получено 25 апреля 2012 г.
^ «Голосовое управление, конец телевизионного пульта?». Bloomberg.com . Business Week. 9 декабря 2011 г. Архивировано из оригинала 8 декабря 2011 г. Получено 1 мая 2012 г.
^ "Windows Vista Built In Speech". Windows Vista . Получено 25 апреля 2012 г.
^ «Речевая операция в Vista». Microsoft.
^ «Настройка распознавания речи». Microsoft.
^ ab "Физические и двигательные навыки". Apple.
^ "DragonNaturallySpeaking PC". Нюанс.
^ "DragonNaturallySpeaking Mac". Нюанс.
^ ab «Голосовые действия».
^ «Голосовой поиск Google для Android теперь можно «обучить» вашему голосу». 14 декабря 2010 г. Получено 24 апреля 2012 г.
^ "Использование голосовых команд". Microsoft . Получено 24 апреля 2012 г.
^ ab "Использование голосовых команд". Microsoft . Получено 27 апреля 2012 г. .
^ "Siri, iPhone 3GS и 4, iPod 3 и 4, имеют голосовое управление, похожее на экспресс-Siri, оно воспроизводит музыку, приостанавливает ее, переключает, Facetime и выполняет вызовы". Apple . Получено 27 апреля 2012 г. .
^ "Часто задаваемые вопросы о Siri". Apple.
^ "Как использовать Personal Voice на iPhone с iOS 17". Engadget . 2023-12-06 . Получено 2024-08-21 .
^ Джейсон Инглэнд (2023-07-13). «Как настроить и использовать Personal Voice в iOS 17 — заставьте свой iPhone звучать так же, как вы». LaptopMag . Получено 2024-08-21 .
^ «Улучшение речевой доступности с помощью персонального голоса». Исследования машинного обучения Apple . Получено 21 августа 2024 г.
^ «Как Echo от Amazon превратился из умной колонки в центр вашего дома». Business Insider .
^ abcd «Голос, похожий на Siri». CNET.
^ «Портативный GPS с голосом». CNET.
^ Блаттнер, Мира М.; Гринберг, Роберт М. (1992). «Общение и обучение посредством неречевого аудио». Проектирование мультимедийного интерфейса в образовании . С. 133–143. doi :10.1007/978-3-642-58126-7_9. ISBN 978-3-540-55046-4.
^ Херефорд, Джеймс; Винн, Уильям (октябрь 1994 г.). «Неречевой звук во взаимодействии человека с компьютером: обзор и рекомендации по проектированию». Журнал исследований образовательной вычислительной техники . 11 (3): 211–233. doi :10.2190/mkd9-w05t-yj9y-81nm. ISSN 0735-6331. S2CID 61510202.
^ ab Сакамото, Дайсуке; Комацу, Таканори; Игараси, Такео (27 августа 2013 г.). «Голосовое дополненное манипулирование | Труды 15-й международной конференции по взаимодействию человека и компьютера с мобильными устройствами и сервисами»: 69–78. doi :10.1145/2493190.2493244. S2CID 6251400 . Получено 27.02.2019 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ Добсон, Келли (август 2004 г.). «Blendie | Труды 5-й конференции по проектированию интерактивных систем: процессы, практики, методы и приемы»: 309. doi :10.1145/1013115.1013159 . Получено 27.02.2019 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ "Келли Добсон: Blendie". web.media.mit.edu . Получено 27.02.2019 .
^ Харада, Сусуму; Уобброк, Джейкоб О.; Ландей, Джеймс А. (15 октября 2007 г.). «Voicedraw | Труды 9-й международной конференции ACM SIGACCESS по компьютерам и доступности»: 27–34. doi :10.1145/1296843.1296850. S2CID 218338 . Получено 27.02.2019 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ ab Мурад, Кристин; Мунтяну, Космин; Кларк, Ли; Коуэн, Бенджамин Р. (3 сентября 2018 г.). «Руководящие принципы проектирования для речевого взаимодействия без помощи рук | Труды 20-й Международной конференции по взаимодействию человека с компьютером с помощью мобильных устройств и служб»: 269–276. doi :10.1145/3236112.3236149. S2CID 52099112 . Получено 27.02.2019 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ Янкелович, Николь; Левоу, Джина-Энн; Маркс, Мэтт (май 1995 г.). «Проектирование речевых актов | Труды конференции SIGCHI по человеческим факторам в вычислительных системах»: 369–376. doi :10.1145/223904.223952. S2CID 9313029 . Получено 27.02.2019 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ "Что я могу сказать? | Труды 18-й Международной конференции по взаимодействию человека с компьютером с помощью мобильных устройств и сервисов". doi : 10.1145/2935334.2935386 . S2CID 6246618. {{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ Майерс, Челси; Фуркан, Анушай; Небольски, Джессика; Каро, Карина; Чжу, Цзичэнь (19 апреля 2018 г.). «Шаблоны преодоления пользователями препятствий в голосовых пользовательских интерфейсах | Труды конференции CHI 2018 года по человеческому фактору в вычислительных системах»: 1–7. doi :10.1145/3173574.3173580. S2CID 5041672 . Получено 27.02.2019 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ Спрингер, Аарон; Крамер, Генриетта (21 апреля 2018 г.). ""Play PRBLMS" | Труды конференции CHI 2018 года по человеческому фактору в вычислительных системах": 1–13. doi :10.1145/3173574.3173870. S2CID 5050837 . Получено 27.02.2019 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ Галицкий, Борис (2019). Разработка корпоративных чат-ботов: изучение языковых структур (1-е изд.). Cham, Швейцария: Springer. стр. 13–24. doi :10.1007/978-3-030-04299-8. ISBN 978-3-030-04298-1. S2CID 102486666.
^ Перл, Кэти (2016-12-06). Проектирование голосовых пользовательских интерфейсов: принципы разговорного опыта (1-е изд.). Севастополь, Калифорния: O'Reilly Media. стр. 16–19. ISBN 978-1-491-95541-3.
^ «Apple, Google и Amazon могли нарушить вашу конфиденциальность, просмотрев команды цифрового помощника». Fortune . 2019-08-05 . Получено 2020-05-13 .
^ Херн, Алекс (2019-04-11). «Сотрудники Amazon прослушивают записи Alexa клиентов, говорится в отчете». The Guardian . Получено 2020-05-21 .
^ Крёгер, Якоб Леон; Лутц, Отто Ханс-Мартин; Рашке, Филипп (2020). «Последствия анализа голоса и речи для конфиденциальности – раскрытие информации путем вывода». Управление конфиденциальностью и идентификацией. Данные для лучшей жизни: ИИ и конфиденциальность . Достижения IFIP в области информационных и коммуникационных технологий. Том 576. С. 242–258. doi : 10.1007/978-3-030-42504-3_16 . ISBN 978-3-030-42503-6. ISSN 1868-4238.

Внешние ссылки

Голосовые интерфейсы: оценка потенциала Якоба Нильсена
Рост популярности голоса: хронология
Voice First Глоссарий терминов
Голос Первый Список Чтения