Голосовой пользовательский интерфейс

Голосовой пользовательский интерфейс ( VUI ) обеспечивает голосовое взаимодействие человека с компьютерами, используя распознавание речи для понимания устных команд и ответов на вопросы , а также, как правило, преобразование текста в речь для воспроизведения ответа. Устройство голосового управления — это устройство, управляемое с помощью голосового пользовательского интерфейса.

Голосовые пользовательские интерфейсы были добавлены в автомобили , системы домашней автоматизации , компьютерные операционные системы , бытовую технику , такую как стиральные машины и микроволновые печи , а также пульты дистанционного управления телевизорами . Они являются основным способом взаимодействия с виртуальными помощниками на смартфонах и интеллектуальных колонках . Старые автосекретари (которые перенаправляют телефонные звонки на правильный добавочный номер) и интерактивные системы голосового ответа (которые выполняют более сложные транзакции по телефону) могут реагировать на нажатие кнопок клавиатуры с помощью тонов DTMF , но системы с полностью голосовым пользовательским интерфейсом позволяют звонящим озвучивать запросы и ответы без необходимости нажимать какие-либо кнопки.

Новые устройства голосового управления не зависят от говорящего, поэтому они могут реагировать на несколько голосов, независимо от акцента или диалектного влияния. Они также способны реагировать на несколько команд одновременно, разделять голосовые сообщения и обеспечивать соответствующую обратную связь , точно имитируя естественный разговор. ^[1]

Обзор

VUI — это интерфейс любого речевого приложения. Еще совсем недавно управлять машиной, просто разговаривая с ней, было возможно только в научной фантастике . До недавнего времени этой областью считался искусственный интеллект . Однако достижения в таких технологиях, как преобразование текста в речь, речь в текст, обработка естественного языка и облачные сервисы, способствовали массовому внедрению этих типов интерфейсов. VUI стали более распространенными, и люди пользуются преимуществами, которые эти интерфейсы без помощи рук и глаз предоставляют во многих ситуациях.

VUI должны надежно реагировать на вводимые данные, иначе пользователи будут отвергать их и часто высмеивать. Разработка хорошего VUI требует междисциплинарных талантов в области компьютерных наук , лингвистики и психологии человеческого фактора — все эти навыки являются дорогостоящими и труднодоступными. Даже при наличии передовых инструментов разработки построение эффективного VUI требует глубокого понимания как решаемых задач, так и целевой аудитории, которая будет использовать конечную систему. Чем ближе VUI соответствует мысленной модели задачи пользователя, тем проще его будет использовать практически без обучения, что приведет как к более высокой эффективности, так и к более высокому удовлетворению пользователя.

VUI, предназначенный для широкой публики, должен подчеркивать простоту использования и предоставлять большую помощь и рекомендации для тех, кто звонит впервые. Напротив, VUI, предназначенный для небольшой группы опытных пользователей (включая сотрудников выездного обслуживания), должен больше фокусироваться на производительности, а не на помощи и указаниях. Такие приложения должны оптимизировать потоки вызовов, свести к минимуму количество подсказок, исключить ненужные итерации и обеспечить продуманные « диалоги смешанной инициативы », которые позволяют звонящим вводить несколько фрагментов информации в одном произнесении, в любом порядке или комбинации. Короче говоря, речевые приложения должны быть тщательно разработаны для конкретного автоматизируемого бизнес-процесса.

Не все бизнес-процессы одинаково хорошо подходят для автоматизации речи. В целом, чем сложнее запросы и транзакции, тем сложнее их будет автоматизировать и тем выше вероятность того, что они потерпят неудачу среди широкой публики. В некоторых сценариях автоматизация просто неприменима, поэтому помощь живого агента — единственный вариант. Например, очень сложно автоматизировать горячую линию юридической консультации. С другой стороны, речь идеально подходит для выполнения быстрых и рутинных транзакций, таких как изменение статуса рабочего задания, запись времени или расходов или перевод средств между счетами.

История

Ранние приложения для VUI включали голосовой набор номера телефона либо напрямую, либо через (обычно Bluetooth ) гарнитуру или аудиосистему автомобиля.

В 2007 году в деловой статье CNN сообщалось, что голосовое управление представляет собой индустрию стоимостью более миллиарда долларов и что такие компании, как Google и Apple , пытаются создать функции распознавания речи. ^[2] За годы, прошедшие с момента публикации статьи, в мире появилось множество устройств голосового управления. Кроме того, Google создал механизм распознавания речи под названием Pico TTS, а Apple выпустила Siri. Устройства голосового управления становятся все более доступными, и постоянно создаются инновационные способы использования человеческого голоса. Например, Business Week предполагает, что будущий пульт дистанционного управления будет иметь человеческий голос. В настоящее время Xbox Live допускает такие функции, и Джобс намекнул на наличие такой функции в новом Apple TV . ^[3]

Программные продукты голосового управления на вычислительных устройствах

И Apple Mac , и Windows PC предоставляют встроенные функции распознавания речи для своих новейших операционных систем .

Майкрософт Виндоус

Две операционные системы Microsoft, Windows 7 и Windows Vista , обеспечивают возможности распознавания речи. Microsoft интегрировала голосовые команды в свои операционные системы, чтобы предоставить механизм для людей, которые хотят ограничить использование мыши и клавиатуры, но при этом хотят сохранить или повысить свою общую производительность. ^[4]

Виндоус виста

С помощью голосового управления Windows Vista пользователь может диктовать документы и электронные письма в основных приложениях, запускать приложения и переключаться между ними, управлять операционной системой, форматировать документы, сохранять документы, редактировать файлы, эффективно исправлять ошибки и заполнять формы в Интернете . Программное обеспечение для распознавания речи обучается автоматически каждый раз, когда пользователь его использует. Распознавание речи доступно на английском (США), английском (Великобритания), немецком (Германия), французском (Франция), испанском (Испания), японском, китайском (традиционном) языках. и китайский (упрощенный). Кроме того, программное обеспечение поставляется с интерактивным учебным пособием, которое можно использовать для обучения как пользователя, так и механизма распознавания речи. ^[5]

Windows 7

В дополнение ко всем функциям, представленным в Windows Vista, Windows 7 предоставляет мастер настройки микрофона и руководство по использованию этой функции. ^[6]

Mac OS X

На всех компьютерах Mac OS X уже установлено программное обеспечение для распознавания речи. Программное обеспечение не зависит от пользователя и позволяет пользователю «перемещаться по меню и вводить сочетания клавиш; произносить названия флажков, названия переключателей, элементы списка и названия кнопок; а также открывать, закрывать, управлять и переключаться между приложениями. " ^[7] Однако сайт Apple рекомендует пользователю купить коммерческий продукт под названием Dictate . ^[7]

Коммерческие продукты

Если пользователя не устраивает встроенное программное обеспечение для распознавания речи или у пользователя нет встроенного программного обеспечения для распознавания речи для его ОС, то пользователь может поэкспериментировать с коммерческим продуктом, таким как Braina Pro или DragonNaturallySpeaking для ПК с Windows, ^[8] и Dictate — название того же программного обеспечения для Mac OS. ^[9]

Голосовые команды для мобильных устройств

Любое мобильное устройство под управлением ОС Android, Microsoft Windows Phone, iOS 9 или более поздней версии или ОС Blackberry предоставляет возможности голосового управления. В дополнение к встроенному программному обеспечению распознавания речи для каждой операционной системы мобильного телефона пользователь может загружать сторонние приложения для голосовых команд из магазина приложений каждой операционной системы: Apple App Store , Google Play , Windows Phone Marketplace (первоначально Windows Marketplace для мобильных устройств ). или BlackBerry App World .

ОС Андроид

Google разработала операционную систему с открытым исходным кодом под названием Android , которая позволяет пользователю выполнять голосовые команды, такие как: отправлять текстовые сообщения, слушать музыку, прокладывать маршруты, звонить в компании, звонить контактам, отправлять электронную почту, просматривать карту, переходить на веб-сайты и т. д. напишите заметку и выполните поиск в Google. ^[10] Программное обеспечение для распознавания речи доступно для всех устройств, начиная с Android 2.2 «Froyo» , но в настройках должен быть установлен английский язык. ^[10] Google позволяет пользователю менять язык, и при первом использовании функции распознавания речи пользователю предлагается указать, хочет ли он или она, чтобы его голосовые данные были прикреплены к его учетной записи Google. Если пользователь решает воспользоваться этой услугой, это позволяет Google обучать программное обеспечение голосу пользователя. ^[11]

Google представила Google Assistant с Android 7.0 «Nougat» . Он намного более продвинут, чем старая версия.

У Amazon.com есть Echo , который использует специальную версию Android от Amazon для обеспечения голосового интерфейса.

Майкрософт Виндоус

Windows Phone — это операционная система для мобильных устройств Microsoft . В Windows Phone 7.5 голосовое приложение не зависит от пользователя и может использоваться для: вызова кого-либо из вашего списка контактов, вызова любого номера телефона, повторного набора последнего номера, отправки текстового сообщения, вызова голосовой почты, открытия приложения, чтения встреч. , запрашивать статус телефона и выполнять поиск в Интернете. ^[12]^[13] Кроме того, во время телефонного звонка также можно использовать речь, и во время телефонного звонка возможны следующие действия: нажать номер, включить громкую связь или позвонить кому-нибудь, что включает текущий вызов. держать. ^[13]

В Windows 10 представлена Cortana — система голосового управления, которая заменяет ранее использовавшееся голосовое управление на телефонах с Windows.

iOS

Apple добавила голосовое управление в свое семейство iOS-устройств в качестве новой функции iPhone OS 3 . iPhone 4S , iPad 3 , iPad Mini 1G , iPad Air , iPad Pro 1G , iPod Touch 5G и новее оснащены более продвинутым голосовым помощником под названием Siri . Голосовое управление по-прежнему можно включить через меню «Настройки» на новых устройствах. Siri — это независимая от пользователя встроенная функция распознавания речи, которая позволяет пользователю подавать голосовые команды. С помощью Siri пользователь может подавать такие команды, как отправить текстовое сообщение, проверить погоду, установить напоминание, найти информацию, запланировать встречи, отправить электронное письмо, найти контакт, установить будильник, проложить маршрут, отслеживать свои акции и т. д. установите таймер и попросите примеры примеров запросов голосовых команд. ^[14] Кроме того, Siri работает с Bluetooth и проводными наушниками. ^[15]

Амазонка Алекса

В 2014 году Amazon представила устройство для умного дома Alexa . Его основной целью был просто умный динамик, который позволял потребителю управлять устройством с помощью голоса. Со временем оно превратилось в новинку, позволяющую управлять бытовой техникой голосом. Теперь почти вся бытовая техника контролируется с помощью Alexa, включая лампочки и температуру. Благодаря голосовому управлению Alexa может подключаться к технологии умного дома, позволяющей запирать дом, контролировать температуру и активировать различные устройства. Эта форма ИИ позволяет кому-то просто задать ему вопрос, а в ответ Алекса ищет, находит и повторяет вам ответ. ^[16]

Распознавание речи в автомобилях

По мере совершенствования автомобильных технологий в автомобили будет добавляться больше функций, и эти функции потенциально могут отвлекать водителя. Голосовые команды для автомобилей, по мнению CNET , должны позволять водителю подавать команды и не отвлекаться. CNET заявил, что Nuance предлагала в будущем создать программное обеспечение, похожее на Siri, но для автомобилей. ^[17] Большинство программ распознавания речи, представленных на рынке в 2011 году, содержало всего около 50–60 голосовых команд, а Ford Sync — 10 000. ^[17] Однако CNET предположил, что даже 10 000 голосовых команд недостаточно, учитывая сложность и разнообразие задач, которые пользователь может захотеть выполнить во время вождения. ^[17] Голосовые команды для автомобилей отличаются от голосовых команд для мобильных телефонов и компьютеров, поскольку водитель может использовать эту функцию для поиска ближайших ресторанов, поиска заправки, направления движения, дорожных условий и местоположения ближайшего отеля. ^[17] В настоящее время технология позволяет водителю подавать голосовые команды как на портативный GPS, такой как Garmin , так и на навигационную систему производителя автомобиля. ^[18]

Список систем голосового управления, предоставляемых производителями двигателей:

Форд Синк
Голосовое управление Лексус
Крайслер ЮКоннект
Хонда Аккорд
ГМ ИнтеллиЛинк
BMW
Мерседес
пионер
Харман
Хюндай

Невербальный ввод

Хотя большинство голосовых пользовательских интерфейсов предназначены для поддержки взаимодействия посредством разговорного человеческого языка, в недавних исследованиях по разработке интерфейсов в качестве входных данных использовались невербальные человеческие звуки. В этих системах пользователь управляет интерфейсом, издавая неречевые звуки, такие как жужжание, свист или дуновение в микрофон. ^[19]

Одним из таких примеров невербального голосового пользовательского интерфейса является Blendie, ^[20]^[21] интерактивная художественная инсталляция, созданная Келли Добсон. Этот предмет представлял собой классический блендер 1950-х годов, который был модернизирован так, чтобы реагировать на вход микрофона. Чтобы управлять блендером, пользователь должен имитировать жужжащие механические звуки, которые обычно издает блендер: блендер будет медленно вращаться в ответ на низкое рычание пользователя и увеличивать скорость, когда пользователь издает более высокие голосовые звуки.

Другим примером является VoiceDraw, ^[22] исследовательская система, позволяющая цифровое рисование людям с ограниченными двигательными способностями. VoiceDraw позволяет пользователям «рисовать» штрихи на цифровом холсте, модулируя гласные звуки, которые сопоставляются с направлениями кисти. Модулирование других паралингвистических характеристик (например, громкости голоса) позволяет пользователю контролировать различные характеристики рисунка, например, толщину мазка кисти.

Другие подходы включают использование невербальных звуков для дополнения сенсорных интерфейсов (например, на мобильном телефоне) для поддержки новых типов жестов, которые были бы невозможны с помощью только пальцевого ввода. ^[19]

Проблемы проектирования

Голосовые интерфейсы создают значительное количество проблем с точки зрения удобства использования. В отличие от графических пользовательских интерфейсов (GUI), передовые методы проектирования голосовых интерфейсов все еще находятся в стадии разработки. ^[23]

Обнаруживаемость

При чисто аудиовзаимодействии голосовые пользовательские интерфейсы, как правило, плохо обнаруживаются : ^[23] пользователям трудно понять масштаб возможностей системы. Чтобы система могла передать то, что возможно без визуального отображения, ей необходимо будет перечислить доступные варианты, что может оказаться утомительным или неосуществимым. Низкая обнаруживаемость часто приводит к тому, что пользователи сообщают о путанице в отношении того, что им «разрешено» говорить, или о несоответствии ожиданий относительно широты понимания системы. ^[24]^[25]

Транскрипция

Хотя технология распознавания речи значительно улучшилась за последние годы, голосовые пользовательские интерфейсы по-прежнему страдают от ошибок синтаксического анализа или транскрипции, из-за которых речь пользователя интерпретируется неправильно. ^[26] Эти ошибки, как правило, особенно распространены, когда в речевом содержании используется техническая лексика (например, медицинская терминология) или нетрадиционные варианты написания, такие как имена музыкальных исполнителей или названия песен. ^[27]

Понимание

Разработка эффективной системы для максимального понимания разговорной речи остается открытой областью исследований. Голосовые пользовательские интерфейсы, которые интерпретируют и управляют диалоговым состоянием, сложно проектировать из-за присущих им сложностей интеграции сложных задач обработки естественного языка, таких как разрешение кореференций , распознавание именованных объектов , поиск информации и управление диалогами . ^[28] Большинство голосовых помощников сегодня способны очень хорошо выполнять отдельные команды, но ограничены в своих возможностях управлять диалогом, выходя за рамки узкой задачи или пары поворотов в разговоре. ^[29]

Будущее использование

Карманные устройства, такие как КПК или мобильные телефоны , в настоящее время используют небольшие кнопки для пользовательского ввода. Они либо встроены в устройство, либо являются частью интерфейса сенсорного экрана, например, в Apple iPod Touch и приложении Siri для iPhone . Постоянное нажатие кнопок на устройствах с такими маленькими кнопками может быть утомительным и неточным, поэтому простой в использовании, точный и надежный VUI потенциально может стать серьезным прорывом в простоте их использования. Тем не менее, такой VUI также принесет пользу пользователям компьютеров размером с ноутбук и настольный компьютер, поскольку он решит многочисленные проблемы, связанные в настоящее время с использованием клавиатуры и мыши , включая травмы, вызванные повторяющимися нагрузками, такие как синдром запястного канала , проблемы навигации и ввод текста в цифровые интерфейсы людьми с ослабленным зрением ^[30] и медленная скорость набора текста со стороны неопытных пользователей клавиатуры. Более того, использование клавиатуры обычно предполагает сидение или стояние перед подключенным дисплеем; напротив, VUI позволит пользователю быть гораздо более мобильным, поскольку речевой ввод устраняет необходимость смотреть на клавиатуру.

Подобные разработки могут изменить облик нынешних машин и иметь далеко идущие последствия для взаимодействия с ними пользователей. Портативные устройства будут иметь более крупные и удобные для просмотра экраны, поскольку клавиатура не потребуется. Устройствам с сенсорным экраном больше не нужно будет разделять дисплей между контентом и экранной клавиатурой, обеспечивая тем самым полноэкранный просмотр контента. Ноутбуки можно было бы сократить вдвое по размеру, поскольку половина клавиатуры была бы удалена, а все внутренние компоненты были бы интегрированы за дисплеем, что фактически привело бы к созданию простого планшетного компьютера . Настольные компьютеры будут состоять из процессора и экрана, что позволит сэкономить место на рабочем столе, которое в противном случае занимало бы клавиатура, и исключить выдвижные подставки для клавиатуры, встроенные под поверхность стола. Пульты дистанционного управления телевизорами и клавиатуры на десятках других устройств, от микроволновых печей до копировальных аппаратов, также могут быть устранены.

Однако для того, чтобы такое развитие событий произошло, придется преодолеть многочисленные проблемы. Во-первых, VUI должен быть достаточно сложным, чтобы различать ввод, например команды, и фоновый диалог; в противном случае будет зарегистрирован ложный ввод, и подключенное устройство будет вести себя хаотично. Стандартная подсказка, например знаменитая «Компьютер!» Звонок персонажей научно-фантастических телешоу и фильмов, таких как «Звездный путь» , может активировать VUI и подготовить его к получению дальнейших данных от того же говорящего. Возможно, VUI также может включать в себя человекоподобное представление: например, голос или даже экранный персонаж, который отвечает (например, «Да, Вамши?») и продолжает общаться с пользователем взад и вперед в для уточнения полученных данных и обеспечения точности.

Во-вторых, VUI должен будет работать совместно с очень сложным программным обеспечением, чтобы точно обрабатывать и находить/извлекать информацию или выполнять действия в соответствии с предпочтениями конкретного пользователя. Например, если Саманта предпочитает информацию из конкретной газеты и если она предпочитает, чтобы информация была обобщена в виде точек, она может сказать: «Компьютер, найдите мне информацию о наводнении в южном Китае прошлой ночью»; в ответ VUI, знакомый с ее предпочтениями, «найдет» факты о «наводнении» в «южном Китае» из этого источника, преобразует их в точечную форму и доставит ей на экран и/или в голосовой форме, в комплекте с цитатой. Следовательно, потребуется точное программное обеспечение для распознавания речи , а также некоторая степень искусственного интеллекта со стороны машины, связанной с VUI.

Последствия конфиденциальности

Проблемы конфиденциальности возникают в связи с тем, что голосовые команды доступны поставщикам голосовых пользовательских интерфейсов в незашифрованной форме и, таким образом, могут быть переданы третьим лицам и обработаны несанкционированным или неожиданным образом. ^[31]^[32] Помимо лингвистического содержания записанной речи, манера выражения и голосовые характеристики пользователя могут неявно содержать информацию о его биометрической идентичности, личностных качествах, форме тела, состоянии физического и психического здоровья, поле, гендерной принадлежности, настроения и эмоции , социально-экономический статус и географическое происхождение. ^[33]

Смотрите также

Внешние ссылки

Голосовые интерфейсы: оценка потенциала Якоб Нильсен
Повышение голоса: хронология
Глоссарий терминов Voice First
Голос прежде всего Список для чтения

Голосовой пользовательский интерфейс

Обзор

История

Программные продукты голосового управления на вычислительных устройствах

Майкрософт Виндоус

Виндоус виста

Windows 7

Mac OS X

Коммерческие продукты

Голосовые команды для мобильных устройств

ОС Андроид

Майкрософт Виндоус

iOS

Амазонка Алекса

Распознавание речи в автомобилях

Невербальный ввод

Проблемы проектирования

Обнаруживаемость

Транскрипция

Понимание

Будущее использование

Последствия конфиденциальности

Смотрите также

Рекомендации

Внешние ссылки