Виртуальный помощник ( VA ) — это программный агент , который может выполнять ряд задач или услуг для пользователя на основе ввода данных пользователем, например, команд или вопросов, включая вербальные. Такие технологии часто включают возможности чат-бота для имитации человеческого разговора, например, через онлайн-чат , чтобы облегчить взаимодействие с пользователями. Взаимодействие может осуществляться через текст, графический интерфейс или голос — некоторые виртуальные помощники способны интерпретировать человеческую речь и отвечать с помощью синтезированных голосов.
Во многих случаях пользователи могут задавать вопросы своим виртуальным помощникам, управлять устройствами домашней автоматизации и воспроизведением мультимедиа, а также управлять другими базовыми задачами, такими как электронная почта, списки дел и календари — все это с помощью голосовых команд. [1] В последние годы к известным виртуальным помощникам для непосредственного использования потребителями относятся Siri от Apple , Amazon Alexa , Google Assistant и Bixby от Samsung . [2] Кроме того, компании в различных отраслях часто включают в себя какую-либо технологию виртуального помощника в свою службу поддержки клиентов. [3]
В последнее время появление чат-ботов на основе искусственного интеллекта , таких как ChatGPT , увеличило возможности и интерес к сфере продуктов и услуг виртуальных помощников. [4] [5] [6]
Радио Рекс было первой игрушкой, активируемой голосом, запатентованной в 1916 году [7] и выпущенной в 1922 году [8] . Это была деревянная игрушка в форме собаки, которая выходила из своего домика, когда ее звали по имени.
В 1952 году Bell Labs представила «Одри», машину автоматического распознавания цифр. Она занимала релейную стойку высотой в шесть футов, потребляла значительную мощность, имела потоки кабелей и демонстрировала множество проблем обслуживания, связанных со сложной схемой на электронных лампах. Она могла распознавать основные единицы речи, фонемы. Она была ограничена точным распознаванием цифр, произносимых назначенными дикторами. Поэтому ее можно было использовать для голосового набора, но в большинстве случаев набор с помощью кнопок был дешевле и быстрее, чем набор последовательных цифр. [9]
Еще одним ранним инструментом, способным выполнять цифровое распознавание речи, был голосовой калькулятор IBM Shoebox , представленный широкой публике на Всемирной выставке в Сиэтле 1962 года после его первоначального запуска на рынок в 1961 году. Этот ранний компьютер, разработанный почти за 20 лет до появления первого персонального компьютера IBM в 1981 году, мог распознавать 16 произнесенных слов и цифры от 0 до 9.
Первая компьютерная программа обработки естественного языка или чатбот ELIZA была разработана профессором Массачусетского технологического института Джозефом Вайценбаумом в 1960-х годах. Она была создана, чтобы «продемонстрировать, что общение между человеком и машиной было поверхностным». [10] ELIZA использовала методологию сопоставления шаблонов и подстановки в заскриптованные ответы для имитации разговора, что создавало иллюзию понимания со стороны программы.
Как сообщается, секретарь Вейценбаума попросил Вейценбаума выйти из комнаты, чтобы она и ЭЛИЗА могли по-настоящему поговорить. Вейценбаум был удивлен этим, позже написав: «Я не осознавал... что чрезвычайно короткие воздействия относительно простой компьютерной программы могут вызывать мощное бредовое мышление у вполне нормальных людей. [11]
Это дало название эффекту ELIZA — тенденции бессознательно предполагать, что поведение компьютера аналогично поведению человека; то есть антропоморфизации — явлению, присутствующему при взаимодействии человека с виртуальными помощниками.
Следующая веха в развитии технологии распознавания голоса была достигнута в 1970-х годах в Университете Карнеги-Меллона в Питтсбурге , штат Пенсильвания, при существенной поддержке Министерства обороны США и его агентства DARPA , профинансировавшего пять лет программы исследований понимания речи, направленной на достижение минимального словарного запаса в 1000 слов. В программе приняли участие компании и академические круги, включая IBM, Университет Карнеги-Меллона (CMU) и Стэнфордский исследовательский институт.
Результатом стала «Гарпия», она освоила около 1000 слов, словарный запас трехлетнего ребенка, и могла понимать предложения. Она могла обрабатывать речь, которая следовала запрограммированному словарному запасу, произношению и грамматическим структурам, чтобы определить, какие последовательности слов имеют смысл вместе, и таким образом уменьшать ошибки распознавания речи.
В 1986 году Tangora была усовершенствованной версией Shoebox, это была пишущая машинка с голосовым распознаванием. Названная в честь самой быстрой машинистки в мире того времени, она имела словарный запас в 20 000 слов и использовала прогнозирование для определения наиболее вероятного результата на основе того, что было сказано в прошлом. Подход IBM был основан на скрытой модели Маркова , которая добавляет статистику к цифровым методам обработки сигналов. Метод позволяет предсказать наиболее вероятные фонемы, которые последуют за заданной фонемой. Тем не менее, каждому говорящему приходилось индивидуально обучать машинку распознавать его или ее голос и делать паузу между каждым словом.
В 1983 году Гас Сирси изобрел «Дворецкий в коробке» — электронную систему голосового управления домом. [12]
В 1990-х годах технология цифрового распознавания речи стала особенностью персонального компьютера, за клиентов боролись IBM , Philips и Lernout & Hauspie . Гораздо позже выход на рынок первого смартфона IBM Simon в 1994 году заложил основу для интеллектуальных виртуальных помощников, какими мы их знаем сегодня. [ необходима цитата ]
В 1997 году программное обеспечение Naturally Speaking компании Dragon могло распознавать и транскрибировать естественную человеческую речь без пауз между словами в документ со скоростью 100 слов в минуту. Версия Naturally Speaking все еще доступна для загрузки и используется сегодня, например, многими врачами в США и Великобритании для документирования своих медицинских записей. [ необходима цитата ]
В 2001 году Colloquis публично запустил SmarterChild на таких платформах, как AIM и MSN Messenger . Будучи полностью текстовым, SmarterChild мог играть в игры, проверять погоду, искать факты и общаться с пользователями в некоторой степени. [13]
Первым современным цифровым виртуальным помощником, установленным на смартфоне, был Siri , который был представлен как функция iPhone 4S 4 октября 2011 года. [14] Apple Inc. разработала Siri после приобретения в 2010 году Siri Inc. , ответвления SRI International , который является научно-исследовательским институтом, финансируемым DARPA и Министерством обороны США . [15] Его целью было оказание помощи в таких задачах, как отправка текстовых сообщений, совершение телефонных звонков, проверка погоды или установка будильника. Со временем он развился до предоставления рекомендаций ресторанов, поиска в Интернете и указания маршрутов проезда. [ необходима цитата ]
В ноябре 2014 года Amazon анонсировала Alexa вместе с Echo. [16]
В апреле 2017 года Amazon выпустила сервис для создания разговорных интерфейсов для любого типа виртуального помощника или интерфейса.
В 2020-х годах системы искусственного интеллекта (ИИ), такие как ChatGPT, приобрели популярность благодаря своей способности генерировать ответы, подобные человеческим, на текстовые разговоры. В феврале 2020 года Microsoft представила свою модель Turing Natural Language Generation (T-NLG), которая тогда была «крупнейшей языковой моделью, когда-либо опубликованной с 17 миллиардами параметров». [17] 30 ноября 2022 года ChatGPT был запущен в качестве прототипа и быстро привлек внимание своими подробными ответами и четкими ответами во многих областях знаний. Появление ChatGPT и его представление широкой публике повысили интерес и конкуренцию в этой области. В феврале 2023 года Google начала внедрять экспериментальную службу под названием «Bard», которая основана на ее программе LaMDA для генерации текстовых ответов на заданные вопросы на основе информации, собранной из Интернета .
Хотя ChatGPT и другие обобщенные чат-боты, основанные на новейшем генеративном ИИ, способны выполнять различные задачи, связанные с виртуальными помощниками, существуют также более специализированные формы такой технологии, которые предназначены для решения более конкретных ситуаций или удовлетворения более конкретных потребностей. [18] [4]
Виртуальные помощники работают через:
Многие виртуальные помощники доступны несколькими способами, что обеспечивает гибкость взаимодействия пользователей с ними: через чат, голосовые команды или другие интегрированные технологии.
Виртуальные помощники используют обработку естественного языка (NLP) для сопоставления текста или голосового ввода пользователя с исполняемыми командами. Некоторые из них постоянно обучаются с использованием методов искусственного интеллекта, включая машинное обучение и окружающий интеллект .
Чтобы активировать виртуального помощника с помощью голоса, можно использовать слово пробуждения. Это слово или группы слов, например «Привет, Siri», «OK Google» или «Привет, Google», «Alexa» и «Привет, Microsoft». [21] Поскольку виртуальные помощники становятся все более популярными, возрастают и связанные с этим юридические риски. [22] : 815
Виртуальные помощники могут быть интегрированы во многие типы платформ или, как Amazon Alexa, в несколько из них:
Виртуальные помощники могут предоставлять широкий спектр услуг. Они включают в себя: [30]
Разговорная коммерция — это электронная коммерция с использованием различных средств обмена сообщениями, в том числе с помощью голосовых помощников [33] , а также чатов на веб-сайтах электронной коммерции , чатов в приложениях для обмена сообщениями, таких как WeChat , Facebook Messenger и WhatsApp [34] , а также чат-ботов в приложениях для обмена сообщениями или на веб-сайтах.
Виртуальный помощник может работать с командой поддержки клиентов компании, чтобы оказывать поддержку клиентам 24x7 . Он обеспечивает быстрые ответы, что улучшает опыт клиентов.
Amazon поддерживает Alexa «Skills» и Google «Actions», по сути, приложения, работающие на платформах помощников.
Виртуальные помощники имеют ряд проблем с конфиденциальностью, связанных с ними. Такие функции, как активация голосом, представляют угрозу, поскольку такие функции требуют, чтобы устройство всегда было в режиме прослушивания. [35] Режимы конфиденциальности, такие как виртуальная кнопка безопасности, были предложены для создания многоуровневой аутентификации для виртуальных помощников. [36]
Политика конфиденциальности Google Assistant гласит, что он не хранит аудиоданные без разрешения пользователя, но может хранить стенограммы разговоров для персонализации своего опыта. Персонализацию можно отключить в настройках. Если пользователь хочет, чтобы Google Assistant хранил аудиоданные, он может перейти в раздел Voice & Audio Activity (VAA) и включить эту функцию. Аудиофайлы отправляются в облако и используются Google для улучшения производительности Google Assistant, но только если функция VAA включена. [37]
Политика конфиденциальности виртуального помощника Amazon, Alexa, гласит, что он слушает разговоры только при использовании его слова пробуждения (например, Alexa, Amazon, Echo). Он начинает записывать разговор после вызова слова пробуждения и останавливает запись после 8 секунд тишины. Он отправляет записанный разговор в облако. Запись из облака можно удалить, посетив «Alexa Privacy» в «Alexa». [38]
Apple заявляет, что не записывает аудио для улучшения Siri. Вместо этого она утверждает, что использует расшифровки. Данные расшифровки отправляются только в том случае, если они считаются важными для анализа. Пользователи могут отказаться в любое время, если они не хотят, чтобы Siri отправляла расшифровки в облако. [39]
Cortana — это голосовой виртуальный помощник с единственной аутентификацией [40] [41] [42] . Это голосовое устройство получает доступ к данным пользователя для выполнения обычных задач, таких как проверка погоды или совершение звонков, что вызывает опасения по поводу конфиденциальности из-за отсутствия вторичной аутентификации. [43] [44]
Дополнительная ценность виртуальных помощников может заключаться, в частности, в следующем:
В 2019 году французский социолог Антонио А. Касилли подверг критике искусственный интеллект и виртуальных помощников, в частности, следующим образом:
На первом уровне тот факт, что потребитель предоставляет бесплатные данные для обучения и совершенствования виртуального помощника, часто не зная об этом, является этически неприемлемым.
Но на втором уровне, возможно, было бы еще более тревожно с этической точки зрения узнать, как эти ИИ обучаются с использованием этих данных.
Этот искусственный интеллект обучается с помощью нейронных сетей , которым требуется огромное количество маркированных данных. Однако эти данные должны быть маркированы с помощью человеческого процесса, что объясняет рост микроработы за последнее десятилетие. То есть, удаленное использование некоторых людей по всему миру для выполнения некоторых повторяющихся и очень простых задач за несколько центов, таких как прослушивание речевых данных виртуального помощника и запись того, что было сказано. Микроработа подвергалась критике за неуверенность в работе, которую она вызывает, и за полное отсутствие регулирования: средняя зарплата составляла 1,38 доллара в час в 2010 году [50] , и она не обеспечивает ни медицинского обслуживания, ни пенсионных пособий, ни больничных , ни минимальной заработной платы . Следовательно, виртуальные помощники и их разработчики являются спорными из-за того, что подстегивают неуверенность в работе, и предлагаемые ими ИИ по-прежнему являются человеческими в том смысле, что они были бы невозможны без микроработы миллионов людей. [49]
Проблемы конфиденциальности возникают из-за того, что голосовые команды доступны поставщикам виртуальных помощников в незашифрованном виде и, таким образом, могут быть переданы третьим лицам и обработаны несанкционированным или неожиданным образом. [51] Помимо лингвистического содержания записанной речи, манера выражения и голосовые характеристики пользователя могут неявно содержать информацию о его или ее биометрической личности, чертах личности, форме тела, состоянии физического и психического здоровья, поле, гендере, настроении и эмоциях, социально-экономическом статусе и географическом происхождении. [52]
Известные платформы для разработчиков виртуальных помощников включают в себя:
В предыдущих поколениях виртуальных помощников на основе текстового чата помощник часто был представлен аватаром ( он же интерактивный онлайн-персонаж или автоматизированный персонаж ) — это было известно как воплощенный агент .
Цифровые впечатления, предоставляемые виртуальными помощниками, считаются одними из основных последних технологических достижений и наиболее многообещающих потребительских тенденций. Эксперты утверждают, что цифровые впечатления достигнут статуса, сопоставимого с «реальными» впечатлениями, если не станут более востребованными и ценимыми. [57] Тенденция подтверждается большим количеством постоянных пользователей и существенным ростом числа пользователей виртуальных цифровых помощников во всем мире. В середине 2017 года число постоянных пользователей цифровых виртуальных помощников оценивается примерно в 1 млрд человек во всем мире. [58] Кроме того, можно заметить, что технология виртуальных цифровых помощников больше не ограничивается приложениями для смартфонов, а присутствует во многих секторах промышленности (включая автомобилестроение , телекоммуникации, розничную торговлю , здравоохранение и образование). [59] В ответ на значительные расходы на НИОКР фирм во всех секторах и растущее внедрение мобильных устройств, рынок технологий распознавания речи, как ожидается, будет расти со среднегодовым темпом роста 34,9% в глобальном масштабе в период с 2016 по 2024 год и, таким образом, превзойдет размер мирового рынка в 7,5 млрд долларов США к 2024 году. [59] Согласно исследованию Ovum , «база установленных собственных цифровых помощников», как ожидается, превысит население мира к 2021 году, с 7,5 млрд активных голосовых устройств с поддержкой ИИ. [60] По данным Ovum, к тому времени «Google Assistant будет доминировать на рынке голосовых устройств с поддержкой ИИ с долей рынка 23,3%, за ним следуют Bixby от Samsung (14,5%), Siri от Apple (13,1%), Alexa от Amazon (3,9%) и Cortana от Microsoft (2,3%)». [60]
Принимая во внимание региональное распределение лидеров рынка, ожидается , что североамериканские компании (например, Nuance Communications , IBM , eGain ) будут доминировать в отрасли в течение следующих лет из-за значительного влияния BYOD ( Bring Your Own Device ) и бизнес-моделей корпоративной мобильности. Кроме того, ожидается, что растущий спрос на платформы с поддержкой смартфонов еще больше подстегнет рост североамериканской индустрии интеллектуальных виртуальных помощников (IVA). Несмотря на меньший размер по сравнению с североамериканским рынком, индустрия интеллектуальных виртуальных помощников из Азиатско -Тихоокеанского региона, основные игроки которой находятся в Индии и Китае, по прогнозам, будет расти с годовым темпом роста 40% (выше среднего мирового показателя) в период 2016–2024 годов. [59]
Виртуальные помощники не должны рассматриваться только как гаджет для отдельных лиц, поскольку они могут иметь реальную экономическую полезность для предприятий. Например, виртуальный помощник может взять на себя роль всегда доступного помощника с энциклопедическими знаниями. И который может организовывать встречи, проверять инвентарь, проверять информацию. Виртуальные помощники тем более важны, что их интеграция в малые и средние предприятия часто заключается в простом первом шаге через более глобальную адаптацию и использование Интернета вещей (IoT) . Действительно, технологии IoT сначала воспринимаются малыми и средними предприятиями как технологии критически важного значения, но слишком сложные, рискованные или дорогостоящие для использования. [61]
В мае 2018 года исследователи из Калифорнийского университета в Беркли опубликовали статью, в которой было показано, что звуковые команды, не распознаваемые человеческим ухом, могут быть напрямую встроены в музыку или устный текст, тем самым заставляя виртуальных помощников выполнять определенные действия без того, чтобы пользователь их замечал. [62] Исследователи внесли небольшие изменения в аудиофайлы, которые отменили звуковые шаблоны, которые должны обнаруживать системы распознавания речи. Они были заменены звуками, которые система интерпретировала бы по-другому и давала бы ей команду набирать телефонные номера, открывать веб-сайты или даже переводить деньги. [62] Возможность этого известна с 2016 года [62] и затрагивает устройства от Apple, Amazon и Google. [63]
Помимо непреднамеренных действий и записи голоса, еще одним риском безопасности и конфиденциальности, связанным с интеллектуальными виртуальными помощниками, являются вредоносные голосовые команды: злоумышленник, который выдает себя за пользователя и отдает вредоносные голосовые команды, например, чтобы разблокировать умную дверь, чтобы получить несанкционированный доступ в дом или гараж или заказать товары онлайн без ведома пользователя. Хотя некоторые IVA предоставляют функцию обучения голосу для предотвращения такого подражания, системе может быть сложно различать похожие голоса. Таким образом, злоумышленник, который может получить доступ к устройству с поддержкой IVA, может обмануть систему, заставив ее думать, что он является настоящим владельцем, и совершить преступные или вредительские действия. [64]
Название на YouTube: Airline Information System, 1989 – Архивы AT&T – распознавание речи
{{cite journal}}
: |volume=
есть дополнительный текст ( помощь )