Виртуальный помощник ( ВА ) — это программный агент , который может выполнять для пользователя ряд задач или услуг на основе ввода данных пользователем, например команд или вопросов, в том числе устных. Такие технологии часто включают в себя возможности чат-ботов для имитации человеческого разговора, например, через онлайн-чат , чтобы облегчить взаимодействие со своими пользователями. Взаимодействие может осуществляться посредством текста, графического интерфейса или голоса, поскольку некоторые виртуальные помощники способны интерпретировать человеческую речь и отвечать посредством синтезированного голоса.
Во многих случаях пользователи могут задавать вопросы своим виртуальным помощникам, управлять устройствами домашней автоматизации и воспроизведением мультимедиа, а также управлять другими базовыми задачами, такими как электронная почта, списки дел и календари — и все это с помощью устных команд. [1] В последние годы в число известных виртуальных помощников для непосредственного потребительского использования вошли Siri от Apple , Amazon Alexa , Google Assistant и Bixby от Samsung . [2] Кроме того, компании в различных отраслях часто используют какую-либо технологию виртуального помощника в своем обслуживании или поддержке клиентов. [3]
В последнее время появление недавних чат-ботов на основе искусственного интеллекта , таких как ChatGPT , привело к увеличению возможностей и интереса к области продуктов и услуг виртуальных помощников. [4] [5]
Radio Rex была первой игрушкой, активируемой голосом, запатентованной в 1916 году [6] и выпущенной в 1922 году . [7] Это была деревянная игрушка в форме собаки, которая выходила из дома, когда называли ее имя.
В 1952 году Bell Labs представила «Одри», машину автоматического распознавания цифр. Он занимал релейную стойку высотой шесть футов, потреблял значительную мощность, имел потоки кабелей и имел множество проблем с обслуживанием, связанных со сложной схемой электронных ламп. Он мог распознавать основные единицы речи, фонемы. Оно ограничивалось точным распознаванием цифр, произносимых назначенными говорящими. Таким образом, его можно было использовать для голосового набора, но в большинстве случаев набор номера с помощью кнопок был дешевле и быстрее, чем произнесение последовательных цифр. [8]
Еще одним ранним инструментом, который позволял выполнять цифровое распознавание речи, был голосовой калькулятор IBM Shoebox , представленный широкой публике во время Всемирной выставки в Сиэтле 1962 года после его первого выхода на рынок в 1961 году. Этот ранний компьютер был разработан почти за 20 лет до его появления. первого персонального компьютера IBM, выпущенного в 1981 году, был способен распознавать 16 произносимых слов и цифры от 0 до 9.
Первая компьютерная программа для обработки естественного языка или чат-бот ELIZA была разработана профессором Массачусетского технологического института Джозефом Вайценбаумом в 1960-х годах. Он был создан, чтобы «продемонстрировать, что общение между человеком и машиной было поверхностным». [9] ELIZA использовала методологию сопоставления и замены шаблонов в сценариях ответов для имитации разговора, что создавало иллюзию понимания со стороны программы.
Сообщается, что личный секретарь Вайценбаум попросил Вайценбаум выйти из комнаты, чтобы она и ЭЛИЗА могли по-настоящему поговорить. Вайценбаум был удивлен этим и позже написал: «Я не осознавал… что чрезвычайно короткое воздействие относительно простой компьютерной программы может вызвать мощное бредовое мышление у вполне нормальных людей. [10]
Это дало название эффекту ELIZA — тенденции бессознательно предполагать, что поведение компьютера аналогично поведению человека; то есть антропоморфизация, феномен, присутствующий во взаимодействии человека с виртуальными помощниками.
Следующая веха в развитии технологии распознавания голоса была достигнута в 1970-х годах в Университете Карнеги-Меллон в Питтсбурге , штат Пенсильвания, при существенной поддержке Министерства обороны США и его агентства DARPA , финансирувшего пятилетнюю программу исследований в области понимания речи, целью которой было достичь минимального словарного запаса в 1000 слов. В программе приняли участие компании и научные круги, в том числе IBM, Университет Карнеги-Меллон (CMU) и Стэнфордский исследовательский институт.
В результате появилась «Гарпия», она освоила около 1000 слов, словарный запас трехлетнего ребенка, и могла понимать предложения. Он мог обрабатывать речь, которая следовала заранее запрограммированному словарному запасу, произношению и грамматическим структурам, чтобы определять, какие последовательности слов имеют смысл вместе, и тем самым уменьшать ошибки распознавания речи.
В 1986 году Tangora представляла собой модернизацию Shoebox — пишущей машинки с распознаванием голоса. Названный в честь самой быстрой машинистки в мире того времени, он имел словарный запас в 20 000 слов и использовал прогнозирование для определения наиболее вероятного результата на основе того, что было сказано в прошлом. Подход IBM был основан на скрытой модели Маркова , которая добавляет статистику к методам цифровой обработки сигналов. Метод позволяет предсказать, какие фонемы с наибольшей вероятностью будут следовать за данной фонемой. Тем не менее каждому говорящему приходилось индивидуально обучать пишущую машинку распознавать его или ее голос и делать паузу между каждым словом.
В 1990-х годах технология цифрового распознавания речи стала особенностью персональных компьютеров, и IBM , Philips и Lernout & Hauspie боролись за клиентов. Намного позже выход на рынок первого смартфона IBM Simon в 1994 году заложил основу для умных виртуальных помощников, какими мы их знаем сегодня. [ нужна цитата ]
В 1997 году программное обеспечение Naturally Speaking компании Dragon могло распознавать и транскрибировать естественную человеческую речь без пауз между каждым словом в документ со скоростью 100 слов в минуту. Версия Naturally Speaking по-прежнему доступна для загрузки и до сих пор используется, например, многими врачами в США и Великобритании для документирования своих медицинских записей. [ нужна цитата ]
В 2001 году Colloquis публично запустил SmarterChild на таких платформах, как AIM и MSN Messenger . Несмотря на то, что SmarterChild был полностью основан на тексте, он мог играть в игры, проверять погоду, искать факты и в некоторой степени общаться с пользователями. [11]
Первым современным цифровым виртуальным помощником, установленным на смартфоне, была Siri , которая была представлена как функция iPhone 4S 4 октября 2011 года. [12] Apple Inc. разработала Siri после приобретения в 2010 году Siri Inc. , дочерней компании SRI International , исследовательский институт, финансируемый DARPA и Министерством обороны США . [13] Его цель заключалась в помощи в таких задачах, как отправка текстового сообщения, совершение телефонных звонков, проверка погоды или установка будильника. Со временем он стал предоставлять рекомендации по ресторанам, осуществлять поиск в Интернете и указывать маршруты проезда. [ нужна цитата ]
В ноябре 2014 года Amazon анонсировала Alexa вместе с Echo. [14]
В апреле 2017 года Amazon выпустила сервис по созданию диалоговых интерфейсов для любого типа виртуального помощника или интерфейса.
В 2020-х годах системы искусственного интеллекта (ИИ), такие как ChatGPT, приобрели популярность благодаря своей способности генерировать человеческие ответы на текстовые разговоры. В феврале 2020 года Microsoft представила генерацию естественного языка Тьюринга (T-NLG), которая на тот момент была «крупнейшей языковой моделью, когда-либо опубликованной, с 17 миллиардами параметров». [15] 30 ноября 2022 года ChatGPT был запущен в качестве прототипа и быстро привлек внимание своими подробными и четкими ответами во многих областях знаний. Появление ChatGPT и его представление широкой публике повысило интерес и конкуренцию в этой сфере. В феврале 2023 года Google начал внедрять экспериментальный сервис под названием «Bard», основанный на его программе LaMDA , позволяющей генерировать текстовые ответы на задаваемые вопросы на основе информации, собранной из Интернета .
Хотя ChatGPT и другие универсальные чат-боты, основанные на новейшем генеративном искусственном интеллекте , способны выполнять различные задачи, связанные с виртуальными помощниками, существуют также более специализированные формы таких технологий, предназначенные для более конкретных ситуаций или потребностей. [16] [4]
Виртуальные помощники работают через:
Многие виртуальные помощники доступны несколькими способами, что обеспечивает универсальность взаимодействия пользователей с ними, будь то через чат, голосовые команды или другие интегрированные технологии.
Виртуальные помощники используют обработку естественного языка (NLP) для сопоставления пользовательского текста или голосового ввода с исполняемыми командами. Некоторые постоянно учатся, используя методы искусственного интеллекта , включая машинное обучение и окружающий интеллект .
Чтобы активировать виртуального помощника с помощью голоса, можно использовать слово для пробуждения. Это слово или группы слов, например «Привет, Siri», «ОК, Google» или «Привет, Google», «Alexa» и «Привет, Microsoft». [19] Поскольку виртуальные помощники становятся все более популярными, возникают и юридические риски. [20] : 815
Виртуальные помощники могут быть интегрированы во многие типы платформ или, как Amazon Alexa, в несколько из них:
Виртуальные помощники могут предоставлять широкий спектр услуг. К ним относятся: [28]
Диалоговая коммерция — это электронная коммерция с использованием различных средств обмена сообщениями, в том числе с помощью голосовых помощников [31] , а также чата на веб-сайтах электронной коммерции , чата в приложениях для обмена сообщениями, таких как WeChat , Facebook Messenger и WhatsApp [32] , а также чат-ботов для обмена сообщениями. приложения или веб-сайты.
Виртуальный помощник может работать с командой поддержки клиентов компании, обеспечивая круглосуточную поддержку клиентов. Он обеспечивает быстрые ответы, что повышает качество обслуживания клиентов.
Amazon включает Alexa «Skills» и Google «Actions», по сути, приложения, которые работают на платформах помощников.
С виртуальными помощниками связано множество проблем конфиденциальности . Такие функции, как активация голосом, представляют угрозу, поскольку такие функции требуют, чтобы устройство всегда было подслушивающим. [33] Режимы конфиденциальности, такие как виртуальная кнопка безопасности, были предложены для создания многоуровневой аутентификации для виртуальных помощников. [34]
В политике конфиденциальности Google Assistant указано, что он не хранит аудиоданные без разрешения пользователя, но может сохранять стенограммы разговоров для персонализации своего опыта. Персонализацию можно отключить в настройках. Если пользователь хочет, чтобы Google Assistant сохранял аудиоданные, он может перейти в раздел «Активность голоса и звука» (VAA) и включить эту функцию. Аудиофайлы отправляются в облако и используются Google для повышения производительности Google Assistant, но только если функция VAA включена. [35]
Политика конфиденциальности виртуального помощника Amazon, Alexa, гласит, что он прослушивает разговоры только тогда, когда используется его слово пробуждения (например, Alexa, Amazon, Echo). Он начинает запись разговора после произнесения слова-будильника и прекращает запись после 8 секунд молчания. Он отправляет записанный разговор в облако. Запись из облака можно удалить, посетив раздел «Конфиденциальность Alexa» в «Alexa». [36]
Apple заявляет, что не записывает звук для улучшения Siri. Вместо этого он утверждает, что использует стенограммы. Данные стенограммы отправляются только в том случае, если они считаются важными для анализа. Пользователи могут отказаться в любое время, если не хотят, чтобы Siri отправляла стенограммы в облако. [37]
Дополнительная ценность виртуальных помощников может заключаться, среди прочего, в следующем:
В 2019 году французский социолог Антонио А. Касилли раскритиковал искусственный интеллект и, в частности, виртуальных помощников следующим образом:
На первом уровне тот факт, что потребитель предоставляет бесплатные данные для обучения и улучшения виртуального помощника, часто даже не зная об этом, является этически тревожным.
Но на втором уровне может быть еще более этически тревожно узнать, как эти ИИ обучаются с использованием этих данных.
Этот искусственный интеллект обучается с помощью нейронных сетей , которым требуется огромное количество размеченных данных. Однако эти данные необходимо маркировать с помощью человеческого процесса, что объясняет рост микроработы в последнее десятилетие. То есть удаленно использовать некоторых людей по всему миру, выполняющих некоторые повторяющиеся и очень простые задачи за несколько центов, таких как прослушивание речевых данных виртуального помощника и запись сказанного. Микроработу критиковали за ненадежность рабочих мест, которую она вызывает, а также за полное отсутствие регулирования: в 2010 году средняя зарплата составляла 1,38 доллара в час [43] , и она не обеспечивает ни здравоохранения, ни пенсионных пособий, ни больничных , ни минимальной заработной платы . Следовательно, виртуальные помощники и их дизайнеры вызывают споры из-за того, что они способствуют нестабильности занятости, а предлагаемые ими ИИ по-прежнему остаются людьми в том смысле, что они были бы невозможны без микроработы миллионов людей-работников. [42]
Проблемы конфиденциальности возникают в связи с тем, что голосовые команды доступны поставщикам виртуальных помощников в незашифрованной форме и, таким образом, могут быть переданы третьим лицам и обработаны несанкционированным или неожиданным образом. [44] Помимо языкового содержания записанной речи, манера выражения и голосовые характеристики пользователя могут неявно содержать информацию о его биометрической личности, личностных качествах, форме тела, физическом и психическом состоянии здоровья, поле, поле, настроении и эмоциях. , социально-экономический статус и географическое происхождение. [45]
Известные платформы разработчиков виртуальных помощников включают:
В предыдущих поколениях виртуальных помощников на основе текстового чата помощник часто представлялся аватаром ( также известным как интерактивный онлайн-персонаж или автоматизированный персонаж ) — это было известно как воплощенный агент .
Цифровой опыт, обеспечиваемый виртуальными помощниками, считается одним из основных последних технологических достижений и наиболее многообещающих потребительских тенденций. Эксперты утверждают, что цифровой опыт достигнет статуса, сравнимого с «реальным» опытом, или даже станет более востребованным и ценным. [50] Эта тенденция подтверждается большим количеством частых пользователей и существенным ростом числа пользователей виртуальных цифровых помощников во всем мире. По оценкам, в середине 2017 года число частых пользователей цифровых виртуальных помощников во всем мире составит около 1 миллиарда человек. [51] Кроме того, можно заметить, что технология виртуального цифрового помощника больше не ограничивается приложениями для смартфонов, а присутствует во многих отраслях промышленности (включая автомобилестроение , телекоммуникации, розничную торговлю , здравоохранение и образование). [52] В ответ на значительные расходы компаний на НИОКР во всех секторах и растущее внедрение мобильных устройств, рынок технологий распознавания речи, по прогнозам, будет расти в среднем на 34,9 % в глобальном масштабе в период с 2016 по 2024 год и тем самым превысит объем мирового рынка к 2024 году составит 7,5 миллиардов долларов США. [52] Согласно исследованию Ovum , к 2021 году «установленная база собственных цифровых помощников» превысит численность населения мира с 7,5 миллиардами активных голосовых устройств с поддержкой искусственного интеллекта. [53] По данным Ovum, к тому времени «Google Assistant будет доминировать на рынке устройств с поддержкой голосового ИИ с долей рынка 23,3%, за ним следуют Bixby от Samsung (14,5%), Siri от Apple (13,1%), Alexa от Amazon (3,9%). и Cortana от Microsoft (2,3%). [53]
Принимая во внимание региональное распределение лидеров рынка, ожидается, что североамериканские компании (например, Nuance Communications , IBM , eGain ) будут доминировать в отрасли в течение следующих лет из-за значительного влияния BYOD ( принеси свое собственное устройство ) и бизнеса корпоративной мобильности. модели. Кроме того, ожидается, что растущий спрос на платформы с поддержкой смартфонов будет способствовать дальнейшему росту индустрии интеллектуальных виртуальных помощников (IVA) в Северной Америке. Несмотря на меньший размер по сравнению с рынком Северной Америки, индустрия интеллектуальных виртуальных помощников в Азиатско -Тихоокеанском регионе, основные игроки которой расположены в Индии и Китае, по прогнозам, будет расти с ежегодными темпами роста 40% (выше среднего мирового показателя). за период 2016–2024 гг. [52]
Виртуальных помощников не следует рассматривать только как гаджет для частных лиц, поскольку они могут иметь реальную экономическую полезность для предприятий. В качестве примера виртуальный помощник может взять на себя роль всегда доступного помощника с энциклопедическими знаниями. И который может организовывать встречи, проверять инвентарь, проверять информацию. Виртуальные помощники тем более важны, что их интеграция на предприятиях малого и среднего бизнеса часто представляет собой простой первый шаг через более глобальную адаптацию и использование Интернета вещей (IoT) . Действительно, технологии Интернета вещей сначала воспринимаются малыми и средними предприятиями как технологии критической важности, но слишком сложные, рискованные или дорогостоящие для использования. [54]
В мае 2018 года исследователи из Калифорнийского университета в Беркли опубликовали статью, в которой показано, что аудиокоманды, незаметные для человеческого уха, могут быть непосредственно встроены в музыку или устный текст, тем самым манипулируя виртуальными помощниками, заставляя их выполнять определенные действия, не обращая на это внимания. . [55] Исследователи внесли небольшие изменения в аудиофайлы, которые устранили звуковые шаблоны, которые должны обнаруживать системы распознавания речи. Они были заменены звуками, которые по-разному интерпретировались системой и давали ей команду набирать телефонные номера, открывать веб-сайты или даже переводить деньги. [55] О возможности этого известно с 2016 года, [55] и оно затрагивает устройства Apple, Amazon и Google. [56]
Помимо непреднамеренных действий и записи голоса, еще одной угрозой безопасности и конфиденциальности, связанной с интеллектуальными виртуальными помощниками, являются вредоносные голосовые команды: злоумышленник, который выдает себя за пользователя и подает вредоносные голосовые команды, например, чтобы разблокировать умную дверь, чтобы получить домой или в гараж или заказывать товары онлайн без ведома пользователя. Несмотря на то, что некоторые IVA предоставляют функцию тренировки голоса для предотвращения такого подражания, системе может быть сложно различать похожие голоса. Таким образом, злоумышленник, получивший доступ к устройству с поддержкой IVA, может обмануть систему, заставив ее думать, что он настоящий владелец, и совершить преступные или вредные действия. [57]
Название на YouTube: Информационная система авиакомпаний, 1989 г. - Архивы AT&T - распознавание речи.