Мультимодальное взаимодействие предоставляет пользователю несколько режимов взаимодействия с системой. Мультимодальный интерфейс предоставляет несколько различных инструментов для ввода и вывода данных.
Мультимодальное взаимодействие человека и компьютера предполагает естественную связь с виртуальной и физической средой. Он облегчает свободное и естественное общение между пользователями и автоматизированными системами, обеспечивая гибкий ввод (речь, рукописный ввод, жесты) и вывод ( синтез речи , графика). Мультимодальное слияние объединяет вклады разных модальностей, устраняя двусмысленность.
Две основные группы мультимодальных интерфейсов ориентированы на альтернативные методы ввода и комбинированный ввод/вывод. Несколько способов ввода повышают удобство использования, принося пользу пользователям с ограниченными возможностями. Мобильные устройства часто используют для ввода XHTML+Voice . Мультимодальные биометрические системы используют несколько биометрических данных для преодоления ограничений. Мультимодальный анализ настроений включает в себя анализ текстовых, аудио и визуальных данных для классификации настроений. GPT-4 , мультимодальная языковая модель , объединяет различные модальности для улучшения понимания языка. Мультимодальные системы вывода представляют информацию посредством визуальных и слуховых сигналов, используя прикосновение и обоняние. Мультимодальное слияние объединяет информацию из разных модальностей, используя основанное на распознавании, принятии решений и гибридное многоуровневое слияние.
Неоднозначности в мультимодальном вводе устраняются с помощью методов предотвращения, апостериорного разрешения и аппроксимационного разрешения.
Мультимодальное взаимодействие человека и компьютера относится к «взаимодействию с виртуальной и физической средой посредством естественных способов общения» [1] . Это означает, что мультимодальное взаимодействие обеспечивает более свободное и естественное общение, взаимодействуя пользователей с автоматизированными системами как на входе, так и на выходе. [2] В частности, мультимодальные системы могут предлагать гибкую, эффективную и удобную среду, позволяющую пользователям взаимодействовать посредством модальностей ввода, таких как речь , почерк , жест руки и взгляд , а также получать информацию системой через модальности вывода, такие как синтез речи. , умная графика и другие возможности в удачном сочетании. Затем мультимодальная система должна распознавать входные данные от различных модальностей, комбинируя их в соответствии с временными и контекстуальными ограничениями [3] , чтобы обеспечить их интерпретацию. Этот процесс известен как мультимодальный синтез и является объектом нескольких исследовательских работ с девяностых годов по настоящее время. [4] [5] [6] [7] [8] [9] [10] [11] Совмещенные входы интерпретируются системой. Естественность и гибкость могут привести к более чем одной интерпретации для каждой различной модальности (канала) и для их одновременного использования и, следовательно, могут привести к мультимодальной неоднозначности [12] , как правило, из-за неточностей, шумов или других подобных факторов. Для решения неоднозначностей было предложено несколько методов. [13] [14] [15] [16] [17] [18] Наконец, система возвращается к пользовательским выводам через различные модальные каналы (дезагрегированные), организованные в соответствии с последовательной обратной связью (делением). [19] Повсеместное использование мобильных устройств, датчиков и веб-технологий может предложить адекватные вычислительные ресурсы для управления сложностью, связанной с мультимодальным взаимодействием. «Использование облака для вовлечения общих вычислительных ресурсов в управление сложностью мультимодального взаимодействия открывает новые возможности. Фактически облачные вычисления позволяют предоставлять общие масштабируемые, настраиваемые вычислительные ресурсы, которые можно динамически и автоматически выделять и освобождать». [20]
Две основные группы мультимодальных интерфейсов объединились: одна касается альтернативных методов ввода, а другая — комбинированного ввода/вывода. Первая группа интерфейсов сочетала в себе различные режимы пользовательского ввода, выходящие за рамки традиционного ввода/вывода с клавиатуры и мыши , такие как речь, перо, прикосновение, ручные жесты, [21] взгляд, движения головы и тела. [22] Наиболее распространенный такой интерфейс сочетает в себе визуальную модальность (например, дисплей, клавиатуру и мышь) с голосовой модальностью ( распознавание речи для ввода, синтез речи и запись звука для вывода). Однако могут использоваться и другие методы, такие как ввод с помощью пера или тактильный ввод/вывод. Мультимодальные пользовательские интерфейсы — это область исследований взаимодействия человека и компьютера (HCI).
Преимущество нескольких модальностей ввода заключается в повышении удобства использования : недостатки одной модальности компенсируются сильными сторонами другой. На мобильном устройстве с небольшим визуальным интерфейсом и клавиатурой слово может быть довольно сложно набрать, но очень легко произнести (например, Покипси ). Подумайте, как вы будете получать доступ к цифровым медиа- каталогам и осуществлять поиск по ним с этих же устройств или телеприставок. И в одном реальном примере члены хирургической бригады получают доступ к информации о пациенте в операционной комнате в устной форме для поддержания антисептической среды и представляют ее практически в реальном времени на слух и визуально для максимального понимания.
Мультимодальные пользовательские интерфейсы ввода влияют на доступность . [23] Хорошо спроектированное мультимодальное приложение может использоваться людьми с самыми разными нарушениями. Пользователи с нарушениями зрения полагаются на голосовую модальность с некоторым вводом с клавиатуры. Пользователи с нарушениями слуха полагаются на визуальную модальность с некоторым речевым вводом. Другие пользователи будут «ситуативно ослаблены» (например, будут носить перчатки в очень шумной обстановке, вести машину или им придется вводить номер кредитной карты в общественном месте) и будут просто использовать соответствующие методы по желанию. С другой стороны, мультимодальное приложение, требующее от пользователей возможности управлять всеми модальностями, спроектировано очень плохо.
Самая распространенная форма мультимодальности ввода на рынке использует язык веб-разметки XHTML+Voice (он же X+V) — открытую спецификацию , разработанную IBM , Motorola и Opera Software . X+V в настоящее время находится на рассмотрении W3C и объединяет несколько рекомендаций W3C , включая XHTML для визуальной разметки, VoiceXML для голосовой разметки и XML Events — стандарт для интеграции языков XML . Мультимодальные браузеры , поддерживающие X+V , включают IBM WebSphere Everyplace Multimodal Environment, Opera для встроенных Linux и Windows и ACCESS Systems NetFront для Windows Mobile . Для разработки мультимодальных приложений разработчики программного обеспечения могут использовать комплект разработки программного обеспечения , такой как IBM WebSphere Multimodal Toolkit, основанный на платформе Eclipse с открытым исходным кодом , который включает отладчик X+V , редактор и симулятор . [ нужна цитата ]
Мультимодальные биометрические системы используют несколько датчиков или биометрических средств, чтобы преодолеть ограничения унимодальных биометрических систем. [24] Например, системы распознавания радужной оболочки могут быть нарушены из-за старения радужной оболочки [25] , а электронное распознавание отпечатков пальцев может ухудшиться из-за изношенных или порезанных отпечатков пальцев. Хотя унимодальные биометрические системы ограничены целостностью своего идентификатора, маловероятно, что несколько унимодальных систем будут страдать от одинаковых ограничений. Мультимодальные биометрические системы могут получать наборы информации от одного и того же маркера (т. е. нескольких изображений радужной оболочки глаза или сканирований одного и того же пальца) или информацию от разных биометрических данных (требующих сканирования отпечатков пальцев и, с использованием распознавания голоса , произнесенного пароля). [26] [27]
Мультимодальные биометрические системы могут объединять эти унимодальные системы последовательно, одновременно, их комбинацию или последовательно, что относится к последовательному, параллельному, иерархическому и последовательному режимам интеграции соответственно. Объединение биометрической информации может происходить на разных этапах системы распознавания. В случае объединения уровней признаков объединяются сами данные или признаки, извлеченные из нескольких биометрических данных. Объединение уровней оценок соответствия объединяет баллы, полученные несколькими классификаторами , относящимися к различным модальностям. Наконец, в случае слияния уровней решений окончательные результаты нескольких классификаторов объединяются с помощью таких методов, как голосование большинством . Считается, что объединение уровней функций более эффективно, чем другие уровни объединения, поскольку набор функций содержит более полную информацию о входных биометрических данных, чем оценка соответствия или выходное решение классификатора. Таким образом, ожидается, что объединение на уровне функций обеспечит лучшие результаты распознавания. [24]
Поддельные атаки заключаются в передаче поддельных биометрических данных биометрическим системам и представляют собой серьезную угрозу, которая может снизить их безопасность. Обычно считается, что мультимодальные биометрические системы по своей природе более устойчивы к поддельным атакам, но недавние исследования [28] показали, что от них можно обойти, подделав даже один биометрический признак.Мультимодальный анализ настроений — это технология традиционного анализа настроений на основе текста , которая включает в себя такие модальности , как аудио- и визуальные данные. [29] Он может быть бимодальным, который включает в себя различные комбинации двух модальностей, или тримодальным, который включает в себя три модальности. [30] Благодаря большому количеству данных социальных сетей , доступных в Интернете в различных формах, таких как видео и изображения, традиционный текстовый анализ настроений превратился в более сложные модели мультимодального анализа настроений, [31] которые можно применять при разработке виртуальных помощников , [32] анализ обзоров фильмов на YouTube, [33] анализ новостных видеороликов, [34] и распознавание эмоций (иногда называемое обнаружением эмоций ), например, мониторинг депрессии , [35] среди других.
Подобно традиционному анализу настроений , одной из основных задач мультимодального анализа настроений является классификация настроений , которая классифицирует различные настроения по таким категориям, как положительные, отрицательные или нейтральные. [36] Сложность анализа текстовых, аудио и визуальных функций для выполнения такой задачи требует применения различных методов объединения, таких как уровень функций, уровень принятия решений и гибридное объединение. [31] На эффективность этих методов объединения и применяемых алгоритмов классификации влияет тип текстовых, аудио и визуальных особенностей, используемых в анализе. [37]Generative Pre-trained Transformer 4 ( GPT-4 ) — мультимодальная модель большого языка, созданная OpenAI , и четвертая в ее серии базовых моделей GPT . [38] Он был запущен 14 марта 2023 года, [38] и стал общедоступным через платный продукт чат-бота ChatGPT Plus , через API OpenAI и через бесплатный чат-бот Microsoft Copilot . [39] В качестве модели, основанной на преобразователе , GPT-4 использует парадигму, в которой для прогнозирования следующего токена используется предварительное обучение с использованием как общедоступных данных, так и «данных, лицензированных у сторонних поставщиков» . После этого шага модель была доработана с помощью обратной связи от людей и искусственного интеллекта, полученной при обучении с подкреплением , для обеспечения согласованности действий людей и соблюдения политик. [40] : 2
Наблюдатели сообщили, что версия ChatGPT с использованием GPT-4 является улучшением предыдущей версии, основанной на GPT-3.5, с оговоркой, что GPT-4 сохраняет некоторые проблемы более ранних версий. [41] GPT-4, оснащенный возможностями видения (GPT-4V), [42] способен принимать изображения в качестве входных данных в ChatGPT. [43] OpenAI отказалась раскрыть различные технические подробности и статистику о GPT-4, например точный размер модели. [44]Вторая группа мультимодальных систем предоставляет пользователям мультимедийные дисплеи и мультимодальный вывод, прежде всего в виде визуальных и слуховых сигналов. Дизайнеры интерфейсов также начали использовать другие методы, такие как прикосновение и обоняние. Предлагаемые преимущества мультимодальной системы вывода включают синергию и избыточность. Информация, представленная несколькими способами, объединяется и относится к различным аспектам одного и того же процесса. Использование нескольких модальностей обработки одной и той же информации обеспечивает увеличение пропускной способности передачи информации. [45] [46] [47] В настоящее время мультимодальный вывод используется в основном для улучшения сопоставления между средой связи и контентом, а также для поддержки управления вниманием в среде с большим объемом данных, где операторы сталкиваются со значительными требованиями к визуальному вниманию. [48]
Важным шагом в проектировании мультимодального интерфейса является создание естественных сопоставлений между модальностями, информацией и задачами. Слуховой канал отличается от зрительного по нескольким аспектам. Оно всенаправлено, преходяще и всегда сдержано. [48] Речевой вывод, одна из форм слуховой информации, получил значительное внимание. Для использования речи было разработано несколько рекомендаций. Михаэлис и Виггинс (1982) предположили, что речевой вывод следует использовать для простых коротких сообщений, к которым позже не будут обращаться. Также было рекомендовано, чтобы речь формировалась вовремя и требовала немедленного реагирования.
Осязание впервые было использовано в качестве средства общения в конце 1950-х годов. [49] Это не только перспективный, но и уникальный канал коммуникации. В отличие от зрения и слуха, двух традиционных чувств, используемых в HCI, чувство осязания является проксимальным: оно ощущает объекты, находящиеся в контакте с телом, и оно двунаправлено, поскольку поддерживает как восприятие, так и воздействие на окружающую среду.
Примеры звуковой обратной связи включают звуковые значки в компьютерных операционных системах, обозначающие действия пользователей (например, удаление файла, открытие папки, ошибка), речевой вывод для представления навигационных указаний в транспортных средствах и речевой вывод для предупреждения пилотов в кабинах современных самолетов. Примеры тактильных сигналов включают в себя вибрацию рычага указателя поворота, предупреждающую водителей о нахождении автомобиля в слепой зоне, вибрацию автомобильного сиденья в качестве предупреждения водителям, а также шейкер на современных самолетах, предупреждающий пилотов о надвигающемся сваливании. [48]
Невидимые интерфейсные пространства стали доступны благодаря сенсорным технологиям. Инфракрасное, ультразвуковое и видеокамеры сейчас широко используются. [50] Прозрачность взаимодействия с контентом повышается, обеспечивая немедленную и прямую связь посредством значимого сопоставления, таким образом, пользователь имеет прямую и немедленную обратную связь при вводе, а ответ на контент становится доступностью интерфейса (Gibson 1979).
Процесс интеграции информации из различных входных модальностей и объединения их в полную команду называется мультимодальным слиянием. [5] В литературе предложено три основных подхода к процессу слияния в соответствии с основными архитектурными уровнями (распознавание и решение), на которых может быть выполнено слияние входных сигналов: на основе распознавания, [9] [10] [51] на основе решений, [7] [8] [11] [52] [53] [54] [55] и гибридное многоуровневое слияние. [4] [6] [56] [57] [58] [59] [60] [61]
Слияние на основе распознавания (также известное как раннее слияние) заключается в объединении результатов каждого модального распознавателя с использованием механизмов интеграции, таких как, например, методы статистической интеграции, теория агентов, скрытые модели Маркова, искусственные нейронные сети и т. д. Примеры Стратегиями слияния на основе распознавания являются кадр действия, [51] входные векторы [9] и слоты. [10]
Объединение на основе решений (также известное как позднее объединение) объединяет семантическую информацию, извлеченную с помощью специальных процедур объединения, управляемых диалогом, для получения полной интерпретации. Примерами стратегий объединения на основе принятия решений являются типизированные структуры признаков, [52] [57] плавильные котлы, [54] [55] семантические фреймы, [7] [11] и решетки с отметками времени. [8]
Потенциальные применения мультимодального слияния включают среду обучения, отношения с потребителями, безопасность/наблюдение, компьютерную анимацию и т. д. Индивидуально режимы легко определить, но возникают трудности с тем, чтобы технологии рассматривали их как комбинированное слияние. [62] Алгоритмам сложно учитывать размерность; существуют переменные, выходящие за рамки текущих вычислительных возможностей. Например, семантическое значение: два предложения могут иметь одинаковое лексическое значение, но разную эмоциональную информацию. [62]
В гибридном многоуровневом слиянии интеграция входных модальностей распределяется между уровнями распознавания и принятия решений. Гибридное многоуровневое слияние включает в себя следующие три методологии: преобразователи конечных состояний, [57] мультимодальные грамматики [6] [56] [58] [59] [60] [61] [63] и диалоговые ходы. [64]
Действия или команды пользователя создают мультимодальные входные данные (мультимодальное сообщение [3] ), которые должны интерпретироваться системой. Мультимодальное сообщение — это среда, которая обеспечивает связь между пользователями и мультимодальными системами. Его получают путем слияния информации, передаваемой через несколько модальностей, путем рассмотрения различных типов сотрудничества между несколькими модальностями, [65] временных отношений [66] между вовлеченными модальностями и отношений между порциями информации, связанными с этими модальностями. [67]
Естественное сопоставление между мультимодальным входным сигналом, который обеспечивается несколькими модальностями взаимодействия (зрительный и слуховой канал и чувство осязания), информацией и задачами, предполагает решение типичных проблем человеческого общения, таких как двусмысленность. Неоднозначность возникает, когда возможно более одной интерпретации входных данных. Мультимодальная неоднозначность [12] возникает как в том случае, если элемент, представленный одной модальностью, имеет более одной интерпретации (т.е. неоднозначности распространяются на мультимодальном уровне), и/или если элементы, связанные с каждой модальностью, интерпретируются однозначно. , но информация, относящаяся к разным модальностям, бессвязна на синтаксическом или семантическом уровне (т.е. мультимодальное предложение имеет разные значения или разную синтаксическую структуру).
В «Управлении неоднозначностями» [14] методы решения неоднозначностей и обеспечения правильной интерпретации ввода пользователя организованы в три основных класса: методы предотвращения, апостериорного разрешения и аппроксимационного разрешения. [13] [15]
Методы предотвращения заставляют пользователей следовать заранее заданному поведению взаимодействия в соответствии с набором переходов между различными разрешенными состояниями процесса взаимодействия. Примерами методов профилактики являются: процедурный метод, [68] снижение выразительной силы языковой грамматики, [69] улучшение выразительной силы языковой грамматики. [70]
Апостериорное разрешение двусмысленностей использует посреднический подход. [16] Примерами методов посредничества являются: повторение, например, повторение по модальности, [16] детализация исправления [71] и отмена, [17] и выбор. [18]
Методы аппроксимационного разрешения не требуют участия пользователя в процессе устранения неоднозначности. Все они могут потребовать использования некоторых теорий, таких как нечеткая логика , марковское случайное поле , байесовские сети и скрытые марковские модели . [13] [15]