Мультимодальное взаимодействие предоставляет пользователю несколько режимов взаимодействия с системой. Мультимодальный интерфейс предоставляет несколько различных инструментов для ввода и вывода данных.
Мультимодальное взаимодействие человека и компьютера подразумевает естественное общение с виртуальными и физическими средами. Оно обеспечивает свободное и естественное общение между пользователями и автоматизированными системами, позволяя гибкий ввод (речь, почерк, жесты) и вывод ( синтез речи , графика). Мультимодальное слияние объединяет вводы из разных модальностей, устраняя неоднозначности.
Две основные группы мультимодальных интерфейсов фокусируются на альтернативных методах ввода и комбинированном вводе/выводе. Множественные модальности ввода повышают удобство использования, принося пользу пользователям с нарушениями. Мобильные устройства часто используют XHTML+Voice для ввода. Мультимодальные биометрические системы используют множественные биометрические данные для преодоления ограничений. Мультимодальный анализ настроений включает анализ текстовых, аудио- и визуальных данных для классификации настроений. GPT-4 , мультимодальная языковая модель , объединяет различные модальности для улучшения понимания языка. Мультимодальные системы вывода представляют информацию через визуальные и слуховые сигналы, используя прикосновение и обоняние. Мультимодальное слияние объединяет информацию из разных модальностей, используя основанное на распознавании, основанное на принятии решений и гибридное многоуровневое слияние.
Неоднозначности в мультимодальных входных данных устраняются с помощью методов предотвращения, апостериорного разрешения и аппроксимационного разрешения.
Мультимодальное взаимодействие человека и компьютера относится к «взаимодействию с виртуальной и физической средой посредством естественных режимов общения», [1] Это подразумевает, что мультимодальное взаимодействие обеспечивает более свободное и естественное общение, связывая пользователей с автоматизированными системами как на входе, так и на выходе. [2] В частности, мультимодальные системы могут предложить гибкую, эффективную и удобную среду, позволяющую пользователям взаимодействовать посредством входных модальностей, таких как речь , почерк , жесты рук и взгляд , и получать информацию от системы посредством выходных модальностей, таких как синтез речи, интеллектуальная графика и другие модальности, удачно объединенные. Затем мультимодальная система должна распознавать входные данные из различных модальностей, объединяя их в соответствии с временными и контекстными ограничениями [3] , чтобы обеспечить их интерпретацию. Этот процесс известен как мультимодальное слияние, и он является объектом нескольких исследовательских работ с девяностых годов по настоящее время. [4] [5] [6] [7] [8] [9] [10] [11] Объединенные входные данные интерпретируются системой. Естественность и гибкость могут создавать более одной интерпретации для каждой различной модальности (канала) и для их одновременного использования, и они, следовательно, могут создавать многомодальную неоднозначность [12] , как правило, из-за неточности, шумов или других подобных факторов. Для разрешения неоднозначностей было предложено несколько методов. [13] [14] [15] [16] [17] [18] Наконец, система возвращает пользовательские выходные данные через различные модальные каналы (дезагрегированные), организованные в соответствии с последовательной обратной связью (делением). [19] Повсеместное использование мобильных устройств, датчиков и веб-технологий может предложить адекватные вычислительные ресурсы для управления сложностью, подразумеваемой многомодальным взаимодействием. «Использование облака для привлечения общих вычислительных ресурсов в управление сложностью многомодального взаимодействия представляет собой возможность. Фактически, облачные вычисления позволяют предоставлять общие масштабируемые, настраиваемые вычислительные ресурсы, которые могут динамически и автоматически предоставляться и высвобождаться». [20]
Две основные группы мультимодальных интерфейсов объединились, одна из которых занимается альтернативными методами ввода, а другая — комбинированным вводом/выводом. Первая группа интерфейсов объединяет различные режимы пользовательского ввода, выходящие за рамки традиционного ввода/вывода с помощью клавиатуры и мыши , такие как речь, перо, касание, жесты, [21] взгляд, движения головы и тела. [22] Наиболее распространенный такой интерфейс объединяет визуальную модальность (например, дисплей, клавиатуру и мышь) с голосовой модальностью ( распознавание речи для ввода, синтез речи и записанный звук для вывода). Однако могут использоваться и другие модальности, такие как ввод с помощью пера или тактильный ввод/вывод. Мультимодальные пользовательские интерфейсы являются областью исследований в области взаимодействия человека с компьютером (HCI).
Преимущество множественных модальностей ввода заключается в повышенном удобстве использования : недостатки одной модальности компенсируются достоинствами другой. На мобильном устройстве с небольшим визуальным интерфейсом и клавиатурой слово может быть довольно сложным для ввода, но очень простым для произнесения (например, Poughkeepsie ). Подумайте, как бы вы получали доступ и осуществляли поиск в цифровых каталогах мультимедиа с этих же устройств или телевизионных приставок. А в одном реальном примере информация о пациенте в операционной доступна устно членам хирургической бригады для поддержания антисептической среды и представляется в режиме, близком к реальному времени, вслух и визуально для максимального понимания.
Мультимодальные пользовательские интерфейсы ввода имеют последствия для доступности . [23] Хорошо спроектированное мультимодальное приложение может использоваться людьми с самыми разными нарушениями. Пользователи с нарушениями зрения полагаются на голосовую модальность с некоторым вводом с клавиатуры. Пользователи с нарушениями слуха полагаются на визуальную модальность с некоторым вводом речи. Другие пользователи будут «ситуационно ограничены» (например, носят перчатки в очень шумной обстановке, вождение автомобиля или им нужно ввести номер кредитной карты в общественном месте) и будут просто использовать соответствующие модальности по желанию. С другой стороны, мультимодальное приложение, которое требует от пользователей возможности управлять всеми модальностями, очень плохо спроектировано.
Наиболее распространенная форма мультимодальности ввода на рынке использует язык веб-разметки XHTML+Voice (он же X+V), открытую спецификацию , разработанную IBM , Motorola и Opera Software . X+V в настоящее время рассматривается W3C и объединяет несколько рекомендаций W3C , включая XHTML для визуальной разметки, VoiceXML для голосовой разметки и XML Events , стандарт для интеграции языков XML . Мультимодальные браузеры, поддерживающие X+V , включают IBM WebSphere Everyplace Multimodal Environment, Opera для Embedded Linux и Windows и ACCESS Systems NetFront для Windows Mobile . Для разработки мультимодальных приложений разработчики программного обеспечения могут использовать комплект разработки программного обеспечения , такой как IBM WebSphere Multimodal Toolkit, основанный на фреймворке Eclipse с открытым исходным кодом , который включает отладчик , редактор и симулятор X+V . [ требуется ссылка ]
Мультимодальные биометрические системы используют несколько датчиков или биометрических данных для преодоления ограничений унимодальных биометрических систем. [24] Например, системы распознавания радужной оболочки глаза могут быть скомпрометированы стареющими радужными оболочками глаза [25] , а электронное распознавание отпечатков пальцев может быть ухудшено изношенными или порезанными отпечатками пальцев. Хотя унимодальные биометрические системы ограничены целостностью своего идентификатора, маловероятно, что несколько унимодальных систем будут страдать от одинаковых ограничений. Мультимодальные биометрические системы могут получать наборы информации с одного и того же маркера (т. е. несколько изображений радужной оболочки глаза или сканов одного и того же пальца) или информацию из разных биометрических данных (требующих сканирования отпечатков пальцев и, используя голосовое распознавание , произнесения пароля). [26] [27]
Мультимодальные биометрические системы могут объединять эти унимодальные системы последовательно, одновременно, их комбинацию или последовательно, что относится к последовательным, параллельным, иерархическим и последовательным режимам интеграции соответственно. Объединение биометрической информации может происходить на разных этапах системы распознавания. В случае объединения на уровне признаков объединяются сами данные или признаки, извлеченные из нескольких биометрических данных. Объединение на уровне оценок соответствия объединяет оценки, полученные несколькими классификаторами, относящимися к разным модальностям. Наконец, в случае объединения на уровне решений окончательные результаты нескольких классификаторов объединяются с помощью таких методов, как голосование большинства . Объединение на уровне признаков считается более эффективным, чем другие уровни объединения, поскольку набор признаков содержит более полную информацию о входных биометрических данных, чем оценка соответствия или выходное решение классификатора. Поэтому ожидается, что объединение на уровне признаков обеспечит лучшие результаты распознавания. [24]
Кроме того, развивающиеся тенденции биометрического рынка подчеркивают важность технологической интеграции, демонстрируя переход к объединению нескольких биометрических модальностей для повышения безопасности и проверки личности, что соответствует достижениям в области мультимодальных биометрических систем. [28]
Атаки с подменой заключаются в отправке поддельных биометрических признаков в биометрические системы и являются серьезной угрозой, которая может подорвать их безопасность. Мультимодальные биометрические системы обычно считаются изначально более устойчивыми к атакам с подменой, но недавние исследования [29] показали, что их можно обойти, подделав даже одну биометрическую характеристику.
Одна из таких предложенных систем мультимодальной биометрической криптосистемы, включающей лицо, отпечаток пальца и вену ладони, Прасаналакшми [30] Интеграция криптосистемы объединяет биометрию с криптографией , где вена ладони действует как криптографический ключ, предлагая высокий уровень безопасности, поскольку вены ладони уникальны и их трудно подделать. Отпечаток пальца включает в себя извлечение мелочей (завершения и разветвления) и методы сопоставления. Шаги включают улучшение изображения, бинаризацию, извлечение ROI и прореживание мелочей. Система лица использует матрицы рассеяния на основе классов для вычисления признаков для распознавания, а вена ладони действует как неразрушимый криптографический ключ , гарантируя, что только правильный пользователь может получить доступ к системе. Концепция отменяемой биометрии позволяет немного изменять биометрические черты, чтобы обеспечить конфиденциальность и избежать кражи. В случае компрометации могут быть выданы новые вариации биометрических данных.
Шаблон отпечатка пальца шифрования шифруется с помощью ключа вен ладони с помощью операций XOR . Этот зашифрованный отпечаток пальца скрывается в изображении лица с помощью стеганографических методов. Регистрация и проверка биометрических данных (отпечаток пальца, вена ладони, лицо) захватываются, шифруются и встраиваются в изображение лица. Система извлекает биометрические данные и сравнивает их с сохраненными значениями для проверки. Система была протестирована с базами данных отпечатков пальцев, достигнув точности проверки 75% при равном уровне ошибок 25% и времени обработки приблизительно 50 секунд для регистрации и 22 секунды для проверки. Высокая безопасность благодаря шифрованию вен ладони, эффективная против подмены биометрических данных, а мультимодальный подход обеспечивает надежность в случае сбоя одной биометрической характеристики. Потенциал для интеграции со смарт-картами или системами на картах, повышающий безопасность в системах идентификации личности .Мультимодальный анализ настроений — это технология традиционного анализа настроений на основе текста , которая включает такие модальности , как аудио- и визуальные данные. [31] Он может быть бимодальным, который включает различные комбинации двух модальностей, или тримодальным, который включает три модальности. [32] С большим количеством данных социальных сетей, доступных в Интернете в различных формах, таких как видео и изображения, традиционный анализ настроений на основе текста превратился в более сложные модели мультимодального анализа настроений, [33] [34] которые могут применяться при разработке виртуальных помощников , [35] анализе обзоров фильмов на YouTube, [36] анализе новостных видеороликов, [37] и распознавании эмоций (иногда известном как обнаружение эмоций ), таком как мониторинг депрессии , [38] и других.
Подобно традиционному анализу настроений , одной из основных задач в мультимодальном анализе настроений является классификация настроений , которая классифицирует различные настроения по таким категориям, как положительные, отрицательные или нейтральные. [39] Сложность анализа текстовых, аудио- и визуальных характеристик для выполнения такой задачи требует применения различных методов слияния, таких как слияние на уровне признаков, на уровне решений и гибридное слияние. [33] Эффективность этих методов слияния и применяемых алгоритмов классификации зависит от типа текстовых, аудио- и визуальных характеристик, используемых в анализе. [40]Generative Pre-trained Transformer 4 ( GPT-4 ) — это многомодульная большая языковая модель, созданная OpenAI , и четвертая в ее серии фундаментальных моделей GPT . [41] Она была запущена 14 марта 2023 года [41] и стала общедоступной через платный продукт чат-бота ChatGPT Plus , через API OpenAI и через бесплатный чат-бот Microsoft Copilot . [42] Как модель на основе трансформатора , GPT-4 использует парадигму, в которой предварительное обучение с использованием как общедоступных данных, так и «данных, лицензированных у сторонних поставщиков» используется для прогнозирования следующего токена . После этого шага модель была затем доработана с помощью обратной связи с подкреплением от людей и ИИ для согласования человека и соблюдения политики. [43] : 2
Наблюдатели сообщили, что итерация ChatGPT с использованием GPT-4 была улучшением предыдущей итерации, основанной на GPT-3.5, с оговоркой, что GPT-4 сохраняет некоторые проблемы более ранних версий. [44] GPT-4, оснащенный возможностями зрения (GPT-4V), [45] способен принимать изображения в качестве входных данных для ChatGPT. [46] OpenAI отказалась раскрывать различные технические подробности и статистику о GPT-4, такие как точный размер модели. [47]Вторая группа мультимодальных систем представляет пользователям мультимедийные дисплеи и мультимодальный вывод, в первую очередь в форме визуальных и слуховых сигналов. Разработчики интерфейсов также начали использовать другие модальности, такие как осязание и обоняние. Предлагаемые преимущества мультимодальной системы вывода включают синергию и избыточность. Информация, представленная через несколько модальностей, объединяется и относится к различным аспектам одного и того же процесса. Использование нескольких модальностей для обработки одной и той же информации обеспечивает увеличенную пропускную способность передачи информации. [48] [49] [50] В настоящее время мультимодальный вывод используется в основном для улучшения сопоставления между средством коммуникации и контентом и для поддержки управления вниманием в насыщенной данными среде, где операторы сталкиваются со значительными требованиями к визуальному вниманию. [51]
Важным шагом в проектировании мультимодального интерфейса является создание естественных отображений между модальностями и информацией и задачами. Слуховой канал отличается от зрения несколькими аспектами. Он всенаправленный, преходящий и всегда зарезервирован. [51] Речевой вывод, одна из форм слуховой информации, получил значительное внимание. Было разработано несколько руководств по использованию речи. Михаэлис и Виггинс (1982) предложили использовать речевой вывод для простых коротких сообщений, которые не будут упоминаться позже. Также было рекомендовано, чтобы речь генерировалась вовремя и требовала немедленного ответа.
Осязание впервые было использовано в качестве средства коммуникации в конце 1950-х годов. [52] Это не только многообещающий, но и уникальный канал коммуникации. В отличие от зрения и слуха, двух традиционных чувств, используемых в HCI, осязание является проксимальным: оно ощущает объекты, которые находятся в контакте с телом, и оно двунаправлено, поскольку поддерживает как восприятие, так и воздействие на окружающую среду.
Примерами слуховой обратной связи являются звуковые значки в компьютерных операционных системах, указывающие на действия пользователей (например, удаление файла, открытие папки, ошибка), речевой вывод для представления навигационных указаний в транспортных средствах и речевой вывод для предупреждения пилотов в современных кабинах самолетов. Примерами тактильных сигналов являются вибрации рычага поворотника для предупреждения водителей об автомобиле в их слепой зоне, вибрация автокресла в качестве предупреждения водителям и встряхивание ручки на современных самолетах, предупреждающее пилотов о надвигающемся сваливании. [51]
Невидимые интерфейсные пространства стали доступны с использованием сенсорной технологии. Инфракрасные, ультразвуковые и камеры теперь широко используются. [53] Прозрачность взаимодействия с контентом повышается, обеспечивая немедленную и прямую связь через осмысленное отображение, таким образом, пользователь имеет прямую и немедленную обратную связь для ввода, а ответ на контент становится возможностью интерфейса (Gibson 1979).
Процесс интеграции информации из различных входных модальностей и объединения их в полную команду называется мультимодальным слиянием. [5] В литературе были предложены три основных подхода к процессу слияния в соответствии с основными архитектурными уровнями (распознавание и принятие решения), на которых может быть выполнено слияние входных сигналов: основанное на распознавании, [9] [10] [54] основанное на принятии решения, [7] [8] [11] [55] [56] [57] [58] и гибридное многоуровневое слияние. [4] [6] [59] [60] [61] [62] [63] [64]
Слияние на основе распознавания (также известное как раннее слияние) заключается в слиянии результатов каждого модального распознавателя с использованием механизмов интеграции, таких как, например, статистические методы интеграции, теория агентов, скрытые марковские модели, искусственные нейронные сети и т. д. Примерами стратегий слияния на основе распознавания являются рамка действия, [54] входные векторы [9] и слоты [10] .
Слияние на основе решений (также известное как позднее слияние) объединяет семантическую информацию, которая извлекается с помощью определенных процедур слияния, управляемых диалогом, для получения полной интерпретации. Примерами стратегий слияния на основе решений являются типизированные структуры признаков, [55] [60] плавильные котлы, [57] [58] семантические фреймы, [7] [11] и решетки с временными метками. [8]
Потенциальные приложения для мультимодального слияния включают в себя среды обучения, потребительские отношения, безопасность/наблюдение, компьютерную анимацию и т. д. По отдельности режимы легко определяются, но возникают трудности, когда технология рассматривает их как комбинированное слияние. [65] Алгоритмам сложно учитывать размерность; существуют переменные за пределами текущих вычислительных возможностей. Например, семантическое значение: два предложения могут иметь одинаковое лексическое значение, но разную эмоциональную информацию. [65]
В гибридном многоуровневом слиянии интеграция входных модальностей распределяется между уровнями распознавания и принятия решений. Гибридное многоуровневое слияние включает следующие три методологии: конечные преобразователи, [60] мультимодальные грамматики [6] [59] [61] [62] [63] [64] [66] и диалоговые ходы. [67]
Действия или команды пользователя создают мультимодальные входы (мультимодальное сообщение [3] ), которые должны быть интерпретированы системой. Мультимодальное сообщение является средой, которая обеспечивает связь между пользователями и мультимодальными системами. Оно получается путем слияния информации, которая передается через несколько модальностей, с учетом различных типов сотрудничества между несколькими модальностями, [68] временных отношений [69] между задействованными модальностями и отношений между фрагментами информации, связанными с этими модальностями. [70]
Естественное сопоставление между мультимодальным вводом, который обеспечивается несколькими модальностями взаимодействия (визуальный и слуховой канал и чувство осязания), и информацией и задачами подразумевает управление типичными проблемами общения человека с человеком, такими как неоднозначность. Неоднозначность возникает, когда возможно более одной интерпретации ввода. Мультимодальная неоднозначность [12] возникает, если элемент, который обеспечивается одной модальностью, имеет более одной интерпретации (т. е. неоднозначности распространяются на мультимодальном уровне), и/или если элементы, связанные с каждой модальностью, интерпретируются однозначно, но информация, относящаяся к разным модальностям, несогласованна на синтаксическом или семантическом уровне (т. е. мультимодальное предложение имеет разные значения или разную синтаксическую структуру).
В «Управлении неоднозначностями» [14] методы разрешения неоднозначностей и обеспечения правильной интерпретации ввода пользователя организованы в три основных класса: методы предотвращения, апостериорного разрешения и приближенного разрешения. [13] [15]
Методы предотвращения заставляют пользователей следовать предопределенному поведению взаимодействия в соответствии с набором переходов между различными разрешенными состояниями процесса взаимодействия. Примерами методов предотвращения являются: процедурный метод, [71] уменьшение выразительной силы грамматики языка, [72] улучшение выразительной силы грамматики языка. [73]
Апостериорное разрешение неоднозначностей использует подход посредничества. [16] Примерами методов посредничества являются: повторение, например, повторение по модальности, [16] детализация исправления [74] и отмены, [17] и выбор. [18]
Методы разрешения аппроксимации не требуют никакого участия пользователя в процессе устранения неоднозначности. Все они могут потребовать использования некоторых теорий, таких как нечеткая логика , марковское случайное поле , байесовские сети и скрытые марковские модели . [13] [15]