stringtranslate.com

Мультимодальное взаимодействие

Мультимодальное взаимодействие предоставляет пользователю несколько режимов взаимодействия с системой. Мультимодальный интерфейс предоставляет несколько различных инструментов для ввода и вывода данных.

Мультимодальное взаимодействие человека и компьютера предполагает естественную связь с виртуальной и физической средой. Он облегчает свободное и естественное общение между пользователями и автоматизированными системами, обеспечивая гибкий ввод (речь, рукописный ввод, жесты) и вывод ( синтез речи , графика). Мультимодальное слияние объединяет вклады разных модальностей, устраняя двусмысленность.

Две основные группы мультимодальных интерфейсов ориентированы на альтернативные методы ввода и комбинированный ввод/вывод. Несколько способов ввода повышают удобство использования, принося пользу пользователям с ограниченными возможностями. Мобильные устройства часто используют для ввода XHTML+Voice . Мультимодальные биометрические системы используют несколько биометрических данных для преодоления ограничений. Мультимодальный анализ настроений включает в себя анализ текстовых, аудио и визуальных данных для классификации настроений. GPT-4 , мультимодальная языковая модель , объединяет различные модальности для улучшения понимания языка. Мультимодальные системы вывода представляют информацию посредством визуальных и слуховых сигналов, используя прикосновение и обоняние. Мультимодальное слияние объединяет информацию из разных модальностей, используя основанное на распознавании, принятии решений и гибридное многоуровневое слияние.

Неоднозначности в мультимодальном вводе устраняются с помощью методов предотвращения, апостериорного разрешения и аппроксимационного разрешения.

Введение

Мультимодальное взаимодействие человека и компьютера относится к «взаимодействию с виртуальной и физической средой посредством естественных способов общения» [1] . Это означает, что мультимодальное взаимодействие обеспечивает более свободное и естественное общение, взаимодействуя пользователей с автоматизированными системами как на входе, так и на выходе. [2] В частности, мультимодальные системы могут предлагать гибкую, эффективную и удобную среду, позволяющую пользователям взаимодействовать посредством модальностей ввода, таких как речь , почерк , жест руки и взгляд , а также получать информацию системой через модальности вывода, такие как синтез речи. , умная графика и другие возможности в удачном сочетании. Затем мультимодальная система должна распознавать входные данные от различных модальностей, комбинируя их в соответствии с временными и контекстуальными ограничениями [3] , чтобы обеспечить их интерпретацию. Этот процесс известен как мультимодальный синтез и является объектом нескольких исследовательских работ с девяностых годов по настоящее время. [4] [5] [6] [7] [8] [9] [10] [11] Совмещенные входы интерпретируются системой. Естественность и гибкость могут привести к более чем одной интерпретации для каждой различной модальности (канала) и для их одновременного использования и, следовательно, могут привести к мультимодальной неоднозначности [12] , как правило, из-за неточностей, шумов или других подобных факторов. Для решения неоднозначностей было предложено несколько методов. [13] [14] [15] [16] [17] [18] Наконец, система возвращается к пользовательским выводам через различные модальные каналы (дезагрегированные), организованные в соответствии с последовательной обратной связью (делением). [19] Повсеместное использование мобильных устройств, датчиков и веб-технологий может предложить адекватные вычислительные ресурсы для управления сложностью, связанной с мультимодальным взаимодействием. «Использование облака для вовлечения общих вычислительных ресурсов в управление сложностью мультимодального взаимодействия открывает новые возможности. Фактически облачные вычисления позволяют предоставлять общие масштабируемые, настраиваемые вычислительные ресурсы, которые можно динамически и автоматически выделять и освобождать». [20]

Мультимодальный ввод

Две основные группы мультимодальных интерфейсов объединились: одна касается альтернативных методов ввода, а другая — комбинированного ввода/вывода. Первая группа интерфейсов сочетала в себе различные режимы пользовательского ввода, выходящие за рамки традиционного ввода/вывода с клавиатуры и мыши , такие как речь, перо, прикосновение, ручные жесты, [21] взгляд, движения головы и тела. [22] Наиболее распространенный такой интерфейс сочетает в себе визуальную модальность (например, дисплей, клавиатуру и мышь) с голосовой модальностью ( распознавание речи для ввода, синтез речи и запись звука для вывода). Однако могут использоваться и другие методы, такие как ввод с помощью пера или тактильный ввод/вывод. Мультимодальные пользовательские интерфейсы — это область исследований взаимодействия человека и компьютера (HCI).

Преимущество нескольких модальностей ввода заключается в повышении удобства использования : недостатки одной модальности компенсируются сильными сторонами другой. На мобильном устройстве с небольшим визуальным интерфейсом и клавиатурой слово может быть довольно сложно набрать, но очень легко произнести (например, Покипси ). Подумайте, как вы будете получать доступ к цифровым медиа- каталогам и осуществлять поиск по ним с этих же устройств или телеприставок. И в одном реальном примере члены хирургической бригады получают доступ к информации о пациенте в операционной комнате в устной форме для поддержания антисептической среды и представляют ее практически в реальном времени на слух и визуально для максимального понимания.

Мультимодальные пользовательские интерфейсы ввода влияют на доступность . [23] Хорошо спроектированное мультимодальное приложение может использоваться людьми с самыми разными нарушениями. Пользователи с нарушениями зрения полагаются на голосовую модальность с некоторым вводом с клавиатуры. Пользователи с нарушениями слуха полагаются на визуальную модальность с некоторым речевым вводом. Другие пользователи будут «ситуативно ослаблены» (например, будут носить перчатки в очень шумной обстановке, вести машину или им придется вводить номер кредитной карты в общественном месте) и будут просто использовать соответствующие методы по желанию. С другой стороны, мультимодальное приложение, требующее от пользователей возможности управлять всеми модальностями, спроектировано очень плохо.

Самая распространенная форма мультимодальности ввода на рынке использует язык веб-разметки XHTML+Voice (он же X+V) — открытую спецификацию , разработанную IBM , Motorola и Opera Software . X+V в настоящее время находится на рассмотрении W3C и объединяет несколько рекомендаций W3C , включая XHTML для визуальной разметки, VoiceXML для голосовой разметки и XML Events — стандарт для интеграции языков XML . Мультимодальные браузеры , поддерживающие X+V , включают IBM WebSphere Everyplace Multimodal Environment, Opera для встроенных Linux и Windows и ACCESS Systems NetFront для Windows Mobile . Для разработки мультимодальных приложений разработчики программного обеспечения могут использовать комплект разработки программного обеспечения , такой как IBM WebSphere Multimodal Toolkit, основанный на платформе Eclipse с открытым исходным кодом , который включает отладчик X+V , редактор и симулятор . [ нужна цитата ]

Мультимодальная биометрия

Мультимодальные биометрические системы используют несколько датчиков или биометрических средств, чтобы преодолеть ограничения унимодальных биометрических систем. [24] Например, системы распознавания радужной оболочки могут быть нарушены из-за старения радужной оболочки [25] , а электронное распознавание отпечатков пальцев может ухудшиться из-за изношенных или порезанных отпечатков пальцев. Хотя унимодальные биометрические системы ограничены целостностью своего идентификатора, маловероятно, что несколько унимодальных систем будут страдать от одинаковых ограничений. Мультимодальные биометрические системы могут получать наборы информации от одного и того же маркера (т. е. нескольких изображений радужной оболочки глаза или сканирований одного и того же пальца) или информацию от разных биометрических данных (требующих сканирования отпечатков пальцев и, с использованием распознавания голоса , произнесенного пароля). [26] [27]

Мультимодальные биометрические системы могут объединять эти унимодальные системы последовательно, одновременно, их комбинацию или последовательно, что относится к последовательному, параллельному, иерархическому и последовательному режимам интеграции соответственно. Объединение биометрической информации может происходить на разных этапах системы распознавания. В случае объединения уровней признаков объединяются сами данные или признаки, извлеченные из нескольких биометрических данных. Объединение уровней оценок соответствия объединяет баллы, полученные несколькими классификаторами , относящимися к различным модальностям. Наконец, в случае слияния уровней решений окончательные результаты нескольких классификаторов объединяются с помощью таких методов, как голосование большинством . Считается, что объединение уровней функций более эффективно, чем другие уровни объединения, поскольку набор функций содержит более полную информацию о входных биометрических данных, чем оценка соответствия или выходное решение классификатора. Таким образом, ожидается, что объединение на уровне функций обеспечит лучшие результаты распознавания. [24]

Поддельные атаки заключаются в передаче поддельных биометрических данных биометрическим системам и представляют собой серьезную угрозу, которая может снизить их безопасность. Обычно считается, что мультимодальные биометрические системы по своей природе более устойчивы к поддельным атакам, но недавние исследования [28] показали, что от них можно обойти, подделав даже один биометрический признак.

Мультимодальный анализ настроений

Мультимодальный анализ настроений — это технология традиционного анализа настроений на основе текста , которая включает в себя такие модальности , как аудио- и визуальные данные. [29] Он может быть бимодальным, который включает в себя различные комбинации двух модальностей, или тримодальным, который включает в себя три модальности. [30] Благодаря большому количеству данных социальных сетей , доступных в Интернете в различных формах, таких как видео и изображения, традиционный текстовый анализ настроений превратился в более сложные модели мультимодального анализа настроений, [31] которые можно применять при разработке виртуальных помощников , [32] анализ обзоров фильмов на YouTube, [33] анализ новостных видеороликов, [34] и распознавание эмоций (иногда называемое обнаружением эмоций ), например, мониторинг депрессии , [35] среди других.

Подобно традиционному анализу настроений , одной из основных задач мультимодального анализа настроений является классификация настроений , которая классифицирует различные настроения по таким категориям, как положительные, отрицательные или нейтральные. [36] Сложность анализа текстовых, аудио и визуальных функций для выполнения такой задачи требует применения различных методов объединения, таких как уровень функций, уровень принятия решений и гибридное объединение. [31] На эффективность этих методов объединения и применяемых алгоритмов классификации влияет тип текстовых, аудио и визуальных особенностей, используемых в анализе. [37]

Мультимодальные языковые модели

Generative Pre-trained Transformer 4 ( GPT-4 ) — мультимодальная модель большого языка, созданная OpenAI , и четвертая в ее серии базовых моделей GPT . [38] Он был запущен 14 марта 2023 года, [38] и стал общедоступным через платный продукт чат-бота ChatGPT Plus , через API OpenAI и через бесплатный чат-бот Microsoft Copilot . [39] В качестве модели, основанной на преобразователе , GPT-4 использует парадигму, в которой для прогнозирования следующего токена используется предварительное обучение с использованием как общедоступных данных, так и «данных, лицензированных у сторонних поставщиков» . После этого шага модель была доработана с помощью обратной связи от людей и искусственного интеллекта, полученной при обучении с подкреплением , для обеспечения согласованности действий людей и соблюдения политик. [40] : 2 

Наблюдатели сообщили, что версия ChatGPT с использованием GPT-4 является улучшением предыдущей версии, основанной на GPT-3.5, с оговоркой, что GPT-4 сохраняет некоторые проблемы более ранних версий. [41] GPT-4, оснащенный возможностями видения (GPT-4V), [42] способен принимать изображения в качестве входных данных в ChatGPT. [43] OpenAI отказалась раскрыть различные технические подробности и статистику о GPT-4, например точный размер модели. [44]

Мультимодальный вывод

Вторая группа мультимодальных систем предоставляет пользователям мультимедийные дисплеи и мультимодальный вывод, прежде всего в виде визуальных и слуховых сигналов. Дизайнеры интерфейсов также начали использовать другие методы, такие как прикосновение и обоняние. Предлагаемые преимущества мультимодальной системы вывода включают синергию и избыточность. Информация, представленная несколькими способами, объединяется и относится к различным аспектам одного и того же процесса. Использование нескольких модальностей обработки одной и той же информации обеспечивает увеличение пропускной способности передачи информации. [45] [46] [47] В настоящее время мультимодальный вывод используется в основном для улучшения сопоставления между средой связи и контентом, а также для поддержки управления вниманием в среде с большим объемом данных, где операторы сталкиваются со значительными требованиями к визуальному вниманию. [48]

Важным шагом в проектировании мультимодального интерфейса является создание естественных сопоставлений между модальностями, информацией и задачами. Слуховой канал отличается от зрительного по нескольким аспектам. Оно всенаправлено, преходяще и всегда сдержано. [48] ​​Речевой вывод, одна из форм слуховой информации, получил значительное внимание. Для использования речи было разработано несколько рекомендаций. Михаэлис и Виггинс (1982) предположили, что речевой вывод следует использовать для простых коротких сообщений, к которым позже не будут обращаться. Также было рекомендовано, чтобы речь формировалась вовремя и требовала немедленного реагирования.

Осязание впервые было использовано в качестве средства общения в конце 1950-х годов. [49] Это не только перспективный, но и уникальный канал коммуникации. В отличие от зрения и слуха, двух традиционных чувств, используемых в HCI, чувство осязания является проксимальным: оно ощущает объекты, находящиеся в контакте с телом, и оно двунаправлено, поскольку поддерживает как восприятие, так и воздействие на окружающую среду.

Примеры звуковой обратной связи включают звуковые значки в компьютерных операционных системах, обозначающие действия пользователей (например, удаление файла, открытие папки, ошибка), речевой вывод для представления навигационных указаний в транспортных средствах и речевой вывод для предупреждения пилотов в кабинах современных самолетов. Примеры тактильных сигналов включают в себя вибрацию рычага указателя поворота, предупреждающую водителей о нахождении автомобиля в слепой зоне, вибрацию автомобильного сиденья в качестве предупреждения водителям, а также шейкер на современных самолетах, предупреждающий пилотов о надвигающемся сваливании. [48]

Невидимые интерфейсные пространства стали доступны благодаря сенсорным технологиям. Инфракрасное, ультразвуковое и видеокамеры сейчас широко используются. [50] Прозрачность взаимодействия с контентом повышается, обеспечивая немедленную и прямую связь посредством значимого сопоставления, таким образом, пользователь имеет прямую и немедленную обратную связь при вводе, а ответ на контент становится доступностью интерфейса (Gibson 1979).

Мультимодальный синтез

Процесс интеграции информации из различных входных модальностей и объединения их в полную команду называется мультимодальным слиянием. [5] В литературе предложено три основных подхода к процессу слияния в соответствии с основными архитектурными уровнями (распознавание и решение), на которых может быть выполнено слияние входных сигналов: на основе распознавания, [9] [10] [51] на основе решений, [7] [8] [11] [52] [53] [54] [55] и гибридное многоуровневое слияние. [4] [6] [56] [57] [58] [59] [60] [61]

Слияние на основе распознавания (также известное как раннее слияние) заключается в объединении результатов каждого модального распознавателя с использованием механизмов интеграции, таких как, например, методы статистической интеграции, теория агентов, скрытые модели Маркова, искусственные нейронные сети и т. д. Примеры Стратегиями слияния на основе распознавания являются кадр действия, [51] входные векторы [9] и слоты. [10]

Объединение на основе решений (также известное как позднее объединение) объединяет семантическую информацию, извлеченную с помощью специальных процедур объединения, управляемых диалогом, для получения полной интерпретации. Примерами стратегий объединения на основе принятия решений являются типизированные структуры признаков, [52] [57] плавильные котлы, [54] [55] семантические фреймы, [7] [11] и решетки с отметками времени. [8]

Потенциальные применения мультимодального слияния включают среду обучения, отношения с потребителями, безопасность/наблюдение, компьютерную анимацию и т. д. Индивидуально режимы легко определить, но возникают трудности с тем, чтобы технологии рассматривали их как комбинированное слияние. [62] Алгоритмам сложно учитывать размерность; существуют переменные, выходящие за рамки текущих вычислительных возможностей. Например, семантическое значение: два предложения могут иметь одинаковое лексическое значение, но разную эмоциональную информацию. [62]

В гибридном многоуровневом слиянии интеграция входных модальностей распределяется между уровнями распознавания и принятия решений. Гибридное многоуровневое слияние включает в себя следующие три методологии: преобразователи конечных состояний, [57] мультимодальные грамматики [6] [56] [58] [59] [60] [61] [63] и диалоговые ходы. [64]

Двусмысленность

Действия или команды пользователя создают мультимодальные входные данные (мультимодальное сообщение [3] ), которые должны интерпретироваться системой. Мультимодальное сообщение — это среда, которая обеспечивает связь между пользователями и мультимодальными системами. Его получают путем слияния информации, передаваемой через несколько модальностей, путем рассмотрения различных типов сотрудничества между несколькими модальностями, [65] временных отношений [66] между вовлеченными модальностями и отношений между порциями информации, связанными с этими модальностями. [67]

Естественное сопоставление между мультимодальным входным сигналом, который обеспечивается несколькими модальностями взаимодействия (зрительный и слуховой канал и чувство осязания), информацией и задачами, предполагает решение типичных проблем человеческого общения, таких как двусмысленность. Неоднозначность возникает, когда возможно более одной интерпретации входных данных. Мультимодальная неоднозначность [12] возникает как в том случае, если элемент, представленный одной модальностью, имеет более одной интерпретации (т.е. неоднозначности распространяются на мультимодальном уровне), и/или если элементы, связанные с каждой модальностью, интерпретируются однозначно. , но информация, относящаяся к разным модальностям, бессвязна на синтаксическом или семантическом уровне (т.е. мультимодальное предложение имеет разные значения или разную синтаксическую структуру).

В «Управлении неоднозначностями» [14] методы решения неоднозначностей и обеспечения правильной интерпретации ввода пользователя организованы в три основных класса: методы предотвращения, апостериорного разрешения и аппроксимационного разрешения. [13] [15]

Методы предотвращения заставляют пользователей следовать заранее заданному поведению взаимодействия в соответствии с набором переходов между различными разрешенными состояниями процесса взаимодействия. Примерами методов профилактики являются: процедурный метод, [68] снижение выразительной силы языковой грамматики, [69] улучшение выразительной силы языковой грамматики. [70]

Апостериорное разрешение двусмысленностей использует посреднический подход. [16] Примерами методов посредничества являются: повторение, например, повторение по модальности, [16] детализация исправления [71] и отмена, [17] и выбор. [18]

Методы аппроксимационного разрешения не требуют участия пользователя в процессе устранения неоднозначности. Все они могут потребовать использования некоторых теорий, таких как нечеткая логика , марковское случайное поле , байесовские сети и скрытые марковские модели . [13] [15]

Смотрите также

Рекомендации

  1. ^ Бурге, ML (2003). «Проектирование и прототипирование мультимодальных команд». Труды по взаимодействию человека и компьютера (INTERACT'03), стр. 717-720.
  2. ^ Стиверс, Т., Сиднелл, Дж. Введение: Мультимодальное взаимодействие. Семиотика, 156(1/4), стр. 1-20. 2005.
  3. ^ ab Caschera MC, Ферри Ф., Грифони П. (2007). «Системы мультимодального взаимодействия: информационно-временные особенности». Международный журнал веб- и грид-сервисов (IJWGS), Vol. 3 - Выпуск 1, стр. 82-99.
  4. ^ Аб Д'Улиция А., Ферри Ф. и Грифони П. (2010). «Создание мультимодальных грамматик для обработки мультимодальных диалогов». Транзакции IEEE по системам, человеку и кибернетике, Часть A: Системы и люди, Том 40, № 6, стр. 1130–1145.
  5. ^ аб Д'Улиция, А. (2009). «Изучение стратегий объединения мультимодальных входных данных». В: Грифони П. (ред.) Справочник по исследованиям мультимодального взаимодействия человека с компьютером и всеобъемлющих услуг: эволюционные методы улучшения доступности. Издательство IGI, стр. 34–57.
  6. ^ abc Сунь, Ю., Ши, Ю., Чен, Ф. и Чунг, В. (2007). «Эффективный мультимодальный языковой процессор для параллельных входных строк в мультимодальном слиянии ввода», в Proc. международной конференции по семантическим вычислениям, стр. 389-396.
  7. ^ abc Расс, Г., Салланс, Б., Харетер, Х. (2005). «Семантическое объединение информации в мультимодальном интерфейсе». Международная конференция по взаимодействию человека и компьютера (HCI'05), Лас-Вегас, Невада, США, 20–23 июня, стр. 94–100.
  8. ^ abc Коррадини, А., Мехта М., Бернсен, НО, Мартин, Ж.-К. (2003). «Мультимодальное объединение входных данных во взаимодействии человека и компьютера на примере текущего проекта NICE». В материалах конференции НАТО-ASI по объединению данных для мониторинга ситуации, обнаружения инцидентов, оповещения и управления реагированием, Ереван, Армения.
  9. ^ abc Павлович, В.И., Берри, Г.А., Хуанг, Т.С. (1997). «Интеграция аудио/визуальной информации для использования в интеллектуальном взаимодействии человека и компьютера». Материалы Международной конференции по обработке изображений 1997 г. (ICIP '97), Том 1, стр. 121–124.
  10. ^ abc Андре, М., Попеску, В.Г., Шейх, А., Медл, А., Марсич, И., Куликовски, К., Фланаган Дж.Л. (1998). «Интеграция речи и жестов для мультимодального взаимодействия человека и компьютера». На Второй международной конференции по кооперативным мультимодальным коммуникациям. 28–30 января, Тилбург, Нидерланды.
  11. ^ abc Vo, MT, Вуд, К. (1996). «Создание среды приложений для интеграции речевого ввода и ввода с помощью пера в мультимодальных обучающих интерфейсах». В Proceedings of the Acoustics, Speech and Signal Processing (ICASSP'96), 7–10 мая, IEEE Computer Society, том 06, стр. 3545-3548.
  12. ^ ab Caschera, MC, Ферри, Ф., Грифони, П. (2013). «От модальных к мультимодальным неоднозначностям: классификационный подход», Журнал информационных технологий следующего поколения (JNIT), Vol. Т. 4, № 5, стр. 87-109.
  13. ^ abc Caschera, MC, Ферри, Ф., Грифони, П. (2013). InteSe: Интегрированная модель для разрешения неоднозначностей в мультимодальных предложениях». Транзакции IEEE в системах, человеке и кибернетике: системы, том: 43, выпуск: 4, стр. 911–931.18. Спилкер, Дж., Кларнер, М., Гёрц. , G. (2000) «Обработка самокоррекций в системе преобразования речи в речь», COLING 2000. стр. 1116-1120.
  14. ^ ab Caschera MC, Ферри Ф., Грифони П., (2007). «Управление двусмысленностями». В «Визуальных языках для интерактивных вычислений: определения и формализации». Издательство ИГИ. стр.129-140.
  15. ^ abc Дж. Чай, П. Хун и М. С. Чжоу, (2004). «Вероятностный подход к разрешению ссылок в мультимодальном пользовательском интерфейсе» в Proc. 9-й Международный. Конф. Интел. User Interf., Мадейра, Португалия, январь 2004 г., стр. 70–77.
  16. ^ abc Dey, AK Mankoff, J. (2005). «Проектирование медиации для контекстно-зависимых приложений». АКМ Транс. Компьютер.-Хм. Взаимодействуйте. 12(1), стр. 53-80.
  17. ^ ab Спилкер Дж., Кларнер М., Гёрц Г. (2000). «Обработка самокоррекций в системе преобразования речи в речь». КОЛИНГ 2000. стр. 1116-1120.
  18. ^ аб Манкофф, Дж., Хадсон, С.Е., Абоуд, Г.Д. (2000). «Обеспечение интегрированной поддержки неоднозначности на уровне набора инструментов в интерфейсах, основанных на распознавании». Материалы конференции ACM CHI'00 по человеческому фактору в вычислительных системах. С. 368 – 375.
  19. ^ Грифони П (2009) Мультимодальное деление. В: Мультимодальное взаимодействие человека с компьютером и повсеместные услуги. IGI Global, стр. 103–120.
  20. ^ Патриция Грифони, Фернандо Ферри, Мария Кьяра Кашера, Арианна Д'Улиция, Мауро Маццеи, «MIS: Сервисы мультимодального взаимодействия в облачной перспективе», JNIT: Журнал информационных технологий следующего поколения, Vol. Т. 5, № 4, стр. 01 ~ 10, 2014 г.
  21. ^ Кеттебеков, Саншзар и Раджив Шарма (2001). «На пути к естественному управлению жестами и речью на большом дисплее». ТрудыEHCI '01 Материалы 8-й Международной конференции ИФИП по разработке взаимодействия человека и компьютера. Страницы 221-234.
  22. ^ Мариус Василиу, В. Сундаресваран, С. Чен, Р. Берингер, К. Тэм, М. Чан, П. Бангаян и Дж. МакГи (2000), «Интегрированный мультимодальный человеко-компьютерный интерфейс и дополненная реальность для приложений интерактивного отображения». », в книге Даррела Г. Хоппера (ред.) «Дисплей в кабине VII: Дисплеи для оборонных приложений» (Proc. SPIE. 4022), 106–115. ISBN  0-8194-3648-8
  23. ^ Витенсе, HS; Джеко, Дж.А.; Эмери, В.К. (2002). «Мультимодальная обратная связь: создание базового уровня производительности для улучшения доступа людей с нарушениями зрения». Конференция АКМ. о вспомогательных технологиях .
  24. ^ аб Хагигат, Мохаммед; Абдель-Мотталеб, Мохамед; Алхалаби, Вади (2016). «Дискриминантный корреляционный анализ: объединение уровней признаков в реальном времени для мультимодального биометрического распознавания». Транзакции IEEE по информационной криминалистике и безопасности . 11 (9): 1984–1996. дои : 10.1109/TIFS.2016.2569061. S2CID  15624506.
  25. ^ «Вопросы, поднятые о системах распознавания радужной оболочки глаза» . Наука Дейли . 12 июля 2012 г. Архивировано из оригинала 22 октября 2012 г.
  26. ^ Сэйлор, Майкл (2012). Мобильная волна: как мобильный интеллект изменит все. Книги Персея/Авангард Пресс. п. 99. ИСБН 9780306822988.
  27. ^ Билл Флук (3 октября 2013 г.). «Это «биометрическая война», о которой говорил Майкл Сэйлор». Вашингтонский деловой журнал . Архивировано из оригинала 7 октября 2013 года.
  28. ^ Захид Ахтар, «Безопасность мультимодальных биометрических систем от поддельных атак» (PDF) . Архивировано 2 апреля 2015 года в Wayback Machine . Кафедра электротехники и электроники Университета Кальяри. Кальяри, Италия, 6 марта 2012 г.
  29. ^ Сулеймани, Мохаммед; Гарсия, Дэвид; Джоу, Брендан; Шуллер, Бьорн; Чанг, Ши-Фу; Пантич, Майя (сентябрь 2017 г.). «Обзор мультимодального анализа настроений». Вычисление изображений и зрительных образов . 65 : 3–14. doi :10.1016/j.imavis.2017.08.003. S2CID  19491070.
  30. ^ Каррай, Фахреддин; Милад, Алемзаде; Салех, Джамиль Абу; Мо Нурс, араб (2008). «Взаимодействие человека и компьютера: обзор современного состояния» (PDF) . Международный журнал по интеллектуальному зондированию и интеллектуальным системам . 1 : 137–159. дои : 10.21307/ijssis-2017-283 .
  31. ^ аб Пория, Суджанья; Камбрия, Эрик; Баджпай, Раджив; Хусейн, Амир (сентябрь 2017 г.). «Обзор аффективных вычислений: от унимодального анализа к мультимодальному слиянию». Информационный синтез . 37 : 98–125. doi :10.1016/j.inffus.2017.02.003. hdl : 1893/25490 . S2CID  205433041.
  32. ^ «ИИ Google будет звонить за вас» . Новости BBC . 8 мая 2018 года . Проверено 12 июня 2018 г.
  33. ^ Воллмер, Мартин; Венингер, Феликс; Кнауп, Тобиас; Шуллер, Бьёрн; Сунь, Цункай; Сагаэ, Кенджи; Моренси, Луи-Филипп (май 2013 г.). «Обзоры фильмов на YouTube: анализ настроений в аудиовизуальном контексте» (PDF) . Интеллектуальные системы IEEE . 28 (3): 46–53. дои :10.1109/MIS.2013.34. S2CID  12789201.
  34. ^ Перейра, Мойзес HR; Падуя, Флавио LC; Перейра, Адриано CM; Беневенуто, Фабрисио; Далип, Дэниел Х. (9 апреля 2016 г.). «Объединение аудио, текстовых и визуальных функций для анализа тональности новостных видеороликов». arXiv : 1604.02612 [cs.CL].
  35. ^ Зукко, Кьяра; Калабрезе, Барбара; Каннатаро, Марио (ноябрь 2017 г.). «Анализ настроений и аффективные вычисления для мониторинга депрессии». Международная конференция IEEE по биоинформатике и биомедицине (BIBM) , 2017 г. IEEE. стр. 1988–1995 гг. дои : 10.1109/bibm.2017.8217966. ISBN 978-1-5090-3050-7. S2CID  24408937.
  36. ^ Панг, Бо; Ли, Лилиан (2008). Анализ мнений и настроений . Ганновер, Массачусетс: Now Publishers. ISBN 978-1601981509.
  37. ^ Сунь, Шилян; Ло, Чен; Чен, Джунюй (июль 2017 г.). «Обзор методов обработки естественного языка для систем интеллектуального анализа мнений». Информационный синтез . 36 : 10–25. doi :10.1016/j.inffus.2016.10.004.
  38. ↑ Аб Эдвардс, Бендж (14 марта 2023 г.). «GPT-4 OpenAI демонстрирует «производительность человеческого уровня» в профессиональных тестах». Арс Техника . Архивировано из оригинала 14 марта 2023 года . Проверено 15 марта 2023 г.
  39. ^ Виггерс, Кайл (6 июля 2023 г.). «OpenAI делает GPT-4 общедоступным». ТехКранч . Архивировано из оригинала 16 августа 2023 года . Проверено 16 августа 2023 г.
  40. ^ OpenAI (2023). «Технический отчет GPT-4». arXiv : 2303.08774 [cs.CL].
  41. Белфилд, Гайдн (25 марта 2023 г.). «Если ваша модель ИИ будет продаваться, она должна быть безопасной». Вокс . Архивировано из оригинала 28 марта 2023 года . Проверено 30 марта 2023 г.
  42. ^ "Системная карта GPT-4V(ision)" . openai.com . Проверено 5 февраля 2024 г.
  43. ^ Руз, Кевин (28 сентября 2023 г.). «Новый ChatGPT может «видеть» и «говорить». Вот на что это похоже». Нью-Йорк Таймс . Архивировано из оригинала 31 октября 2023 года . Проверено 30 октября 2023 г.
  44. Винсент, Джеймс (15 марта 2023 г.). «Соучредитель OpenAI о прошлом подходе компании к открытому обмену исследованиями: «Мы были неправы»». Грань . Архивировано из оригинала 17 марта 2023 года . Проверено 18 марта 2023 г.
  45. ^ Овиатт, С. (2002), «Мультимодальные интерфейсы», Джеко, Дж.; Сирс А. (ред.), Справочник по взаимодействию человека и компьютера (PDF) , Лоуренс Эрлбаум
  46. ^ Баукхаге, К.; Фрич, Дж.; Ролфинг, К.Дж.; Ваксмут, С.; Сагерер, Г. (2002). «Оценка комплексного понимания речи и изображений». Межд. Конф. по мультимодальным интерфейсам . дои : 10.1109/ICMI.2002.1166961.
  47. ^ Исмаил, Северная Каролина; О'Брайен, Э.А. (2008). «Включение мультимодального взаимодействия при просмотре персональных цифровых фотографий через Интернет» (PDF) . Межд. Конф. по компьютерной и коммуникационной технике . Архивировано из оригинала (PDF) 18 июля 2011 г. Проверено 3 марта 2010 г.
  48. ^ abc Sarter, NB (2006). «Представление мультимодальной информации: рекомендации по проектированию и проблемы исследования». Международный журнал промышленной эргономики . 36 (5): 439–445. дои : 10.1016/j.ergon.2006.01.007.
  49. ^ Гельдар, ФА (1957). «Приключения в тактильной грамотности». Американский психолог . 12 (3): 115–124. дои : 10.1037/h0040416.
  50. ^ Брукс, А.; Петерссон, Э. (2007). «SoundScapes: потенциал неформального обучения от интерактивных VE». СИГРАФ . дои : 10.1145/1282040.1282059.
  51. ^ аб Во, MT (1998). «Структура и инструментарий для построения мультимодальных обучающих интерфейсов», к.т.н. Диссертация, Университет Карнеги-Меллон, Питтсбург, США.
  52. ^ Аб Коэн, PR; Джонстон, М.; МакГи, Д.; Овиатт, СЛ; Питтман, Дж.; Смит, Айова; Чен, Л.; Клоу, Дж. (1997). «Quickset: мультимодальное взаимодействие для распределенных приложений», ACM Multimedia, стр. 31-40.
  53. ^ Джонстон, М. (1998). «Мультимодальный анализ на основе унификации». Материалы 36-го ежегодного собрания Ассоциации компьютерной лингвистики и 17-й Международной конференции по компьютерной лингвистике (COLING-ACL '98), 10–14 августа, Университет Монреаля, Монреаль, Квебек, Канада. стр. 624-630.
  54. ^ Аб Нигай, Л.; Кутаз, Дж. (1995). «Общая платформа для решения мультимодальной проблемы». Материалы конференции по человеческому фактору в вычислительных системах, ACM Press.
  55. ^ Аб Буше, Дж.; Нигай, Л.; Ганиль, Т. (2004). «Программные компоненты Icare для быстрой разработки мультимодальных интерфейсов». ICMI '04: Материалы 6-й международной конференции по мультимодальным интерфейсам (Нью-Йорк, Нью-Йорк, США), ACM, стр. 251-258.
  56. ^ аб Д'Улиция, А.; Ферри, Ф.; Грифони П. (2007). «Гибридный грамматический подход к спецификации мультимодальных языков», Материалы семинара OTM 2007, 25–30 ноября 2007 г., Виламура, Португалия, Springer-Verlag, Конспекты лекций по информатике 4805, стр. 367-376.
  57. ^ abc Джонстон, М.; Бангалор, С. (2000). «Мультимодальный анализ и понимание конечных состояний», в материалах Международной конференции по компьютерной лингвистике, Саарбрюкен, Германия.
  58. ^ аб Сан, Ю.; Чен, Ф.; Ши, Ю.Д.; Чанг, В. (2006). «Новый метод объединения мультисенсорных данных при мультимодальном взаимодействии человека с компьютером». В материалах 20-й конференции группы особых интересов по взаимодействию компьютера и человека (CHISIG) Австралии по взаимодействию компьютера и человека: дизайн: деятельность, артефакты и среда, Сидней, Австралия, стр. 401-404.
  59. ^ аб Симадзу, Х.; Такашима, Ю. (1995). «Мультимодальная грамматика определенного предложения», Systems and Computers in Japan, vol. 26, № 3, с. 93-102.
  60. ^ Аб Джонстон, М.; Бангалор, С. (2005). «Мультимодальная интеграция и понимание конечного состояния», Nat. Ланг. англ., Том. 11, нет. 2, стр. 159-187.
  61. ^ аб Рейтер, Д.; Панттайя, EM; Камминс, Ф. (2004). «Пользовательский интерфейс на лету: создание мультимодального пользовательского интерфейса» в Proc. HLT-NAACL-2004, Бостон, Массачусетс, США.
  62. ^ Аб Гуань, Линг. «Методы и технологии мультимодального объединения информации» (PDF) . Общество схем и систем .
  63. ^ Д'Улиция, А.; Ферри, Ф.; Грифони П. (2011). «Алгоритм обучения для мультимодального грамматического вывода», Транзакции IEEE в системах, человеке и кибернетике - Часть B: Кибернетика, Том. 41 (6), стр. 1495 - 1510.
  64. ^ Перес, Г.; Аморес, Г.; Манчон, П. (2005). «Две стратегии мультимодального слияния». В материалах о мультимодальном взаимодействии для визуализации и исследования научных данных, Тренто, Италия, 26–32.
  65. ^ Мартин, JC (1997). «На пути к интеллектуальному сотрудничеству между модальностями: пример системы, обеспечивающей мультимодальное взаимодействие с картой», Труды Международной совместной конференции по искусственному интеллекту (IJCAI'97), семинара «Интеллектуальные мультимодальные системы», Нагоя, Япония.
  66. ^ Аллен, Дж. Ф.; Фергюсон, Г. (1994). «Действия и события в интервальной временной логике», Journal of Logic and Computation, Vol. 4, № 5, стр. 531–579.
  67. ^ Беллик, Ю. (2001). «Технические требования для успешного мультимодального взаимодействия», Международный семинар по представлению информации и естественному мультимодальному диалогу, Верона, Италия, 14–15 декабря.
  68. ^ Ли, Ю.К.; Чин, Ф. (1995). «Знаменитый язык запросов для топологических отношений в ГИС». Международный журнал географических информационных систем 9 (1). стр. 25-46
  69. ^ Кальчинелли, Д.; Менгено, М. (1994). «Cigales, визуальный язык для географической информационной системы: пользовательский интерфейс». Журнал визуальных языков и вычислений 5 (2). стр. 113-132
  70. ^ Ферри, Ф.; Рафанелли, М. (2005). «GeoPQL: язык географических графических запросов, который устраняет неоднозначность в интерпретации запросов». J. Семантика данных III. стр.50-80
  71. ^ Сум, Б., Майерс, Б. и Вайбель, А. (1999). «Модельная и эмпирическая оценка мультимодальной интерактивной коррекции ошибок». В Proc. ЧИ'99, май 1999 г., стр. 584-591.

Внешние ссылки