stringtranslate.com

Мультимодальное взаимодействие

Мультимодальное взаимодействие предоставляет пользователю несколько режимов взаимодействия с системой. Мультимодальный интерфейс предоставляет несколько различных инструментов для ввода и вывода данных.

Мультимодальное взаимодействие человека и компьютера подразумевает естественное общение с виртуальными и физическими средами. Оно обеспечивает свободное и естественное общение между пользователями и автоматизированными системами, позволяя гибкий ввод (речь, почерк, жесты) и вывод ( синтез речи , графика). Мультимодальное слияние объединяет вводы из разных модальностей, устраняя неоднозначности.

Две основные группы мультимодальных интерфейсов фокусируются на альтернативных методах ввода и комбинированном вводе/выводе. Множественные модальности ввода повышают удобство использования, принося пользу пользователям с нарушениями. Мобильные устройства часто используют XHTML+Voice для ввода. Мультимодальные биометрические системы используют множественные биометрические данные для преодоления ограничений. Мультимодальный анализ настроений включает анализ текстовых, аудио- и визуальных данных для классификации настроений. GPT-4 , мультимодальная языковая модель , объединяет различные модальности для улучшения понимания языка. Мультимодальные системы вывода представляют информацию через визуальные и слуховые сигналы, используя прикосновение и обоняние. Мультимодальное слияние объединяет информацию из разных модальностей, используя основанное на распознавании, основанное на принятии решений и гибридное многоуровневое слияние.

Неоднозначности в мультимодальных входных данных устраняются с помощью методов предотвращения, апостериорного разрешения и аппроксимационного разрешения.

Введение

Мультимодальное взаимодействие человека и компьютера относится к «взаимодействию с виртуальной и физической средой посредством естественных режимов общения», [1] Это подразумевает, что мультимодальное взаимодействие обеспечивает более свободное и естественное общение, связывая пользователей с автоматизированными системами как на входе, так и на выходе. [2] В частности, мультимодальные системы могут предложить гибкую, эффективную и удобную среду, позволяющую пользователям взаимодействовать посредством входных модальностей, таких как речь , почерк , жесты рук и взгляд , и получать информацию от системы посредством выходных модальностей, таких как синтез речи, интеллектуальная графика и другие модальности, удачно объединенные. Затем мультимодальная система должна распознавать входные данные из различных модальностей, объединяя их в соответствии с временными и контекстными ограничениями [3] , чтобы обеспечить их интерпретацию. Этот процесс известен как мультимодальное слияние, и он является объектом нескольких исследовательских работ с девяностых годов по настоящее время. [4] [5] [6] [7] [8] [9] [10] [11] Объединенные входные данные интерпретируются системой. Естественность и гибкость могут создавать более одной интерпретации для каждой различной модальности (канала) и для их одновременного использования, и они, следовательно, могут создавать многомодальную неоднозначность [12] , как правило, из-за неточности, шумов или других подобных факторов. Для разрешения неоднозначностей было предложено несколько методов. [13] [14] [15] [16] [17] [18] Наконец, система возвращает пользовательские выходные данные через различные модальные каналы (дезагрегированные), организованные в соответствии с последовательной обратной связью (делением). [19] Повсеместное использование мобильных устройств, датчиков и веб-технологий может предложить адекватные вычислительные ресурсы для управления сложностью, подразумеваемой многомодальным взаимодействием. «Использование облака для привлечения общих вычислительных ресурсов в управление сложностью многомодального взаимодействия представляет собой возможность. Фактически, облачные вычисления позволяют предоставлять общие масштабируемые, настраиваемые вычислительные ресурсы, которые могут динамически и автоматически предоставляться и высвобождаться». [20]

Мультимодальный ввод

Две основные группы мультимодальных интерфейсов объединились, одна из которых занимается альтернативными методами ввода, а другая — комбинированным вводом/выводом. Первая группа интерфейсов объединяет различные режимы пользовательского ввода, выходящие за рамки традиционного ввода/вывода с помощью клавиатуры и мыши , такие как речь, перо, касание, жесты, [21] взгляд, движения головы и тела. [22] Наиболее распространенный такой интерфейс объединяет визуальную модальность (например, дисплей, клавиатуру и мышь) с голосовой модальностью ( распознавание речи для ввода, синтез речи и записанный звук для вывода). Однако могут использоваться и другие модальности, такие как ввод с помощью пера или тактильный ввод/вывод. Мультимодальные пользовательские интерфейсы являются областью исследований в области взаимодействия человека с компьютером (HCI).

Преимущество множественных модальностей ввода заключается в повышенном удобстве использования : недостатки одной модальности компенсируются достоинствами другой. На мобильном устройстве с небольшим визуальным интерфейсом и клавиатурой слово может быть довольно сложным для ввода, но очень простым для произнесения (например, Poughkeepsie ). Подумайте, как бы вы получали доступ и осуществляли поиск в цифровых каталогах мультимедиа с этих же устройств или телевизионных приставок. А в одном реальном примере информация о пациенте в операционной доступна устно членам хирургической бригады для поддержания антисептической среды и представляется в режиме, близком к реальному времени, вслух и визуально для максимального понимания.

Мультимодальные пользовательские интерфейсы ввода имеют последствия для доступности . [23] Хорошо спроектированное мультимодальное приложение может использоваться людьми с самыми разными нарушениями. Пользователи с нарушениями зрения полагаются на голосовую модальность с некоторым вводом с клавиатуры. Пользователи с нарушениями слуха полагаются на визуальную модальность с некоторым вводом речи. Другие пользователи будут «ситуационно ограничены» (например, носят перчатки в очень шумной обстановке, вождение автомобиля или им нужно ввести номер кредитной карты в общественном месте) и будут просто использовать соответствующие модальности по желанию. С другой стороны, мультимодальное приложение, которое требует от пользователей возможности управлять всеми модальностями, очень плохо спроектировано.

Наиболее распространенная форма мультимодальности ввода на рынке использует язык веб-разметки XHTML+Voice (он же X+V), открытую спецификацию , разработанную IBM , Motorola и Opera Software . X+V в настоящее время рассматривается W3C и объединяет несколько рекомендаций W3C , включая XHTML для визуальной разметки, VoiceXML для голосовой разметки и XML Events , стандарт для интеграции языков XML . Мультимодальные браузеры, поддерживающие X+V , включают IBM WebSphere Everyplace Multimodal Environment, Opera для Embedded Linux и Windows и ACCESS Systems NetFront для Windows Mobile . Для разработки мультимодальных приложений разработчики программного обеспечения могут использовать комплект разработки программного обеспечения , такой как IBM WebSphere Multimodal Toolkit, основанный на фреймворке Eclipse с открытым исходным кодом , который включает отладчик , редактор и симулятор X+V . [ требуется ссылка ]

Мультимодальная биометрия

Мультимодальные биометрические системы используют несколько датчиков или биометрических данных для преодоления ограничений унимодальных биометрических систем. [24] Например, системы распознавания радужной оболочки глаза могут быть скомпрометированы стареющими радужными оболочками глаза [25] , а электронное распознавание отпечатков пальцев может быть ухудшено изношенными или порезанными отпечатками пальцев. Хотя унимодальные биометрические системы ограничены целостностью своего идентификатора, маловероятно, что несколько унимодальных систем будут страдать от одинаковых ограничений. Мультимодальные биометрические системы могут получать наборы информации с одного и того же маркера (т. е. несколько изображений радужной оболочки глаза или сканов одного и того же пальца) или информацию из разных биометрических данных (требующих сканирования отпечатков пальцев и, используя голосовое распознавание , произнесения пароля). [26] [27]

Мультимодальные биометрические системы могут объединять эти унимодальные системы последовательно, одновременно, их комбинацию или последовательно, что относится к последовательным, параллельным, иерархическим и последовательным режимам интеграции соответственно. Объединение биометрической информации может происходить на разных этапах системы распознавания. В случае объединения на уровне признаков объединяются сами данные или признаки, извлеченные из нескольких биометрических данных. Объединение на уровне оценок соответствия объединяет оценки, полученные несколькими классификаторами, относящимися к разным модальностям. Наконец, в случае объединения на уровне решений окончательные результаты нескольких классификаторов объединяются с помощью таких методов, как голосование большинства . Объединение на уровне признаков считается более эффективным, чем другие уровни объединения, поскольку набор признаков содержит более полную информацию о входных биометрических данных, чем оценка соответствия или выходное решение классификатора. Поэтому ожидается, что объединение на уровне признаков обеспечит лучшие результаты распознавания. [24]

Кроме того, развивающиеся тенденции биометрического рынка подчеркивают важность технологической интеграции, демонстрируя переход к объединению нескольких биометрических модальностей для повышения безопасности и проверки личности, что соответствует достижениям в области мультимодальных биометрических систем. [28]

Атаки с подменой заключаются в отправке поддельных биометрических признаков в биометрические системы и являются серьезной угрозой, которая может подорвать их безопасность. Мультимодальные биометрические системы обычно считаются изначально более устойчивыми к атакам с подменой, но недавние исследования [29] показали, что их можно обойти, подделав даже одну биометрическую характеристику.

Одна из таких предложенных систем мультимодальной биометрической криптосистемы, включающей лицо, отпечаток пальца и вену ладони, Прасаналакшми [30] Интеграция криптосистемы объединяет биометрию с криптографией , где вена ладони действует как криптографический ключ, предлагая высокий уровень безопасности, поскольку вены ладони уникальны и их трудно подделать. Отпечаток пальца включает в себя извлечение мелочей (завершения и разветвления) и методы сопоставления. Шаги включают улучшение изображения, бинаризацию, извлечение ROI и прореживание мелочей. Система лица использует матрицы рассеяния на основе классов для вычисления признаков для распознавания, а вена ладони действует как неразрушимый криптографический ключ , гарантируя, что только правильный пользователь может получить доступ к системе. Концепция отменяемой биометрии позволяет немного изменять биометрические черты, чтобы обеспечить конфиденциальность и избежать кражи. В случае компрометации могут быть выданы новые вариации биометрических данных.

Шаблон отпечатка пальца шифрования шифруется с помощью ключа вен ладони с помощью операций XOR . Этот зашифрованный отпечаток пальца скрывается в изображении лица с помощью стеганографических методов. Регистрация и проверка биометрических данных (отпечаток пальца, вена ладони, лицо) захватываются, шифруются и встраиваются в изображение лица. Система извлекает биометрические данные и сравнивает их с сохраненными значениями для проверки. Система была протестирована с базами данных отпечатков пальцев, достигнув точности проверки 75% при равном уровне ошибок 25% и времени обработки приблизительно 50 секунд для регистрации и 22 секунды для проверки. Высокая безопасность благодаря шифрованию вен ладони, эффективная против подмены биометрических данных, а мультимодальный подход обеспечивает надежность в случае сбоя одной биометрической характеристики. Потенциал для интеграции со смарт-картами или системами на картах, повышающий безопасность в системах идентификации личности .

Мультимодальный анализ настроений

Мультимодальный анализ настроений — это технология традиционного анализа настроений на основе текста , которая включает такие модальности , как аудио- и визуальные данные. [31] Он может быть бимодальным, который включает различные комбинации двух модальностей, или тримодальным, который включает три модальности. [32] С большим количеством данных социальных сетей, доступных в Интернете в различных формах, таких как видео и изображения, традиционный анализ настроений на основе текста превратился в более сложные модели мультимодального анализа настроений, [33] [34] которые могут применяться при разработке виртуальных помощников , [35] анализе обзоров фильмов на YouTube, [36] анализе новостных видеороликов, [37] и распознавании эмоций (иногда известном как обнаружение эмоций ), таком как мониторинг депрессии , [38] и других.

Подобно традиционному анализу настроений , одной из основных задач в мультимодальном анализе настроений является классификация настроений , которая классифицирует различные настроения по таким категориям, как положительные, отрицательные или нейтральные. [39] Сложность анализа текстовых, аудио- и визуальных характеристик для выполнения такой задачи требует применения различных методов слияния, таких как слияние на уровне признаков, на уровне решений и гибридное слияние. [33] Эффективность этих методов слияния и применяемых алгоритмов классификации зависит от типа текстовых, аудио- и визуальных характеристик, используемых в анализе. [40]

Мультимодальные языковые модели

Generative Pre-trained Transformer 4 ( GPT-4 ) — это многомодульная большая языковая модель, созданная OpenAI , и четвертая в ее серии фундаментальных моделей GPT . [41] Она была запущена 14 марта 2023 года [41] и стала общедоступной через платный продукт чат-бота ChatGPT Plus , через API OpenAI и через бесплатный чат-бот Microsoft Copilot . [42] Как модель на основе трансформатора , GPT-4 использует парадигму, в которой предварительное обучение с использованием как общедоступных данных, так и «данных, лицензированных у сторонних поставщиков» используется для прогнозирования следующего токена . После этого шага модель была затем доработана с помощью обратной связи с подкреплением от людей и ИИ для согласования человека и соблюдения политики. [43] : 2 

Наблюдатели сообщили, что итерация ChatGPT с использованием GPT-4 была улучшением предыдущей итерации, основанной на GPT-3.5, с оговоркой, что GPT-4 сохраняет некоторые проблемы более ранних версий. [44] GPT-4, оснащенный возможностями зрения (GPT-4V), [45] способен принимать изображения в качестве входных данных для ChatGPT. [46] OpenAI отказалась раскрывать различные технические подробности и статистику о GPT-4, такие как точный размер модели. [47]

Мультимодальный выход

Вторая группа мультимодальных систем представляет пользователям мультимедийные дисплеи и мультимодальный вывод, в первую очередь в форме визуальных и слуховых сигналов. Разработчики интерфейсов также начали использовать другие модальности, такие как осязание и обоняние. Предлагаемые преимущества мультимодальной системы вывода включают синергию и избыточность. Информация, представленная через несколько модальностей, объединяется и относится к различным аспектам одного и того же процесса. Использование нескольких модальностей для обработки одной и той же информации обеспечивает увеличенную пропускную способность передачи информации. [48] [49] [50] В настоящее время мультимодальный вывод используется в основном для улучшения сопоставления между средством коммуникации и контентом и для поддержки управления вниманием в насыщенной данными среде, где операторы сталкиваются со значительными требованиями к визуальному вниманию. [51]

Важным шагом в проектировании мультимодального интерфейса является создание естественных отображений между модальностями и информацией и задачами. Слуховой канал отличается от зрения несколькими аспектами. Он всенаправленный, преходящий и всегда зарезервирован. [51] Речевой вывод, одна из форм слуховой информации, получил значительное внимание. Было разработано несколько руководств по использованию речи. Михаэлис и Виггинс (1982) предложили использовать речевой вывод для простых коротких сообщений, которые не будут упоминаться позже. Также было рекомендовано, чтобы речь генерировалась вовремя и требовала немедленного ответа.

Осязание впервые было использовано в качестве средства коммуникации в конце 1950-х годов. [52] Это не только многообещающий, но и уникальный канал коммуникации. В отличие от зрения и слуха, двух традиционных чувств, используемых в HCI, осязание является проксимальным: оно ощущает объекты, которые находятся в контакте с телом, и оно двунаправлено, поскольку поддерживает как восприятие, так и воздействие на окружающую среду.

Примерами слуховой обратной связи являются звуковые значки в компьютерных операционных системах, указывающие на действия пользователей (например, удаление файла, открытие папки, ошибка), речевой вывод для представления навигационных указаний в транспортных средствах и речевой вывод для предупреждения пилотов в современных кабинах самолетов. Примерами тактильных сигналов являются вибрации рычага поворотника для предупреждения водителей об автомобиле в их слепой зоне, вибрация автокресла в качестве предупреждения водителям и встряхивание ручки на современных самолетах, предупреждающее пилотов о надвигающемся сваливании. [51]

Невидимые интерфейсные пространства стали доступны с использованием сенсорной технологии. Инфракрасные, ультразвуковые и камеры теперь широко используются. [53] Прозрачность взаимодействия с контентом повышается, обеспечивая немедленную и прямую связь через осмысленное отображение, таким образом, пользователь имеет прямую и немедленную обратную связь для ввода, а ответ на контент становится возможностью интерфейса (Gibson 1979).

Мультимодальное слияние

Процесс интеграции информации из различных входных модальностей и объединения их в полную команду называется мультимодальным слиянием. [5] В литературе были предложены три основных подхода к процессу слияния в соответствии с основными архитектурными уровнями (распознавание и принятие решения), на которых может быть выполнено слияние входных сигналов: основанное на распознавании, [9] [10] [54] основанное на принятии решения, [7] [8] [11] [55] [56] [57] [58] и гибридное многоуровневое слияние. [4] [6] [59] [60] [61] [62] [63] [64]

Слияние на основе распознавания (также известное как раннее слияние) заключается в слиянии результатов каждого модального распознавателя с использованием механизмов интеграции, таких как, например, статистические методы интеграции, теория агентов, скрытые марковские модели, искусственные нейронные сети и т. д. Примерами стратегий слияния на основе распознавания являются рамка действия, [54] входные векторы [9] и слоты [10] .

Слияние на основе решений (также известное как позднее слияние) объединяет семантическую информацию, которая извлекается с помощью определенных процедур слияния, управляемых диалогом, для получения полной интерпретации. Примерами стратегий слияния на основе решений являются типизированные структуры признаков, [55] [60] плавильные котлы, [57] [58] семантические фреймы, [7] [11] и решетки с временными метками. [8]

Потенциальные приложения для мультимодального слияния включают в себя среды обучения, потребительские отношения, безопасность/наблюдение, компьютерную анимацию и т. д. По отдельности режимы легко определяются, но возникают трудности, когда технология рассматривает их как комбинированное слияние. [65] Алгоритмам сложно учитывать размерность; существуют переменные за пределами текущих вычислительных возможностей. Например, семантическое значение: два предложения могут иметь одинаковое лексическое значение, но разную эмоциональную информацию. [65]

В гибридном многоуровневом слиянии интеграция входных модальностей распределяется между уровнями распознавания и принятия решений. Гибридное многоуровневое слияние включает следующие три методологии: конечные преобразователи, [60] мультимодальные грамматики [6] [59] [61] [62] [63] [64] [66] и диалоговые ходы. [67]

Неоднозначность

Действия или команды пользователя создают мультимодальные входы (мультимодальное сообщение [3] ), которые должны быть интерпретированы системой. Мультимодальное сообщение является средой, которая обеспечивает связь между пользователями и мультимодальными системами. Оно получается путем слияния информации, которая передается через несколько модальностей, с учетом различных типов сотрудничества между несколькими модальностями, [68] временных отношений [69] между задействованными модальностями и отношений между фрагментами информации, связанными с этими модальностями. [70]

Естественное сопоставление между мультимодальным вводом, который обеспечивается несколькими модальностями взаимодействия (визуальный и слуховой канал и чувство осязания), и информацией и задачами подразумевает управление типичными проблемами общения человека с человеком, такими как неоднозначность. Неоднозначность возникает, когда возможно более одной интерпретации ввода. Мультимодальная неоднозначность [12] возникает, если элемент, который обеспечивается одной модальностью, имеет более одной интерпретации (т. е. неоднозначности распространяются на мультимодальном уровне), и/или если элементы, связанные с каждой модальностью, интерпретируются однозначно, но информация, относящаяся к разным модальностям, несогласованна на синтаксическом или семантическом уровне (т. е. мультимодальное предложение имеет разные значения или разную синтаксическую структуру).

В «Управлении неоднозначностями» [14] методы разрешения неоднозначностей и обеспечения правильной интерпретации ввода пользователя организованы в три основных класса: методы предотвращения, апостериорного разрешения и приближенного разрешения. [13] [15]

Методы предотвращения заставляют пользователей следовать предопределенному поведению взаимодействия в соответствии с набором переходов между различными разрешенными состояниями процесса взаимодействия. Примерами методов предотвращения являются: процедурный метод, [71] уменьшение выразительной силы грамматики языка, [72] улучшение выразительной силы грамматики языка. [73]

Апостериорное разрешение неоднозначностей использует подход посредничества. [16] Примерами методов посредничества являются: повторение, например, повторение по модальности, [16] детализация исправления [74] и отмены, [17] и выбор. [18]

Методы разрешения аппроксимации не требуют никакого участия пользователя в процессе устранения неоднозначности. Все они могут потребовать использования некоторых теорий, таких как нечеткая логика , марковское случайное поле , байесовские сети и скрытые марковские модели . [13] [15]

Смотрите также

Ссылки

  1. ^ Бурге, М. Л. (2003). «Проектирование и прототипирование многомодальных команд». Труды по взаимодействию человека и компьютера (INTERACT'03), стр. 717-720.
  2. ^ Стиверс, Т., Сиднелл, Дж. Введение: Мультимодальное взаимодействие. Semiotica, 156(1/4), стр. 1-20. 2005.
  3. ^ ab Caschera MC, Ferri F., Grifoni P. (2007). "Мультимодальные системы взаимодействия: информационные и временные характеристики". International Journal of Web and Grid Services (IJWGS), Vol. 3 - Issue 1, pp 82-99.
  4. ^ ab D'Ulizia, A., Ferri, F. и Grifoni, P. (2010). «Создание многомодальных грамматик для обработки многомодального диалога». Труды IEEE по системам, человеку и кибернетике, часть A: Системы и люди, том 40, № 6, стр. 1130 – 1145.
  5. ^ ab D'Ulizia, A. (2009). «Изучение стратегий слияния мультимодальных входных данных». В: Grifoni P (ред.) Справочник по исследованиям мультимодального взаимодействия человека с компьютером и всепроникающих услуг: эволюционные методы улучшения доступности. IGI Publishing, стр. 34-57.
  6. ^ abc Sun, Y., Shi, Y., Chen, F. и Chung, V. (2007). «Эффективный многомодальный языковой процессор для параллельных входных строк в многомодальном слиянии входных данных», в Трудах международной конференции по семантическим вычислениям, стр. 389-396.
  7. ^ abc Russ, G., Sallans, B., Hareter, H. (2005). «Семантическое слияние информации в мультимодальном интерфейсе». Международная конференция по взаимодействию человека и компьютера (HCI'05), Лас-Вегас, Невада, США, 20–23 июня, стр. 94-100.
  8. ^ abc Corradini, A., Mehta M., Bernsen, NO, Martin, J.-C. (2003). «Мультимодальное слияние входных данных при взаимодействии человека и компьютера на примере текущего проекта NICE». В трудах конференции НАТО-ASI по слиянию данных для мониторинга ситуации, обнаружения инцидентов, управления оповещением и реагированием, Ереван, Армения.
  9. ^ abc Павлович, VI, Берри, GA, Хуан, TS (1997). «Интеграция аудиовизуальной информации для использования в интеллектуальном взаимодействии человека и компьютера». Труды Международной конференции по обработке изображений 1997 года (ICIP '97), том 1, стр. 121-124.
  10. ^ abc Андре, М., Попеску, В.Г., Шейх, А., Медл, А., Марсич, И., Куликовский, К., Фланаган Дж.Л. (1998). «Интеграция речи и жестов для мультимодального взаимодействия человека и компьютера». На Второй международной конференции по кооперативной мультимодальной коммуникации. 28–30 января, Тилбург, Нидерланды.
  11. ^ abc Vo, MT, Wood, C. (1996). «Создание прикладной структуры для интеграции речевого и перьевого ввода в интерфейсах мультимодального обучения». В Трудах по акустике, речи и обработке сигналов (ICASSP'96), 7–10 мая, IEEE Computer Society, том 06, стр. 3545-3548.
  12. ^ ab Caschera, MC, Ferri, F., Grifoni, P. (2013). «От модальных к мультимодальным неоднозначностям: подход к классификации», Журнал информационных технологий следующего поколения (JNIT), том 4, № 5, стр. 87–109.
  13. ^ abc Caschera, MC, Ferri, F., Grifoni, P. (2013). InteSe: Интегрированная модель для разрешения неоднозначностей в многомодальных предложениях". IEEE Transactions on Systems, Man, and Cybernetics: Systems, Volume: 43, Issue: 4, pp. 911 - 931.18. Spilker, J., Klarner, M., Görz, G. (2000). "Обработка самокоррекций в системе преобразования речи в речь". COLING 2000. pp. 1116-1120.
  14. ^ ab Caschera MC, Ferri F., Grifoni P., (2007). «Управление неоднозначностями». В Visual Languages ​​for Interactive Computing: Definitions and Formalizations. IGI Publishing. pp.129-140.
  15. ^ abc J. Chai, P. Hong и MX Zhou, (2004). «Вероятностный подход к разрешению ссылок в многомодальном пользовательском интерфейсе» в Трудах 9-й Международной конференции по интеллектуальным пользовательским интерфейсам, Мадейра, Португалия, январь 2004 г., стр. 70–77.
  16. ^ abc Dey, AK Mankoff, J., (2005). «Проектирование посредничества для контекстно-зависимых приложений». ACM Trans. Comput.-Hum. Interact. 12(1), стр. 53-80.
  17. ^ ab Спилкер, Дж., Кларнер, М., Гёрц, Г. (2000). «Обработка самокоррекций в системе преобразования речи в речь». COLING 2000. стр. 1116-1120.
  18. ^ ab Mankoff, J., Hudson, SE, Abowd, GD (2000). «Обеспечение поддержки на уровне интегрированного инструментария для устранения неоднозначности в интерфейсах на основе распознавания». Труды конференции ACM CHI'00 по человеческому фактору в вычислительных системах. стр. 368 – 375.
  19. ^ Grifoni P (2009) Мультимодальное деление. В: Мультимодальное взаимодействие человека с компьютером и всепроникающие услуги. IGI Global, стр. 103–120
  20. ^ Патриция Грифони, Фернандо Ферри, Мария Кьяра Кашера, Арианна Д'Улиция, Мауро Маццеи, «MIS: Сервисы мультимодального взаимодействия в облачной перспективе», JNIT: Журнал информационных технологий следующего поколения, Vol. Т. 5, № 4, стр. 01 ~ 10, 2014 г.
  21. ^ Кеттебеков, Саншзар и Раджив Шарма (2001). «На пути к естественному управлению жестами/речью большого дисплея». ТрудыEHCI '01 Труды 8-й Международной конференции IFIP по инжинирингу взаимодействия человека и компьютера, страницы 221-234
  22. ^ Мариус Василиу, В. Сундаресваран, С. Чен, Р. Берингер, К. Там, М. Чан, П. Бангаян и Дж. Макги (2000), «Интегрированный многомодальный интерфейс человек-машина и дополненная реальность для интерактивных приложений отображения», в Darrel G. Hopper (ред.) Cockpit Displays VII: Displays for Defense Applications (Proc. SPIE . 4022), 106-115. ISBN  0-8194-3648-8
  23. ^ Витенсе, Х.С.; Джако, Дж.А.; Эмери, В.К. (2002). «Мультимодальная обратная связь: установление базового уровня производительности для улучшения доступа для лиц с нарушениями зрения». Конференция ACM по вспомогательным технологиям .
  24. ^ ab Haghighat, Mohammad; Abdel-Mottaleb, Mohamed; Alhalabi, Wadee (2016). «Дискриминантный корреляционный анализ: слияние на уровне признаков в реальном времени для мультимодального биометрического распознавания». Труды IEEE по информационной криминалистике и безопасности . 11 (9): 1984–1996. doi :10.1109/TIFS.2016.2569061. S2CID  15624506.
  25. ^ "Вопросы, поднятые о системах распознавания радужной оболочки глаза". Science Daily . 12 июля 2012 г. Архивировано из оригинала 22 октября 2012 г.
  26. ^ Сэйлор, Майкл (2012). Мобильная волна: как мобильный интеллект изменит все. Perseus Books/Vanguard Press. стр. 99. ISBN 9780306822988.
  27. Билл Флок (3 октября 2013 г.). «Это та самая «биометрическая война», о которой говорил Майкл Сэйлор». Washington Business Journal . Архивировано из оригинала 7 октября 2013 г.
  28. ^ "Что такое биометрия? Определение, типы данных, тенденции (2024)". Aratek Biometrics . Получено 11 апреля 2024 г.
  29. ^ Захид Ахтар, «Безопасность мультимодальных биометрических систем против атак с подменой» (PDF). Архивировано 2 апреля 2015 г. в Wayback Machine . Кафедра электротехники и электроники, Университет Кальяри. Кальяри, Италия, 6 марта 2012 г.
  30. ^ Прасаналакшми, «Мультимодальная биометрическая криптосистема, включающая лицо, отпечатки пальцев и рисунок вен ладони», июль 2011 г.
  31. ^ Солеймани, Мохаммад; Гарсия, Дэвид; Джоу, Брендан; Шуллер, Бьёрн; Чанг, Ши-Фу; Пантик, Майя (сентябрь 2017 г.). «Обзор мультимодального анализа настроений». Image and Vision Computing . 65 : 3–14. doi :10.1016/j.imavis.2017.08.003. S2CID  19491070.
  32. ^ Каррей, Фахреддин; Милад, Алемзаде; Салех, Джамиль Абу; Мо Нурс, Араб (2008). «Взаимодействие человека и компьютера: обзор современного состояния дел» (PDF) . Международный журнал по интеллектуальному зондированию и интеллектуальным системам . 1 : 137–159. doi : 10.21307/ijssis-2017-283 .
  33. ^ ab Poria, Soujanya; Cambria, Erik; Bajpai, Rajiv; Hussain, Amir (сентябрь 2017 г.). «Обзор аффективных вычислений: от унимодального анализа до многомодального слияния». Information Fusion . 37 : 98–125. doi : 10.1016/j.inffus.2017.02.003. hdl : 1893/25490 . S2CID  205433041.
  34. ^ Нгуен, Куи Хоанг; Нгуен, Минь-Ван Труонг; Ван Нгуен, Киет (2024-05-01), Новый набор контрольных данных и мелкозернистая кросс-модальная структура слияния для вьетнамского мультимодального аспектно-категорийного анализа настроений, doi :10.48550/arXiv.2405.00543 , получено 2024-11-06
  35. ^ "ИИ Google будет совершать телефонные звонки за вас". BBC News . 8 мая 2018 г. Получено 12 июня 2018 г.
  36. ^ Wollmer, Martin; Weninger, Felix; Knaup, Tobias; Schuller, Bjorn; Sun, Congkai; Sagae, Kenji; Morency, Louis-Philippe (май 2013 г.). «Обзоры фильмов YouTube: анализ настроений в аудиовизуальном контексте» (PDF) . IEEE Intelligent Systems . 28 (3): 46–53. doi :10.1109/MIS.2013.34. S2CID  12789201.
  37. ^ Перейра, Мойзес HR; Падуя, Флавио LC; Перейра, Адриано CM; Беневенуто, Фабрисио; Далип, Дэниел Х. (9 апреля 2016 г.). «Объединение аудио, текстовых и визуальных функций для анализа тональности новостных видеороликов». arXiv : 1604.02612 [cs.CL].
  38. ^ Зукко, Кьяра; Калабрезе, Барбара; Каннатаро, Марио (ноябрь 2017 г.). «Анализ настроений и аффективные вычисления для мониторинга депрессии». Международная конференция IEEE по биоинформатике и биомедицине (BIBM) 2017 г. IEEE. стр. 1988–1995. doi :10.1109/bibm.2017.8217966. ISBN 978-1-5090-3050-7. S2CID  24408937.
  39. ^ Панг, Бо; Ли, Лиллиан (2008). Анализ мнений и настроений . Ганновер, Массачусетс: Now Publishers. ISBN 978-1601981509.
  40. ^ Сан, Шилян; Ло, Чэнь; Чэнь, Цзюньюй (июль 2017 г.). «Обзор методов обработки естественного языка для систем анализа мнений». Information Fusion . 36 : 10–25. doi :10.1016/j.inffus.2016.10.004.
  41. ^ ab Edwards, Benj (14 марта 2023 г.). «GPT-4 от OpenAI демонстрирует «производительность человеческого уровня» на профессиональных тестах». Ars Technica . Архивировано из оригинала 14 марта 2023 г. . Получено 15 марта 2023 г. .
  42. ^ Wiggers, Kyle (6 июля 2023 г.). «OpenAI делает GPT-4 общедоступным». TechCrunch . Архивировано из оригинала 16 августа 2023 г. Получено 16 августа 2023 г.
  43. ^ OpenAI (2023). «Технический отчет GPT-4». arXiv : 2303.08774 [cs.CL].
  44. ^ Белфилд, Гайдн (25 марта 2023 г.). «Если ваша модель ИИ будет продаваться, она должна быть безопасной». Vox . Архивировано из оригинала 28 марта 2023 г. . Получено 30 марта 2023 г. .
  45. ^ "Системная карта GPT-4V(ision)". OpenAI . Получено 5 февраля 2024 г. .
  46. ^ Руз, Кевин (28 сентября 2023 г.). «Новый ChatGPT может «видеть» и «говорить». Вот как это выглядит». The New York Times . Архивировано из оригинала 31 октября 2023 г. Получено 30 октября 2023 г.
  47. ^ Винсент, Джеймс (15 марта 2023 г.). «Соучредитель OpenAI о прошлом подходе компании к открытому обмену результатами исследований: «Мы ошибались»». The Verge . Архивировано из оригинала 17 марта 2023 г. . Получено 18 марта 2023 г. .
  48. ^ Овиатт, С. (2002), «Мультимодальные интерфейсы», в Джако, Дж.; Сирс, А. (ред.), «Справочник по взаимодействию человека и компьютера» (PDF) , Лоуренс Эрлбаум
  49. ^ Bauckhage, C.; Fritsch, J.; Rohlfing, KJ; Wachsmuth, S.; Sagerer, G. (2002). «Оценка интегрированного понимания речи и изображений». Int. Conf. on Multimodal Interfaces . doi :10.1109/ICMI.2002.1166961.
  50. ^ Ismail, NA; O'Brien, EA (2008). "Возможность мультимодального взаимодействия при просмотре персональных цифровых фотографий через Интернет" (PDF) . Int. Conf. on Computer and Communication Engineering . Архивировано из оригинала (PDF) 2011-07-18 . Получено 2010-03-03 .
  51. ^ abc Sarter, NB (2006). «Мультимодальное представление информации: руководство по проектированию и проблемы исследования». Международный журнал промышленной эргономики . 36 (5): 439–445. doi :10.1016/j.ergon.2006.01.007.
  52. ^ Гельдар, ФА (1957). «Приключения в тактильной грамотности». Американский психолог . 12 (3): 115–124. дои : 10.1037/h0040416.
  53. ^ Брукс, А.; Петерссон, Э. (2007). «SoundScapes: неформальный учебный потенциал интерактивных виртуальных сред». SIGGRAPH . doi :10.1145/1282040.1282059.
  54. ^ ab Vo, MT (1998). «Структура и набор инструментов для построения интерфейсов мультимодального обучения», докторская диссертация, Университет Карнеги-Меллона, Питтсбург, США.
  55. ^ ab Cohen, PR; Johnston, M.; McGee, D.; Oviatt, SL; Pittman, J.; Smith, IA; Chen, L.; Clow, J. (1997). "Quickset: Мультимодальное взаимодействие для распределенных приложений", ACM Multimedia, стр. 31-40.
  56. ^ Джонстон, М. (1998). «Мультимодальный анализ на основе унификации». Труды 36-го ежегодного собрания Ассоциации компьютерной лингвистики и 17-й Международной конференции по компьютерной лингвистике (COLING-ACL '98), 10–14 августа, Университет Монреаля, Монреаль, Квебек, Канада. С. 624-630.
  57. ^ ab Nigay, L.; Coutaz, J. (1995). «Универсальная платформа для решения многомодальной проблемы». Труды конференции по человеческому фактору в вычислительных системах, ACM Press.
  58. ^ ab Bouchet, J.; Nigay, L.; Ganille, T. (2004). «Компоненты программного обеспечения Icare для быстрой разработки мультимодальных интерфейсов». ICMI '04: Труды 6-й международной конференции по мультимодальным интерфейсам (Нью-Йорк, штат Нью-Йорк, США), ACM, стр. 251-258.
  59. ^ ab D'Ulizia, A.; Ferri, F.; Grifoni P. (2007). «Гибридный подход к спецификации многомодальных языков на основе грамматики», Труды семинара OTM 2007, 25–30 ноября 2007 г., Виламоура, Португалия, Springer-Verlag, Lecture Notes in Computer Science 4805, стр. 367–376.
  60. ^ abc Джонстон, М.; Бангалор, С. (2000). «Конечно-статистический мультимодальный анализ и понимание», в трудах Международной конференции по компьютерной лингвистике, Саарбрюккен, Германия.
  61. ^ ab Sun, Y.; Chen, F.; Shi, YD; Chung, V. (2006). "Новый метод слияния мультисенсорных данных при мультимодальном взаимодействии человека с компьютером". В Трудах 20-й конференции специальной группы по взаимодействию компьютера и человека (CHISIG) Австралии по взаимодействию компьютера и человека: проектирование: действия, артефакты и среды, Сидней, Австралия, стр. 401-404
  62. ^ ab Shimazu, H.; Takashima, Y. (1995). «Мультимодальная грамматика определенных предложений», Systems and Computers in Japan, т. 26, № 3, стр. 93-102.
  63. ^ ab Джонстон, М.; Бангалор, С. (2005). «Конечно-статистическая мультимодальная интеграция и понимание», Nat. Lang. Eng, Vol. 11, no. 2, pp. 159-187.
  64. ^ ab Reitter, D.; Panttaja, EM; Cummins, F. (2004). «UI на лету: генерация многомодального пользовательского интерфейса», в Proc. HLT-NAACL-2004, Бостон, Массачусетс, США.
  65. ^ ab Guan, Ling. "Методы и приемы мультимодального слияния информации" (PDF) . Circuits & Systems Society .
  66. ^ Д'Улиция, А.; Ферри, Ф.; Грифони П. (2011). «Алгоритм обучения для вывода мультимодальной грамматики», Труды IEEE по системам, человеку и кибернетике — Часть B: Кибернетика, том 41 (6), стр. 1495–1510.
  67. ^ Перес, Г.; Аморес, Г.; Манчон, П. (2005). «Две стратегии мультимодального слияния». В Трудах мультимодального взаимодействия для визуализации и исследования научных данных, Тренто, Италия, 26–32.
  68. ^ Мартин, Дж. К. (1997). «К интеллектуальному сотрудничеству между модальностями: пример системы, обеспечивающей мультимодальное взаимодействие с картой», Труды Международной совместной конференции по искусственному интеллекту (IJCAI'97), семинар «Интеллектуальные мультимодальные системы», Нагоя, Япония.
  69. ^ Аллен, Дж. Ф.; Фергюсон, Г. (1994). «Действия и события в интервальной темпоральной логике», Журнал логики и вычислений, т. 4, № 5, стр. 531–579
  70. ^ Беллик, Ю. (2001). «Технические требования для успешного мультимодального взаимодействия», Международный семинар по представлению информации и естественному мультимодальному диалогу, Верона, Италия, 14–15 декабря
  71. ^ Ли, YC; Чин, Ф. (1995). "Язык иконических запросов для топологических отношений в ГИС". Международный журнал географических информационных систем 9(1). стр. 25-46
  72. ^ Calcinelli, D.; Mainguenaud, M. (1994). "Cigales, визуальный язык для географической информационной системы: пользовательский интерфейс". Журнал визуальных языков и вычислений 5(2). стр. 113-132
  73. ^ Ферри, Ф.; Рафанелли, М. (2005). «GeoPQL: язык географических графических запросов, который устраняет неоднозначность в интерпретации запросов». J. Семантика данных III. стр.50-80
  74. ^ Suhm, B., Myers, B. и Waibel, A. (1999). "Основанная на моделях и эмпирическая оценка мультимодальной интерактивной коррекции ошибок". В Proc. Of CHI'99, май 1999, стр. 584-591

Внешние ссылки