В контексте взаимодействия человека и компьютера модальность — это классификация одного независимого канала ввода/вывода между компьютером и человеком. Такие каналы могут различаться в зависимости от сенсорной природы (например, визуальный или слуховой), [1] или других существенных различий в обработке (например, текст или изображение). [2] Система обозначается как унимодальная, если в ней реализована только одна модальность, и как мультимодальная , если в ней реализовано более одной. [1] Когда для некоторых задач или аспектов задачи доступны несколько модальностей, говорят, что система имеет перекрывающиеся модальности. Если для задачи доступны несколько модальностей, говорят, что система имеет избыточные модальности. Несколько модальностей могут использоваться в сочетании для предоставления дополнительных методов, которые могут быть избыточными, но передавать информацию более эффективно. [3] Модальности можно в целом определить в двух формах: модальности компьютер-человек и человек-компьютер.
Компьютеры используют широкий спектр технологий для связи и передачи информации людям:
Любое человеческое чувство может быть использовано в качестве модальности компьютера для человека. Однако модальности зрения и слуха используются наиболее часто, поскольку они способны передавать информацию с более высокой скоростью, чем другие модальности, 250–300 [4] и 150–160 [5] слов в минуту соответственно. Хотя обычно не применяется как модальность компьютера-человека, тактику можно достичь в среднем 125 слов в минуту [6] с помощью обновляемого дисплея Брайля . Другие более распространенные формы тактику — это вибрации смартфона и игрового контроллера.
Компьютеры могут быть оснащены различными типами устройств ввода и датчиков, позволяющими им получать информацию от людей. Обычные устройства ввода часто взаимозаменяемы, если они имеют стандартизированный метод связи с компьютером и позволяют пользователю вносить практические коррективы. Определенные модальности могут обеспечить более богатое взаимодействие в зависимости от контекста, а наличие вариантов реализации позволяет создавать более надежные системы. [7]
С ростом популярности смартфонов широкая публика становится более уверенной в более сложных модальностях. Движение и ориентация обычно используются в картографических приложениях смартфонов. Распознавание речи широко используется в приложениях Virtual Assistant. Компьютерное зрение теперь распространено в приложениях камер, которые используются для сканирования документов и QR-кодов.
Наличие нескольких модальностей в системе дает больше возможностей пользователям и может способствовать созданию более надежной системы. Наличие большего количества также обеспечивает большую доступность для пользователей, которые работают более эффективно с определенными модальностями. Несколько модальностей могут использоваться в качестве резерва, когда определенные формы коммуникации невозможны. Это особенно верно в случае избыточных модальностей, в которых две или более модальностей используются для передачи одной и той же информации. Определенные комбинации модальностей могут дополнять выражение взаимодействия компьютер-человек или человек-компьютер, поскольку каждая модальность может быть более эффективной при выражении одной формы или аспекта информации, чем другие.
Существует шесть типов взаимодействия между модальностями, и они помогают определить, как комбинация или слияние модальностей работают вместе для более эффективной передачи информации. [8]
Комплементарно-избыточные системы — это те, которые имеют несколько датчиков для формирования одного понимания или набора данных, и чем эффективнее информация может быть объединена без дублирования данных, тем эффективнее взаимодействуют модальности. Наличие нескольких модальностей для коммуникации является обычным явлением, особенно в смартфонах, и часто их реализации работают вместе для достижения одной и той же цели, например, гироскопы и акселерометры работают вместе для отслеживания движения. [8]