Поиск информации человеком и компьютером ( HCIR ) — это изучение и разработка методов поиска информации , которые привносят человеческий интеллект в процесс поиска . Он объединяет области взаимодействия человека и компьютера (HCI) и поиска информации (IR) и создает системы, которые улучшают поиск, принимая во внимание человеческий контекст или посредством многоэтапного процесса поиска, который обеспечивает возможность обратной связи с человеком.
Термин «человеко-компьютерный поиск информации» был введен Гэри Маркионини в серии лекций, прочитанных в период с 2004 по 2006 год. [1] Основной тезис Маркионини заключается в том, что «HCIR направлен на то, чтобы дать людям возможность исследовать крупномасштабные информационные базы, но требует, чтобы люди также брали на себя ответственность за этот контроль, расходуя когнитивную и физическую энергию».
В 1996 и 1998 годах пара семинаров в Университете Глазго по поиску информации и взаимодействию человека с компьютером пытались рассмотреть пересечение этих двух областей. Маркионини отмечает влияние Всемирной паутины и внезапное увеличение информационной грамотности — изменения, которые были только в зачаточном состоянии в конце 1990-х годов.
Несколько семинаров были посвящены взаимодействию IR и HCI. Семинар по исследовательскому поиску, инициированный Лабораторией взаимодействия человека и компьютера Мэрилендского университета в 2005 году, чередуется между конференциями Ассоциации вычислительной техники Special Interest Group on Information Retrieval (SIGIR) и Special Interest Group on Computer-Human Interaction (CHI). Также в 2005 году Европейский научный фонд провел исследовательский семинар по поиску информации в контексте. Затем, первый семинар по поиску информации между человеком и компьютером состоялся в 2007 году в Массачусетском технологическом институте .
HCIR включает в себя различные аспекты IR и HCI. К ним относятся исследовательский поиск , в котором пользователи обычно комбинируют стратегии запросов и просмотра для содействия обучению и исследованию; поиск информации в контексте (т. е. с учетом аспектов пользователя или среды, которые обычно не отражаются в запросе); и интерактивный поиск информации, который Питер Ингверсен определяет как «интерактивные коммуникационные процессы, которые происходят во время поиска информации путем вовлечения всех основных участников поиска информации (IR), т. е. пользователя, посредника и системы IR». [2]
Ключевой задачей HCIR является то, чтобы ИК-системы, предназначенные для пользователей-людей, были реализованы и оценены таким образом, чтобы отражать потребности этих пользователей. [3]
Большинство современных IR-систем используют модель ранжированного поиска, в которой документы оцениваются на основе вероятности релевантности документа запросу . [4] В этой модели система представляет пользователю только документы с самым высоким рейтингом. Эти системы обычно оцениваются на основе их средней точности по набору контрольных запросов от таких организаций, как Text Retrieval Conference (TREC).
Из-за акцента на использовании человеческого интеллекта в процессе поиска информации, HCIR требует различных моделей оценки — той, которая объединяет оценку компонентов IR и HCI системы. Ключевая область исследований в HCIR включает оценку этих систем. Ранние работы по интерактивному поиску информации, такие как исследование Юргена Кёнеманна и Николаса Дж. Белкина 1996 года различных уровней взаимодействия для автоматического переформулирования запросов, используют стандартные меры IR точности и полноты , но применяют их к результатам нескольких итераций взаимодействия с пользователем, а не к одному ответу на запрос. [5] Другие исследования HCIR, такие как модель оценки IIR Пии Борлунд, применяют методологию, больше напоминающую HCI, фокусируясь на характеристиках пользователей, деталях экспериментального дизайна и т. д. [6]
Исследователи HCIR выдвинули следующие цели для создания системы, в которой пользователь имеет больше контроля над определением релевантных результатов. [1] [7]
Системы должны
Короче говоря, ожидается, что системы поиска информации будут работать так же, как это делают хорошие библиотеки. Системы должны помогать пользователям преодолевать разрыв между данными или информацией (в очень узком, гранулярном смысле этих терминов) и знаниями (обработанными данными или информацией, которые обеспечивают контекст, необходимый для информирования следующей итерации процесса поиска информации). То есть, хорошие библиотеки предоставляют как информацию, необходимую посетителю, так и партнера в процессе обучения — специалиста по информации — для навигации по этой информации, ее понимания, сохранения и превращения в знания (что, в свою очередь, создает новые, более информированные потребности в информации).
Методы, связанные с HCIR, подчеркивают представления информации, которые используют человеческий интеллект, чтобы привести пользователя к соответствующим результатам. Эти методы также стремятся позволить пользователям исследовать и усваивать набор данных без штрафных санкций, т. е. без ненужных затрат времени, щелчков мыши или изменения контекста.
Многие поисковые системы имеют функции, включающие методы HCIR. Предложения по правописанию и автоматическое переформулирование запросов предоставляют механизмы для предложения потенциальных путей поиска, которые могут привести пользователя к релевантным результатам. Эти предложения представляются пользователю, передавая контроль над выбором и интерпретацией в его руки.
Фасетный поиск позволяет пользователям перемещаться по информации иерархически , переходя от категории к ее подкатегориям, но выбирая порядок, в котором категории представлены. Это контрастирует с традиционными таксономиями , в которых иерархия категорий фиксирована и неизменна. Фасетная навигация , как и таксономическая навигация, направляет пользователей, показывая им доступные категории (или фасеты), но не требует от них просматривать иерархию, которая может не совсем соответствовать их потребностям или образу мышления. [8]
Lookahead обеспечивает общий подход к исследованию без штрафов. Например, различные веб-приложения используют AJAX для автоматического завершения терминов запроса и предложения популярных поисков. Другим распространенным примером lookahead является способ, которым поисковые системы аннотируют результаты с помощью сводной информации об этих результатах, включая как статическую информацию (например, метаданные об объектах), так и «фрагменты» текста документа, которые наиболее релевантны словам в поисковом запросе.
Обратная связь по релевантности позволяет пользователям управлять IR-системой, указывая, являются ли конкретные результаты более или менее релевантными. [9]
Резюмирование и аналитика помогают пользователям усваивать результаты, возвращаемые запросом. Резюмирование здесь призвано охватывать любые средства агрегации или сжатия результатов запроса в более удобную для восприятия человеком форму. Фасетный поиск, описанный выше, является одной из таких форм резюмирования. Другой — кластеризация , которая анализирует набор документов, группируя похожие или совместно встречающиеся документы или термины. Кластеризация позволяет разбить результаты на группы связанных документов. Например, поиск по запросу «java» может возвращать кластеры для Java (язык программирования) , Java (остров) или Java (кофе) .
Визуальное представление данных также считается ключевым аспектом HCIR. Представление обобщения или аналитики может отображаться в виде таблиц, диаграмм или сводок агрегированных данных. Другие виды визуализации информации , которые позволяют пользователям получать доступ к сводным представлениям результатов поиска, включают облака тегов и древовидное отображение .