Поиск информации

Поиск информации ( IR ) в вычислительной технике и информатике — это задача идентификации и извлечения ресурсов информационной системы , которые соответствуют информационной потребности . Информационная потребность может быть указана в виде поискового запроса. В случае поиска документов запросы могут основываться на полнотекстовой или другой индексации на основе содержимого. Информационный поиск — это наука ^[1] о поиске информации в документе, поиске самих документов, а также поиске метаданных , описывающих данные, и баз данных текстов, изображений или звуков.

Автоматизированные системы поиска информации используются для уменьшения так называемой информационной перегрузки . IR-система — это программная система, обеспечивающая доступ к книгам, журналам и другим документам; он также хранит и управляет этими документами. Поисковые системы в Интернете являются наиболее заметными ИК-приложениями.

Обзор

Процесс поиска информации начинается, когда пользователь вводит запрос в систему. Запросы — это формальные заявления о информационных потребностях, например строки поиска в поисковых системах Интернета. При поиске информации запрос не идентифицирует однозначно ни один объект в коллекции. Вместо этого запросу могут соответствовать несколько объектов, возможно, с разной степенью релевантности .

Объект — это сущность, представленная информацией в коллекции контента или базе данных . Пользовательские запросы сопоставляются с информацией базы данных. Однако, в отличие от классических SQL-запросов к базе данных, при поиске информации возвращаемые результаты могут соответствовать запросу, а могут и не соответствовать, поэтому результаты обычно ранжируются. Такое ранжирование результатов является ключевым отличием информационного поиска от поиска в базе данных. ^[2]

В зависимости от приложения объектами данных могут быть, например, текстовые документы, изображения, ^[3] аудио, ^[4] интеллект-карты ^[5] или видео. Часто сами документы не хранятся непосредственно в системе IR, а вместо этого представлены в системе суррогатами документов или метаданными .

Большинство IR-систем вычисляют числовой показатель того, насколько хорошо каждый объект в базе данных соответствует запросу, и ранжируют объекты в соответствии с этим значением. Затем пользователю отображаются объекты с самым высоким рейтингом. Затем процесс может быть повторен, если пользователь желает уточнить запрос. ^[6]

История

существует... машина под названием Univac... с помощью которой буквы и цифры кодируются в виде узора из магнитных пятен на длинной стальной ленте. Таким образом, может быть записан текст документа, которому предшествует символ его тематического кода... машина... автоматически выбирает и печатает те ссылки, которые были закодированы любым желаемым способом, со скоростью 120 слов в минуту.
- Дж. Э. Хольмстрем, 1948 г.

Идея использования компьютеров для поиска необходимой информации была популяризирована в статье Ванневара Буша «Как мы можем думать» в 1945 году ^{. [7]} Судя по всему, Буша вдохновили патенты на «статистическую машину», поданные Эммануэлем Голдбергом. в 1920-е и 1930-е годы – искали документы, хранящиеся на пленке. ^[8] Первое описание компьютера для поиска информации было описано Хольмстремом в 1948 году, ^[9] подробно описывая раннее упоминание о компьютере Univac . Автоматизированные системы поиска информации были внедрены в 1950-х годах: одна из них даже была показана в романтической комедии 1957 года « Настольный набор» . В 1960-х годах Джерардом Солтоном в Корнелле была сформирована первая крупная исследовательская группа по поиску информации . К 1970-м годам было показано, что несколько различных методов поиска хорошо работают с небольшими текстовыми массивами , такими как коллекция Крэнфилда (несколько тысяч документов). ^[7] Крупномасштабные поисковые системы, такие как система Lockheed Dialog, начали использоваться в начале 1970-х годов.

В 1992 году Министерство обороны США вместе с Национальным институтом стандартов и технологий (NIST) выступило соавтором конференции по текстовому поиску (TREC) в рамках текстовой программы TIPSTER. Целью этого было изучить сообщество поиска информации путем предоставления инфраструктуры, необходимой для оценки методологий поиска текста в очень большой коллекции текстов. Это послужило катализатором исследований методов, которые можно масштабировать до огромных корпусов. Внедрение поисковых систем еще больше увеличило потребность в очень крупномасштабных поисковых системах.

Приложения

Области, в которых используются методы поиска информации, включают (в каждой категории записи расположены в алфавитном порядке):

Общие приложения

Электронные библиотеки
Фильтрация информации
- Рекомендательные системы
Медиа-поиск
- Поиск по блогам
- Получение изображения
- 3D-извлечение
- Поиск музыки
- Поиск новостей
- Восстановление речи
- Поиск видео
Поисковые системы
- Поиск по сайту
- Поиск на рабочем столе
- Корпоративный поиск
- Федеративный поиск
- Мобильный поиск
- Социальный поиск
- веб-поиск

Специализированные приложения

Экспертный поиск
Поиск геномной информации
Поиск географической информации
Поиск информации по химическим структурам
Информационный поиск в программной инженерии
Поиск юридической информации
Вертикальный поиск

Другие методы поиска

Методы/техники, в которых используются методы поиска информации, включают:

Типы моделей

Категоризация IR-моделей (перевод с немецкого, первоисточник Доминик Куропка)

Для эффективного извлечения соответствующих документов с помощью стратегий IR документы обычно преобразуются в подходящее представление. Каждая стратегия поиска включает определенную модель для целей представления документа. Рисунок справа иллюстрирует взаимосвязь некоторых распространенных моделей. На рисунке модели классифицированы по двум параметрам: математическая основа и свойства модели.

Первое измерение: математическая основа

Теоретико-множественные модели представляют документы как наборы слов или фраз. Сходства обычно выводятся из теоретико-множественных операций над этими множествами. Распространенными моделями являются:
Алгебраические модели представляют документы и запросы обычно в виде векторов, матриц или кортежей. Сходство вектора запроса и вектора документа представляется в виде скалярного значения.
Вероятностные модели рассматривают процесс поиска документов как вероятностный вывод. Сходства рассчитываются как вероятность того, что документ соответствует данному запросу. В этих моделях часто используются вероятностные теоремы, такие как теорема Байеса .
- Модель двоичной независимости
- Вероятностная модель релевантности , на которой основана функция релевантности Окапи (BM25).
- Неопределенный вывод
- Языковые модели
- Модель отклонения от случайности
- Скрытое распределение Дирихле
Модели поиска на основе функций рассматривают документы как векторы значений функций функций (или просто функций ) и ищут лучший способ объединить эти функции в единый показатель релевантности, обычно путем обучения методам ранжирования . Функциональные функции — это произвольные функции документа и запроса, поэтому они могут легко включать практически любую другую модель поиска в качестве еще одной функции.

Второе измерение: свойства модели

Модели без взаимозависимостей терминов рассматривают разные термины/слова как независимые. Этот факт обычно представляется в моделях векторного пространства предположением ортогональности векторов термов или в вероятностных моделях - предположением независимости переменных-термов.
Модели с имманентными взаимозависимостями терминов позволяют представлять взаимозависимости между терминами. Однако степень взаимозависимости между двумя терминами определяется самой моделью. Обычно он прямо или косвенно выводится (например, путем уменьшения размеров ) из совместного появления этих терминов во всем наборе документов.
Модели с трансцендентными взаимозависимостями терминов позволяют представлять взаимозависимости между терминами, но они не утверждают, как определяется взаимозависимость между двумя терминами. Они полагаются на внешний источник степени взаимозависимости между двумя терминами. (Например, человек или сложные алгоритмы.)

Показатели производительности и правильности

Оценка системы информационного поиска — это процесс оценки того, насколько хорошо система удовлетворяет информационные потребности своих пользователей. В общем случае измерение предполагает совокупность документов, в которых осуществляется поиск, и поисковый запрос. Традиционные метрики оценки, предназначенные для логического извлечения ^{[ необходимы пояснения ]} или поиска top-k, включают точность и полноту . Все меры предполагают базовое понятие релевантности: известно, что каждый документ либо релевантный, либо нерелевантный конкретному запросу. На практике запросы могут быть некорректными и иметь разные оттенки релевантности.

График

До 1900-х годов
1801 : Жозеф Мари Жаккар изобретает жаккардовый ткацкий станок , первую машину, использующую перфокарты для управления последовательностью операций.
1880-е годы : Герман Холлерит изобретает электромеханический табулятор данных, использующий перфокарты в качестве машиночитаемого носителя.
Карточки Холлерита 1890 года , перфораторы и табуляторы , использованные для обработки данных переписи населения США 1890 года .
1920-1930-е годы
Эмануэль Голдберг подает патенты на свою «Статистическую машину», поисковую систему документов, которая использовала фотоэлектрические элементы и распознавание образов для поиска метаданных на рулонах микрофильмированных документов.
1940–1950-е годы
Конец 1940-х годов : американские военные столкнулись с проблемами индексации и поиска документов научных исследований военного времени, захваченных у немцев.
1945 : В журнале Atlantic Monthly появилась книга Ванневара Буша «Как мы можем думать» .
1947 : Ханс Петер Лун (инженер-исследователь в IBM с 1941 года) начал работу над механизированной системой на основе перфокарт для поиска химических соединений.
1950-е годы : Растущая обеспокоенность в США по поводу «научного разрыва» с СССР мотивировала, поощряла финансирование и создавала основу для механизированных систем поиска литературы ( Аллен Кент и др. ), а также изобретение индекса цитирования Юджином Гарфилдом .
1950 : Термин «поиск информации» был придуман Кэлвином Мурсом . ^[10]
1951 : Филип Бэгли провел первый эксперимент по компьютеризированному поиску документов в своей магистерской диссертации в Массачусетском технологическом институте . ^[11]
1955 : Аллен Кент поступил на работу в Университет Кейс Вестерн Резерв и в конечном итоге стал заместителем директора Центра исследований документации и коммуникаций. В том же году Кент и его коллеги опубликовали в журнале American Documentation статью, в которой описываются меры точности и полноты, а также подробно описывается предлагаемая «структура» для оценки системы IR, которая включает методы статистической выборки для определения количества неполученных соответствующих документов. ^[12]
1958 : Международная конференция по научной информации в Вашингтоне, округ Колумбия, рассмотрела рассмотрение систем ИК как решения выявленных проблем. См.: Материалы Международной конференции по научной информации, 1958 г. (Национальная академия наук, Вашингтон, округ Колумбия, 1959 г.).
1959 : Ганс Петер Лун опубликовал «Автоматическое кодирование документов для поиска информации».
1960-е :
начало 1960-х : Джерард Солтон начал работу в области международных отношений в Гарварде, позже переехал в Корнелл.
1960 : Мелвин Эрл Марон и Джон Лари Кунс ^[13] опубликовали статью «Об релевантности, вероятностном индексировании и поиске информации» в журнале ACM 7 (3): 216–244, июль 1960 года.
1962 :
- Сирил В. Клевердон опубликовал первые результаты исследований Крэнфилда, разработав модель оценки системы IR. См.: Сирил В. Клевердон, «Отчет о тестировании и анализе исследования сравнительной эффективности систем индексирования». Крэнфилдская коллекция аэронавтики, Крэнфилд, Англия, 1962.
- Кент опубликовал «Анализ и поиск информации» .
1963 :
- Доклад Вайнберга «Наука, правительство и информация» дал полную формулировку идеи «кризиса научной информации». Доклад был назван в честь доктора Элвина Вайнберга .
- Джозеф Беккер и Роберт М. Хейс опубликовали текст по поиску информации. Беккер, Джозеф; Хейс, Роберт Мэйо. Хранение и поиск информации: инструменты, элементы, теории . Нью-Йорк, Уайли (1963).
1964 :
- Карен Сперк Джонс защитила диссертацию по теме «Синонимия и семантическая классификация» в Кембридже и продолжила работу в области компьютерной лингвистики применительно к международным отношениям.
- Национальное бюро стандартов спонсировало симпозиум под названием «Методы статистической ассоциации для механизированной документации». Несколько весьма важных статей, в том числе первая опубликованная ссылка (на наш взгляд) Дж. Солтона на систему SMART .
середина 1960-х :
Национальная медицинская библиотека разработала систему анализа и поиска медицинской литературы MEDLARS , первую крупную машиночитаемую базу данных и систему пакетного поиска.
Проект Intrex в Массачусетском технологическом институте.
1965 : JCR Licklider опубликовал «Библиотеки будущего» .
1966 : Дон Суонсон участвовал в исследованиях требований к будущим каталогам в Чикагском университете.
Конец 1960-х : Ф. Уилфрид Ланкастер завершил оценочные исследования системы MEDLARS и опубликовал первое издание своего текста по поиску информации.
1968 :
- Джерард Солтон опубликовал книгу «Автоматическая организация и поиск информации» .
- В отчете Джона В. Сэммона-младшего RADC Tech «Некоторые математические методы хранения и поиска информации…» изложена векторная модель.
1969 : Книга Сэммона «Нелинейное отображение для анализа структуры данных, заархивировано 8 августа 2017 г. в Wayback Machine » (IEEE Transactions on Computers) была первым предложением по интерфейсу визуализации для ИК-системы.
1970-е годы
начало 1970-х :
Первые онлайн-системы — AIM-TWX компании NLM, MEDLINE; Диалог Локхид; ОРБИТА SDC.
Теодор Нельсон продвигает концепцию гипертекста в публикации Computer Lib/Dream Machines .
1971 : Николас Джардин и Корнелис Дж. ван Рейсберген опубликовали «Использование иерархической кластеризации в поиске информации», в которой сформулировали «гипотезу кластера». ^[14]
1975 : Три очень влиятельные публикации Солтона полностью изложили его структуру векторной обработки и модель дискриминации терминов :
Теория индексации (Общество промышленной и прикладной математики)
Теория важности терминов в автоматическом анализе текста ( JASIS , версия 26)
Модель векторного пространства для автоматического индексирования ( CACM 18:11)
1978 : Первая конференция ACM SIGIR .
1979 : Си Джей ван Рейсберген опубликовал «Поиск информации» (Баттервортс). Большой упор на вероятностные модели.
1979 : Тамаш Дошкоч внедрил пользовательский интерфейс CITE на естественном языке для MEDLINE в Национальной медицинской библиотеке. Система CITE поддерживала ввод запросов в свободной форме, ранжирование результатов и обратную связь по релевантности. ^[15]
1980-е годы
1980 : Первая международная конференция ACM SIGIR, совместная с группой IR Британского компьютерного общества в Кембридже.
1982 : Николас Дж. Белкин , Роберт Н. Одди и Хелен М. Брукс предложили точку зрения ASK (аномальное состояние знаний) для поиска информации. Это была важная концепция, хотя их инструмент автоматического анализа в конечном итоге разочаровал.
1983 : Солтон (и Майкл Дж. МакГилл) опубликовали «Введение в современный поиск информации» (McGraw-Hill), уделив большое внимание векторным моделям.
1985 : Дэвид Блэр и Билл Марон публикуют: «Оценка эффективности поиска для системы полнотекстового поиска документов».
середина 1980-х : попытки разработать версии коммерческих ИК-систем для конечных пользователей.
1985–1993 : Ключевые статьи по экспериментальным системам интерфейсов визуализации.
Работы Дональда Б. Крауча, Роберта Р. Корфхаге , Мэтью Чалмерса, Ансельма Сперри и других.
1989 : Первые предложения Всемирной паутины Тима Бернерса-Ли в ЦЕРНе .
1990-е годы
1992 : Первая конференция TREC .
1997 : Публикация книги Корфхаге « Хранение и поиск информации» ^[16] с акцентом на визуализацию и системы с несколькими точками отсчета.
1999 : Публикация книги Аддисона Уэсли «Современный поиск информации» Рикардо Баэса-Йейтса и Бертье Рибейро-Нето , первой книги, в которой делается попытка охватить все международные отношения.
Конец 1990-х годов : реализация в поисковых системах многих функций, ранее встречавшихся только в экспериментальных ИК-системах. Поисковые системы становятся наиболее распространенным и, возможно, лучшим примером реализации IR-моделей.

Крупные конференции

SIGIR: Конференция по исследованиям и разработкам в области информационного поиска
ECIR: Европейская конференция по информационному поиску
CIKM: Конференция по управлению информацией и знаниями
WWW: Международная конференция Всемирной паутины
WSDM: Конференция по веб-поиску и интеллектуальному анализу данных
ICTIR: Международная конференция по теории информационного поиска

Награды в области

Смотрите также

Состязательный поиск информации . Стратегии поиска информации в наборах данных.
Память компьютера - компонент компьютера, хранящий информацию для немедленного использования.
Контролируемый словарный запас - Метод организации знаний.
Межъязыковый поиск информации – поиск информации на разных языках.
Интеллектуальный анализ данных — процесс извлечения и обнаружения закономерностей в больших наборах данных.
Поиск данных - способ получения данных из базы данных.
Европейская летняя школа по информационному поиску - ESSIR способствует исследованиям, инновациям и разработке систем доступа к информации, обучая младших и старших исследователей, студентов, специалистов и разработчиков новейшим разработкам в этой области, как методологическим, так и технологическим.
Человеко-компьютерный поиск информации ( HCIR )
Извлечение информации - машинное чтение неструктурированных документов.
Поиск информации - процесс или деятельность по попытке получения информации как в человеческом, так и в технологическом контексте.
- Поиск информации § По сравнению с поиском информации
- Совместный поиск информации
- Поиск социальной информации - область исследований, которая включает изучение ситуаций, мотиваций и методов для людей, которые ищут и делятся информацией на совместных социальных сайтах.
Центр поиска информации – организация в Вене, Австрия, 2006–2012 гг.
Визуализация знаний - набор методов создания изображений, диаграмм или анимации для передачи сообщения.
Поиск мультимедийной информации
Управление личной информацией – Инструменты и системы для управления собственными данными.
Выращивание жемчуга – Тип стратегии поиска
Понимание запроса – этап обработки поисковой системой
Релевантность (поиск информации) – мера применимости документа к данной теме или поисковому запросу.
Обратная связь по релевантности – тип обратной связи.
Классификация Роккио - модель классификации в машинном обучении, основанная на центроидах.
Индексирование поисковыми системами – метод управления данными
Специальная группа по поиску информации - Подгруппа Ассоциации вычислительной техники
Тематическое индексирование
Поиск временной информации - область исследований, связанных с поиском информации, ориентированная на своевременность.
tf–idf – Оценка важности слова в документе.
Извлечение XML – извлечение XML-документов на основе содержимого.
Веб-майнинг — процесс извлечения и обнаружения закономерностей в больших наборах данных.

дальнейшее чтение

Рикардо Баэса-Йейтс, Бертье Рибейру-Нето. Современный поиск информации: концепции и технологии поиска (второе издание). Архивировано 18 сентября 2017 г. в Wayback Machine . Аддисон-Уэсли, Великобритания, 2011 г.
Стефан Бютчер, Чарльз Л.А. Кларк и Гордон В. Кормак. Поиск информации: внедрение и оценка поисковых систем. Архивировано 5 октября 2020 г. в Wayback Machine . MIT Press, Кембридж, Массачусетс, 2010.
«Информационно-поисковая система». Сеть библиотек и информатики . 24 апреля 2015 г. Архивировано из оригинала 11 мая 2020 г. . Проверено 3 мая 2020 г.
Кристофер Д. Мэннинг, Прабхакар Рагхаван и Хинрих Шютце. Введение в поиск информации. Издательство Кембриджского университета, 2008.

Йо, ШинДжон. (2023) За окном поиска: Google и глобальная интернет-индустрия (U of Illinois Press, 2023) ISBN 10: 0252087127 онлайн

Внешние ссылки

В Wikiquote есть цитаты, связанные с поиском информации .

Викискладе есть медиафайлы, связанные с поиском информации .

ACM SIGIR: Специальная группа по поиску информации
BCS IRSG: Британское компьютерное общество – группа специалистов по поиску информации
Конференция по текстовому поиску (TREC)
Форум по оценке информационного поиска (FIRE)
Информационный поиск (онлайн-книга), Си Джей ван Рейсберген
Информационно-поисковая вики. Архивировано 24 ноября 2015 г. на Wayback Machine.
Средство поиска информации. Архивировано 22 мая 2008 г. в Wayback Machine.
Отчет TREC о методах оценки информационного поиска
Как eBay измеряет релевантность поиска
Инструмент оценки эффективности поиска информации @ Исследовательский центр Афина