Получение информационных ресурсов, соответствующих информационной потребности.
Поиск информации ( IR ) в вычислительной технике и информатике — это задача идентификации и извлечения ресурсов информационной системы , которые соответствуют информационной потребности . Информационная потребность может быть указана в виде поискового запроса. В случае поиска документов запросы могут основываться на полнотекстовой или другой индексации на основе содержимого. Информационный поиск — это наука [1] о поиске информации в документе, поиске самих документов, а также поиске метаданных , описывающих данные, и баз данных текстов, изображений или звуков.
Автоматизированные системы поиска информации используются для уменьшения так называемой информационной перегрузки . IR-система — это программная система, обеспечивающая доступ к книгам, журналам и другим документам; он также хранит и управляет этими документами. Поисковые системы в Интернете являются наиболее заметными ИК-приложениями.
Обзор
Процесс поиска информации начинается, когда пользователь вводит запрос в систему. Запросы — это формальные заявления о информационных потребностях, например строки поиска в поисковых системах Интернета. При поиске информации запрос не идентифицирует однозначно ни один объект в коллекции. Вместо этого запросу могут соответствовать несколько объектов, возможно, с разной степенью релевантности .
Объект — это сущность, представленная информацией в коллекции контента или базе данных . Пользовательские запросы сопоставляются с информацией базы данных. Однако, в отличие от классических SQL-запросов к базе данных, при поиске информации возвращаемые результаты могут соответствовать запросу, а могут и не соответствовать, поэтому результаты обычно ранжируются. Такое ранжирование результатов является ключевым отличием информационного поиска от поиска в базе данных. [2]
В зависимости от приложения объектами данных могут быть, например, текстовые документы, изображения, [3] аудио, [4] интеллект-карты [5] или видео. Часто сами документы не хранятся непосредственно в системе IR, а вместо этого представлены в системе суррогатами документов или метаданными .
Большинство IR-систем вычисляют числовой показатель того, насколько хорошо каждый объект в базе данных соответствует запросу, и ранжируют объекты в соответствии с этим значением. Затем пользователю отображаются объекты с самым высоким рейтингом. Затем процесс может быть повторен, если пользователь желает уточнить запрос. [6]
История
существует... машина под названием Univac... с помощью которой буквы и цифры кодируются в виде узора из магнитных пятен на длинной стальной ленте. Таким образом, может быть записан текст документа, которому предшествует символ его тематического кода... машина... автоматически выбирает и печатает те ссылки, которые были закодированы любым желаемым способом, со скоростью 120 слов в минуту.
- Дж. Э. Хольмстрем, 1948 г.
Идея использования компьютеров для поиска необходимой информации была популяризирована в статье Ванневара Буша «Как мы можем думать» в 1945 году . [7] Судя по всему, Буша вдохновили патенты на «статистическую машину», поданные Эммануэлем Голдбергом. в 1920-е и 1930-е годы – искали документы, хранящиеся на пленке. [8] Первое описание компьютера для поиска информации было описано Хольмстремом в 1948 году, [9] подробно описывая раннее упоминание о компьютере Univac . Автоматизированные системы поиска информации были внедрены в 1950-х годах: одна из них даже была показана в романтической комедии 1957 года « Настольный набор» . В 1960-х годах Джерардом Солтоном в Корнелле была сформирована первая крупная исследовательская группа по поиску информации . К 1970-м годам было показано, что несколько различных методов поиска хорошо работают с небольшими текстовыми массивами , такими как коллекция Крэнфилда (несколько тысяч документов). [7] Крупномасштабные поисковые системы, такие как система Lockheed Dialog, начали использоваться в начале 1970-х годов.
В 1992 году Министерство обороны США вместе с Национальным институтом стандартов и технологий (NIST) выступило соавтором конференции по текстовому поиску (TREC) в рамках текстовой программы TIPSTER. Целью этого было изучить сообщество поиска информации путем предоставления инфраструктуры, необходимой для оценки методологий поиска текста в очень большой коллекции текстов. Это послужило катализатором исследований методов, которые можно масштабировать до огромных корпусов. Внедрение поисковых систем еще больше увеличило потребность в очень крупномасштабных поисковых системах.
Приложения
Области, в которых используются методы поиска информации, включают (в каждой категории записи расположены в алфавитном порядке):
Категоризация IR-моделей (перевод с немецкого, первоисточник Доминик Куропка)
Для эффективного извлечения соответствующих документов с помощью стратегий IR документы обычно преобразуются в подходящее представление. Каждая стратегия поиска включает определенную модель для целей представления документа. Рисунок справа иллюстрирует взаимосвязь некоторых распространенных моделей. На рисунке модели классифицированы по двум параметрам: математическая основа и свойства модели.
Первое измерение: математическая основа
Теоретико-множественные модели представляют документы как наборы слов или фраз. Сходства обычно выводятся из теоретико-множественных операций над этими множествами. Распространенными моделями являются:
Алгебраические модели представляют документы и запросы обычно в виде векторов, матриц или кортежей. Сходство вектора запроса и вектора документа представляется в виде скалярного значения.
Вероятностные модели рассматривают процесс поиска документов как вероятностный вывод. Сходства рассчитываются как вероятность того, что документ соответствует данному запросу. В этих моделях часто используются вероятностные теоремы, такие как теорема Байеса .
Модели поиска на основе функций рассматривают документы как векторы значений функций функций (или просто функций ) и ищут лучший способ объединить эти функции в единый показатель релевантности, обычно путем обучения методам ранжирования . Функциональные функции — это произвольные функции документа и запроса, поэтому они могут легко включать практически любую другую модель поиска в качестве еще одной функции.
Второе измерение: свойства модели
Модели без взаимозависимостей терминов рассматривают разные термины/слова как независимые. Этот факт обычно представляется в моделях векторного пространства предположением ортогональности векторов термов или в вероятностных моделях - предположением независимости переменных-термов.
Модели с имманентными взаимозависимостями терминов позволяют представлять взаимозависимости между терминами. Однако степень взаимозависимости между двумя терминами определяется самой моделью. Обычно он прямо или косвенно выводится (например, путем уменьшения размеров ) из совместного появления этих терминов во всем наборе документов.
Модели с трансцендентными взаимозависимостями терминов позволяют представлять взаимозависимости между терминами, но они не утверждают, как определяется взаимозависимость между двумя терминами. Они полагаются на внешний источник степени взаимозависимости между двумя терминами. (Например, человек или сложные алгоритмы.)
Показатели производительности и правильности
Оценка системы информационного поиска — это процесс оценки того, насколько хорошо система удовлетворяет информационные потребности своих пользователей. В общем случае измерение предполагает совокупность документов, в которых осуществляется поиск, и поисковый запрос. Традиционные метрики оценки, предназначенные для логического извлечения [ необходимы пояснения ] или поиска top-k, включают точность и полноту . Все меры предполагают базовое понятие релевантности: известно, что каждый документ либо релевантный, либо нерелевантный конкретному запросу. На практике запросы могут быть некорректными и иметь разные оттенки релевантности.
Эмануэль Голдберг подает патенты на свою «Статистическую машину», поисковую систему документов, которая использовала фотоэлектрические элементы и распознавание образов для поиска метаданных на рулонах микрофильмированных документов.
1940–1950-е годы
Конец 1940-х годов : американские военные столкнулись с проблемами индексации и поиска документов научных исследований военного времени, захваченных у немцев.
1947 : Ханс Петер Лун (инженер-исследователь в IBM с 1941 года) начал работу над механизированной системой на основе перфокарт для поиска химических соединений.
1950-е годы : Растущая обеспокоенность в США по поводу «научного разрыва» с СССР мотивировала, поощряла финансирование и создавала основу для механизированных систем поиска литературы ( Аллен Кент и др. ), а также изобретение индекса цитирования Юджином Гарфилдом .
1950 : Термин «поиск информации» был придуман Кэлвином Мурсом . [10]
1951 : Филип Бэгли провел первый эксперимент по компьютеризированному поиску документов в своей магистерской диссертации в Массачусетском технологическом институте . [11]
1955 : Аллен Кент поступил на работу в Университет Кейс Вестерн Резерв и в конечном итоге стал заместителем директора Центра исследований документации и коммуникаций. В том же году Кент и его коллеги опубликовали в журнале American Documentation статью, в которой описываются меры точности и полноты, а также подробно описывается предлагаемая «структура» для оценки системы IR, которая включает методы статистической выборки для определения количества неполученных соответствующих документов. [12]
1958 : Международная конференция по научной информации в Вашингтоне, округ Колумбия, рассмотрела рассмотрение систем ИК как решения выявленных проблем. См.: Материалы Международной конференции по научной информации, 1958 г. (Национальная академия наук, Вашингтон, округ Колумбия, 1959 г.).
1959 : Ганс Петер Лун опубликовал «Автоматическое кодирование документов для поиска информации».
1960-е :
начало 1960-х : Джерард Солтон начал работу в области международных отношений в Гарварде, позже переехал в Корнелл.
1960 : Мелвин Эрл Марон и Джон Лари Кунс [13] опубликовали статью «Об релевантности, вероятностном индексировании и поиске информации» в журнале ACM 7 (3): 216–244, июль 1960 года.
1962 :
Сирил В. Клевердон опубликовал первые результаты исследований Крэнфилда, разработав модель оценки системы IR. См.: Сирил В. Клевердон, «Отчет о тестировании и анализе исследования сравнительной эффективности систем индексирования». Крэнфилдская коллекция аэронавтики, Крэнфилд, Англия, 1962.
Кент опубликовал «Анализ и поиск информации» .
1963 :
Доклад Вайнберга «Наука, правительство и информация» дал полную формулировку идеи «кризиса научной информации». Доклад был назван в честь доктора Элвина Вайнберга .
Джозеф Беккер и Роберт М. Хейс опубликовали текст по поиску информации. Беккер, Джозеф; Хейс, Роберт Мэйо. Хранение и поиск информации: инструменты, элементы, теории . Нью-Йорк, Уайли (1963).
1964 :
Карен Сперк Джонс защитила диссертацию по теме «Синонимия и семантическая классификация» в Кембридже и продолжила работу в области компьютерной лингвистики применительно к международным отношениям.
Национальное бюро стандартов спонсировало симпозиум под названием «Методы статистической ассоциации для механизированной документации». Несколько весьма важных статей, в том числе первая опубликованная ссылка (на наш взгляд) Дж. Солтона на систему SMART .
середина 1960-х :
Национальная медицинская библиотека разработала систему анализа и поиска медицинской литературы MEDLARS , первую крупную машиночитаемую базу данных и систему пакетного поиска.
Проект Intrex в Массачусетском технологическом институте.
1965 : JCR Licklider опубликовал «Библиотеки будущего» .
1966 : Дон Суонсон участвовал в исследованиях требований к будущим каталогам в Чикагском университете.
Конец 1960-х : Ф. Уилфрид Ланкастер завершил оценочные исследования системы MEDLARS и опубликовал первое издание своего текста по поиску информации.
1968 :
Джерард Солтон опубликовал книгу «Автоматическая организация и поиск информации» .
В отчете Джона В. Сэммона-младшего RADC Tech «Некоторые математические методы хранения и поиска информации…» изложена векторная модель.
1969 : Книга Сэммона «Нелинейное отображение для анализа структуры данных, заархивировано 8 августа 2017 г. в Wayback Machine » (IEEE Transactions on Computers) была первым предложением по интерфейсу визуализации для ИК-системы.
1970-е годы
начало 1970-х :
Первые онлайн-системы — AIM-TWX компании NLM, MEDLINE; Диалог Локхид; ОРБИТА SDC.
1971 : Николас Джардин и Корнелис Дж. ван Рейсберген опубликовали «Использование иерархической кластеризации в поиске информации», в которой сформулировали «гипотезу кластера». [14]
1975 : Три очень влиятельные публикации Солтона полностью изложили его структуру векторной обработки и модель дискриминации терминов :
Теория индексации (Общество промышленной и прикладной математики)
Теория важности терминов в автоматическом анализе текста ( JASIS , версия 26)
Модель векторного пространства для автоматического индексирования ( CACM 18:11)
1979 : Си Джей ван Рейсберген опубликовал «Поиск информации» (Баттервортс). Большой упор на вероятностные модели.
1979 : Тамаш Дошкоч внедрил пользовательский интерфейс CITE на естественном языке для MEDLINE в Национальной медицинской библиотеке. Система CITE поддерживала ввод запросов в свободной форме, ранжирование результатов и обратную связь по релевантности. [15]
1980-е годы
1980 : Первая международная конференция ACM SIGIR, совместная с группой IR Британского компьютерного общества в Кембридже.
1982 : Николас Дж. Белкин , Роберт Н. Одди и Хелен М. Брукс предложили точку зрения ASK (аномальное состояние знаний) для поиска информации. Это была важная концепция, хотя их инструмент автоматического анализа в конечном итоге разочаровал.
1983 : Солтон (и Майкл Дж. МакГилл) опубликовали «Введение в современный поиск информации» (McGraw-Hill), уделив большое внимание векторным моделям.
1985 : Дэвид Блэр и Билл Марон публикуют: «Оценка эффективности поиска для системы полнотекстового поиска документов».
середина 1980-х : попытки разработать версии коммерческих ИК-систем для конечных пользователей.
1985–1993 : Ключевые статьи по экспериментальным системам интерфейсов визуализации.
Работы Дональда Б. Крауча, Роберта Р. Корфхаге , Мэтью Чалмерса, Ансельма Сперри и других.
1997 : Публикация книги Корфхаге « Хранение и поиск информации» [16] с акцентом на визуализацию и системы с несколькими точками отсчета.
1999 : Публикация книги Аддисона Уэсли «Современный поиск информации» Рикардо Баэса-Йейтса и Бертье Рибейро-Нето , первой книги, в которой делается попытка охватить все международные отношения.
Конец 1990-х годов : реализация в поисковых системах многих функций, ранее встречавшихся только в экспериментальных ИК-системах. Поисковые системы становятся наиболее распространенным и, возможно, лучшим примером реализации IR-моделей.
Крупные конференции
SIGIR: Конференция по исследованиям и разработкам в области информационного поиска
Поиск данных - способ получения данных из базы данных.
Европейская летняя школа по информационному поиску - ESSIR способствует исследованиям, инновациям и разработке систем доступа к информации, обучая младших и старших исследователей, студентов, специалистов и разработчиков новейшим разработкам в этой области, как методологическим, так и технологическим.Страницы, отображающие описания викиданных в качестве запасного варианта
Поиск социальной информации - область исследований, которая включает изучение ситуаций, мотиваций и методов для людей, которые ищут и делятся информацией на совместных социальных сайтах.Страницы, отображающие описания викиданных в качестве запасного варианта
Визуализация знаний - набор методов создания изображений, диаграмм или анимации для передачи сообщения.Страницы с краткими описаниями целей перенаправления.
Извлечение XML – извлечение XML-документов на основе содержимого.
Веб-майнинг — процесс извлечения и обнаружения закономерностей в больших наборах данных.Страницы с краткими описаниями целей перенаправления.
Рекомендации
^ Лук, РВП (2022). «Почему поиск информации является научной дисциплиной?». Основы науки . 27 (2): 427–453. дои : 10.1007/s10699-020-09685-x. hdl : 10397/94873 . S2CID 220506422.
^ Янсен, Б. Дж. и Ри, С. (2010) Семнадцать теоретических конструкций поиска и извлечения информации. Архивировано 4 марта 2016 г. в Wayback Machine . Журнал Американского общества информационных наук и технологий. 61 (8), 1517–1534.
^ Гудрам, Эбби А. (2000). «Поиск информации об изображении: обзор текущих исследований». Информационная наука . 3 (2).
^ Бил, Йоран; Гипп, Бела; Стиллер, Ян-Олаф (2009). Поиск информации по интеллект-картам — для чего это может быть полезно? Материалы 5-й Международной конференции по совместным вычислениям: сети, приложения и совместная работа (CollaborateCom'09). Вашингтон, округ Колумбия: IEEE. Архивировано из оригинала 13 мая 2011 г. Проверено 13 марта 2012 г.
^ Фрейкс, Уильям Б.; Баеза-Йейтс, Рикардо (1992). Структуры и алгоритмы информационного поиска. ISBN Прентис-Холл, Inc.978-0-13-463837-9. Архивировано из оригинала 28 сентября 2013 г.
^ Аб Сингхал, Амит (2001). «Современный поиск информации: краткий обзор» (PDF) . Бюллетень Технического комитета по инженерии данных IEEE Computer Society . 24 (4): 35–43.
^ Марк Сандерсон и В. Брюс Крофт (2012). «История информационно-поисковых исследований». Труды IEEE . 100 : 1444–1451. дои : 10.1109/jproc.2012.2189916 .
^ Дж. Э. Хольмстрем (1948). «Секция III. Открытие пленарного заседания». Научно-информационная конференция Королевского общества, 21 июня — 2 июля 1948 г.: Представлено отчет и документы : 85.
^ Мурс, Кэлвин Н.; Теория цифровой обработки нечисловой информации и ее значение для экономики машин (Технический бюллетень Zator № 48), цитируется в Fairthorne, RA (1958). «Автоматический поиск записанной информации». Компьютерный журнал . 1 (1): 37. дои : 10.1093/comjnl/1.1.36 .
^ Дойл, Лорен; Беккер, Джозеф (1975). Поиск и обработка информации . Мелвилл. стр. 410 стр. ISBN978-0-471-22151-7.
^ Перри, Джеймс В.; Кент, Аллен; Берри, Мэдлин М. (1955). «Поиск в машинной литературе X. Машинный язык; факторы, лежащие в основе его проектирования и развития». Американская документация . 6 (4): 242–254. дои : 10.1002/asi.5090060411.
^ Марон, Мелвин Э. (2008). «Историческая справка о происхождении вероятностного индексирования» (PDF) . Обработка информации и управление . 44 (2): 971–972. дои : 10.1016/j.ipm.2007.02.012.
^ Н. Джардин, CJ ван Рейсберген (декабрь 1971 г.). «Использование иерархической кластеризации в поиске информации». Хранение и поиск информации . 7 (5): 217–240. дои : 10.1016/0020-0271(71)90051-9.
^ Дошкоч, Т.Э. и Рапп, бакалавр (1979). «Поиск в MEDLINE на английском языке: прототип пользовательского интерфейса с запросами на естественном языке, ранжированным выводом и обратной связью по релевантности», В: Proceedings of the ASIS Annual Meeting, 16: 131-139.
^ Корфхаге, Роберт Р. (1997). Хранение и поиск информации . Уайли. стр. 368 стр. ISBN978-0-471-14338-3.
дальнейшее чтение
Рикардо Баэса-Йейтс, Бертье Рибейру-Нето. Современный поиск информации: концепции и технологии поиска (второе издание). Архивировано 18 сентября 2017 г. в Wayback Machine . Аддисон-Уэсли, Великобритания, 2011 г.
Стефан Бютчер, Чарльз Л.А. Кларк и Гордон В. Кормак. Поиск информации: внедрение и оценка поисковых систем. Архивировано 5 октября 2020 г. в Wayback Machine . MIT Press, Кембридж, Массачусетс, 2010.
«Информационно-поисковая система». Сеть библиотек и информатики . 24 апреля 2015 г. Архивировано из оригинала 11 мая 2020 г. . Проверено 3 мая 2020 г.
Кристофер Д. Мэннинг, Прабхакар Рагхаван и Хинрих Шютце. Введение в поиск информации. Издательство Кембриджского университета, 2008.
Йо, ШинДжон. (2023) За окном поиска: Google и глобальная интернет-индустрия (U of Illinois Press, 2023) ISBN 10: 0252087127 онлайн
Внешние ссылки
В Wikiquote есть цитаты, связанные с поиском информации .
Викискладе есть медиафайлы, связанные с поиском информации .
ACM SIGIR: Специальная группа по поиску информации
BCS IRSG: Британское компьютерное общество – группа специалистов по поиску информации