stringtranslate.com

Поиск информации

Информационный поиск ( ИР ) в вычислительной технике и информатике — это задача идентификации и извлечения ресурсов информационной системы , которые соответствуют информационной потребности . Информационная потребность может быть указана в форме поискового запроса. В случае поиска документов запросы могут быть основаны на полнотекстовой или другой индексации на основе контента. Информационный поиск — это наука [1] о поиске информации в документе, поиске самих документов, а также поиске метаданных, описывающих данные, и баз данных текстов, изображений или звуков.

Автоматизированные системы поиска информации используются для уменьшения того, что называется информационной перегрузкой . IR-система — это программная система, которая обеспечивает доступ к книгам, журналам и другим документам; она также хранит и управляет этими документами. Веб-поисковые системы — самые заметные IR-приложения.

Обзор

Процесс поиска информации начинается, когда пользователь вводит запрос в систему. Запросы — это формальные заявления о потребностях в информации, например, строки поиска в поисковых системах. При поиске информации запрос не идентифицирует однозначно один объект в коллекции. Вместо этого запросу могут соответствовать несколько объектов, возможно, с разной степенью релевантности .

Объект — это сущность, представленная информацией в коллекции контента или базе данных . Пользовательские запросы сопоставляются с информацией базы данных. Однако, в отличие от классических SQL-запросов к базе данных, при поиске информации возвращаемые результаты могут соответствовать или не соответствовать запросу, поэтому результаты обычно ранжируются. Такое ранжирование результатов является ключевым отличием поиска информации от поиска в базе данных. [2]

В зависимости от приложения объектами данных могут быть, например, текстовые документы, изображения, [3] аудио, [4] ментальные карты [5] или видео. Часто сами документы не хранятся или не хранятся непосредственно в системе IR, а вместо этого представлены в системе суррогатами документов или метаданными .

Большинство систем IR вычисляют числовую оценку того, насколько хорошо каждый объект в базе данных соответствует запросу, и ранжируют объекты в соответствии с этим значением. Затем пользователю показываются объекты с наивысшим рейтингом. Затем процесс может быть повторен, если пользователь захочет уточнить запрос. [6]

История

есть ... машина, называемая Univac ..., с помощью которой буквы и цифры кодируются как рисунок магнитных пятен на длинной стальной ленте. С помощью этого можно записать текст документа, которому предшествует его символ кода предмета ... машина ... автоматически выбирает и печатает те ссылки, которые были закодированы любым желаемым способом со скоростью 120 слов в минуту

—  Дж. Э. Хольмстром, 1948 г.

Идея использования компьютеров для поиска соответствующих фрагментов информации была популяризирована в статье «Как мы можем думать » Ванневара Буша в 1945 году. [7] Похоже, что Буш был вдохновлен патентами на «статистическую машину», поданными Эмануэлем Голдбергом в 1920-х и 1930-х годах, которая искала документы, хранящиеся на пленке. [8] Первое описание компьютера, ищущего информацию, было описано Холмстромом в 1948 году, [9] подробно описывая раннее упоминание о компьютере Univac . Автоматизированные системы поиска информации были представлены в 1950-х годах: одна из них даже была представлена ​​в романтической комедии 1957 года « Настольный набор» . В 1960-х годах Джерард Солтон сформировал первую большую исследовательскую группу по поиску информации в Корнелле. К 1970-м годам было показано, что несколько различных методов поиска хорошо работают на небольших текстовых корпусах, таких как коллекция Крэнфилда (несколько тысяч документов). [7] Крупномасштабные поисковые системы, такие как система Lockheed Dialog, начали использоваться в начале 1970-х годов.

В 1992 году Министерство обороны США совместно с Национальным институтом стандартов и технологий (NIST) выступили соорганизаторами конференции по поиску текста (TREC) в рамках текстовой программы TIPSTER. Целью этого было изучение сообщества поиска информации путем предоставления инфраструктуры, необходимой для оценки методологий поиска текста на очень большой текстовой коллекции. Это послужило катализатором исследований методов, масштабируемых до огромных корпусов. Внедрение поисковых систем в Интернете еще больше усилило потребность в очень больших системах поиска.

Приложения

Области, в которых применяются методы поиска информации, включают (записи в алфавитном порядке внутри каждой категории):

Общие приложения

Приложения, специфичные для домена

Другие методы поиска

Методы/приемы, в которых используются методы поиска информации, включают:

Типы моделей

Категоризация IR-моделей (перевод с немецкого, первоисточник Доминик Куропка)

Для эффективного извлечения соответствующих документов с помощью стратегий IR документы обычно преобразуются в подходящее представление. Каждая стратегия извлечения включает определенную модель для целей представления документа. Изображение справа иллюстрирует взаимосвязь некоторых распространенных моделей. На рисунке модели классифицированы по двум измерениям: математическая основа и свойства модели.

Первое измерение: математическая основа

Второе измерение: свойства модели

Показатели производительности и корректности

Оценка системы поиска информации — это процесс оценки того, насколько хорошо система удовлетворяет информационные потребности своих пользователей. В общем, измерение рассматривает набор документов для поиска и поисковый запрос. Традиционные метрики оценки, разработанные для булевого поиска [ необходимо разъяснение ] или поиска top-k, включают точность и полноту . Все меры предполагают истинное представление о релевантности: известно, что каждый документ либо релевантен, либо нерелевантен определенному запросу. На практике запросы могут быть некорректно сформулированы , и могут быть различные оттенки релевантности.

Хронология

Крупные конференции

Награды в этой области

Смотрите также

Ссылки

  1. ^ Luk, RWP (2022). «Почему поиск информации является научной дисциплиной?». Foundations of Science . 27 (2): 427–453. doi :10.1007/s10699-020-09685-x. hdl : 10397/94873 . S2CID  220506422.
  2. ^ Янсен, Б. Дж. и Рие, С. (2010) Семнадцать теоретических конструкций поиска и извлечения информации. Архивировано 4 марта 2016 г. в Wayback Machine . Журнал Американского общества информационных наук и технологий. 61(8), 1517-1534.
  3. ^ Гудром, Эбби А. (2000). «Извлечение информации из изображений: обзор современных исследований». Informing Science . 3 (2).
  4. ^ Фут, Джонатан (1999). «Обзор поиска аудиоинформации». Мультимедийные системы . 7 : 2–10. CiteSeerX 10.1.1.39.6339 . doi :10.1007/s005300050106. S2CID  2000641. 
  5. ^ Beel, Jöran; Gipp, Bela; Stiller, Jan-Olaf (2009). Information Retrieval On Mind Maps - What Could It Be Good For?. Труды 5-й Международной конференции по совместным вычислениям: сетевые технологии, приложения и совместное использование ресурсов (CollaborateCom'09). Вашингтон, округ Колумбия: IEEE. Архивировано из оригинала 2011-05-13 . Получено 2012-03-13 .
  6. ^ Фрейкс, Уильям Б.; Баеза-Йейтс, Рикардо (1992). Структуры и алгоритмы поиска информации. Prentice-Hall, Inc. ISBN 978-0-13-463837-9. Архивировано из оригинала 2013-09-28.
  7. ^ ab Singhal, Amit (2001). "Современный информационный поиск: краткий обзор" (PDF) . Бюллетень Технического комитета по инжинирингу данных IEEE Computer Society . 24 (4): 35–43.
  8. ^ Марк Сандерсон и В. Брюс Крофт (2012). «История исследований информационного поиска». Труды IEEE . 100 : 1444–1451. doi : 10.1109/jproc.2012.2189916 .
  9. ^ JE Holmstrom (1948). "'Раздел III. Открытие пленарного заседания". Научно-информационная конференция Королевского общества, 21 июня - 2 июля 1948 г.: Отчет и представленные документы : 85.
  10. ^ Mooers, Calvin N.; Теория цифровой обработки нечисловой информации и ее значение для экономики машин (Технический бюллетень Zator № 48), цитируется в Fairthorne, RA (1958). "Автоматический поиск записанной информации". The Computer Journal . 1 (1): 37. doi : 10.1093/comjnl/1.1.36 .
  11. ^ Дойл, Лорен; Беккер, Джозеф (1975). Информационный поиск и обработка . Мелвилл. стр. 410 стр. ISBN 978-0-471-22151-7.
  12. ^ Перри, Джеймс У.; Кент, Аллен; Берри, Мадлен М. (1955). «Поиск литературы по машинам X. Машинный язык; факторы, лежащие в основе его проектирования и разработки». Американская документация . 6 (4): 242–254. doi :10.1002/asi.5090060411.
  13. ^ Марон, Мелвин Э. (2008). «Историческая заметка о происхождении вероятностного индексирования» (PDF) . Обработка информации и управление . 44 (2): 971–972. doi :10.1016/j.ipm.2007.02.012.
  14. ^ Н. Джардин, CJ ван Рейсберген (декабрь 1971 г.). «Использование иерархической кластеризации в поиске информации». Хранение и поиск информации . 7 (5): 217–240. дои : 10.1016/0020-0271(71)90051-9.
  15. ^ Дошкоч, TE и Рапп, BA (1979). «Поиск в MEDLINE на английском языке: прототип пользовательского интерфейса с запросом на естественном языке, ранжированным выводом и обратной связью по релевантности», в: Труды ежегодного собрания ASIS, 16: 131-139.
  16. ^ Корфхаге, Роберт Р. (1997). Хранение и извлечение информации . Wiley. С. 368 с. ISBN 978-0-471-14338-3.

Дальнейшее чтение

Внешние ссылки