stringtranslate.com

Поиск информации

Поиск информации ( IR ) в вычислительной технике и информатике — это задача идентификации и извлечения ресурсов информационной системы , которые соответствуют информационной потребности . Информационная потребность может быть указана в виде поискового запроса. В случае поиска документов запросы могут основываться на полнотекстовой или другой индексации на основе содержимого. Информационный поиск — это наука [1] о поиске информации в документе, поиске самих документов, а также поиске метаданных , описывающих данные, и баз данных текстов, изображений или звуков.

Автоматизированные системы поиска информации используются для уменьшения так называемой информационной перегрузки . IR-система — это программная система, обеспечивающая доступ к книгам, журналам и другим документам; он также хранит и управляет этими документами. Поисковые системы в Интернете являются наиболее заметными ИК-приложениями.

Обзор

Процесс поиска информации начинается, когда пользователь вводит запрос в систему. Запросы — это формальные заявления о информационных потребностях, например строки поиска в поисковых системах Интернета. При поиске информации запрос не идентифицирует однозначно ни один объект в коллекции. Вместо этого запросу могут соответствовать несколько объектов, возможно, с разной степенью релевантности .

Объект — это сущность, представленная информацией в коллекции контента или базе данных . Пользовательские запросы сопоставляются с информацией базы данных. Однако, в отличие от классических SQL-запросов к базе данных, при поиске информации возвращаемые результаты могут соответствовать запросу, а могут и не соответствовать, поэтому результаты обычно ранжируются. Такое ранжирование результатов является ключевым отличием информационного поиска от поиска в базе данных. [2]

В зависимости от приложения объектами данных могут быть, например, текстовые документы, изображения, [3] аудио, [4] интеллект-карты [5] или видео. Часто сами документы не хранятся непосредственно в системе IR, а вместо этого представлены в системе суррогатами документов или метаданными .

Большинство IR-систем вычисляют числовой показатель того, насколько хорошо каждый объект в базе данных соответствует запросу, и ранжируют объекты в соответствии с этим значением. Затем пользователю отображаются объекты с самым высоким рейтингом. Затем процесс может быть повторен, если пользователь желает уточнить запрос. [6]

История

существует... машина под названием Univac... с помощью которой буквы и цифры кодируются в виде узора из магнитных пятен на длинной стальной ленте. Таким образом, может быть записан текст документа, которому предшествует символ его тематического кода... машина... автоматически выбирает и печатает те ссылки, которые были закодированы любым желаемым способом, со скоростью 120 слов в минуту.

-  Дж. Э. Хольмстрем, 1948 г.

Идея использования компьютеров для поиска необходимой информации была популяризирована в статье Ванневара Буша «Как мы можем думать» в 1945 году . [7] Судя по всему, Буша вдохновили патенты на «статистическую машину», поданные Эммануэлем Голдбергом. в 1920-е и 1930-е годы – искали документы, хранящиеся на пленке. [8] Первое описание компьютера для поиска информации было описано Хольмстремом в 1948 году, [9] подробно описывая раннее упоминание о компьютере Univac . Автоматизированные системы поиска информации были внедрены в 1950-х годах: одна из них даже была показана в романтической комедии 1957 года « Настольный набор» . В 1960-х годах Джерардом Солтоном в Корнелле была сформирована первая крупная исследовательская группа по поиску информации . К 1970-м годам было показано, что несколько различных методов поиска хорошо работают с небольшими текстовыми массивами , такими как коллекция Крэнфилда (несколько тысяч документов). [7] Крупномасштабные поисковые системы, такие как система Lockheed Dialog, начали использоваться в начале 1970-х годов.

В 1992 году Министерство обороны США вместе с Национальным институтом стандартов и технологий (NIST) выступило соавтором конференции по текстовому поиску (TREC) в рамках текстовой программы TIPSTER. Целью этого было изучить сообщество поиска информации путем предоставления инфраструктуры, необходимой для оценки методологий поиска текста в очень большой коллекции текстов. Это послужило катализатором исследований методов, которые можно масштабировать до огромных корпусов. Внедрение поисковых систем еще больше увеличило потребность в очень крупномасштабных поисковых системах.

Приложения

Области, в которых используются методы поиска информации, включают (в каждой категории записи расположены в алфавитном порядке):

Общие приложения

Специализированные приложения

Другие методы поиска

Методы/техники, в которых используются методы поиска информации, включают:

Типы моделей

Категоризация IR-моделей (перевод с немецкого, первоисточник Доминик Куропка)

Для эффективного извлечения соответствующих документов с помощью стратегий IR документы обычно преобразуются в подходящее представление. Каждая стратегия поиска включает определенную модель для целей представления документа. Рисунок справа иллюстрирует взаимосвязь некоторых распространенных моделей. На рисунке модели классифицированы по двум параметрам: математическая основа и свойства модели.

Первое измерение: математическая основа

Второе измерение: свойства модели

Показатели производительности и правильности

Оценка системы информационного поиска — это процесс оценки того, насколько хорошо система удовлетворяет информационные потребности своих пользователей. В общем случае измерение предполагает совокупность документов, в которых осуществляется поиск, и поисковый запрос. Традиционные метрики оценки, предназначенные для логического извлечения [ необходимы пояснения ] или поиска top-k, включают точность и полноту . Все меры предполагают базовое понятие релевантности: известно, что каждый документ либо релевантный, либо нерелевантный конкретному запросу. На практике запросы могут быть некорректными и иметь разные оттенки релевантности.

График

Крупные конференции

Награды в области

Смотрите также

Рекомендации

  1. ^ Лук, РВП (2022). «Почему поиск информации является научной дисциплиной?». Основы науки . 27 (2): 427–453. дои : 10.1007/s10699-020-09685-x. hdl : 10397/94873 . S2CID  220506422.
  2. ^ Янсен, Б. Дж. и Ри, С. (2010) Семнадцать теоретических конструкций поиска и извлечения информации. Архивировано 4 марта 2016 г. в Wayback Machine . Журнал Американского общества информационных наук и технологий. 61 (8), 1517–1534.
  3. ^ Гудрам, Эбби А. (2000). «Поиск информации об изображении: обзор текущих исследований». Информационная наука . 3 (2).
  4. ^ Фут, Джонатан (1999). «Обзор поиска аудиоинформации». Мультимедийные системы . 7 :2–10. CiteSeerX 10.1.1.39.6339 . дои : 10.1007/s005300050106. S2CID  2000641. 
  5. ^ Бил, Йоран; Гипп, Бела; Стиллер, Ян-Олаф (2009). Поиск информации по интеллект-картам — для чего это может быть полезно? Материалы 5-й Международной конференции по совместным вычислениям: сети, приложения и совместная работа (CollaborateCom'09). Вашингтон, округ Колумбия: IEEE. Архивировано из оригинала 13 мая 2011 г. Проверено 13 марта 2012 г.
  6. ^ Фрейкс, Уильям Б.; Баеза-Йейтс, Рикардо (1992). Структуры и алгоритмы информационного поиска. ISBN Прентис-Холл, Inc. 978-0-13-463837-9. Архивировано из оригинала 28 сентября 2013 г.
  7. ^ Аб Сингхал, Амит (2001). «Современный поиск информации: краткий обзор» (PDF) . Бюллетень Технического комитета по инженерии данных IEEE Computer Society . 24 (4): 35–43.
  8. ^ Марк Сандерсон и В. Брюс Крофт (2012). «История информационно-поисковых исследований». Труды IEEE . 100 : 1444–1451. дои : 10.1109/jproc.2012.2189916 .
  9. ^ Дж. Э. Хольмстрем (1948). «Секция III. Открытие пленарного заседания». Научно-информационная конференция Королевского общества, 21 июня — 2 июля 1948 г.: Представлено отчет и документы : 85.
  10. ^ Мурс, Кэлвин Н.; Теория цифровой обработки нечисловой информации и ее значение для экономики машин (Технический бюллетень Zator № 48), цитируется в Fairthorne, RA (1958). «Автоматический поиск записанной информации». Компьютерный журнал . 1 (1): 37. дои : 10.1093/comjnl/1.1.36 .
  11. ^ Дойл, Лорен; Беккер, Джозеф (1975). Поиск и обработка информации . Мелвилл. стр. 410 стр. ISBN 978-0-471-22151-7.
  12. ^ Перри, Джеймс В.; Кент, Аллен; Берри, Мэдлин М. (1955). «Поиск в машинной литературе X. Машинный язык; факторы, лежащие в основе его проектирования и развития». Американская документация . 6 (4): 242–254. дои : 10.1002/asi.5090060411.
  13. ^ Марон, Мелвин Э. (2008). «Историческая справка о происхождении вероятностного индексирования» (PDF) . Обработка информации и управление . 44 (2): 971–972. дои : 10.1016/j.ipm.2007.02.012.
  14. ^ Н. Джардин, CJ ван Рейсберген (декабрь 1971 г.). «Использование иерархической кластеризации в поиске информации». Хранение и поиск информации . 7 (5): 217–240. дои : 10.1016/0020-0271(71)90051-9.
  15. ^ Дошкоч, Т.Э. и Рапп, бакалавр (1979). «Поиск в MEDLINE на английском языке: прототип пользовательского интерфейса с запросами на естественном языке, ранжированным выводом и обратной связью по релевантности», В: Proceedings of the ASIS Annual Meeting, 16: 131-139.
  16. ^ Корфхаге, Роберт Р. (1997). Хранение и поиск информации . Уайли. стр. 368 стр. ISBN 978-0-471-14338-3.

дальнейшее чтение

Внешние ссылки