Получение информационных ресурсов, соответствующих информационной потребности
Информационный поиск ( ИР ) в вычислительной технике и информатике — это задача идентификации и извлечения ресурсов информационной системы , которые соответствуют информационной потребности . Информационная потребность может быть указана в форме поискового запроса. В случае поиска документов запросы могут быть основаны на полнотекстовой или другой индексации на основе контента. Информационный поиск — это наука [1] о поиске информации в документе, поиске самих документов, а также поиске метаданных, описывающих данные, и баз данных текстов, изображений или звуков.
Автоматизированные системы поиска информации используются для уменьшения того, что называется информационной перегрузкой . IR-система — это программная система, которая обеспечивает доступ к книгам, журналам и другим документам; она также хранит и управляет этими документами. Веб-поисковые системы — самые заметные IR-приложения.
Обзор
Процесс поиска информации начинается, когда пользователь вводит запрос в систему. Запросы — это формальные заявления о потребностях в информации, например, строки поиска в поисковых системах. При поиске информации запрос не идентифицирует однозначно один объект в коллекции. Вместо этого запросу могут соответствовать несколько объектов, возможно, с разной степенью релевантности .
Объект — это сущность, представленная информацией в коллекции контента или базе данных . Пользовательские запросы сопоставляются с информацией базы данных. Однако, в отличие от классических SQL-запросов к базе данных, при поиске информации возвращаемые результаты могут соответствовать или не соответствовать запросу, поэтому результаты обычно ранжируются. Такое ранжирование результатов является ключевым отличием поиска информации от поиска в базе данных. [2]
В зависимости от приложения объектами данных могут быть, например, текстовые документы, изображения, [3] аудио, [4] ментальные карты [5] или видео. Часто сами документы не хранятся или не хранятся непосредственно в системе IR, а вместо этого представлены в системе суррогатами документов или метаданными .
Большинство систем IR вычисляют числовую оценку того, насколько хорошо каждый объект в базе данных соответствует запросу, и ранжируют объекты в соответствии с этим значением. Затем пользователю показываются объекты с наивысшим рейтингом. Затем процесс может быть повторен, если пользователь захочет уточнить запрос. [6]
История
есть ... машина, называемая Univac ..., с помощью которой буквы и цифры кодируются как рисунок магнитных пятен на длинной стальной ленте. С помощью этого можно записать текст документа, которому предшествует его символ кода предмета ... машина ... автоматически выбирает и печатает те ссылки, которые были закодированы любым желаемым способом со скоростью 120 слов в минуту
— Дж. Э. Хольмстром, 1948 г.
Идея использования компьютеров для поиска соответствующих фрагментов информации была популяризирована в статье «Как мы можем думать » Ванневара Буша в 1945 году. [7] Похоже, что Буш был вдохновлен патентами на «статистическую машину», поданными Эмануэлем Голдбергом в 1920-х и 1930-х годах, которая искала документы, хранящиеся на пленке. [8] Первое описание компьютера, ищущего информацию, было описано Холмстромом в 1948 году, [9] подробно описывая раннее упоминание о компьютере Univac . Автоматизированные системы поиска информации были представлены в 1950-х годах: одна из них даже была представлена в романтической комедии 1957 года « Настольный набор» . В 1960-х годах Джерард Солтон сформировал первую большую исследовательскую группу по поиску информации в Корнелле. К 1970-м годам было показано, что несколько различных методов поиска хорошо работают на небольших текстовых корпусах, таких как коллекция Крэнфилда (несколько тысяч документов). [7] Крупномасштабные поисковые системы, такие как система Lockheed Dialog, начали использоваться в начале 1970-х годов.
В 1992 году Министерство обороны США совместно с Национальным институтом стандартов и технологий (NIST) выступили соорганизаторами конференции по поиску текста (TREC) в рамках текстовой программы TIPSTER. Целью этого было изучение сообщества поиска информации путем предоставления инфраструктуры, необходимой для оценки методологий поиска текста на очень большой текстовой коллекции. Это послужило катализатором исследований методов, масштабируемых до огромных корпусов. Внедрение поисковых систем в Интернете еще больше усилило потребность в очень больших системах поиска.
Приложения
Области, в которых применяются методы поиска информации, включают (записи в алфавитном порядке внутри каждой категории):
Для эффективного извлечения соответствующих документов с помощью стратегий IR документы обычно преобразуются в подходящее представление. Каждая стратегия извлечения включает определенную модель для целей представления документа. Изображение справа иллюстрирует взаимосвязь некоторых распространенных моделей. На рисунке модели классифицированы по двум измерениям: математическая основа и свойства модели.
Первое измерение: математическая основа
Теоретико-множественные модели представляют документы как наборы слов или фраз. Сходства обычно выводятся из теоретико-множественных операций над этими наборами. Распространенные модели:
Алгебраические модели представляют документы и запросы обычно как векторы, матрицы или кортежи. Сходство вектора запроса и вектора документа представляется как скалярное значение.
Вероятностные модели рассматривают процесс поиска документа как вероятностный вывод. Сходства вычисляются как вероятности того, что документ релевантен данному запросу. Вероятностные теоремы, такие как теорема Байеса, часто используются в этих моделях.
Модели поиска на основе признаков рассматривают документы как векторы значений функций признаков (или просто признаков ) и ищут наилучший способ объединить эти признаки в единую оценку релевантности, как правило, обучаясь ранжировать методы. Функции признаков являются произвольными функциями документа и запроса, и как таковые могут легко включать в себя почти любую другую модель поиска как просто еще один признак.
Второе измерение: свойства модели
Модели без взаимозависимости терминов рассматривают различные термины/слова как независимые. Этот факт обычно представлен в моделях векторного пространства предположением об ортогональности векторов терминов или в вероятностных моделях предположением о независимости для переменных терминов.
Модели с имманентными взаимозависимостями терминов позволяют отображать взаимозависимости между терминами. Однако степень взаимозависимости между двумя терминами определяется самой моделью. Обычно она напрямую или косвенно выводится (например, путем редукции размерности ) из совместного появления этих терминов во всем наборе документов.
Модели с трансцендентными взаимозависимостями терминов позволяют представить взаимозависимости между терминами, но они не утверждают, как определяется взаимозависимость между двумя терминами. Они полагаются на внешний источник для степени взаимозависимости между двумя терминами. (Например, человек или сложные алгоритмы.)
Показатели производительности и корректности
Оценка системы поиска информации — это процесс оценки того, насколько хорошо система удовлетворяет информационные потребности своих пользователей. В общем, измерение рассматривает набор документов для поиска и поисковый запрос. Традиционные метрики оценки, разработанные для булевого поиска [ необходимо разъяснение ] или поиска top-k, включают точность и полноту . Все меры предполагают истинное представление о релевантности: известно, что каждый документ либо релевантен, либо нерелевантен определенному запросу. На практике запросы могут быть некорректно сформулированы , и могут быть различные оттенки релевантности.
Эмануэль Голдберг подает патенты на свою «Статистическую машину» — поисковую систему документов, которая использует фотоэлектрические элементы и распознавание образов для поиска метаданных на рулонах микрофильмированных документов.
1940-е–1950-е годы
конец 1940-х годов : Армия США столкнулась с проблемами индексации и поиска документов по научным исследованиям военного времени, захваченных у немцев.
1947 : Ганс Петер Лун (инженер-исследователь IBM с 1941 года) начал работу над механизированной системой на основе перфокарт для поиска химических соединений.
1950-е годы : Растущая обеспокоенность в США «научным разрывом» с СССР мотивировала, поощряла финансирование и создала фон для механизированных систем поиска литературы ( Аллен Кент и др. ), а также для изобретения индекса цитирования Юджином Гарфилдом .
1950 : Термин «поиск информации» был придуман Кэлвином Мурсом . [10]
1951 : Филип Бэгли провел самый ранний эксперимент по компьютерному поиску документов в магистерской диссертации в Массачусетском технологическом институте . [11]
1955 : Аллен Кент присоединился к Университету Кейс Вестерн Резерв и в конечном итоге стал заместителем директора Центра исследований документации и коммуникаций. В том же году Кент и его коллеги опубликовали статью в American Documentation, описывающую меры точности и полноты, а также подробно изложив предлагаемую «структуру» для оценки системы IR, которая включала статистические методы выборки для определения количества не извлеченных релевантных документов. [12]
1958 : Международная конференция по научной информации в Вашингтоне, округ Колумбия, включила рассмотрение ИК-систем как решения выявленных проблем. См.: Труды Международной конференции по научной информации, 1958 (Национальная академия наук, Вашингтон, округ Колумбия, 1959)
1959 : Ганс Петер Лун опубликовал «Автоматическое кодирование документов для поиска информации».
1960-е годы :
начало 1960-х : Джерард Солтон начал работать над международными отношениями в Гарварде, позже перешел в Корнелл.
1960 : Мелвин Эрл Марон и Джон Лари Кунс [13] опубликовали статью «О релевантности, вероятностном индексировании и поиске информации» в журнале ACM 7(3):216–244, июль 1960 г.
1962 :
Cyril W. Cleverdon опубликовал ранние результаты исследований Cranfield, разработав модель оценки IR-систем. См.: Cyril W. Cleverdon, "Report on the Testing and Analysis of an Investigation into the Comparative Efficiency of Indexing Systems". Cranfield Collection of Aeronautics, Cranfield, England, 1962.
Кент опубликовал работу «Анализ и поиск информации» .
1963 :
В докладе Вайнберга «Наука, правительство и информация» была дана полная формулировка идеи «кризиса научной информации». Доклад был назван в честь доктора Элвина Вайнберга .
Джозеф Беккер и Роберт М. Хейс опубликовали текст по поиску информации. Беккер, Джозеф; Хейс, Роберт Мэйо. Хранение и поиск информации: инструменты, элементы, теории . Нью-Йорк, Wiley (1963).
1964 :
Карен Сперк Джонс защитила диссертацию в Кембридже по теме «Синонимия и семантическая классификация» и продолжила работу над компьютерной лингвистикой в ее применении к международным отношениям.
Национальное бюро стандартов спонсировало симпозиум под названием «Статистические методы ассоциации для механизированной документации». Несколько весьма значимых работ, включая первую опубликованную ссылку Г. Солтона (мы считаем) на систему SMART .
середина 1960-х :
Национальная медицинская библиотека разработала Систему анализа и поиска медицинской литературы MEDLARS — первую крупную машиночитаемую базу данных и систему пакетного поиска.
Проект Intrex в Массачусетском технологическом институте.
1966 : Дон Свенсон участвовал в исследованиях в Чикагском университете по требованиям к будущим каталогам.
конец 1960-х : Ф. Уилфрид Ланкастер завершил оценочные исследования системы MEDLARS и опубликовал первое издание своего текста по поиску информации.
1968 :
Джерард Солтон опубликовал книгу «Автоматическая организация и поиск информации» .
В докладе RADC Tech Джона У. Сэммона-младшего «Немного математики хранения и поиска информации...» была описана векторная модель.
1969 : «Нелинейное отображение для анализа структуры данных» Сэммона, архивировано 8 августа 2017 г. в Wayback Machine (IEEE Transactions on Computers), стало первым предложением по интерфейсу визуализации для ИК-системы.
1970-е
начало 1970-х :
Первые онлайн-системы — AIM-TWX, MEDLINE от NLM; Dialog от Lockheed; ORBIT от SDC.
1971 : Николас Жардин и Корнелис Дж. ван Рейсберген опубликовали работу «Использование иерархической кластеризации в информационном поиске», в которой была сформулирована «гипотеза кластера». [14]
1975 : Три весьма влиятельные публикации Солтона полностью сформулировали его структуру векторной обработки и модель дискриминации терминов :
Теория индексации (Общество промышленной и прикладной математики)
Теория важности терминов в автоматическом анализе текста ( JASIS v. 26)
Модель векторного пространства для автоматического индексирования ( CACM 18:11)
1979 : CJ van Rijsbergen опубликовал «Информационный поиск» (Butterworths). Особое внимание уделено вероятностным моделям.
1979 : Тамаш Дошкоч реализовал пользовательский интерфейс CITE на естественном языке для MEDLINE в Национальной медицинской библиотеке. Система CITE поддерживала ввод запросов в свободной форме, ранжированный вывод и обратную связь по релевантности. [15]
1980-е
1980 : Первая международная конференция ACM SIGIR, проведенная совместно с группой IR Британского компьютерного общества в Кембридже.
1982 : Николас Дж. Белкин , Роберт Н. Одди и Хелен М. Брукс предложили точку зрения ASK (Anomalous State of Knowledge) для поиска информации. Это была важная концепция, хотя их автоматизированный инструмент анализа в конечном итоге оказался разочаровывающим.
1983 : Солтон (и Майкл Дж. Макгилл) опубликовали «Введение в современный информационный поиск» (McGraw-Hill), уделив особое внимание векторным моделям.
1985 : Дэвид Блэр и Билл Марон публикуют: «Оценка эффективности поиска для системы поиска полнотекстовых документов».
Середина 1980-х : Попытки разработать версии коммерческих ИК-систем для конечного пользователя.
1985–1993 : Основные статьи и экспериментальные системы для интерфейсов визуализации.
Работы Дональда Б. Крауча, Роберта Р. Корфхаге , Мэтью Чалмерса, Ансельма Спёрри и других.
1997 : Публикация книги Корфхаге « Хранение и поиск информации » [16] с упором на визуализацию и системы с несколькими опорными точками.
1999 : Публикация книги Рикардо Баеза-Йетса и Бертье Рибейро-Нето «Современный информационный поиск» Эддисона Уэсли, первой книги, в которой предпринята попытка охватить все аспекты международных отношений.
конец 1990-х : Реализация поисковыми системами многих функций, ранее встречавшихся только в экспериментальных системах IR. Поисковые системы становятся наиболее распространенным и, возможно, лучшим воплощением моделей IR.
Крупные конференции
SIGIR: Конференция по исследованиям и разработкам в области поиска информации
Европейская летняя школа по информационному поиску (ESSIR) содействует исследованиям, инновациям и разработке систем доступа к информации, обучая младших и старших научных сотрудников, студентов, специалистов и разработчиков новейшим разработкам в этой области, как методическим, так и технологическим.Страницы, отображающие описания викиданных в качестве резерва
Социальный поиск информации – область исследований, которая включает изучение ситуаций, мотивов и методов, используемых людьми для поиска и обмена информацией на социальных сайтах.Страницы, отображающие описания викиданных в качестве резерва
Визуализация знаний – набор методов создания изображений, диаграмм или анимаций для передачи сообщения.Страницы, отображающие краткие описания целей перенаправления
Веб-майнинг – процесс извлечения и обнаружения закономерностей в больших наборах данных.Страницы, отображающие краткие описания целей перенаправления
Ссылки
^ Luk, RWP (2022). «Почему поиск информации является научной дисциплиной?». Foundations of Science . 27 (2): 427–453. doi :10.1007/s10699-020-09685-x. hdl : 10397/94873 . S2CID 220506422.
^ Янсен, Б. Дж. и Рие, С. (2010) Семнадцать теоретических конструкций поиска и извлечения информации. Архивировано 4 марта 2016 г. в Wayback Machine . Журнал Американского общества информационных наук и технологий. 61(8), 1517-1534.
^ Гудром, Эбби А. (2000). «Извлечение информации из изображений: обзор современных исследований». Informing Science . 3 (2).
^ Фут, Джонатан (1999). «Обзор поиска аудиоинформации». Мультимедийные системы . 7 : 2–10. CiteSeerX 10.1.1.39.6339 . doi :10.1007/s005300050106. S2CID 2000641.
^ Beel, Jöran; Gipp, Bela; Stiller, Jan-Olaf (2009). Information Retrieval On Mind Maps - What Could It Be Good For?. Труды 5-й Международной конференции по совместным вычислениям: сетевые технологии, приложения и совместное использование ресурсов (CollaborateCom'09). Вашингтон, округ Колумбия: IEEE. Архивировано из оригинала 2011-05-13 . Получено 2012-03-13 .
^ Фрейкс, Уильям Б.; Баеза-Йейтс, Рикардо (1992). Структуры и алгоритмы поиска информации. Prentice-Hall, Inc. ISBN978-0-13-463837-9. Архивировано из оригинала 2013-09-28.
^ ab Singhal, Amit (2001). "Современный информационный поиск: краткий обзор" (PDF) . Бюллетень Технического комитета по инжинирингу данных IEEE Computer Society . 24 (4): 35–43.
^ Марк Сандерсон и В. Брюс Крофт (2012). «История исследований информационного поиска». Труды IEEE . 100 : 1444–1451. doi : 10.1109/jproc.2012.2189916 .
^ JE Holmstrom (1948). "'Раздел III. Открытие пленарного заседания". Научно-информационная конференция Королевского общества, 21 июня - 2 июля 1948 г.: Отчет и представленные документы : 85.
^ Mooers, Calvin N.; Теория цифровой обработки нечисловой информации и ее значение для экономики машин (Технический бюллетень Zator № 48), цитируется в Fairthorne, RA (1958). "Автоматический поиск записанной информации". The Computer Journal . 1 (1): 37. doi : 10.1093/comjnl/1.1.36 .
^ Перри, Джеймс У.; Кент, Аллен; Берри, Мадлен М. (1955). «Поиск литературы по машинам X. Машинный язык; факторы, лежащие в основе его проектирования и разработки». Американская документация . 6 (4): 242–254. doi :10.1002/asi.5090060411.
^ Марон, Мелвин Э. (2008). «Историческая заметка о происхождении вероятностного индексирования» (PDF) . Обработка информации и управление . 44 (2): 971–972. doi :10.1016/j.ipm.2007.02.012.
^ Н. Джардин, CJ ван Рейсберген (декабрь 1971 г.). «Использование иерархической кластеризации в поиске информации». Хранение и поиск информации . 7 (5): 217–240. дои : 10.1016/0020-0271(71)90051-9.
^ Дошкоч, TE и Рапп, BA (1979). «Поиск в MEDLINE на английском языке: прототип пользовательского интерфейса с запросом на естественном языке, ранжированным выводом и обратной связью по релевантности», в: Труды ежегодного собрания ASIS, 16: 131-139.
^ Корфхаге, Роберт Р. (1997). Хранение и извлечение информации . Wiley. С. 368 с. ISBN978-0-471-14338-3.
Дальнейшее чтение
Рикардо Баеза-Йетс, Бертье Рибейро-Нето. Современный информационный поиск: концепции и технологии, лежащие в основе поиска (второе издание) Архивировано 18 сентября 2017 г. в Wayback Machine . Эддисон-Уэсли, Великобритания, 2011 г.
Стефан Бюттчер, Чарльз Л. А. Кларк и Гордон В. Кормак. Информационный поиск: внедрение и оценка поисковых систем. Архивировано 05.10.2020 в Wayback Machine . MIT Press, Кембридж, Массачусетс, 2010.
"Информационно-поисковая система". Library & Information Science Network . 24 апреля 2015 г. Архивировано из оригинала 11 мая 2020 г. Получено 3 мая 2020 г.
Кристофер Д. Мэннинг, Прабхакар Рагхаван и Хинрих Шютце. Введение в поиск информации. Издательство Кембриджского университета, 2008.
Йео, Шинджунг. (2023) За окном поиска: Google и глобальная интернет-индустрия (U of Illinois Press, 2023) ISBN 10:0252087127 онлайн
Внешние ссылки
В Викицитатнике есть цитаты, связанные с поиском информации .
На Викискладе есть медиафайлы по теме «Поиск информации» .
ACM SIGIR: Специальная группа по поиску информации
BCS IRSG: Британское компьютерное общество – Группа специалистов по поиску информации