stringtranslate.com

Тезаурус (поиск информации)

В контексте поиска информации тезаурус (множественное число: «тезаурусы») — это форма контролируемого словаря , которая стремится диктовать семантические проявления метаданных при индексации объектов контента. Тезаурус служит для минимизации семантической неоднозначности, обеспечивая единообразие и согласованность в хранении и извлечении проявлений объектов контента. ANSI/NISO Z39.19-2005 определяет объект контента как «любой элемент, который должен быть описан для включения в систему поиска информации, веб-сайт или другой источник информации». [1] Тезаурус помогает назначать предпочтительные термины для передачи семантических метаданных, связанных с объектом контента. [2]

Тезаурус служит руководством как для индексатора, так и для искателя при выборе одного и того же предпочтительного термина или комбинации предпочтительных терминов для представления заданного предмета. ISO 25964 , международный стандарт тезаурусов информационного поиска, определяет тезаурус как «контролируемый и структурированный словарь, в котором концепции представлены терминами, организованными таким образом, что связи между концепциями сделаны явными, а предпочтительные термины сопровождаются вводными записями для синонимов или квазисинонимов».

Тезаурус состоит как минимум из трех элементов: 1) список слов (или терминов), 2) связь между словами (или терминами), определяемая их иерархическим относительным положением (например, родительский/более широкий термин; дочерний/более узкий термин, синоним и т. д.), 3) набор правил использования тезауруса.

История

Везде, где были большие коллекции информации, будь то на бумаге или в компьютерах, ученые сталкивались с проблемой точного определения элементов, которые они ищут. Использование схем классификации для упорядочивания документов было лишь частичным решением. Другой подход заключался в индексировании содержимого документов с использованием слов или терминов, а не классификационных кодов. В 1940-х и 1950-х годах некоторые пионеры, такие как Кэлвин Мурс , Чарльз Л. Бернье, Эван Дж. Крейн и Ганс Петер Лун , собрали свои индексные термины в различных видах списков, которые они назвали «тезаурусом» (по аналогии с хорошо известным тезаурусом, разработанным Питером Роже ). [3] Первым таким списком, серьезно использованным для поиска информации, был тезаурус, разработанный в 1959 году в компании EI Dupont de Nemours. [4] [5]

Первыми двумя из этих списков, которые были опубликованы, были Тезаурус дескрипторов ASTIA (1960) и Тезаурус химической инженерии Американского института инженеров-химиков (1961), потомок тезауруса Дюпона. Затем последовали другие, кульминацией которых стал влиятельный Тезаурус инженерных и научных терминов (TEST), опубликованный совместно Инженерным объединенным советом и Министерством обороны США в 1967 году. TEST не просто послужил примером; в его Приложении 1 были представлены правила и соглашения Тезауруса , которые с тех пор направляли создание тезауруса. С тех пор были созданы сотни тезаурусов, возможно, тысячи. Наиболее заметными нововведениями со времен TEST были: (a) расширение от одноязычной до многоязычной возможности; и (b) добавление концептуально организованного отображения к базовому алфавитному представлению.

Здесь мы упомянем лишь некоторые национальные и международные стандарты, которые последовательно разрабатывались на основе основных правил, изложенных в TEST:

Наиболее отчетливо видимая тенденция в этой истории развития тезауруса — от контекста мелкомасштабной изоляции к сетевому миру. [6] Доступ к информации был заметно улучшен, когда тезаурусы пересекли границу между одноязычными и многоязычными приложениями. Совсем недавно, как можно увидеть из названий последних стандартов ISO и NISO, было признано, что тезаурусы должны работать в связке с другими формами словаря или системы организации знаний, такими как схемы предметных рубрик, схемы классификации, таксономии и онтологии. Официальный сайт ISO 25964 дает больше информации, включая список литературы. [7]

Цель

В информационном поиске тезаурус может использоваться как форма контролируемого словаря для помощи в индексировании соответствующих метаданных для информационных объектов. Тезаурус помогает выражать проявления концепции предписанным образом, чтобы помочь в улучшении точности и отзыва . Это означает, что семантические концептуальные выражения информационных объектов легче найти из-за единообразия языка. Кроме того, тезаурус используется для поддержания иерархического списка терминов, обычно отдельных слов или связанных фраз, которые помогают индексатору сузить термины и ограничить семантическую неоднозначность.

Например, The Art & Architecture Thesaurus используется многочисленными музеями по всему миру для каталогизации своих коллекций. AGROVOC , тезаурус Продовольственной и сельскохозяйственной организации ООН , используется для индексации и/или поиска в ее базе данных AGRIS всемирной литературы по сельскохозяйственным исследованиям.

Структура

Тезаурусы поиска информации формально организованы таким образом, чтобы существующие связи между концепциями были понятны. Например, «цитрусовые» могут быть связаны с более широкой концепцией «фрукты» и с более узкими «апельсины», «лимоны» и т. д. Когда термины отображаются в сети, связи между ними позволяют очень легко просматривать тезаурус, выбирая полезные термины для поиска. Когда один термин может иметь более одного значения, например, таблицы (мебель) или таблицы (данные), они перечислены отдельно, чтобы пользователь мог выбрать, какую концепцию искать, и избежать получения нерелевантных результатов. Для любой одной концепции перечислены все известные синонимы, такие как «коровье бешенство», «губчатая энцефалопатия крупного рогатого скота», «ГЭКРС» и т. д. Идея состоит в том, чтобы направить всех индексаторов и всех поисковиков на использование одного и того же термина для одной и той же концепции, чтобы результаты поиска были максимально полными. Если тезаурус многоязычный, также отображаются эквивалентные термины на других языках. Согласно международным стандартам, концепции обычно располагаются иерархически в рамках граней или группируются по темам или разделам. В отличие от общего тезауруса, который используется в литературных целях, тезаурусы информационного поиска обычно фокусируются на одной дисциплине, предмете или области изучения.

Смотрите также

Ссылки

  1. ^ ANSI & NISO 2005, Руководство по построению, форматированию и управлению одноязычными контролируемыми словарями, NISO, Мэриленд, США, стр. 11
  2. ^ ANSI & NISO 2005, Руководство по построению, форматированию и управлению одноязычными контролируемыми словарями, NISO, Мэриленд, США, стр. 12
  3. ^ Робертс, Н. Предыстория тезауруса информационного поиска. Журнал документации , 40(4), 1984, стр.271-285.
  4. ^ Эйтчисон, Дж. и Декстре Кларк, С. Тезаурус: историческая точка зрения со взглядом в будущее. Cataloging & Classification Quarterly , 37 (3/4), 2004, стр. 5-21.
  5. ^ Крукс, Д.А. и Ланкастер, Ф.В. Эволюция руководящих принципов построения тезауруса. Libri , 43(4), 1993, стр.326-342.
  6. ^ Декстре Кларк, Стелла Г. и Цзэн, Марсия Лей. От ISO 2788 к ISO 25964: эволюция стандартов тезауруса в направлении взаимодействия и моделирования данных. Ежеквартальный выпуск информационных стандартов , 24(1), 2012, стр. 20-26.
  7. ^ ISO 25964 – международный стандарт для тезаурусов и взаимодействия с другими словарями. Национальная организация по информационным стандартам, 2013.

Внешние ссылки