В информационном поиске индексный термин (также известный как термин предмета , заголовок предмета , дескриптор или ключевое слово ) — это термин, который отражает суть темы документа. Индексные термины составляют контролируемый словарь для использования в библиографических записях . Они являются неотъемлемой частью библиографического контроля , который является функцией, с помощью которой библиотеки собирают, организуют и распространяют документы. Они используются в качестве ключевых слов для поиска документов в информационной системе, например, каталоге или поисковой системе . Популярной формой ключевых слов в Интернете являются теги , которые видны напрямую и могут быть назначены неспециалистами. Индексные термины могут состоять из слова, фразы или буквенно-цифрового термина. Они создаются путем анализа документа либо вручную с помощью предметной индексации , либо автоматически с помощью автоматической индексации или более сложных методов извлечения ключевых слов. Индексные термины могут либо поступать из контролируемого словаря, либо назначаться свободно.
Ключевые слова хранятся в поисковом индексе . Такие распространенные слова, как артикли (a, an, the) и союзы (and, or, but) не рассматриваются как ключевые слова, потому что это неэффективно. Почти на каждом англоязычном сайте в Интернете есть артикль " the ", поэтому нет смысла искать его. Самая популярная поисковая система, Google, удалила из своих индексов стоп-слова, такие как "the" и "a", на несколько лет, но затем снова ввела их, сделав определенные типы точного поиска снова возможными.
Термин «дескриптор» был введен Кэлвином Мурсом в 1948 году. Он, в частности, используется в отношении предпочтительного термина из тезауруса .
Язык Simple Knowledge Organization System (SKOS) предоставляет способ выражения терминов индекса с помощью Resource Description Framework для использования в контексте Semantic Web . [1]
Большинство поисковых систем разработаны для поиска слов в любом месте документа — в заголовке, тексте и т. д. В этом случае ключевым словом может быть любой термин, который существует в документе. Однако приоритет отдается словам, которые встречаются в заголовке, словам, которые повторяются много раз, и словам, которые явно назначены как ключевые слова в кодировке. [2] Индексные термины могут быть дополнительно уточнены с помощью булевых операторов, таких как «И, ИЛИ, НЕ». «И» обычно не нужно, так как большинство поисковых систем выводят его. «ИЛИ» будет искать результаты с одним поисковым термином или другим или обоими. «НЕ» исключает слово или фразу из поиска, избавляясь от любых результатов, которые его включают. Несколько слов также могут быть заключены в кавычки, чтобы превратить отдельные индексные термины в определенную индексную фразу . Все эти модификаторы и методы помогают уточнять поисковые термины, чтобы лучше максимизировать точность результатов поиска. [3]
Ключевые слова автора являются неотъемлемой частью литературы. [1] Многие журналы и базы данных предоставляют доступ к индексным терминам, созданным авторами соответствующих статей. Квалификация поставщика определяет качество как индексных терминов, предоставляемых индексатором, так и индексных терминов, предоставляемых автором. Качество этих двух типов индексных терминов представляет исследовательский интерес, особенно в отношении информационного поиска . В целом, автору будет трудно предоставить индексные термины, которые характеризуют его или ее документ относительно других документов в базе данных.