Предметное индексирование — это процесс описания или классификации документа с помощью индексных терминов , ключевых слов или других символов, чтобы указать, о чем разные документы , обобщить их содержание или повысить находимость . Другими словами, речь идет об идентификации и описании предмета документов. Индексы строятся отдельно на трех различных уровнях: термины в документе, например, в книге; объекты в коллекции, например, в библиотеке; и документы (например, книги и статьи) в пределах области знаний.
Предметная индексация используется в информационном поиске, особенно для создания библиографических индексов для поиска документов по определенной теме. Примерами академических служб индексации являются Zentralblatt MATH , Chemical Abstracts и PubMed . Термины индекса в основном назначались экспертами, но ключевые слова автора также распространены.
Процесс индексации начинается с любого анализа предмета документа. Затем индексатор должен определить термины, которые соответствующим образом идентифицируют предмет, либо путем извлечения слов непосредственно из документа, либо путем назначения слов из контролируемого словаря . [1] Затем термины в индексе представлены в систематическом порядке.
Индексаторы должны решить, сколько терминов включить и насколько конкретными должны быть термины. Вместе это дает глубину индексации.
Первый шаг индексации — определиться с предметом документа. При ручной индексации индексатор будет рассматривать предмет с точки зрения ответа на ряд вопросов, таких как «Описывается ли в документе конкретный продукт, состояние или явление?». [2] Поскольку на анализ влияют знания и опыт индексатора, из этого следует, что два индексатора могут по-разному анализировать контент и, таким образом, выдавать разные термины индекса. Это повлияет на успешность поиска.
Автоматическая индексация следует установленным процессам анализа частотности словосочетаний и сравнения результатов с другими документами для назначения тематическим категориям. Это не требует понимания индексируемого материала. Это приводит к более единообразной индексации, но за счет интерпретации истинного смысла. Компьютерная программа не поймет смысла утверждений и поэтому может не назначить некоторые соответствующие термины или назначить неправильно. Индексаторы-люди сосредотачивают свое внимание на определенных частях документа, таких как заголовок, аннотация, резюме и выводы, поскольку подробный анализ полного текста является дорогостоящим и отнимает много времени. [3] Автоматизированная система снимает ограничение по времени и позволяет анализировать весь документ, но также имеет возможность направлять на определенные части документа.
Второй этап индексации включает в себя перевод предметного анализа в набор индексных терминов . Это может включать в себя извлечение из документа или назначение из контролируемого словаря . С возможностью проведения полнотекстового поиска, широко доступной, многие люди стали полагаться на свой собственный опыт в проведении поиска информации, и полнотекстовый поиск стал очень популярным. Предметная индексация и ее эксперты, профессиональные индексаторы, каталогизаторы и библиотекари , остаются критически важными для организации и поиска информации. Эти эксперты понимают контролируемые словари и способны находить информацию, которую нельзя найти с помощью полнотекстового поиска. Стоимость экспертного анализа для создания предметной индексации нелегко сравнить со стоимостью оборудования, программного обеспечения и труда для производства сопоставимого набора полнотекстовых, полностью доступных для поиска материалов. С новыми веб-приложениями, которые позволяют каждому пользователю аннотировать документы, социальная маркировка приобрела популярность, особенно в Интернете. [4]
Одно из применений индексирования — книжный индекс — остается относительно неизменным, несмотря на информационную революцию .
Индексация извлечения подразумевает извлечение слов непосредственно из документа. Она использует естественный язык и хорошо подходит для автоматизированных методов, где частоты слов вычисляются, а те, частота которых превышает заранее определенный порог, используются в качестве индексных терминов. Будет сделана ссылка на стоп-лист, содержащий общие слова (такие как «the», «and»), и такие стоп-слова будут исключены из индексных терминов.
Автоматизированная индексация извлечения может привести к потере смысла терминов из-за индексации отдельных слов, а не фраз. Хотя можно извлекать часто встречающиеся фразы, это становится сложнее, если ключевые концепции непоследовательно сформулированы во фразах. Автоматизированная индексация извлечения также имеет проблему, заключающуюся в том, что даже при использовании стоп-листа для удаления общих слов некоторые часто встречающиеся слова могут быть бесполезны для обеспечения различения документов. Например, термин «глюкоза» может часто встречаться в любом документе, связанном с диабетом. Поэтому использование этого термина, скорее всего, вернет большинство или все документы в базе данных. Посткоординированная индексация, когда термины объединяются во время поиска, уменьшит этот эффект, но бремя связывания соответствующих терминов будет лежать на искателе, а не на специалисте по информации. Кроме того, термины, которые встречаются редко, могут быть весьма значимыми, например, новый препарат может упоминаться нечасто, но новизна предмета делает любую ссылку значимой. Одним из методов включения более редких терминов и исключения распространенных слов с помощью автоматизированных методов будет подход относительной частоты, при котором частота слова в документе сравнивается с частотой в базе данных в целом. Таким образом, термин, который встречается в документе чаще, чем можно было бы ожидать на основе остальной части базы данных, может затем использоваться в качестве индексного термина, а термины, которые встречаются одинаково часто, будут исключены.
Другая проблема с автоматизированным извлечением заключается в том, что оно не распознает, когда концепция обсуждается, но не идентифицируется в тексте индексируемым ключевым словом. [5]
Поскольку этот процесс основан на простом сопоставлении строк и не требует интеллектуального анализа, полученный продукт правильнее называть конкордансом, а не индексом.
Альтернативой является индексация назначения, где индексные термины берутся из контролируемого словаря. Это имеет преимущество контроля синонимов , поскольку предпочтительный термин индексируется, а синонимы или связанные термины направляют пользователя к предпочтительному термину. Это означает, что пользователь может находить статьи независимо от конкретного термина, используемого автором, и избавляет пользователя от необходимости знать и проверять все возможные синонимы. [6] Это также устраняет любую путаницу, вызванную омографами, путем включения квалифицирующего термина. Третье преимущество заключается в том, что это позволяет связывать связанные термины, связаны ли они иерархией или ассоциацией, например, запись индекса для перорального препарата может перечислять другие пероральные препараты как связанные термины на том же уровне иерархии, но также будет ссылаться на более широкие термины, такие как лечение. Индексация назначения используется в ручной индексации для улучшения согласованности между индексаторами, поскольку разные индексаторы будут иметь контролируемый набор терминов для выбора. Контролируемые словари не полностью устраняют несоответствия, поскольку два индексатора могут по-прежнему по-разному интерпретировать предмет. [2]
Заключительный этап индексации заключается в представлении записей в систематическом порядке. Это может включать связывание записей. В предварительно согласованном индексе индексатор определяет порядок, в котором термины связаны в записи, учитывая, как пользователь может сформулировать свой поиск. В постсогласованном индексе записи представлены по отдельности, и пользователь может связывать записи с помощью поиска, чаще всего выполняемого с помощью компьютерного программного обеспечения. Постсогласование приводит к потере точности по сравнению с предсогласованием. [7]
Индексаторы должны принимать решения о том, какие записи следует включить и сколько записей должен включать индекс. Глубина индексирования описывает тщательность процесса индексирования с точки зрения полноты и специфичности. [8]
Исчерпывающий индекс — это индекс, который перечисляет все возможные термины индекса. Большая полнота дает более высокую полноту или большую вероятность того, что все соответствующие статьи будут извлечены, однако это происходит за счет точности . Это означает, что пользователь может извлечь большее количество нерелевантных документов или документов, которые рассматривают тему лишь в небольшой степени. В ручной системе большая полнота влечет за собой большую стоимость, поскольку требуется больше человеко-часов. Дополнительное время, затрачиваемое в автоматизированной системе, было бы гораздо менее значительным. С другой стороны, в выборочном индексе охватываются только самые важные аспекты. [9] Полнота снижается в выборочном индексе, так как если индексатор не включает достаточно терминов, очень релевантная статья может быть упущена. Поэтому индексаторы должны стремиться к балансу и учитывать, для чего может использоваться документ. Им также, возможно, придется учитывать последствия времени и расходов.
Специфичность описывает, насколько близко термины индекса соответствуют темам, которые они представляют. [10] Индекс считается специфическим, если индексатор использует параллельные дескрипторы для концепции документа и точно отражает концепции. [11] Специфичность имеет тенденцию увеличиваться с исчерпывающей полнотой, поскольку чем больше терминов вы включаете, тем уже будут эти термины.
Хьёрланд (2011) [12] обнаружил, что теории индексации на самом глубоком уровне связаны с различными теориями познания:
Суть индексирования, как утверждают Роули и Фэрроу [16], заключается в оценке вклада статьи в знания и ее соответствующем индексировании. Или, по словам Хьёрланда (1992, [17] 1997), в индексировании ее информативного потенциала. «Чтобы добиться хорошей последовательной индексации, индексатор должен иметь полное представление о структуре предмета и характере вклада, который документ вносит в развитие знаний» (Роули и Фэрроу, 2000, [16] стр. 99).