Тематическое индексирование

Тематическое индексирование — это процесс описания или классификации документа с помощью индексных терминов , ключевых слов или других символов, чтобы указать, о чем речь в различных документах , обобщить их содержание или повысить удобство поиска . Другими словами, речь идет об определении и описании предмета документов. Индексы создаются отдельно на трех различных уровнях: термины в документе, например в книге; объекты в коллекции, например в библиотеке; и документы (например, книги и статьи) в области знаний.

Тематическое индексирование используется при поиске информации , особенно для создания библиографических указателей для поиска документов по определенной теме. Примерами академических служб индексирования являются Zentralblatt MATH , Chemical Abstracts и PubMed . Указательные термины в основном были назначены экспертами, но ключевые слова авторов также распространены.

Процесс индексации начинается с анализа тематики документа. Индексатор должен затем идентифицировать термины, которые соответствующим образом идентифицируют предмет, либо путем извлечения слов непосредственно из документа, либо путем присвоения слов из контролируемого словаря . ^[1] Термины в указателе затем представлены в систематическом порядке.

Индексаторы должны решить, сколько терминов включить и насколько конкретными они должны быть. В совокупности это дает глубину индексации.

Предметный анализ

Первым шагом в индексировании является определение тематики документа. При индексировании вручную индексатор рассматривает предмет с точки зрения ответа на ряд вопросов, таких как «Имеет ли документ отношение к конкретному продукту, состоянию или явлению?». ^[2] Поскольку на анализ влияют знания и опыт индексатора, из этого следует, что два индексатора могут анализировать контент по-разному и, таким образом, придумывать разные термины индексатора. Это повлияет на успех поиска.

Автоматический и ручной анализ предметов

Автоматическое индексирование следует за установленными процессами анализа частотности словосочетаний и сравнения результатов с другими документами для распределения по тематическим категориям. Для этого не требуется понимания индексируемого материала. Это приводит к более единообразной индексации, но за счет интерпретации истинного смысла. Компьютерная программа не понимает значения утверждений и поэтому может не определить некоторые соответствующие термины или назначить их неправильно. Индексаторы сосредотачивают свое внимание на определенных частях документа, таких как заголовок, аннотация, резюме и выводы, поскольку глубокий анализ всего текста является дорогостоящим и отнимает много времени. ^[3] Автоматизированная система устраняет ограничение по времени и позволяет полностью документ, подлежащий анализу, но также имеет возможность направить его на определенные части документа.

Выбор срока

Второй этап индексации предполагает перевод предметного анализа в набор индексных терминов . Это может включать в себя извлечение из документа или присвоение из контролируемого словаря . Благодаря широко доступной возможности полнотекстового поиска многие люди стали полагаться на свой собственный опыт в проведении информационного поиска, и полнотекстовый поиск стал очень популярным. Тематическое индексирование и его эксперты, профессиональные индексаторы, каталогизаторы и библиотекари , по-прежнему имеют решающее значение для организации и поиска информации. Эти эксперты понимают контролируемые словари и способны найти информацию, которую невозможно найти с помощью полнотекстового поиска . Стоимость экспертного анализа для создания предметного индексирования нелегко сравнить со стоимостью оборудования, программного обеспечения и рабочей силы для производства сопоставимого набора полнотекстовых материалов с возможностью поиска. Благодаря новым веб-приложениям, которые позволяют каждому пользователю комментировать документы, социальные теги приобрели популярность, особенно в Интернете. ^[4]

Одно из применений индексации – книжный указатель – остается относительно неизменным, несмотря на информационную революцию .

Извлечение/производная индексация

Индексирование с извлечением предполагает взятие слов непосредственно из документа. Он использует естественный язык и хорошо поддается автоматизированным методам, при которых вычисляется частота слов, а слова, частота которых превышает заранее определенный порог, используются в качестве индексных терминов. Будет сделана ссылка на стоп-лист, содержащий общие слова (такие как «the», «and»), и такие стоп-слова будут исключены как индексные термины.

Индексирование автоматического извлечения может привести к потере смысла терминов из-за индексации отдельных слов, а не фраз. Хотя можно извлечь часто встречающиеся фразы, это становится сложнее, если ключевые понятия непоследовательно сформулированы во фразах. Индексирование с автоматическим извлечением также имеет проблему: даже при использовании стоп-листа для удаления общих слов некоторые часто встречающиеся слова могут оказаться бесполезными для обеспечения различения документов. Например, термин «глюкоза», скорее всего, будет часто встречаться в любом документе, посвященном диабету. Следовательно, использование этого термина, скорее всего, вернет большую часть или все документы в базе данных. Посткоординированное индексирование, при котором термины объединяются во время поиска, уменьшит этот эффект, но ответственность за связывание соответствующих терминов будет лежать на поисковике, а не на специалисте по информации. Кроме того, термины, которые встречаются нечасто, могут иметь большое значение, например, новое лекарственное средство может упоминаться нечасто, но новизна предмета делает любую ссылку значимой. Одним из методов, позволяющих включать более редкие термины и исключать распространенные слова с помощью автоматизированных методов, является подход относительной частоты, при котором частота слова в документе сравнивается с частотой в базе данных в целом. Таким образом, термин, который встречается в документе чаще, чем можно было бы ожидать на основе остальной части базы данных, может быть использован в качестве индексного термина, а термины, которые встречаются одинаково часто во всем документе, будут исключены.

Другая проблема автоматического извлечения заключается в том, что оно не распознает, когда концепция обсуждается, но не идентифицируется в тексте индексируемым ключевым словом. ^[5]

Поскольку этот процесс основан на простом сопоставлении строк и не требует интеллектуального анализа, результирующий продукт правильнее называть согласованием, чем индексом.

Индексация присвоений

Альтернативой является индексирование по назначению, при котором индексные термины берутся из контролируемого словаря. Преимущество этого метода заключается в контроле за синонимами , поскольку предпочтительный термин индексируется, а синонимы или связанные термины направляют пользователя к предпочтительному термину. Это означает, что пользователь может находить статьи независимо от конкретного термина, использованного автором, и избавляет пользователя от необходимости знать и проверять все возможные синонимы. ^[6] Это также устраняет любую путаницу, вызванную омографами путем включения уточняющего термина. Третье преимущество заключается в том, что он позволяет связывать родственные термины, независимо от того, связаны ли они иерархией или ассоциацией, например, в индексной записи для пероральных препаратов могут быть указаны другие пероральные препараты как связанные термины на том же уровне иерархии, но также будут связаны с более широкими терминами. такие термины, как лечение. Индексирование присвоений используется при индексировании вручную для улучшения согласованности между индексаторами, поскольку разные индексаторы будут иметь контролируемый набор терминов на выбор. Контролируемые словари не устраняют полностью несоответствия, поскольку два индексатора все равно могут интерпретировать предмет по-разному. ^[2]

Представление индекса

Заключительный этап индексации заключается в представлении записей в систематическом порядке. Это может включать в себя связывание записей. В предварительно скоординированном индексе индексатор определяет порядок, в котором термины связаны в записи, учитывая, как пользователь может сформулировать свой поиск. В посткоординированном индексе записи представлены по отдельности, и пользователь может связать их посредством поиска, чаще всего выполняемого с помощью компьютерного программного обеспечения. Посткоординация приводит к потере точности по сравнению с предварительной координацией ^[7]

Глубина индексации

Индексаторы должны принимать решения о том, какие записи следует включить и сколько записей должен включать индекс. Глубина индексации описывает тщательность процесса индексации с точки зрения полноты и специфичности ^[8].

Исчерпаемость

Исчерпывающий указатель — это индекс, в котором перечислены все возможные индексные термины. Большая полнота дает более высокую полноту или большую вероятность того, что все соответствующие статьи будут найдены, однако это происходит за счет точности . Это означает, что пользователь может получить большее количество нерелевантных документов или документов, которые касаются темы лишь недостаточно глубоко. В ручной системе более высокий уровень полноты влечет за собой более высокие затраты, поскольку требуется больше человеко-часов. Дополнительное время, затрачиваемое в автоматизированной системе, будет гораздо менее значительным. На другом конце шкалы находится выборочный индекс, охватывающий только наиболее важные аспекты. ^[9] В выборочном указателе объем памяти снижается, так как если индексатор не включает достаточное количество терминов, очень релевантная статья может быть упущена из виду. Поэтому индексаторам следует стремиться к балансу и учитывать, какой документ может быть использован. Возможно, им также придется учитывать последствия, связанные с затратами времени и средств.

Специфика

Специфичность описывает, насколько близко термины индекса соответствуют темам, которые они представляют ^[10]. Указатель называется конкретным, если индексатор использует параллельные дескрипторы концепции документа и точно отражает концепции. ^[11] Специфичность имеет тенденцию увеличиваться по мере полноты, поскольку чем больше терминов вы включаете, тем уже будут эти термины.

Теория индексирования

Хьёрланд (2011) ^[12] обнаружил, что теории индексирования на самом глубоком уровне связаны с различными теориями познания:

Рационалистические теории индексации (такие как теория Ранганатана) предполагают, что предметы логически конструируются из фундаментального набора категорий. В этом случае основным методом предметного анализа является «аналитико-синтетический», заключающийся в выделении набора основных категорий (=анализ) и последующем построении предмета любого данного документа путем объединения этих категорий по некоторым правилам (=синтез).
Эмпиристские теории индексирования основаны на выборе похожих документов на основе их свойств, в частности, с помощью методов числовой статистики.
Историческая и герменевтическая теории индексации предполагают, что предмет данного документа связан с данным дискурсом или областью, поэтому индексирование должно отражать потребность конкретного дискурса или области. Согласно герменевтике, документ всегда пишется и интерпретируется с определенного горизонта. То же самое происходит с системами организации знаний и со всеми пользователями, осуществляющими поиск в таких системах. Любой вопрос, заданный к такой системе, ставится с определенного горизонта. Все эти горизонты могут находиться в большей или меньшей степени в консенсусе или в конфликте. Индексировать документ — значит попытаться внести свой вклад в поиск «релевантных» документов, зная об этих различных горизонтах.
Прагматические и критические теории индексации (например, Hjørland, 1997) ^[13] согласуются с историцистской точкой зрения, согласно которой субъекты соотносятся с конкретными дискурсами, но подчеркивают, что предметный анализ должен поддерживать заданные цели и ценности и должен учитывать последствия индексации. так или иначе. Эти теории полагают, что индексация не может быть нейтральной и что пытаться индексировать нейтральным образом — неправильная цель. Индексирование — это действие (а компьютерное индексирование действует в соответствии с намерениями программиста). Действия служат человеческим целям. Библиотеки и информационные службы также служат целям человечества, поэтому их индексирование должно осуществляться таким образом, чтобы максимально способствовать достижению этих целей. На первый взгляд это выглядит странно, поскольку целью библиотек и информационных служб является идентификация любого документа или фрагмента информации. Тем не менее, любой конкретный способ индексации всегда поддерживает одни виды использования за счет других. Документы, подлежащие индексированию, призваны служить определенным целям в обществе. По сути, индексация должна служить тем же целям. Первичные и вторичные документы и информационные услуги являются частями одной и той же социальной системы. В такой системе могут действовать различные теории, эпистемологии, мировоззрения и т. д., и пользователям необходимо иметь возможность ориентироваться и перемещаться между этими различными взглядами. Это требует картирования различных эпистемологий в этой области и классификации единого документа в такую карту. Прекрасные примеры таких разных парадигм и их последствий для систем индексации и классификации представлены в области искусства Оромом (2003) ^[14] и в музыке Абрахамсеном (2003). ^[15]

^{Как утверждают Роули и Фэрроу [16]} , суть индексирования заключается в том , чтобы оценить вклад статьи в знания и соответствующим образом проиндексировать ее. Или, по словам Хьёрланда (1992, ^[17] 1997), индексировать его информативный потенциал.

«Чтобы добиться хорошей последовательной индексации, индексатор должен иметь четкое представление о структуре предмета и характере вклада, который документ вносит в развитие знаний». (Роули и Фэрроу, 2000, ^[16], стр. 99).

Смотрите также

Викискладе есть медиафайлы, связанные с тематическим индексированием .

Служба индексирования и абстрагирования
Классификация документов
Метаданные
Чрезмерная категоризация
Томас Ирландский , средневековый пионер предметного индексирования.

дальнейшее чтение

Фугман, Роберт (1993). Предметный анализ и индексирование. Теоретическая основа и практические советы . Франкфурт-на-Майне: Index Verlag.
Фроманн, Б. (1990). «Правила индексирования: критика ментализма в теории поиска информации». Журнал документации . 46 (2): 81–101. дои : 10.1108/eb026855.