Предметная индексация

Предметное индексирование — это процесс описания или классификации документа с помощью индексных терминов , ключевых слов или других символов, чтобы указать, о чем разные документы , обобщить их содержание или повысить находимость . Другими словами, речь идет об идентификации и описании предмета документов. Индексы строятся отдельно на трех различных уровнях: термины в документе, например, в книге; объекты в коллекции, например, в библиотеке; и документы (например, книги и статьи) в пределах области знаний.

Предметная индексация используется в информационном поиске, особенно для создания библиографических индексов для поиска документов по определенной теме. Примерами академических служб индексации являются Zentralblatt MATH , Chemical Abstracts и PubMed . Термины индекса в основном назначались экспертами, но ключевые слова автора также распространены.

Процесс индексации начинается с любого анализа предмета документа. Затем индексатор должен определить термины, которые соответствующим образом идентифицируют предмет, либо путем извлечения слов непосредственно из документа, либо путем назначения слов из контролируемого словаря . ^[1] Затем термины в индексе представлены в систематическом порядке.

Индексаторы должны решить, сколько терминов включить и насколько конкретными должны быть термины. Вместе это дает глубину индексации.

Анализ предмета

Первый шаг индексации — определиться с предметом документа. При ручной индексации индексатор будет рассматривать предмет с точки зрения ответа на ряд вопросов, таких как «Описывается ли в документе конкретный продукт, состояние или явление?». ^[2] Поскольку на анализ влияют знания и опыт индексатора, из этого следует, что два индексатора могут по-разному анализировать контент и, таким образом, выдавать разные термины индекса. Это повлияет на успешность поиска.

Автоматический и ручной анализ предмета

Автоматическая индексация следует установленным процессам анализа частотности словосочетаний и сравнения результатов с другими документами для назначения тематическим категориям. Это не требует понимания индексируемого материала. Это приводит к более единообразной индексации, но за счет интерпретации истинного смысла. Компьютерная программа не поймет смысла утверждений и поэтому может не назначить некоторые соответствующие термины или назначить неправильно. Индексаторы-люди сосредотачивают свое внимание на определенных частях документа, таких как заголовок, аннотация, резюме и выводы, поскольку подробный анализ полного текста является дорогостоящим и отнимает много времени. ^[3] Автоматизированная система снимает ограничение по времени и позволяет анализировать весь документ, но также имеет возможность направлять на определенные части документа.

Выбор термина

Второй этап индексации включает в себя перевод предметного анализа в набор индексных терминов . Это может включать в себя извлечение из документа или назначение из контролируемого словаря . С возможностью проведения полнотекстового поиска, широко доступной, многие люди стали полагаться на свой собственный опыт в проведении поиска информации, и полнотекстовый поиск стал очень популярным. Предметная индексация и ее эксперты, профессиональные индексаторы, каталогизаторы и библиотекари , остаются критически важными для организации и поиска информации. Эти эксперты понимают контролируемые словари и способны находить информацию, которую нельзя найти с помощью полнотекстового поиска. Стоимость экспертного анализа для создания предметной индексации нелегко сравнить со стоимостью оборудования, программного обеспечения и труда для производства сопоставимого набора полнотекстовых, полностью доступных для поиска материалов. С новыми веб-приложениями, которые позволяют каждому пользователю аннотировать документы, социальная маркировка приобрела популярность, особенно в Интернете. ^[4]

Одно из применений индексирования — книжный индекс — остается относительно неизменным, несмотря на информационную революцию .

Извлечение/Производная индексация

Индексация извлечения подразумевает извлечение слов непосредственно из документа. Она использует естественный язык и хорошо подходит для автоматизированных методов, где частоты слов вычисляются, а те, частота которых превышает заранее определенный порог, используются в качестве индексных терминов. Будет сделана ссылка на стоп-лист, содержащий общие слова (такие как «the», «and»), и такие стоп-слова будут исключены из индексных терминов.

Автоматизированная индексация извлечения может привести к потере смысла терминов из-за индексации отдельных слов, а не фраз. Хотя можно извлекать часто встречающиеся фразы, это становится сложнее, если ключевые концепции непоследовательно сформулированы во фразах. Автоматизированная индексация извлечения также имеет проблему, заключающуюся в том, что даже при использовании стоп-листа для удаления общих слов некоторые часто встречающиеся слова могут быть бесполезны для обеспечения различения документов. Например, термин «глюкоза» может часто встречаться в любом документе, связанном с диабетом. Поэтому использование этого термина, скорее всего, вернет большинство или все документы в базе данных. Посткоординированная индексация, когда термины объединяются во время поиска, уменьшит этот эффект, но бремя связывания соответствующих терминов будет лежать на искателе, а не на специалисте по информации. Кроме того, термины, которые встречаются редко, могут быть весьма значимыми, например, новый препарат может упоминаться нечасто, но новизна предмета делает любую ссылку значимой. Одним из методов включения более редких терминов и исключения распространенных слов с помощью автоматизированных методов будет подход относительной частоты, при котором частота слова в документе сравнивается с частотой в базе данных в целом. Таким образом, термин, который встречается в документе чаще, чем можно было бы ожидать на основе остальной части базы данных, может затем использоваться в качестве индексного термина, а термины, которые встречаются одинаково часто, будут исключены.

Другая проблема с автоматизированным извлечением заключается в том, что оно не распознает, когда концепция обсуждается, но не идентифицируется в тексте индексируемым ключевым словом. ^[5]

Поскольку этот процесс основан на простом сопоставлении строк и не требует интеллектуального анализа, полученный продукт правильнее называть конкордансом, а не индексом.

Индексация назначений

Альтернативой является индексация назначения, где индексные термины берутся из контролируемого словаря. Это имеет преимущество контроля синонимов , поскольку предпочтительный термин индексируется, а синонимы или связанные термины направляют пользователя к предпочтительному термину. Это означает, что пользователь может находить статьи независимо от конкретного термина, используемого автором, и избавляет пользователя от необходимости знать и проверять все возможные синонимы. ^[6] Это также устраняет любую путаницу, вызванную омографами, путем включения квалифицирующего термина. Третье преимущество заключается в том, что это позволяет связывать связанные термины, связаны ли они иерархией или ассоциацией, например, запись индекса для перорального препарата может перечислять другие пероральные препараты как связанные термины на том же уровне иерархии, но также будет ссылаться на более широкие термины, такие как лечение. Индексация назначения используется в ручной индексации для улучшения согласованности между индексаторами, поскольку разные индексаторы будут иметь контролируемый набор терминов для выбора. Контролируемые словари не полностью устраняют несоответствия, поскольку два индексатора могут по-прежнему по-разному интерпретировать предмет. ^[2]

Индекс презентации

Заключительный этап индексации заключается в представлении записей в систематическом порядке. Это может включать связывание записей. В предварительно согласованном индексе индексатор определяет порядок, в котором термины связаны в записи, учитывая, как пользователь может сформулировать свой поиск. В постсогласованном индексе записи представлены по отдельности, и пользователь может связывать записи с помощью поиска, чаще всего выполняемого с помощью компьютерного программного обеспечения. Постсогласование приводит к потере точности по сравнению с предсогласованием. ^[7]

Глубина индексации

Индексаторы должны принимать решения о том, какие записи следует включить и сколько записей должен включать индекс. Глубина индексирования описывает тщательность процесса индексирования с точки зрения полноты и специфичности. ^[8]

Исчерпывающий

Исчерпывающий индекс — это индекс, который перечисляет все возможные термины индекса. Большая полнота дает более высокую полноту или большую вероятность того, что все соответствующие статьи будут извлечены, однако это происходит за счет точности . Это означает, что пользователь может извлечь большее количество нерелевантных документов или документов, которые рассматривают тему лишь в небольшой степени. В ручной системе большая полнота влечет за собой большую стоимость, поскольку требуется больше человеко-часов. Дополнительное время, затрачиваемое в автоматизированной системе, было бы гораздо менее значительным. С другой стороны, в выборочном индексе охватываются только самые важные аспекты. ^[9] Полнота снижается в выборочном индексе, так как если индексатор не включает достаточно терминов, очень релевантная статья может быть упущена. Поэтому индексаторы должны стремиться к балансу и учитывать, для чего может использоваться документ. Им также, возможно, придется учитывать последствия времени и расходов.

Специфичность

Специфичность описывает, насколько близко термины индекса соответствуют темам, которые они представляют. ^[10] Индекс считается специфическим, если индексатор использует параллельные дескрипторы для концепции документа и точно отражает концепции. ^[11] Специфичность имеет тенденцию увеличиваться с исчерпывающей полнотой, поскольку чем больше терминов вы включаете, тем уже будут эти термины.

Теория индексации

Хьёрланд (2011) ^[12] обнаружил, что теории индексации на самом глубоком уровне связаны с различными теориями познания:

Рационалистические теории индексации (например, теория Ранганатана) предполагают, что субъекты логически строятся из фундаментального набора категорий. Тогда основным методом анализа субъекта является «аналитико-синтетический», чтобы изолировать набор базовых категорий (=анализ), а затем построить субъект любого данного документа, комбинируя эти категории в соответствии с некоторыми правилами (=синтез).
Эмпирические теории индексации основаны на отборе схожих документов на основе их свойств, в частности, путем применения числовых статистических методов.
Историцистские и герменевтические теории индексации предполагают, что тема данного документа связана с данным дискурсом или доменом, поэтому индексация должна отражать потребность конкретного дискурса или домена. Согласно герменевтике, документ всегда пишется и интерпретируется с определенного горизонта. То же самое касается систем организации знаний и всех пользователей, ищущих такие системы. Любой вопрос, заданный такой системе, задается с определенного горизонта. Все эти горизонты могут быть более или менее согласованными или конфликтующими. Индексировать документ — значит попытаться внести вклад в поиск «релевантных» документов, зная об этих различных горизонтах.
Прагматические и критические теории индексации (например, Hjørland, 1997) ^[13] согласны с исторической точкой зрения, что субъекты связаны с конкретными дискурсами, но подчеркивают, что анализ субъекта должен поддерживать заданные цели и ценности и должен учитывать последствия индексации тем или иным образом. Эти теории полагают, что индексация не может быть нейтральной и что неправильно пытаться индексировать нейтральным образом. Индексация - это действие (а компьютерное индексирование действует в соответствии с намерениями программиста). Действия служат человеческим целям. Библиотеки и информационные службы также служат человеческим целям, поэтому их индексация должна осуществляться таким образом, чтобы максимально поддерживать эти цели. На первый взгляд это выглядит странно, потому что цели библиотек и информационных служб - идентифицировать любой документ или фрагмент информации. Тем не менее, любой конкретный способ индексации всегда поддерживает какой-то вид использования за счет другого. Документы, которые должны быть индексированы, предназначены для определенных целей в сообществе. По сути, индексация должна быть предназначена для тех же целей. Первичные и вторичные документы и информационные услуги являются частями одной и той же общей социальной системы. В такой системе могут играть разные теории, эпистемологии, мировоззрения и т. д., и пользователи должны иметь возможность ориентироваться и перемещаться среди этих разных взглядов. Это требует картирования разных эпистемологий в этой области и классификации одного документа на такой карте. Прекрасные примеры таких разных парадигм и их последствий для систем индексации и классификации приведены в области искусства Ørom (2003) ^[14] и в музыке Abrahamsen (2003). ^[15]

Суть индексирования, как утверждают Роули и Фэрроу ^[16], заключается в оценке вклада статьи в знания и ее соответствующем индексировании. Или, по словам Хьёрланда (1992, ^[17] 1997), в индексировании ее информативного потенциала. «Чтобы добиться хорошей последовательной индексации, индексатор должен иметь полное представление о структуре предмета и характере вклада, который документ вносит в развитие знаний» (Роули и Фэрроу, 2000, ^[16] стр. 99).

Смотрите также

На Викискладе есть медиафайлы по теме «Индексация предметов» .

Классификация документов
Служба индексирования и реферирования
Метаданные
Излишняя категоризация
Томас Ирландский , средневековый пионер предметного индексирования

Ссылки

^ FW Lancaster (2003): "Индексирование и абстрагирование в теории и практике". Третье издание. Лондон, Facet ISBN 1-85604-482-3 . стр. 6
^ ab GG Chowdhury (2004): "Введение в современный информационный поиск". Третье издание. Лондон, Facet. ISBN 1-85604-480-7 . стр. 71
^ FW Lancaster (2003): "Индексирование и абстрагирование в теории и практике". Третье издание. Лондон, Facet ISBN 1-85604-482-3 . стр. 24
^ Восс, Якоб (2007). «Теги, фолксономия и ко - Ренессанс ручного индексирования?». Труды Международного симпозиума по информационным наукам . С. 234–254. arXiv : cs/0701072 . Bibcode :2007cs........1072V.
^ J. Lamb (2008): Индексы, созданные человеком или компьютером? Архивировано 04.06.2014 в Wayback Machine [онлайн] Шеффилд, Общество индексаторов. Доступ 15 января 2009 г.
^ C. Tenopir (1999): «Человеческая или автоматизированная, индексация важна». Library Journal 124 (18) страницы 34-38.
^ Д. Бодофф и А. Камбил, (1998): «Частичная координация. I. Лучшее из предварительной и последующей координации». Журнал Американского общества информационной науки , 49 (14), 1254-1269.
^ DB Cleveland и AD Cleveland (2001): "Введение в индексирование и реферирование". 3-е изд. Englewood, libraries Unlimited, Inc. ISBN 1-56308-641-7 . стр. 105
^ BH Weinberg (1990): "Полнота индексов: книги, журналы и электронные полные тексты; Резюме семинара, представленного на ежегодной конференции ASI 1999 года". Ключевые слова , 7 (5), страницы 1+.
^ JD Anderson (1997): Руководство по индексам и связанным с ними устройствам поиска информации [онлайн]. Бетесда, Мэриленд, Niso Press. 10 декабря 2008 г.
^ DB Cleveland и AD Cleveland (2001): "Введение в индексирование и реферирование". 3-е изд. Englewood, libraries Unlimited, Inc. ISBN 1-56308-641-7 . стр. 106
^ Хьёрланд, Биргер (2011). Важность теорий знаний: индексирование и поиск информации в качестве примера. Журнал Американского общества информационной науки и технологий , 62(1), 72-77.
^ Hjørland, B. (1997). Поиск информации и представление субъекта. Теоретико-деятельностный подход к информационной науке. Westport & London: Greenwood Press.
^ Ørom, Anders (2003). Организация знаний в области изучения искусства - история, переход и концептуальные изменения. Организация знаний. 30(3/4), 128-143.
^ Абрахамсен, Кнут Т. (2003). Индексация музыкальных жанров. Эпистемологическая перспектива. Организация знаний, 30(3/4), 144-169.
^ ab Rowley, JE & Farrow, J. (2000). Организация знаний: Введение в управление доступом к информации. 3-й. Alderstot: Gower Publishing Company
^ Хьёрланд, Биргер (1992). Понятие «субъект» в информационной науке. Журнал документации. 48(2), 172-200. http://iva.dk/bh/Core%20Concepts%20in%20LIS/1992JDOC%5FSubject.PDF

Дальнейшее чтение

Фугман, Роберт (1993). Предметный анализ и индексация. Теоретическая основа и практические советы . Франкфурт-на-Майне: Index Verlag.
Фроманн, Б. (1990). «Правила индексации: критика ментализма в теории информационного поиска». Журнал документации . 46 (2): 81–101. doi :10.1108/eb026855.
Веллиш, Ганс, Х. (1986). «Самые старые печатные индексы». Индексатор 15, № 2 октября., стр. 1–10.