stringtranslate.com

Тематическое индексирование

Тематическое индексирование — это процесс описания или классификации документа с помощью индексных терминов , ключевых слов или других символов, чтобы указать, о чем речь в различных документах , обобщить их содержание или повысить удобство поиска . Другими словами, речь идет об определении и описании предмета документов. Индексы создаются отдельно на трех различных уровнях: термины в документе, например в книге; объекты в коллекции, например в библиотеке; и документы (например, книги и статьи) в области знаний.

Тематическое индексирование используется при поиске информации , особенно для создания библиографических указателей для поиска документов по определенной теме. Примерами академических служб индексирования являются Zentralblatt MATH , Chemical Abstracts и PubMed . Указательные термины в основном были назначены экспертами, но ключевые слова авторов также распространены.

Процесс индексации начинается с анализа тематики документа. Индексатор должен затем идентифицировать термины, которые соответствующим образом идентифицируют предмет, либо путем извлечения слов непосредственно из документа, либо путем присвоения слов из контролируемого словаря . [1] Термины в указателе затем представлены в систематическом порядке.

Индексаторы должны решить, сколько терминов включить и насколько конкретными они должны быть. В совокупности это дает глубину индексации.

Предметный анализ

Первым шагом в индексировании является определение тематики документа. При индексировании вручную индексатор рассматривает предмет с точки зрения ответа на ряд вопросов, таких как «Имеет ли документ отношение к конкретному продукту, состоянию или явлению?». [2] Поскольку на анализ влияют знания и опыт индексатора, из этого следует, что два индексатора могут анализировать контент по-разному и, таким образом, придумывать разные термины индексатора. Это повлияет на успех поиска.

Автоматический и ручной анализ предметов

Автоматическое индексирование следует за установленными процессами анализа частотности словосочетаний и сравнения результатов с другими документами для распределения по тематическим категориям. Для этого не требуется понимания индексируемого материала. Это приводит к более единообразной индексации, но за счет интерпретации истинного смысла. Компьютерная программа не понимает значения утверждений и поэтому может не определить некоторые соответствующие термины или назначить их неправильно. Индексаторы сосредотачивают свое внимание на определенных частях документа, таких как заголовок, аннотация, резюме и выводы, поскольку глубокий анализ всего текста является дорогостоящим и отнимает много времени. [3] Автоматизированная система устраняет ограничение по времени и позволяет полностью документ, подлежащий анализу, но также имеет возможность направить его на определенные части документа.

Выбор срока

Второй этап индексации предполагает перевод предметного анализа в набор индексных терминов . Это может включать в себя извлечение из документа или присвоение из контролируемого словаря . Благодаря широко доступной возможности полнотекстового поиска многие люди стали полагаться на свой собственный опыт в проведении информационного поиска, и полнотекстовый поиск стал очень популярным. Тематическое индексирование и его эксперты, профессиональные индексаторы, каталогизаторы и библиотекари , по-прежнему имеют решающее значение для организации и поиска информации. Эти эксперты понимают контролируемые словари и способны найти информацию, которую невозможно найти с помощью полнотекстового поиска . Стоимость экспертного анализа для создания предметного индексирования нелегко сравнить со стоимостью оборудования, программного обеспечения и рабочей силы для производства сопоставимого набора полнотекстовых материалов с возможностью поиска. Благодаря новым веб-приложениям, которые позволяют каждому пользователю комментировать документы, социальные теги приобрели популярность, особенно в Интернете. [4]

Одно из применений индексации – книжный указатель – остается относительно неизменным, несмотря на информационную революцию .

Извлечение/производная индексация

Индексирование с извлечением предполагает взятие слов непосредственно из документа. Он использует естественный язык и хорошо поддается автоматизированным методам, при которых вычисляется частота слов, а слова, частота которых превышает заранее определенный порог, используются в качестве индексных терминов. Будет сделана ссылка на стоп-лист, содержащий общие слова (такие как «the», «and»), и такие стоп-слова будут исключены как индексные термины.

Индексирование автоматического извлечения может привести к потере смысла терминов из-за индексации отдельных слов, а не фраз. Хотя можно извлечь часто встречающиеся фразы, это становится сложнее, если ключевые понятия непоследовательно сформулированы во фразах. Индексирование с автоматическим извлечением также имеет проблему: даже при использовании стоп-листа для удаления общих слов некоторые часто встречающиеся слова могут оказаться бесполезными для обеспечения различения документов. Например, термин «глюкоза», скорее всего, будет часто встречаться в любом документе, посвященном диабету. Следовательно, использование этого термина, скорее всего, вернет большую часть или все документы в базе данных. Посткоординированное индексирование, при котором термины объединяются во время поиска, уменьшит этот эффект, но ответственность за связывание соответствующих терминов будет лежать на поисковике, а не на специалисте по информации. Кроме того, термины, которые встречаются нечасто, могут иметь большое значение, например, новое лекарственное средство может упоминаться нечасто, но новизна предмета делает любую ссылку значимой. Одним из методов, позволяющих включать более редкие термины и исключать распространенные слова с помощью автоматизированных методов, является подход относительной частоты, при котором частота слова в документе сравнивается с частотой в базе данных в целом. Таким образом, термин, который встречается в документе чаще, чем можно было бы ожидать на основе остальной части базы данных, может быть использован в качестве индексного термина, а термины, которые встречаются одинаково часто во всем документе, будут исключены.

Другая проблема автоматического извлечения заключается в том, что оно не распознает, когда концепция обсуждается, но не идентифицируется в тексте индексируемым ключевым словом. [5]

Поскольку этот процесс основан на простом сопоставлении строк и не требует интеллектуального анализа, результирующий продукт правильнее называть согласованием, чем индексом.

Индексация присвоений

Альтернативой является индексирование по назначению, при котором индексные термины берутся из контролируемого словаря. Преимущество этого метода заключается в контроле за синонимами , поскольку предпочтительный термин индексируется, а синонимы или связанные термины направляют пользователя к предпочтительному термину. Это означает, что пользователь может находить статьи независимо от конкретного термина, использованного автором, и избавляет пользователя от необходимости знать и проверять все возможные синонимы. [6] Это также устраняет любую путаницу, вызванную омографами путем включения уточняющего термина. Третье преимущество заключается в том, что он позволяет связывать родственные термины, независимо от того, связаны ли они иерархией или ассоциацией, например, в индексной записи для пероральных препаратов могут быть указаны другие пероральные препараты как связанные термины на том же уровне иерархии, но также будут связаны с более широкими терминами. такие термины, как лечение. Индексирование присвоений используется при индексировании вручную для улучшения согласованности между индексаторами, поскольку разные индексаторы будут иметь контролируемый набор терминов на выбор. Контролируемые словари не устраняют полностью несоответствия, поскольку два индексатора все равно могут интерпретировать предмет по-разному. [2]

Представление индекса

Заключительный этап индексации заключается в представлении записей в систематическом порядке. Это может включать в себя связывание записей. В предварительно скоординированном индексе индексатор определяет порядок, в котором термины связаны в записи, учитывая, как пользователь может сформулировать свой поиск. В посткоординированном индексе записи представлены по отдельности, и пользователь может связать их посредством поиска, чаще всего выполняемого с помощью компьютерного программного обеспечения. Посткоординация приводит к потере точности по сравнению с предварительной координацией [7]

Глубина индексации

Индексаторы должны принимать решения о том, какие записи следует включить и сколько записей должен включать индекс. Глубина индексации описывает тщательность процесса индексации с точки зрения полноты и специфичности [8].

Исчерпаемость

Исчерпывающий указатель — это индекс, в котором перечислены все возможные индексные термины. Большая полнота дает более высокую полноту или большую вероятность того, что все соответствующие статьи будут найдены, однако это происходит за счет точности . Это означает, что пользователь может получить большее количество нерелевантных документов или документов, которые касаются темы лишь недостаточно глубоко. В ручной системе более высокий уровень полноты влечет за собой более высокие затраты, поскольку требуется больше человеко-часов. Дополнительное время, затрачиваемое в автоматизированной системе, будет гораздо менее значительным. На другом конце шкалы находится выборочный индекс, охватывающий только наиболее важные аспекты. [9] В выборочном указателе объем памяти снижается, так как если индексатор не включает достаточное количество терминов, очень релевантная статья может быть упущена из виду. Поэтому индексаторам следует стремиться к балансу и учитывать, какой документ может быть использован. Возможно, им также придется учитывать последствия, связанные с затратами времени и средств.

Специфика

Специфичность описывает, насколько близко термины индекса соответствуют темам, которые они представляют [10]. Указатель называется конкретным, если индексатор использует параллельные дескрипторы концепции документа и точно отражает концепции. [11] Специфичность имеет тенденцию увеличиваться по мере полноты, поскольку чем больше терминов вы включаете, тем уже будут эти термины.

Теория индексирования

Хьёрланд (2011) [12] обнаружил, что теории индексирования на самом глубоком уровне связаны с различными теориями познания:

Как утверждают Роули и Фэрроу [16] , суть индексирования заключается в том , чтобы оценить вклад статьи в знания и соответствующим образом проиндексировать ее. Или, по словам Хьёрланда (1992, [17] 1997), индексировать его информативный потенциал.

«Чтобы добиться хорошей последовательной индексации, индексатор должен иметь четкое представление о структуре предмета и характере вклада, который документ вносит в развитие знаний». (Роули и Фэрроу, 2000, [16], стр. 99).

Смотрите также

Рекомендации

  1. ^ Ф.В. Ланкастер (2003): «Индексация и абстрагирование в теории и практике». Третье издание. Лондон, Facet ISBN  1-85604-482-3 . страница 6
  2. ^ ab GG Chowdhury (2004): «Введение в современный поиск информации». Третье издание. Лондон, Фасет. ISBN 1-85604-480-7 . стр. 71 
  3. ^ Ф.В. Ланкастер (2003): «Индексация и абстрагирование в теории и практике». Третье издание. Лондон, Facet ISBN 1-85604-482-3 . стр. 24 
  4. ^ Восс, Якоб (2007). «Теги, Folksonomy & Co — возрождение ручного индексирования?». Материалы Международного симпозиума по информатике . стр. 234–254. arXiv : cs/0701072 . Бибкод : 2007cs........1072V.
  5. ^ Дж. Лэмб (2008): Индексы, создаваемые человеком или компьютером? Архивировано 4 июня 2014 г. в Wayback Machine [онлайн] Шеффилд, Общество индексаторов. По состоянию на 15 января 2009 г.
  6. ^ К. Тенопир (1999): «Индексация важна, человечная или автоматизированная». Библиотечный журнал 124 (18) стр. 34-38.
  7. ^ Д. Бодофф и А. Камбил, (1998): «Частичная координация. I. Лучшее из предварительной и пост-координации». Журнал Американского общества информатики , 49 (14), 1254–1269.
  8. ^ Д.Б. Кливленд и А.Д. Кливленд (2001): «Введение в индексирование и абстрагирование». 3-е изд. Энглвуд, Library Unlimited, Inc. ISBN 1-56308-641-7 . стр. 105 
  9. ^ Б. Х. Вайнберг (1990): «Исчерпывание индексов: книги, журналы и полные электронные тексты; Краткое изложение семинара, представленного на ежегодной конференции ASI 1999 года». Ключевые слова , 7 (5), страницы 1+.
  10. ^ Дж. Д. Андерсон (1997): Рекомендации для индексов и соответствующих устройств поиска информации [онлайн]. Бетесда, Мэриленд, Niso Press. 10 декабря 2008 г.
  11. ^ Д.Б. Кливленд и А.Д. Кливленд (2001): «Введение в индексирование и абстрагирование». 3-е изд. Энглвуд, Library Unlimited, Inc. ISBN 1-56308-641-7 . стр. 106 
  12. ^ Хьёрланд, Биргер (2011). Важность теорий познания: индексирование и поиск информации на примере. Журнал Американского общества информатики и технологий , 62 (1), 72-77.
  13. ^ Хьёрланд, Б. (1997). Поиск информации и представление субъекта. Теоретико-деятельностный подход к информатике. Вестпорт и Лондон: Greenwood Press.
  14. ^ Ором, Андерс (2003). Организация знаний в области искусствоведения - история, переходный период и концептуальные изменения. Организация знаний. 30(3/4), 128-143.
  15. ^ Абрахамсен, Кнут Т. (2003). Индексация музыкальных жанров. Эпистемологическая перспектива. Организация знаний, 30 (3/4), 144–169.
  16. ^ аб Роули, Дж. Э. и Фэрроу, Дж. (2000). Организация знаний: введение в управление доступом к информации. 3-й. Олдерстот: Издательская компания Gower
  17. ^ Хьёрланд, Биргер (1992). Понятие «субъект» в информатике. Журнал документации. 48(2), 172-200. http://iva.dk/bh/Core%20Concepts%20in%20LIS/1992JDOC%5FSubject.PDF

дальнейшее чтение