Процесс категоризации документов
Классификация документов или категоризация документов является проблемой в библиотековедении , информатике и информатике . Задача состоит в том, чтобы отнести документ к одному или нескольким классам или категориям . Это может быть сделано «вручную» (или «интеллектуально») или алгоритмически . Интеллектуальная классификация документов в основном была областью библиотековедения, в то время как алгоритмическая классификация документов в основном относится к информатике и информатике. Однако проблемы пересекаются, и поэтому существуют междисциплинарные исследования по классификации документов.
Документы, подлежащие классификации, могут быть текстами, изображениями, музыкой и т. д. Каждый вид документа имеет свои особые проблемы классификации. Если не указано иное, подразумевается текстовая классификация .
Документы могут быть классифицированы по их предметам или по другим атрибутам (таким как тип документа, автор, год печати и т. д.). В оставшейся части статьи рассматривается только предметная классификация. Существуют две основные философии предметной классификации документов: подход, основанный на содержании, и подход, основанный на запросе.
Классификация «на основе содержания» и «на основе запроса»
Классификация на основе содержания — это классификация, в которой вес, присвоенный определенным темам в документе, определяет класс, к которому относится документ. Например, общепринятым правилом классификации в библиотеках является то, что не менее 20% содержания книги должно быть посвящено классу, к которому относится книга. [1] В автоматической классификации это может быть количество раз, которое заданные слова встречаются в документе.
Классификация, ориентированная на запрос (или индексация), — это классификация, в которой ожидаемый запрос пользователей влияет на то, как классифицируются документы. Классификатор спрашивает себя: «Под какими дескрипторами следует искать эту сущность?» и «подумайте обо всех возможных запросах и решите, для каких из них данная сущность является релевантной» (Soergel, 1985, стр. 230 [2] ).
Классификация, ориентированная на запрос, может быть классификацией, нацеленной на определенную аудиторию или группу пользователей. Например, библиотека или база данных для феминистских исследований могут классифицировать/индексировать документы по-другому по сравнению с исторической библиотекой. Однако, вероятно, лучше понимать классификацию, ориентированную на запрос, как классификацию на основе политики : классификация выполняется в соответствии с некоторыми идеалами и отражает цель библиотеки или базы данных, выполняющей классификацию. Таким образом, это не обязательно своего рода классификация или индексация, основанная на исследованиях пользователей. Только если применяются эмпирические данные об использовании или пользователях, классификацию, ориентированную на запрос, следует рассматривать как подход, основанный на пользователях.
Классификация против индексации
Иногда проводится различие между отнесением документов к классам («классификация») и отнесением субъектов к документам (« индексация субъектов »), но, как утверждал Фредерик Уилфрид Ланкастер , это различие непродуктивно. «Эти терминологические различия, — пишет он, — совершенно бессмысленны и только вызывают путаницу» (Lancaster, 2003, стр. 21 [3] ). Мнение о том, что это различие является чисто поверхностным, также подтверждается тем фактом, что система классификации может быть преобразована в тезаурус и наоборот (ср., Aitchison, 1986, [4] 2004; [5] Broughton, 2008; [6] Riesthuis & Bliedung, 1991 [7] ). Следовательно, акт маркировки документа (скажем, путем присвоения документу термина из контролируемого словаря ) в то же время означает присвоение этого документа классу документов, индексируемых этим термином (все документы, индексируемые или классифицируемые как X, принадлежат к одному и тому же классу документов). Другими словами, маркировка документа — это то же самое, что и присвоение его классу документов, индексируемых под этим ярлыком.
Автоматическая классификация документов (ADC)
Задачи автоматической классификации документов можно разделить на три вида: контролируемая классификация документов , где некоторый внешний механизм (например, обратная связь от человека) предоставляет информацию о правильной классификации документов, неконтролируемая классификация документов (также известная как кластеризация документов ), где классификация должна быть выполнена полностью без ссылки на внешнюю информацию, и полуконтролируемая классификация документов , [8] где части документов маркируются внешним механизмом. Доступно несколько программных продуктов с различными моделями лицензирования. [9] [10] [11] [12] [13] [14]
Методы
Методы автоматической классификации документов включают:
Приложения
Методы классификации были применены к
- Фильтрация спама — процесс, который пытается отличить спам- сообщения от легитимных писем.
- маршрутизация электронной почты , отправка электронного письма, отправленного на общий адрес, на определенный адрес или почтовый ящик в зависимости от темы [15]
- идентификация языка , автоматическое определение языка текста
- жанровая классификация, автоматическое определение жанра текста [16]
- оценка читабельности , автоматическое определение степени читабельности текста, либо для поиска подходящих материалов для разных возрастных групп или типов читателей, либо как часть более крупной системы упрощения текста
- анализ настроений , определение отношения говорящего или автора к какой-либо теме или общей контекстуальной полярности документа.
- классификация, связанная со здоровьем, с использованием социальных сетей в надзоре за общественным здоровьем [17]
- сортировка статей, выбор статей, которые имеют отношение к ручному отбору литературы, например, как это делается в качестве первого шага для создания вручную отобранных баз данных аннотаций по биологии [18]
Смотрите также
Ссылки
- ^ Библиотека Конгресса (2008). Руководство по рубрикам тем. Вашингтон, округ Колумбия: Библиотека Конгресса, Отдел политики и стандартов. (Лист H 180: «Назначайте рубрики только тем темам, которые составляют не менее 20% работы».)
- ^ Soergel, Dagobert (1985). Организация информации: принципы баз данных и поисковых систем. Орландо, Флорида: Academic Press.
- ^ Ланкастер, Ф. У. (2003). Индексирование и реферирование в теории и практике. Библиотечная ассоциация, Лондон.
- ^ Эйтчисон, Дж. (1986). «Классификация как источник тезауруса: библиографическая классификация HE Bliss как источника терминов и структуры тезауруса». Журнал документации, т. 42, № 3, стр. 160-181.
- ^ Эйтчисон, Дж. (2004). «Тезаурусы из BC2: проблемы и возможности, выявленные в экспериментальном тезаурусе, полученном из расписания Bliss Music». Бюллетень классификации Bliss, том 46, стр. 20-26.
- ^ Бротон, В. (2008). «Фасетная классификация как основа фасетной терминологии: преобразование классифицированной структуры в формат тезауруса в библиографической классификации Блисса (2-е изд.)» Аксиоматес, т. 18, № 2, стр. 193-210.
- ^ Riesthuis, GJA, & Bliedung, St. (1991). "Тезаурификация УДК". Инструменты для организации знаний и человеческого интерфейса, т. 2, стр. 109-117. Index Verlag, Франкфурт.
- ^
Росси, РГ, Лопес, А. д. А. и Резенде, СО (2016). Оптимизация и распространение меток в двудольных гетерогенных сетях для улучшения трансдуктивной классификации текстов. Обработка информации и управление, 52(2):217–257.
- ^ "Интерактивный прототип автоматической классификации документов" (PDF) . Архивировано из оригинала (PDF) 2017-11-15 . Получено 2017-11-14 .
- ^ Прототип интерактивной автоматической классификации документов. Архивировано 24 апреля 2015 г. на Wayback Machine.
- ^ Классификация документов - Artsyl
- ^ ABBYY FineReader Engine 11 для Windows
- ^ Классификатор - Антидот
- ^ "3 метода классификации документов для сложных проектов". www.bisok.com . Получено 04.08.2021 .
- ^ Стефан Буземанн, Свен Шмайер и Роман Г. Аренс (2000). Классификация сообщений в колл-центре. В книге Сергея Ниренбурга, Дугласа Аппельта, Фабио Чиравеньи и Роберта Дейла, ред., Proc. 6-я конференция по прикладной обработке естественного языка. (ANLP'00), стр. 158–165, ACL.
- ^ Сантини, Марина; Россо, Марк (2008), Тестирование приложения с поддержкой жанра: предварительная оценка (PDF) , Симпозиум BCS IRSG: Будущие направления в доступе к информации, Лондон, Великобритания, стр. 54–63, архивировано из оригинала (PDF) 15.11.2019 , извлечено 21.10.2011
{{citation}}
: CS1 maint: отсутствует местоположение издателя ( ссылка ) - ^ X. Dai, M. Bikdash и B. Meyer, «От социальных сетей к надзору за общественным здоровьем: метод кластеризации на основе внедрения слов для классификации Twitter», SoutheastCon 2017, Шарлотт, Северная Каролина, 2017, стр. 1-7. doi :10.1109/SECON.2017.7925400
- ^ Krallinger, M; Leitner, F; Rodriguez-Penagos, C; Valencia, A (2008). "Обзор задачи извлечения аннотации белок-белкового взаимодействия Bio Creative II". Genome Biology . 9 (Suppl 2): S4. doi : 10.1186/gb-2008-9-s2-s4 . PMC 2559988. PMID 18834495 .
Дальнейшее чтение
- Фабрицио Себастьяни. Машинное обучение в автоматизированной категоризации текста. ACM Computing Surveys, 34(1):1–47, 2002.
- Стефан Бюттчер, Чарльз Л. А. Кларк и Гордон В. Кормак. Информационный поиск: внедрение и оценка поисковых систем. Архивировано 05.10.2020 в Wayback Machine . MIT Press, 2010.
Внешние ссылки
- Введение в классификацию документов
- Библиография по автоматизированной категоризации текста. Архивировано 26.09.2019 на Wayback Machine.
- Библиография по классификации запросов. Архивировано 2 октября 2019 г. на Wayback Machine.
- Страница анализа классификации текста
- Обучение классификации текста - Глава 6 книги «Обработка естественного языка с помощью Python» (доступна онлайн)
- TechTC — Репозиторий наборов данных по категоризации текста Техниона, архив 2020-02-14 на Wayback Machine
- Наборы данных Дэвида Д. Льюиса
- Набор данных BioCreative III ACT (задача классификации статей)