Автоматическое индексирование — это компьютеризированный процесс сканирования больших объемов документов по контролируемому словарю , таксономии , тезаурусу или онтологии и использования этих контролируемых терминов для быстрой и эффективной индексации больших электронных хранилищ документов . Эти ключевые слова или язык применяются путем обучения системы правилам, которые определяют, какие слова сопоставлять. Существуют дополнительные части, такие как синтаксис, использование, близость и другие алгоритмы, основанные на системе и том, что требуется для индексирования. Это учитывается с помощью булевых операторов для сбора и извлечения информации индексации из текста. [1] Поскольку количество документов экспоненциально увеличивается с распространением Интернета , автоматическое индексирование станет необходимым для поддержания возможности находить релевантную информацию в море нерелевантной информации . Системы естественного языка используются для обучения системы на основе семи различных методов, чтобы помочь с этим морем нерелевантной информации. Эти методы: морфологический, лексический, синтаксический, числовой, фразеологический, семантический и прагматический. Каждый из этих взглядов и различных частей скорости и терминов для построения домена для конкретной информации, которая охватывается для индексации. Это используется в автоматизированном процессе индексации. [1]
Автоматизированный процесс может столкнуться с проблемами, и они в первую очередь вызваны двумя факторами: 1) сложностью языка; и 2) отсутствием интуитивности и трудностью экстраполяции концепций из утверждений со стороны вычислительной техники. [2] Это в первую очередь лингвистические проблемы и конкретные проблемы, которые включают семантические и синтаксические аспекты языка. [2] Эти проблемы возникают на основе определенных ключевых слов. С помощью этих ключевых слов вы можете определить точность системы на основе попаданий, промахов и шума. Эти термины относятся к точным совпадениям, ключевым словам, которые компьютерная система пропустила, но не пропустила бы человек, и ключевым словам, которые выбрал компьютер, но не пропустил бы человек. Статистика точности, основанная на этом, должна быть выше 85% для попаданий из 100% для индексации человеком. Это означает, что промахи и шум вместе составляют 15% или меньше. Эта шкала дает основу для того, что считается хорошей системой автоматической индексации, и показывает, где возникают проблемы. [1]
Некоторые ученые ссылаются на то, что тема автоматического индексирования привлекла внимание еще в 1950-х годах, особенно в связи с потребностью в более быстром и полном доступе к научной и инженерной литературе. [3] Это внимание к индексированию началось с обработки текста между 1957 и 1959 годами Х. П. Лунем в серии опубликованных статей. Лунем предположил, что компьютер может обрабатывать сопоставление ключевых слов, сортировку и анализ контента. Это было началом автоматического индексирования и формулы для извлечения ключевых слов из текста на основе частотного анализа. Позже было установлено, что одной частоты недостаточно для хороших дескрипторов, однако это положило начало пути к тому, где мы сейчас находимся с автоматическим индексированием. [4] Это было подчеркнуто информационным взрывом, который был предсказан в 1960-х годах [5] и пришел с появлением информационных технологий и Всемирной паутины. Прогноз был подготовлен Мурсом, где была создана схема с ожидаемой ролью, которую вычисления будут играть в обработке текста и поиске информации. В этом прогнозе говорилось, что машины будут использоваться для хранения документов в больших коллекциях, и что мы будем использовать эти машины для запуска поиска. Mooers также предсказал онлайн-аспект и среду поиска для индексации баз данных. Это привело Mooers к предсказанию машины индукционного вывода, которая произведет революцию в индексации. [4] Это явление потребовало разработки системы индексации, которая может справиться с задачей хранения и организации огромного количества данных и может облегчить доступ к информации. [6] [7] Новое электронное оборудование еще больше продвинуло автоматизированное индексирование, поскольку оно преодолело барьер, налагаемый старыми бумажными архивами, позволяя кодировать информацию на молекулярном уровне. [5] С этим новым электронным оборудованием были разработаны инструменты для помощи пользователям. Они использовались для управления файлами и были организованы в различные категории, такие как пакеты PDM, такие как Outlook или Lotus Note, и инструменты для составления интеллект-карт, такие как MindManager и Freemind. Они позволяют пользователям сосредоточиться на хранении и построении когнитивной модели. [8] Автоматическая индексация также частично обусловлена появлением области, называемой компьютерной лингвистикой , которая направляла исследования, в конечном итоге создавшие такие методы, как применение компьютерного анализа к структуре и значению языков. [3] [9] Автоматическая индексация дополнительно стимулируется исследованиями и разработками в области искусственного интеллекта и самоорганизующихся систем, также называемых мыслящими машинами. [3]
Автоматическое индексирование имеет множество практических применений, например, в области медицины. В исследовании, опубликованном в 2009 году, исследователи говорят о том, как автоматическое индексирование может быть использовано для создания информационного портала, где пользователи могут найти достоверную информацию о лекарстве. CISMeF — один из таких порталов здравоохранения, который предназначен для предоставления информации о лекарствах. Сайт использует тезаурус MeSH для индексации научных статей базы данных MEDLINE и метаданных Dublin Core. Система создает метатермин «лекарство» и использует его в качестве критерия поиска для поиска всей информации о конкретном лекарстве. Сайт использует простой и расширенный поиск. Простой поиск позволяет вам искать по названию бренда или по любому коду, присвоенному лекарству. Расширенный поиск позволяет выполнять более конкретный поиск, позволяя вам вводить все, что описывает лекарство, которое вы ищете. [10]