stringtranslate.com

Концепция майнинга

Концептуальный анализ — это деятельность, результатом которой является извлечение концепций из артефактов . Решения этой задачи обычно включают аспекты искусственного интеллекта и статистики , такие как интеллектуальный анализ данных и анализ текста . [1] [2] Поскольку артефакты обычно представляют собой слабо структурированную последовательность слов и других символов (а не понятий), проблема нетривиальна , но она может дать ценную информацию о значении, происхождении и сходстве документов.

Методы

Традиционно преобразование слов в понятия выполнялось с использованием тезауруса [3] , и для вычислительных методов существует тенденция делать то же самое. Используемые тезаурусы либо специально созданы для этой задачи, либо уже существующая языковая модель, обычно связанная с WordNet Принстона .

Отображения слов в понятия [4] часто бывают неоднозначными . Обычно каждое слово в данном языке относится к нескольким возможным понятиям. Люди используют контекст, чтобы устранить неоднозначность различных значений данного фрагмента текста, когда доступные системы машинного перевода не могут легко определить контекст.

Однако для целей интеллектуального анализа понятий эти двусмысленности, как правило, менее важны, чем при машинном переводе, поскольку в больших документах двусмысленности имеют тенденцию выравниваться, как и в случае с интеллектуальным анализом текста.

Существует множество методов устранения неоднозначности , которые можно использовать. Примерами являются лингвистический анализ текста и использование информации о частоте ассоциаций слов и понятий, которую можно вывести из больших текстовых корпусов. В последнее время появились и завоевали интерес в научном сообществе методы, основанные на семантическом сходстве возможных понятий и контекста.

Приложения

Обнаружение и индексирование аналогичных документов в крупных корпусах

Одним из побочных результатов расчета статистики документов в области понятий, а не в области слов, является то, что концепции образуют естественные древовидные структуры, основанные на гипернимии и меронимии . Эти структуры можно использовать для создания простой статистики членства в дереве, которую можно использовать для поиска любого документа в евклидовом концептуальном пространстве. Если размер документа также рассматривать как еще одно измерение этого пространства, то можно создать чрезвычайно эффективную систему индексации. В настоящее время этот метод используется в коммерческих целях, позволяя найти аналогичные юридические документы в корпусе документов, насчитывающем 2,5 миллиона человек.

Кластеризация документов по темам

Стандартные методы числовой кластеризации могут использоваться в «концептуальном пространстве», как описано выше, для поиска и индексации документов по предполагаемой теме. Они численно гораздо более эффективны, чем их собратья по интеллектуальному анализу текста , и, как правило, ведут себя более интуитивно, поскольку они лучше соответствуют мерам сходства, которые мог бы генерировать человек.

Смотрите также

Рекомендации

  1. ^ Юэнь-Сянь Ценг, Чун-Йен Чанг, Шу-Ну Чанг Рундгрен и Карл-Йохан Рундгрен, «Карты концепций горнодобывающей промышленности на основе новостных статей для измерения гражданской научной грамотности в средствах массовой информации [ мертвая ссылка ] », Компьютеры и образование, Vol. 55, № 1, август 2010 г., стр. 165-177.
  2. ^ Ли, Кецянь; Чжа, Ханвен; Су, Ю; Ян, Сифэн (ноябрь 2018 г.). «Концептуальный анализ посредством внедрения». Международная конференция IEEE по интеллектуальному анализу данных (ICDM) 2018 г. IEEE. стр. 267–276. дои : 10.1109/icdm.2018.00042. ISBN 978-1-5386-9159-5. S2CID  52841398.
  3. ^ Юэнь-Сянь Ценг, «Автоматическое создание тезауруса для китайских документов», Журнал Американского общества информационных наук и технологий, Vol. 53, № 13, ноябрь 2002 г., стр. 1130-1138.
  4. ^ Юэнь-Сянь Ценг, «Общая маркировка заголовков для кластерных документов», Экспертные системы с приложениями, Vol. 37, № 3, 15 марта 2010 г., стр. 2247-2254.