Концептуальный анализ — это деятельность, результатом которой является извлечение концепций из артефактов . Решения этой задачи обычно включают аспекты искусственного интеллекта и статистики , такие как интеллектуальный анализ данных и анализ текста . [1] [2] Поскольку артефакты обычно представляют собой слабо структурированную последовательность слов и других символов (а не понятий), проблема нетривиальна , но она может дать ценную информацию о значении, происхождении и сходстве документов.
Традиционно преобразование слов в понятия выполнялось с использованием тезауруса [3] , и для вычислительных методов существует тенденция делать то же самое. Используемые тезаурусы либо специально созданы для этой задачи, либо уже существующая языковая модель, обычно связанная с WordNet Принстона .
Отображения слов в понятия [4] часто бывают неоднозначными . Обычно каждое слово в данном языке относится к нескольким возможным понятиям. Люди используют контекст, чтобы устранить неоднозначность различных значений данного фрагмента текста, когда доступные системы машинного перевода не могут легко определить контекст.
Однако для целей интеллектуального анализа понятий эти двусмысленности, как правило, менее важны, чем при машинном переводе, поскольку в больших документах двусмысленности имеют тенденцию выравниваться, как и в случае с интеллектуальным анализом текста.
Существует множество методов устранения неоднозначности , которые можно использовать. Примерами являются лингвистический анализ текста и использование информации о частоте ассоциаций слов и понятий, которую можно вывести из больших текстовых корпусов. В последнее время появились и завоевали интерес в научном сообществе методы, основанные на семантическом сходстве возможных понятий и контекста.
Одним из побочных результатов расчета статистики документов в области понятий, а не в области слов, является то, что концепции образуют естественные древовидные структуры, основанные на гипернимии и меронимии . Эти структуры можно использовать для создания простой статистики членства в дереве, которую можно использовать для поиска любого документа в евклидовом концептуальном пространстве. Если размер документа также рассматривать как еще одно измерение этого пространства, то можно создать чрезвычайно эффективную систему индексации. В настоящее время этот метод используется в коммерческих целях, позволяя найти аналогичные юридические документы в корпусе документов, насчитывающем 2,5 миллиона человек.
Стандартные методы числовой кластеризации могут использоваться в «концептуальном пространстве», как описано выше, для поиска и индексации документов по предполагаемой теме. Они численно гораздо более эффективны, чем их собратья по интеллектуальному анализу текста , и, как правило, ведут себя более интуитивно, поскольку они лучше соответствуют мерам сходства, которые мог бы генерировать человек.