Сеть совместной встречаемости , иногда называемая семантической сетью , [1] представляет собой метод анализа текста, включающий графическую визуализацию потенциальных связей между людьми , организациями, концепциями, биологическими организмами, такими как бактерии [2] или другими сущностями, представленными в письменном материале. Создание и визуализация сетей совместной встречаемости стали практичными с появлением электронно хранимого текста, совместимого с интеллектуальным анализом текста .
По определению, сети совместной встречаемости — это коллективная взаимосвязь терминов, основанная на их парном присутствии в указанной единице текста. Сети генерируются путем соединения пар терминов с использованием набора критериев, определяющих совместную встречаемость. Например, термины A и B можно назвать «совместно встречающимися», если они оба появляются в определенной статье. Другая статья может содержать термины B и C. Связывание A с B и B с C создает сеть совместной встречаемости этих трех терминов. Правила определения совместной встречаемости в текстовом корпусе могут быть установлены в соответствии с желаемыми критериями. Например, более строгие критерии совместной встречаемости могут потребовать, чтобы пара терминов появлялась в одном предложении . Было обнаружено, что сети совместной встречаемости особенно полезны для анализа больших текстов и больших данных при определении основных тем и разделов (например, в большом количестве сообщений в социальных сетях), выявлении предвзятости в тексте (например, предвзятости в освещении новостей) или даже при картировании целой области исследований. [3]
Процесс построения сетей совместной встречаемости включает в себя определение ключевых слов в тексте, расчет частот совместной встречаемости и анализ сетей для поиска центральных слов и кластеров тем в сети. [4]
Сети совместного появления могут быть созданы для любого заданного списка терминов (любого словаря ) по отношению к любой коллекции текстов (любому текстовому корпусу ). Совместно встречающиеся пары терминов можно назвать «соседями», и они часто группируются в «соседства» на основе их взаимосвязей. Отдельные термины могут иметь несколько соседей. Соседства могут соединяться друг с другом по крайней мере через один отдельный термин или могут оставаться не связанными.
Отдельные термины в контексте интеллектуального анализа текста символически представлены в виде текстовых строк . В реальном мире сущность, идентифицируемая термином, обычно имеет несколько символических представлений. Поэтому полезно рассматривать термины как представленные одним основным символом и несколькими синонимичными альтернативными символами. Появление отдельного термина устанавливается путем поиска каждого известного символического представления термина. Процесс может быть дополнен алгоритмами NLP ( обработки естественного языка ), которые опрашивают сегменты текста на предмет возможных альтернатив, таких как порядок слов , интервалы и переносы . NLP также может использоваться для определения структуры предложения и категоризации текстовых строк в соответствии с грамматикой (например, категоризация строки текста как существительного на основе предыдущей строки текста, известной как статья ) .
Графическое представление сетей совместной встречаемости позволяет визуализировать их и делать выводы относительно взаимосвязей между сущностями в домене , представленном словарем терминов, применяемым к корпусу текста. Осмысленная визуализация обычно требует упрощений сети. Например, сети могут быть нарисованы таким образом, что количество соседей, подключающихся к каждому термину, ограничено. Критерии ограничения соседей могут быть основаны на абсолютном количестве совместных встречаемости или более тонких критериях, таких как «вероятность» совместной встречаемости или наличие промежуточного описательного термина.
Количественные аспекты базовой структуры сети совместной встречаемости также могут быть информативными, например, общее количество связей между сущностями, кластеризация сущностей, представляющих поддомены, обнаружение синонимов и т. д. [6]
Некоторые рабочие приложения подхода совместной встречаемости доступны общественности через Интернет . PubGene является примером приложения, которое отвечает интересам биомедицинского сообщества, представляя сети, основанные на совместной встречаемости терминов, связанных с генетикой, как они появляются в записях MEDLINE . [7] [8] CoreMine Medical от PubGene использовался в исследованиях, связывающих гены/белки с потенциально эффективными препаратами и кандидатами на препараты при рассеянном склерозе, [9] фиброзе, [10] и гепатите. [11] CoreMine Medical также использовался в исследовании генов, вовлеченных в посттравматическое стрессовое расстройство. [12]
Веб-сайт NameBase является примером того, как можно сделать вывод о человеческих взаимоотношениях, исследуя сети, созданные на основе совместного упоминания личных имен в газетах и других текстах (как в работе Озгура и др. [13] ).
Сети информации также используются для содействия усилиям по организации и фокусированию общедоступной информации для целей правоохранительных органов и разведки (так называемая « разведка с открытым исходным кодом » или OSINT). Сопутствующие методы включают сети совместного цитирования, а также анализ гиперссылок и структуры контента в Интернете (например, при анализе веб-сайтов, связанных с терроризмом [14] ).