stringtranslate.com

Сеть совместного появления

Сеть совместного появления, созданная с помощью KH Coder

Сеть совместной встречаемости , иногда называемая семантической сетью , [1] представляет собой метод анализа текста, включающий графическую визуализацию потенциальных связей между людьми , организациями, концепциями, биологическими организмами, такими как бактерии [2] или другими сущностями, представленными в письменном материале. Создание и визуализация сетей совместной встречаемости стали практичными с появлением электронно хранимого текста, совместимого с интеллектуальным анализом текста .

По определению, сети совместной встречаемости — это коллективная взаимосвязь терминов, основанная на их парном присутствии в указанной единице текста. Сети генерируются путем соединения пар терминов с использованием набора критериев, определяющих совместную встречаемость. Например, термины A и B можно назвать «совместно встречающимися», если они оба появляются в определенной статье. Другая статья может содержать термины B и C. Связывание A с B и B с C создает сеть совместной встречаемости этих трех терминов. Правила определения совместной встречаемости в текстовом корпусе могут быть установлены в соответствии с желаемыми критериями. Например, более строгие критерии совместной встречаемости могут потребовать, чтобы пара терминов появлялась в одном предложении . Было обнаружено, что сети совместной встречаемости особенно полезны для анализа больших текстов и больших данных при определении основных тем и разделов (например, в большом количестве сообщений в социальных сетях), выявлении предвзятости в тексте (например, предвзятости в освещении новостей) или даже при картировании целой области исследований. [3]

Методы и разработки

Процесс построения сетей совместной встречаемости включает в себя определение ключевых слов в тексте, расчет частот совместной встречаемости и анализ сетей для поиска центральных слов и кластеров тем в сети. [4]

Сеть совместной встречаемости слов (диапазон 3 слова) для следующего предложения: «Рассвет — это появление света — обычно золотистого, розового или фиолетового — перед восходом солнца»
Сеть совместного обитания бактериального сообщества
в ручье  [5]

Сети совместного появления могут быть созданы для любого заданного списка терминов (любого словаря ) по отношению к любой коллекции текстов (любому текстовому корпусу ). Совместно встречающиеся пары терминов можно назвать «соседями», и они часто группируются в «соседства» на основе их взаимосвязей. Отдельные термины могут иметь несколько соседей. Соседства могут соединяться друг с другом по крайней мере через один отдельный термин или могут оставаться не связанными.

Отдельные термины в контексте интеллектуального анализа текста символически представлены в виде текстовых строк . В реальном мире сущность, идентифицируемая термином, обычно имеет несколько символических представлений. Поэтому полезно рассматривать термины как представленные одним основным символом и несколькими синонимичными альтернативными символами. Появление отдельного термина устанавливается путем поиска каждого известного символического представления термина. Процесс может быть дополнен алгоритмами NLP ( обработки естественного языка ), которые опрашивают сегменты текста на предмет возможных альтернатив, таких как порядок слов , интервалы и переносы . NLP также может использоваться для определения структуры предложения и категоризации текстовых строк в соответствии с грамматикой (например, категоризация строки текста как существительного на основе предыдущей строки текста, известной как статья ) .

Графическое представление сетей совместной встречаемости позволяет визуализировать их и делать выводы относительно взаимосвязей между сущностями в домене , представленном словарем терминов, применяемым к корпусу текста. Осмысленная визуализация обычно требует упрощений сети. Например, сети могут быть нарисованы таким образом, что количество соседей, подключающихся к каждому термину, ограничено. Критерии ограничения соседей могут быть основаны на абсолютном количестве совместных встречаемости или более тонких критериях, таких как «вероятность» совместной встречаемости или наличие промежуточного описательного термина.

Количественные аспекты базовой структуры сети совместной встречаемости также могут быть информативными, например, общее количество связей между сущностями, кластеризация сущностей, представляющих поддомены, обнаружение синонимов и т. д. [6]

Применение и использование

Некоторые рабочие приложения подхода совместной встречаемости доступны общественности через Интернет . PubGene является примером приложения, которое отвечает интересам биомедицинского сообщества, представляя сети, основанные на совместной встречаемости терминов, связанных с генетикой, как они появляются в записях MEDLINE . [7] [8] CoreMine Medical от PubGene использовался в исследованиях, связывающих гены/белки с потенциально эффективными препаратами и кандидатами на препараты при рассеянном склерозе, [9] фиброзе, [10] и гепатите. [11] CoreMine Medical также использовался в исследовании генов, вовлеченных в посттравматическое стрессовое расстройство. [12]

Веб-сайт NameBase является примером того, как можно сделать вывод о человеческих взаимоотношениях, исследуя сети, созданные на основе совместного упоминания личных имен в газетах и ​​других текстах (как в работе Озгура и др. [13] ).

Сети информации также используются для содействия усилиям по организации и фокусированию общедоступной информации для целей правоохранительных органов и разведки (так называемая « разведка с открытым исходным кодом » или OSINT). Сопутствующие методы включают сети совместного цитирования, а также анализ гиперссылок и структуры контента в Интернете (например, при анализе веб-сайтов, связанных с терроризмом [14] ).

Смотрите также

Ссылки

  1. ^ Сегев, Элад (2021). Семантический сетевой анализ в социальных науках. Лондон: Routledge. ISBN 9780367636524.
  2. ^ Фрейлих, Шири; Креймер, Анат; Мейлийсон, Исак; Гофна, Ури; Шаран, Родед; Руппин, Эйтан (2010-02-27). «Крупномасштабная организация бактериальной сети экологических взаимодействий совместного появления». Nucleic Acids Research . 38 (12): 3857–3868. doi :10.1093/nar/gkq118. ISSN  1362-4962. PMC 2896517. PMID 20194113  . 
  3. ^ Сегев, Элад (2021). Семантический сетевой анализ в социальных науках. Лондон: Routledge. ISBN 9780367636524.
  4. ^ Сегев, Элад (2020). «Анализ текстовых сетей: выявление преобладающих тем и предубеждений в международных новостях и социальных сетях». Sociology Compass . 14 (4). doi : 10.1111/soc4.12779. S2CID  212890998.
  5. ^ Лю, Ян; Цюй, Сяодун; Элсер, Джеймс Дж.; Пэн, Вэньци; Чжан, Минь; Жэнь, Цзэ; Чжан, Хайпин; Чжан, Юйхан; Ян, Хуа (2019). «Влияние градиентов питательных веществ и стехиометрии на микробные сообщества в озере Эрхай и его входящих потоках». Вода . 11 (8): 1711. doi : 10.3390/w11081711 .
  6. ^ Коэн, AM; Херш, WR; Дубай, C; Спэкман, K (2005). «Использование структуры сети совместного появления для извлечения синонимичных названий генов и белков из рефератов MEDLINE». BMC Bioinformatics . 6 (1): 103. doi : 10.1186/1471-2105-6-103 . ISSN  1471-2105. PMC 1090552. PMID  15847682 . 
  7. ^ Йенссен, Тор-Кристиан; Легрейд, Астрид; Коморовский, Ян; Ховиг, Эйвинд (1 мая 2001 г.). «Литературная сеть генов человека для высокопроизводительного анализа экспрессии генов». Природная генетика . 28 (1): 21–28. дои : 10.1038/ng0501-21. ISSN  1061-4036. PMID  11326270. S2CID  8889284.
  8. ^ Гривелл, Л. (2002-03-01). «Mining the bibliome: search for a needle in a haystack?: New computing tools are needed to effective scaning assent in the assent in the assent in the assent». EMBO Reports . 3 (3): 200–203. doi :10.1093/embo-reports/kvf059. ISSN  1469-221X. PMC 1084023. PMID 11882534  . 
  9. ^ Дадашхан, Садаф; Сейед Амир, Мирмоталебисохи; Пуршейхи, Хосейн; Самени, Марзие; Гани, Сепиде; Аббаси, Марьям; Калантари, Сима; Зали, Хакиме (2023). «Расшифровка важнейших генов в патогенезе рассеянного склероза и перепрофилировании лекарств: подход системной биологии». J Протеомика . 280 (104890). дои : 10.1016/j.jprot.2023.104890. ПМИД  36966969.
  10. ^ Wilson, Ava C; Chiles, Joe; Ashish, Shah; Chanda, Diptiman; Kumar, Preeti L; Mobley, James A; Neptune, Enid R; Thannickal, Victor J; McDonald, Merry-Lynn N (2022). «Интегрированный биоинформатический анализ выявляет установленные и новые гены, регулируемые TGFβ1 и модулируемые противофиброзными препаратами». Sci Rep . 12 (1): 3080. Bibcode : 2022NatSR..12.3080W . doi : 10.1038/s41598-022-07151-1. PMC 8866468. PMID  35197532. 
  11. ^ Ли, Шэнхао; Хао, Лиюань; Ху, Сяоюй; Ли, Луя (2023). «Систематическое исследование лечения гепатоцеллюлярной карциномы, связанной с гепатитом В, с помощью препаратов на основе биоинформатики и фармакологии обратной сети ключевых целей и экспериментальной проверки». Infect Agent Cancer . 18 (1): 41. doi : 10.1186/s13027-023-00520-z . PMC 10315056 . PMID  37393234. 
  12. ^ Бянь, Яо-Яо; Ян, Ли-Ли; Чжан, Бин; Ли, Вэнь; Ли, Чжэн-Цзюнь; Ли, Вэнь-Линь; Цзэн, Ли (2020). «Идентификация ключевых генов, участвующих в посттравматическом стрессовом расстройстве: данные биоинформатического анализа». World J Psychiatry . 10 (12): 286–298. doi : 10.5498/wjp.v10.i12.286 . PMC 7754529. PMID  33392005 . 
  13. ^ Озгур А., Четин Б., Бингол Х: «Совместная сеть новостей Reuters» (15 декабря 2007 г.) https://arxiv.org/abs/0712.2491
  14. ^ Yilu Zhou; Reid, E.; Jialun Qin; Hsinchun Chen; Guanpi Lai (2018-05-22). «Американские внутренние экстремистские группы в Интернете: анализ ссылок и контента». IEEE Intelligent Systems . 20 (5): 44–51. doi :10.1109/MIS.2005.96. S2CID  15687907.