stringtranslate.com

Тематическая модель

В статистике и обработке естественного языка тематическая модель — это тип статистической модели для обнаружения абстрактных «тем», которые встречаются в коллекции документов. Тематическое моделирование — это часто используемый инструмент для интеллектуального анализа текста для обнаружения скрытых семантических структур в текстовом тексте. Интуитивно понятно, что если документ посвящен определенной теме, можно ожидать, что определенные слова будут встречаться в нем чаще или реже: «dog» и «bone» будут встречаться чаще в документах о собаках, «cat» и «meow» будут встречаться в документах о кошках, а «the» и «is» будут встречаться примерно одинаково в обоих. Документ обычно касается нескольких тем в разных пропорциях; таким образом, в документе, который на 10% посвящен кошкам и на 90% — собакам, вероятно, будет примерно в 9 раз больше слов о собаках, чем слов о кошках. «Темы», созданные методами тематического моделирования, представляют собой кластеры похожих слов. Тематическая модель воплощает эту интуицию в математической структуре, которая позволяет исследовать набор документов и на основе статистики слов в каждом из них определять, какими могут быть темы и каков баланс тем в каждом документе.

Тематические модели также называются вероятностными тематическими моделями, которые относятся к статистическим алгоритмам для обнаружения скрытых семантических структур обширного текстового корпуса. В век информации объем письменного материала, с которым мы сталкиваемся каждый день, просто превышает наши возможности обработки. Тематические модели могут помочь организовать и предложить нам идеи для понимания больших коллекций неструктурированных текстовых корпусов. Первоначально разработанные как инструмент для интеллектуального анализа текста, тематические модели использовались для обнаружения инструктивных структур в данных, таких как генетическая информация, изображения и сети. Они также имеют приложения в других областях, таких как биоинформатика [1] и компьютерное зрение . [2]

История

Ранняя тематическая модель была описана Пападимитриу, Рагхаваном, Тамаки и Вемпалой в 1998 году. [3] Другая, называемая вероятностным латентным семантическим анализом (PLSA), была создана Томасом Хофманном в 1999 году. [4] Латентное распределение Дирихле (LDA), возможно, самая распространенная тематическая модель, используемая в настоящее время, является обобщением PLSA. Разработанная Дэвидом Блеем , Эндрю Нгом и Майклом И. Джорданом в 2002 году, LDA вводит разреженные априорные распределения Дирихле для распределений документ-тема и тема-слово, кодируя интуицию о том, что документы охватывают небольшое количество тем и что темы часто используют небольшое количество слов. [5] Другие тематические модели, как правило, являются расширениями LDA, такими как распределение Пачинко , которое улучшает LDA, моделируя корреляции между темами в дополнение к корреляциям слов, которые составляют темы. Иерархический анализ латентного дерева (HLTA) является альтернативой LDA, которая моделирует совместную встречаемость слов с использованием дерева скрытых переменных, а состояния скрытых переменных, соответствующие мягким кластерам документов, интерпретируются как темы.

Анимация процесса обнаружения темы в матрице документ-слово посредством бикластеризации . Каждый столбец соответствует документу, каждая строка — слову. Ячейка хранит частоту слова в документе, при этом темные ячейки указывают на высокую частоту слова. Эта процедура группирует документы, в которых используются похожие слова, поскольку она группирует слова, встречающиеся в похожем наборе документов. Такие группы слов затем называются темами. Более обычные тематические модели, такие как LDA, группируют только документы, основываясь на более сложном и вероятностном механизме.

Тематические модели для контекстной информации

Подходы к временной информации включают определение Блоком и Ньюманом временной динамики тем в Pennsylvania Gazette в период 1728–1800 гг. Гриффитс и Стейверс использовали тематическое моделирование на основе рефератов из журнала PNAS для выявления тем, популярность которых росла или падала с 1991 по 2001 г., тогда как Ламба и Мадхусушан [6] использовали тематическое моделирование на основе полнотекстовых исследовательских статей, извлеченных из журнала DJLIT с 1981 по 2018 г. В области библиотечного дела и информационной науки Ламба и Мадхусудхан [6] [7] [8] [9] применили тематическое моделирование на основе различных индийских ресурсов, таких как журнальные статьи и электронные диссертации и ресурсы (ETD). Нельсон [10] анализировал изменение тем с течением времени в Richmond Times-Dispatch, чтобы понять социальные и политические изменения и преемственность в Ричмонде во время Гражданской войны в США . Янг, Торгет и Михалча применили методы тематического моделирования к газетам с 1829 по 2008 год. Мимно использовал тематическое моделирование в 24 журналах по классической филологии и археологии, охватывающих 150 лет, чтобы изучить, как темы в журналах меняются со временем и как журналы становятся более разными или похожими с течением времени.

Инь и др. [11] представили тематическую модель для географически распределенных документов, в которой позиции документов объясняются скрытыми областями, которые обнаруживаются в ходе вывода.

Чанг и Блей [12] включили сетевую информацию между связанными документами в реляционную тематическую модель для моделирования связей между веб-сайтами.

Модель «автор-тема» Розена-Цви и др. [13] моделирует темы, связанные с авторами документов, для улучшения обнаружения тем для документов с информацией об авторстве.

HLTA была применена к коллекции недавних исследовательских работ, опубликованных на крупных площадках по ИИ и машинному обучению. Полученная модель называется The AI ​​Tree. Полученные темы используются для индексации работ на aipano.cse.ust.hk, чтобы помочь исследователям отслеживать тенденции исследований и определять статьи для чтения, а также помогать организаторам конференций и редакторам журналов определять рецензентов для подачи заявок.

Чтобы улучшить качественные аспекты и связность сгенерированных тем, некоторые исследователи изучали эффективность «оценок связности» или, иными словами, того, как извлеченные компьютером кластеры (т. е. темы) согласуются с человеческим эталоном. [14] [15] Оценки связности — это метрики для оптимизации количества тем, извлекаемых из корпуса документов. [16]

Алгоритмы

На практике исследователи пытаются подогнать соответствующие параметры модели к корпусу данных, используя одну из нескольких эвристик для максимального правдоподобия. Обзор D. Blei описывает этот набор алгоритмов. [17] Несколько групп исследователей, начиная с Papadimitriou et al. [3], пытались разработать алгоритмы с доказуемыми гарантиями. Предполагая, что данные были фактически сгенерированы рассматриваемой моделью, они пытаются разработать алгоритмы, которые, вероятно, найдут модель, которая использовалась для создания данных. Методы, используемые здесь, включают разложение по сингулярным значениям (SVD) и метод моментов . В 2012 году был представлен алгоритм, основанный на неотрицательной матричной факторизации (NMF), который также обобщается на тематические модели с корреляциями между темами. [18]

В 2017 году нейронная сеть была использована в тематическом моделировании для ускорения вывода, [19] и была расширена до версии со слабым контролем. [20]

В 2018 году был предложен новый подход к тематическим моделям: он основан на стохастической блочной модели . [21]

Благодаря недавнему развитию LLM, тематическое моделирование использовало LLM посредством контекстного встраивания [22] и тонкой настройки. [23]

Применение тематических моделей

К количественной биомедицине

Тематические модели используются также в других контекстах. Например, появились примеры использования тематических моделей в исследованиях биологии и биоинформатики. [24] Недавно тематические модели использовались для извлечения информации из набора данных геномных образцов раковых заболеваний. [25] В этом случае темы являются биологическими скрытыми переменными, которые необходимо вывести.

К анализу музыки и творчества

Тематические модели могут использоваться для анализа непрерывных сигналов, таких как музыка. Например, они использовались для количественной оценки того, как музыкальные стили меняются со временем, и для выявления влияния конкретных исполнителей на более позднее создание музыки. [26]

Смотрите также

Ссылки

  1. ^ Блей, Дэвид (апрель 2012 г.). «Вероятностные тематические модели». Сообщения ACM . 55 (4): 77–84. doi :10.1145/2133806.2133826. S2CID  753304.
  2. ^ Цао, Лянлян и Ли Фэй-Фэй. «Пространственно-когерентная латентная тематическая модель для параллельной сегментации и классификации объектов и сцен». 2007 IEEE 11-я Международная конференция по компьютерному зрению. IEEE, 2007.
  3. ^ ab Papadimitriou, Christos; Raghavan, Prabhakar; Tamaki, Hisao; Vempala, Santosh (1998). "Скрытая семантическая индексация". Труды семнадцатого симпозиума ACM SIGACT-SIGMOD-SIGART по принципам систем баз данных - PODS '98 . стр. 159–168. doi :10.1145/275487.275505. ISBN 978-0897919968. S2CID  1479546. Архивировано из оригинала (Postscript) 2013-05-09 . Получено 2012-04-17 .
  4. ^ Хофманн, Томас (1999). "Вероятностное латентное семантическое индексирование" (PDF) . Труды двадцать второй ежегодной международной конференции SIGIR по исследованиям и разработкам в области информационного поиска . Архивировано из оригинала (PDF) 2010-12-14.
  5. ^ Блей, Дэвид М.; Нг, Эндрю Й.; Джордан, Майкл И .; Лафферти, Джон (январь 2003 г.). «Скрытое распределение Дирихле». Журнал исследований машинного обучения . 3 : 993–1022. doi :10.1162/jmlr.2003.3.4-5.993.
  6. ^ ab Lamba, Manika jun (2019). «Картирование тем в журнале DESIDOC Journal of Library and Information Technology, Индия: исследование». Scientometrics . 120 (2): 477–505. doi :10.1007/s11192-019-03137-5. ISSN  0138-9130. S2CID  174802673.
  7. ^ Ламба, Маника джун (2019). «Тегирование метаданных и моделирование прогнозирования: пример журнала DESIDOC Journal of Library and Information Technology (2008-2017)». World Digital Libraries . 12 : 33–89. doi : 10.18329/09757597/2019/12103 (неактивен 1 ноября 2024 г.). ISSN  0975-7597.{{cite journal}}: CS1 maint: DOI неактивен по состоянию на ноябрь 2024 г. ( ссылка )
  8. ^ Ламба, Маника может (2019). "Авторско-тематическое моделирование журнала DESIDOC по библиотечным и информационным технологиям (2008-2017), Индия". Философия и практика библиотеки .
  9. ^ Ламба, Маника, сентябрь (2018). Разметка метаданных диссертаций по библиотечным и информационным наукам: Шодганга (2013–2017 гг.) (PDF) . ETD2018: За пределами границ и океанов. Тайвань, Тайбэй.
  10. ^ Нельсон, Роб. «Mining the Dispatch». Mining the Dispatch . Digital Scholarship Lab, University of Richmond . Получено 26 марта 2021 г.
  11. ^ Инь, Чжицзюнь (2011). «Географическое открытие и сравнение тем». Труды 20-й международной конференции по всемирной паутине . С. 247–256. doi :10.1145/1963405.1963443. ISBN 9781450306324. S2CID  17883132.
  12. ^ Чанг, Джонатан (2009). «Реляционные тематические модели для сетей документов» (PDF) . Aistats . 9 : 81–88.
  13. ^ Розен-Цви, Михал (2004). «Модель автор-тема для авторов и документов». Труды 20-й конференции по неопределенности в искусственном интеллекте : 487–494. arXiv : 1207.4169 .
  14. ^ Николенко, Сергей (2017). «Моделирование тем для качественных исследований». Журнал информационной науки . 43 : 88–102. doi :10.1177/0165551515617393. S2CID  30657489.
  15. ^ Ревертер-Рамбальди, Марсель (2022). Тематическое моделирование в данных спонтанной речи (диссертация с отличием). Австралийский национальный университет. doi : 10.25911/M1YF-ZF55.
  16. ^ Ньюман, Дэвид (2010). «Автоматическая оценка связности тем». Технологии человеческого языка: Ежегодная конференция 2010 года Североамериканского отделения Ассоциации компьютерной лингвистики : 100–108.
  17. ^ Блей, Дэвид М. (апрель 2012 г.). «Введение в вероятностные тематические модели» (PDF) . Comm. ACM . 55 (4): 77–84. doi :10.1145/2133806.2133826. S2CID  753304.
  18. ^ Санджив Арора; Ронг Ге; Анкур Мойтра (апрель 2012 г.). «Изучение тематических моделей — выход за рамки SVD». arXiv : 1204.1956 [cs.LG].
  19. ^ Мяо, Ишу; Грефенстет, Эдвард; Блансом, Фил (2017). «Открытие дискретных латентных тем с помощью нейронного вариационного вывода». Труды 34-й Международной конференции по машинному обучению . PMLR: 2410–2419. arXiv : 1706.00359 .
  20. ^ Сюй, Вэйцзе; Цзян, Сяоюй; Сенгамеду Хануманта Рао, Шринивасан; Ианначчи, Фрэнсис; Чжао, Цзиньцзинь (2023). «vONTSS: полуконтролируемое нейронное тематическое моделирование на основе vMF с оптимальным транспортом». Результаты Ассоциации компьютерной лингвистики: ACL 2023. Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 4433–4457. arXiv : 2307.01226 . doi : 10.18653/v1/2023.findings-acl.271.
  21. ^ Мартин Герлах; Тиаго Пексиото; Эдуардо Альтманн (2018). «Сетевой подход к тематическим моделям». Science Advances . 4 (7): eaaq1360. arXiv : 1708.01677 . Bibcode : 2018SciA....4.1360G. doi : 10.1126/sciadv.aaq1360. PMC 6051742. PMID  30035215 . 
  22. ^ Бьянки, Федерико; Терраньи, Сильвия; Хови, Дирк (2021). «Предварительное обучение — горячая тема: контекстуализированные вложения документов улучшают связность тем». Труды 59-го ежегодного собрания Ассоциации компьютерной лингвистики и 11-й Международной совместной конференции по обработке естественного языка (том 2: краткие доклады) . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики. стр. 759–766. doi :10.18653/v1/2021.acl-short.96.
  23. ^ Сюй, Вэйцзе; Ху, Вэньсян; У, Фанью; Сенгамеду, Шринивасан (2023). «DeTiME: диффузионно-усиленное тематическое моделирование с использованием LLM на основе кодера-декодера». Результаты Ассоциации компьютерной лингвистики: EMNLP 2023. Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 9040–9057. arXiv : 2310.15296 . doi : 10.18653/v1/2023.findings-emnlp.606.
  24. ^ Лю, Л.; Тан, Л.; и др. (2016). «Обзор тематического моделирования и его современных приложений в биоинформатике». SpringerPlus . 5 (1): 1608. doi : 10.1186/s40064-016-3252-8 . PMC 5028368 . PMID  27652181. S2CID  16712827. 
  25. ^ Валле, Ф.; Озелла, М.; Каселле, М. (2020). «Анализ тематического моделирования транскриптомных данных TCGA по раку груди и легких». Раковые заболевания . 12 (12): 3799. doi : 10.3390/cancers12123799 . PMC 7766023. PMID  33339347. S2CID  229325007. 
  26. ^ Шалит, Ури; Вайншолл, Дафна; Чечик, Гал (2013-05-13). «Моделирование музыкального влияния с помощью тематических моделей». Труды 30-й Международной конференции по машинному обучению . PMLR: 244–252.

Дальнейшее чтение

Внешние ссылки