В статистике и обработке естественного языка тематическая модель — это тип статистической модели для обнаружения абстрактных «тем», которые встречаются в коллекции документов. Тематическое моделирование — это часто используемый инструмент для интеллектуального анализа текста для обнаружения скрытых семантических структур в текстовом тексте. Интуитивно понятно, что если документ посвящен определенной теме, можно ожидать, что определенные слова будут встречаться в нем чаще или реже: «dog» и «bone» будут встречаться чаще в документах о собаках, «cat» и «meow» будут встречаться в документах о кошках, а «the» и «is» будут встречаться примерно одинаково в обоих. Документ обычно касается нескольких тем в разных пропорциях; таким образом, в документе, который на 10% посвящен кошкам и на 90% — собакам, вероятно, будет примерно в 9 раз больше слов о собаках, чем слов о кошках. «Темы», созданные методами тематического моделирования, представляют собой кластеры похожих слов. Тематическая модель воплощает эту интуицию в математической структуре, которая позволяет исследовать набор документов и на основе статистики слов в каждом из них определять, какими могут быть темы и каков баланс тем в каждом документе.
Тематические модели также называются вероятностными тематическими моделями, которые относятся к статистическим алгоритмам для обнаружения скрытых семантических структур обширного текстового корпуса. В век информации объем письменного материала, с которым мы сталкиваемся каждый день, просто превышает наши возможности обработки. Тематические модели могут помочь организовать и предложить нам идеи для понимания больших коллекций неструктурированных текстовых корпусов. Первоначально разработанные как инструмент для интеллектуального анализа текста, тематические модели использовались для обнаружения инструктивных структур в данных, таких как генетическая информация, изображения и сети. Они также имеют приложения в других областях, таких как биоинформатика [1] и компьютерное зрение . [2]
История
Ранняя тематическая модель была описана Пападимитриу, Рагхаваном, Тамаки и Вемпалой в 1998 году. [3] Другая, называемая вероятностным латентным семантическим анализом (PLSA), была создана Томасом Хофманном в 1999 году. [4] Латентное распределение Дирихле (LDA), возможно, самая распространенная тематическая модель, используемая в настоящее время, является обобщением PLSA. Разработанная Дэвидом Блеем , Эндрю Нгом и Майклом И. Джорданом в 2002 году, LDA вводит разреженные априорные распределения Дирихле для распределений документ-тема и тема-слово, кодируя интуицию о том, что документы охватывают небольшое количество тем и что темы часто используют небольшое количество слов. [5] Другие тематические модели, как правило, являются расширениями LDA, такими как распределение Пачинко , которое улучшает LDA, моделируя корреляции между темами в дополнение к корреляциям слов, которые составляют темы. Иерархический анализ латентного дерева (HLTA) является альтернативой LDA, которая моделирует совместную встречаемость слов с использованием дерева скрытых переменных, а состояния скрытых переменных, соответствующие мягким кластерам документов, интерпретируются как темы.
Тематические модели для контекстной информации
Подходы к временной информации включают определение Блоком и Ньюманом временной динамики тем в Pennsylvania Gazette в период 1728–1800 гг. Гриффитс и Стейверс использовали тематическое моделирование на основе рефератов из журнала PNAS для выявления тем, популярность которых росла или падала с 1991 по 2001 г., тогда как Ламба и Мадхусушан [6] использовали тематическое моделирование на основе полнотекстовых исследовательских статей, извлеченных из журнала DJLIT с 1981 по 2018 г. В области библиотечного дела и информационной науки Ламба и Мадхусудхан [6] [7] [8] [9] применили тематическое моделирование на основе различных индийских ресурсов, таких как журнальные статьи и электронные диссертации и ресурсы (ETD). Нельсон [10] анализировал изменение тем с течением времени в Richmond Times-Dispatch, чтобы понять социальные и политические изменения и преемственность в Ричмонде во время Гражданской войны в США . Янг, Торгет и Михалча применили методы тематического моделирования к газетам с 1829 по 2008 год. Мимно использовал тематическое моделирование в 24 журналах по классической филологии и археологии, охватывающих 150 лет, чтобы изучить, как темы в журналах меняются со временем и как журналы становятся более разными или похожими с течением времени.
Инь и др. [11] представили тематическую модель для географически распределенных документов, в которой позиции документов объясняются скрытыми областями, которые обнаруживаются в ходе вывода.
Чанг и Блей [12] включили сетевую информацию между связанными документами в реляционную тематическую модель для моделирования связей между веб-сайтами.
Модель «автор-тема» Розена-Цви и др. [13] моделирует темы, связанные с авторами документов, для улучшения обнаружения тем для документов с информацией об авторстве.
HLTA была применена к коллекции недавних исследовательских работ, опубликованных на крупных площадках по ИИ и машинному обучению. Полученная модель называется The AI Tree. Полученные темы используются для индексации работ на aipano.cse.ust.hk, чтобы помочь исследователям отслеживать тенденции исследований и определять статьи для чтения, а также помогать организаторам конференций и редакторам журналов определять рецензентов для подачи заявок.
Чтобы улучшить качественные аспекты и связность сгенерированных тем, некоторые исследователи изучали эффективность «оценок связности» или, иными словами, того, как извлеченные компьютером кластеры (т. е. темы) согласуются с человеческим эталоном. [14] [15] Оценки связности — это метрики для оптимизации количества тем, извлекаемых из корпуса документов. [16]
Алгоритмы
На практике исследователи пытаются подогнать соответствующие параметры модели к корпусу данных, используя одну из нескольких эвристик для максимального правдоподобия. Обзор D. Blei описывает этот набор алгоритмов. [17]
Несколько групп исследователей, начиная с Papadimitriou et al. [3], пытались разработать алгоритмы с доказуемыми гарантиями. Предполагая, что данные были фактически сгенерированы рассматриваемой моделью, они пытаются разработать алгоритмы, которые, вероятно, найдут модель, которая использовалась для создания данных. Методы, используемые здесь, включают разложение по сингулярным значениям (SVD) и метод моментов . В 2012 году был представлен алгоритм, основанный на неотрицательной матричной факторизации (NMF), который также обобщается на тематические модели с корреляциями между темами. [18]
В 2017 году нейронная сеть была использована в тематическом моделировании для ускорения вывода, [19] и была расширена до версии со слабым контролем. [20]
Благодаря недавнему развитию LLM, тематическое моделирование использовало LLM посредством контекстного встраивания [22] и тонкой настройки. [23]
Применение тематических моделей
К количественной биомедицине
Тематические модели используются также в других контекстах. Например, появились примеры использования тематических моделей в исследованиях биологии и биоинформатики. [24] Недавно тематические модели использовались для извлечения информации из набора данных геномных образцов раковых заболеваний. [25]
В этом случае темы являются биологическими скрытыми переменными, которые необходимо вывести.
К анализу музыки и творчества
Тематические модели могут использоваться для анализа непрерывных сигналов, таких как музыка. Например, они использовались для количественной оценки того, как музыкальные стили меняются со временем, и для выявления влияния конкретных исполнителей на более позднее создание музыки. [26]
^ Блей, Дэвид (апрель 2012 г.). «Вероятностные тематические модели». Сообщения ACM . 55 (4): 77–84. doi :10.1145/2133806.2133826. S2CID 753304.
^ Цао, Лянлян и Ли Фэй-Фэй. «Пространственно-когерентная латентная тематическая модель для параллельной сегментации и классификации объектов и сцен». 2007 IEEE 11-я Международная конференция по компьютерному зрению. IEEE, 2007.
^ ab Papadimitriou, Christos; Raghavan, Prabhakar; Tamaki, Hisao; Vempala, Santosh (1998). "Скрытая семантическая индексация". Труды семнадцатого симпозиума ACM SIGACT-SIGMOD-SIGART по принципам систем баз данных - PODS '98 . стр. 159–168. doi :10.1145/275487.275505. ISBN978-0897919968. S2CID 1479546. Архивировано из оригинала (Postscript) 2013-05-09 . Получено 2012-04-17 .
^ Хофманн, Томас (1999). "Вероятностное латентное семантическое индексирование" (PDF) . Труды двадцать второй ежегодной международной конференции SIGIR по исследованиям и разработкам в области информационного поиска . Архивировано из оригинала (PDF) 2010-12-14.
^ ab Lamba, Manika jun (2019). «Картирование тем в журнале DESIDOC Journal of Library and Information Technology, Индия: исследование». Scientometrics . 120 (2): 477–505. doi :10.1007/s11192-019-03137-5. ISSN 0138-9130. S2CID 174802673.
^ Ламба, Маника джун (2019). «Тегирование метаданных и моделирование прогнозирования: пример журнала DESIDOC Journal of Library and Information Technology (2008-2017)». World Digital Libraries . 12 : 33–89. doi : 10.18329/09757597/2019/12103 (неактивен 1 ноября 2024 г.). ISSN 0975-7597.{{cite journal}}: CS1 maint: DOI неактивен по состоянию на ноябрь 2024 г. ( ссылка )
^ Ламба, Маника может (2019). "Авторско-тематическое моделирование журнала DESIDOC по библиотечным и информационным технологиям (2008-2017), Индия". Философия и практика библиотеки .
^ Ламба, Маника, сентябрь (2018). Разметка метаданных диссертаций по библиотечным и информационным наукам: Шодганга (2013–2017 гг.) (PDF) . ETD2018: За пределами границ и океанов. Тайвань, Тайбэй.
^ Нельсон, Роб. «Mining the Dispatch». Mining the Dispatch . Digital Scholarship Lab, University of Richmond . Получено 26 марта 2021 г.
^ Инь, Чжицзюнь (2011). «Географическое открытие и сравнение тем». Труды 20-й международной конференции по всемирной паутине . С. 247–256. doi :10.1145/1963405.1963443. ISBN9781450306324. S2CID 17883132.
^ Чанг, Джонатан (2009). «Реляционные тематические модели для сетей документов» (PDF) . Aistats . 9 : 81–88.
^ Розен-Цви, Михал (2004). «Модель автор-тема для авторов и документов». Труды 20-й конференции по неопределенности в искусственном интеллекте : 487–494. arXiv : 1207.4169 .
^ Николенко, Сергей (2017). «Моделирование тем для качественных исследований». Журнал информационной науки . 43 : 88–102. doi :10.1177/0165551515617393. S2CID 30657489.
^ Ревертер-Рамбальди, Марсель (2022). Тематическое моделирование в данных спонтанной речи (диссертация с отличием). Австралийский национальный университет. doi : 10.25911/M1YF-ZF55.
^ Ньюман, Дэвид (2010). «Автоматическая оценка связности тем». Технологии человеческого языка: Ежегодная конференция 2010 года Североамериканского отделения Ассоциации компьютерной лингвистики : 100–108.
^ Блей, Дэвид М. (апрель 2012 г.). «Введение в вероятностные тематические модели» (PDF) . Comm. ACM . 55 (4): 77–84. doi :10.1145/2133806.2133826. S2CID 753304.
^ Санджив Арора; Ронг Ге; Анкур Мойтра (апрель 2012 г.). «Изучение тематических моделей — выход за рамки SVD». arXiv : 1204.1956 [cs.LG].
^ Мяо, Ишу; Грефенстет, Эдвард; Блансом, Фил (2017). «Открытие дискретных латентных тем с помощью нейронного вариационного вывода». Труды 34-й Международной конференции по машинному обучению . PMLR: 2410–2419. arXiv : 1706.00359 .
^ Сюй, Вэйцзе; Цзян, Сяоюй; Сенгамеду Хануманта Рао, Шринивасан; Ианначчи, Фрэнсис; Чжао, Цзиньцзинь (2023). «vONTSS: полуконтролируемое нейронное тематическое моделирование на основе vMF с оптимальным транспортом». Результаты Ассоциации компьютерной лингвистики: ACL 2023. Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 4433–4457. arXiv : 2307.01226 . doi : 10.18653/v1/2023.findings-acl.271.
^ Мартин Герлах; Тиаго Пексиото; Эдуардо Альтманн (2018). «Сетевой подход к тематическим моделям». Science Advances . 4 (7): eaaq1360. arXiv : 1708.01677 . Bibcode : 2018SciA....4.1360G. doi : 10.1126/sciadv.aaq1360. PMC 6051742. PMID 30035215 .
^ Бьянки, Федерико; Терраньи, Сильвия; Хови, Дирк (2021). «Предварительное обучение — горячая тема: контекстуализированные вложения документов улучшают связность тем». Труды 59-го ежегодного собрания Ассоциации компьютерной лингвистики и 11-й Международной совместной конференции по обработке естественного языка (том 2: краткие доклады) . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики. стр. 759–766. doi :10.18653/v1/2021.acl-short.96.
^ Сюй, Вэйцзе; Ху, Вэньсян; У, Фанью; Сенгамеду, Шринивасан (2023). «DeTiME: диффузионно-усиленное тематическое моделирование с использованием LLM на основе кодера-декодера». Результаты Ассоциации компьютерной лингвистики: EMNLP 2023. Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 9040–9057. arXiv : 2310.15296 . doi : 10.18653/v1/2023.findings-emnlp.606.
^ Лю, Л.; Тан, Л.; и др. (2016). «Обзор тематического моделирования и его современных приложений в биоинформатике». SpringerPlus . 5 (1): 1608. doi : 10.1186/s40064-016-3252-8 . PMC 5028368 . PMID 27652181. S2CID 16712827.
^ Валле, Ф.; Озелла, М.; Каселле, М. (2020). «Анализ тематического моделирования транскриптомных данных TCGA по раку груди и легких». Раковые заболевания . 12 (12): 3799. doi : 10.3390/cancers12123799 . PMC 7766023. PMID 33339347. S2CID 229325007.
^ Шалит, Ури; Вайншолл, Дафна; Чечик, Гал (2013-05-13). «Моделирование музыкального влияния с помощью тематических моделей». Труды 30-й Международной конференции по машинному обучению . PMLR: 244–252.
Дальнейшее чтение
Стейверс, Марк; Гриффитс, Том (2007). «Вероятностные тематические модели». В Ландауэр, Т.; Макнамара, Д.; Деннис, С.; и др. (ред.). Справочник по латентному семантическому анализу (PDF) . Psychology Press. ISBN 978-0-8058-5418-3. Архивировано из оригинала (PDF) 2013-06-24.
Блей, Д.; Лафферти, Дж. (2007). «Коррелированная тематическая модель науки ». Annals of Applied Statistics . 1 (1): 17–35. arXiv : 0708.3601 . doi : 10.1214/07-AOAS114. S2CID 8872108.
Mimno, D. (апрель 2012 г.). "Computational Historiography: Data Mining in a Century of Classics Journals" (PDF) . Журнал Computing and Cultural Heritage . 5 (1): 1–19. doi :10.1145/2160165.2160168. S2CID 12153151.
Марвик, Бен (2013). «Обнаружение новых проблем и противоречий в антропологии с использованием интеллектуального анализа текста, моделирования тем и анализа социальных сетей в контенте микроблогов». В Яньчан, Чжао; Юнхуа, Цен (ред.). Приложения для интеллектуального анализа данных с R. Elsevier. стр. 63–93.
Джокерс, М. 2010 Кто ваш партнер по блогу DH: поиск партнеров для блоггеров DH с помощью моделирования тем Мэтью Л. Джокерс, опубликовано 19 марта 2010 г.
Друэн, Дж. 2011 Набег на тематическое моделирование. Церковный архив Пруста. Опубликовано 17 марта 2011 г.
Темплтон, К. 2011 Тематическое моделирование в гуманитарных науках: обзор Блог Мэрилендского технологического института в гуманитарных науках. опубликовано 1 августа 2011 г.
Гриффитс, Т.; Стейверс, М. (2004). «Поиск научных тем». Труды Национальной академии наук . 101 (Приложение 1): 5228–35. Bibcode : 2004PNAS..101.5228G. doi : 10.1073/pnas.0307752101 . PMC 387300. PMID 14872004 .
Янг, Т., А. Торгет и Р. Михалча (2011) Тематическое моделирование в исторических газетах. Труды 5-го семинара ACL-HLT по языковым технологиям для культурного наследия, социальных наук и гуманитарных наук. Ассоциация компьютерной лингвистики, Мэдисон, Висконсин. Страницы 96–104.
Блок, С. (январь 2006 г.). «Делаем больше с помощью оцифровки: введение в тематическое моделирование ранних американских источников». Common-place the Interactive Journal of Early American Life . 6 (2).
Ньюман, Д.; Блок, С. (март 2006 г.). «Вероятностная тематическая декомпозиция газеты восемнадцатого века» (PDF) . Журнал Американского общества информационной науки и технологий . 57 (5): 753–767. doi :10.1002/asi.20342. S2CID 1484286.
Внешние ссылки
Мимно, Дэвид. «Библиография по тематическому моделированию».
Бретт, Меган Р. «Тематическое моделирование: базовое введение». Журнал цифровых гуманитарных наук.
Тематические модели, применяемые к новостям и обзорам в Интернете. Видеозапись презентации Элис О на конференции Google Tech Talk о тематическом моделировании с помощью LDA
Моделирование науки: динамические тематические модели научных исследований Видеозапись презентации Google Tech Talk Дэвида М. Блея
Автоматизированные тематические модели в политологии Видеозапись выступления Брэндона Стюарта на семинаре «Инструменты для текста», 14 июня 2010 г.
Шон Грэм, Ян Миллиган и Скотт Вайнгарт "Начало работы с тематическим моделированием и MALLET". The Programming Historian. Архивировано из оригинала 28-08-2014 . Получено 29-05-2014 .
Блей, Дэвид М. «Вводный материал и программное обеспечение»
код, демо - пример использования LDA для тематического моделирования