Тематическая модель

В статистике и обработке естественного языка тематическая модель — это тип статистической модели для обнаружения абстрактных «тем», встречающихся в коллекции документов. Тематическое моделирование — это часто используемый инструмент анализа текста для обнаружения скрытых семантических структур в тексте. Интуитивно, учитывая, что документ посвящен определенной теме, можно было бы ожидать, что определенные слова будут появляться в документе более или менее часто: «собака» и «кость» будут чаще встречаться в документах о собаках, «кошке» и «мяу». появится в документах о кошках, причем «the» и «is» будут встречаться в обоих примерно одинаково. Документ обычно касается нескольких тем в разных пропорциях; таким образом, в документе, который на 10% посвящен кошкам и на 90% — собакам, слов о собаках, вероятно, будет примерно в 9 раз больше, чем слов о кошках. «Темы», созданные с помощью методов тематического моделирования, представляют собой группы похожих слов. Тематическая модель отражает эту интуицию в математической структуре, которая позволяет исследовать набор документов и на основе статистики слов в каждом из них обнаружить, какие могут быть темы и каков баланс тем в каждом документе.

Тематические модели также называются вероятностными тематическими моделями, что относится к статистическим алгоритмам для обнаружения скрытых семантических структур обширного текста. В век информации объем письменного материала, с которым мы сталкиваемся каждый день, просто превышает наши возможности обработки. Тематические модели могут помочь организовать и предложить нам информацию для понимания больших коллекций неструктурированных текстовых тел. Первоначально разработанные как инструмент для анализа текста, тематические модели использовались для обнаружения инструктивных структур в данных, таких как генетическая информация, изображения и сети. Они также имеют применение в других областях, таких как биоинформатика ^[1] и компьютерное зрение . ^[2]

История

Ранняя тематическая модель была описана Пападимитриу, Рагхаваном, Тамаки и Вемпалой в 1998 году. ^[3] Другая модель, названная вероятностным латентно-семантическим анализом (PLSA), была создана Томасом Хофманном в 1999 году . ^[4] Скрытое распределение Дирихле (LDA), возможно, наиболее распространенная тематическая модель, используемая в настоящее время, является обобщением PLSA. Разработанный Дэвидом Блей , Эндрю Нг и Майклом И. Джорданом в 2002 году, LDA вводит разреженные априорные распределения Дирихле по распределению тем документа и распределению слов темы, кодируя интуитивное представление о том, что документы охватывают небольшое количество тем и что темы часто используют небольшое количество тем. число слов. ^[5] Другие модели тем, как правило, являются расширениями LDA, например, распределение Пачинко , которое улучшает LDA за счет моделирования корреляций между темами в дополнение к корреляциям слов, составляющих темы. Иерархический анализ скрытого дерева (HLTA) является альтернативой LDA, который моделирует совместное появление слов с использованием дерева скрытых переменных, а состояния скрытых переменных, которые соответствуют мягким кластерам документов, интерпретируются как темы.

Анимация процесса обнаружения темы в матрице документ-слово посредством бикластеризации . Каждый столбец соответствует документу, каждая строка — слову. В ячейке хранится частота употребления слова в документе, а темные ячейки указывают на высокую частоту встречаемости слов. Эта процедура группирует документы, в которых используются похожие слова, так же, как группирует слова, встречающиеся в аналогичном наборе документов. Такие группы слов называются темами. Более распространенные тематические модели, такие как LDA, группируют только документы на основе более сложного и вероятностного механизма.

Тематические модели для контекстной информации

Подходы к временной информации включают определение Блоком и Ньюманом временной динамики тем в Pennsylvania Gazette в течение 1728–1800 годов. Гриффитс и Стейверс использовали тематическое моделирование на основе рефератов из журнала PNAS , чтобы определить темы, популярность которых росла или падала с 1991 по 2001 год, тогда как Ламба и Мадхусушан ^[6] использовали тематическое моделирование на полнотекстовых исследовательских статьях, полученных из журнала DJLIT с 1981 по 2018 год. В области библиотечного дела и информатики Ламба и Мадхусудхан ^[6]^[7]^[8]^[9] применили тематическое моделирование к различным индийским ресурсам, таким как журнальные статьи, электронные диссертации и ресурсы (ETD). Нельсон ^[10] анализировал изменения тем с течением времени в Richmond Times-Dispatch , чтобы понять социальные и политические изменения и преемственность в Ричмонде во время Гражданской войны в США . Ян, Торгет и Михалча применяли методы тематического моделирования к газетам с 1829 по 2008 год. Мимно использовал тематическое моделирование с 24 журналами по классической филологии и археологии за 150 лет, чтобы посмотреть, как темы в журналах меняются с течением времени и как журналы становятся более разными или аналогично во времени.

Инь и др. ^[11] представили тематическую модель для географически распределенных документов, в которой положения документов объясняются скрытыми областями, которые обнаруживаются во время вывода.

Чанг и Блей ^[12] включили сетевую информацию между связанными документами в реляционную тематическую модель, чтобы смоделировать связи между веб-сайтами.

Модель автор-тема Розен-Цви и др. ^[13] моделирует темы, связанные с авторами документов, чтобы улучшить обнаружение тем для документов с информацией об авторстве.

HLTA был применен к коллекции недавних исследовательских работ, опубликованных на крупных площадках по искусственному интеллекту и машинному обучению. Полученная модель называется AI Tree. Полученные темы используются для индексации статей на aipano.cse.ust.hk, чтобы помочь исследователям отслеживать тенденции исследований и определять статьи для чтения, а также помогать организаторам конференций и редакторам журналов находить рецензентов для представленных материалов.

Чтобы улучшить качественные аспекты и согласованность создаваемых тем, некоторые исследователи изучили эффективность «оценок согласованности», или, иначе говоря, того, как извлеченные с помощью компьютера кластеры (т.е. темы) соответствуют человеческим критериям. ^[14]^[15] Оценки согласованности — это показатели оптимизации количества тем, извлекаемых из корпуса документов. ^[16]

Алгоритмы

На практике исследователи пытаются подогнать подходящие параметры модели к корпусу данных, используя одну из нескольких эвристик для обеспечения максимального правдоподобия. Этот набор алгоритмов описан в обзоре Д. Блея. ^[17] Несколько групп исследователей, начиная с Papadimitriou et al. ^[3] попытались разработать алгоритмы с доказуемыми гарантиями. Предполагая, что данные на самом деле были сгенерированы рассматриваемой моделью, они пытаются разработать алгоритмы, которые, вероятно, находят модель, которая использовалась для создания данных. Используемые здесь методы включают разложение по сингулярным значениям (SVD) и метод моментов . В 2012 году был представлен алгоритм, основанный на неотрицательной матричной факторизации (NMF), который также обобщается на тематические модели с корреляциями между темами. ^[18]

В 2017 году нейронная сеть была использована в тематическом моделировании, чтобы ускорить процесс вывода ^[19] , что было расширенной версией со слабым контролем. ^[20]

В 2018 году был предложен новый подход к тематическим моделям: он основан на стохастической блочной модели . ^[21]

Благодаря недавнему развитию LLM, тематическое моделирование позволило использовать LLM посредством контекстного внедрения ^[22] и точной настройки. ^[23]

Применение тематических моделей

К количественной биомедицине

Тематические модели используются и в других контекстах. Например, появились примеры использования тематических моделей в исследованиях в области биологии и биоинформатики. ^[24] Недавно тематические модели стали использоваться для извлечения информации из набора данных геномных образцов рака. ^[25] В данном случае темы представляют собой биологические скрытые переменные, которые необходимо вывести.

К анализу музыки и творчества

Тематические модели можно использовать для анализа непрерывных сигналов, таких как музыка. Например, они использовались для количественной оценки того, как музыкальные стили меняются со временем, и определения влияния конкретных исполнителей на дальнейшее создание музыки. ^[26]

Смотрите также

дальнейшее чтение

Стиверс, Марк; Гриффитс, Том (2007). «Вероятностные тематические модели». В Ландауэре, Т.; Макнамара, Д; Деннис, С.; и другие. (ред.). Справочник по скрытому семантическому анализу (PDF) . Психология Пресс. ISBN 978-0-8058-5418-3. Архивировано из оригинала (PDF) 24 июня 2013 г.
Блей, Д.М.; Лафферти, доктор медицинских наук (2009). «Тематические модели» (PDF) .
Блей, Д.; Лафферти, Дж. (2007). «Коррелированная тематическая модель науки ». Анналы прикладной статистики . 1 (1): 17–35. arXiv : 0708.3601 . дои : 10.1214/07-AOAS114. S2CID 8872108.
Мимно, Д. (апрель 2012 г.). «Вычислительная историография: интеллектуальный анализ данных в век классических журналов» (PDF) . Журнал по вычислительной технике и культурному наследию . 5 (1): 1–19. дои : 10.1145/2160165.2160168. S2CID 12153151.
Марвик, Бен (2013). «Обнаружение новых проблем и противоречий в антропологии с использованием анализа текста, тематического моделирования и анализа содержания микроблогов в социальных сетях». В Яньчане, Чжао; Юнхуа, Цен (ред.). Приложения интеллектуального анализа данных с использованием R . Эльзевир. стр. 63–93.
Джокерс, М. 2010. Кто ваш помощник по блогу DH: подбор партнеров в день блоггеров DH с помощью тематического моделирования Мэтью Л. Джокерс, опубликовано 19 марта 2010 г.
Друэн, Дж. 2011. Набег на тему моделирования церковного архива Пруста. опубликовано 17 марта 2011 г.
Темплтон, К. 2011. Тематическое моделирование в гуманитарных науках: обзор Мэрилендского технологического института в блоге гуманитарных наук. опубликовано 1 августа 2011 г.
Гриффитс, Т.; Стиверс, М. (2004). «Нахождение научных тем». Труды Национальной академии наук . 101 (Приложение 1): 5228–35. Бибкод : 2004PNAS..101.5228G. дои : 10.1073/pnas.0307752101 . ПМК 387300 . ПМИД 14872004.
Ян, Т., А. Торгет и Р. Михалча (2011) Тематическое моделирование исторических газет. Материалы 5-го семинара ACL-HLT по языковым технологиям для культурного наследия, социальных и гуманитарных наук. Ассоциация компьютерной лингвистики, Мэдисон, Висконсин. страницы 96–104.
Блок, С. (январь 2006 г.). «Делать больше с помощью оцифровки: введение в тематическое моделирование ранних американских источников». Обычный интерактивный журнал ранней американской жизни . 6 (2).
Ньюман, Д.; Блок, С. (март 2006 г.). «Вероятностное разложение тем газеты восемнадцатого века» (PDF) . Журнал Американского общества информатики и технологий . 57 (5): 753–767. дои : 10.1002/asi.20342. S2CID 1484286.

Внешние ссылки

Мимно, Дэвид. «Библиография тематического моделирования».
Бретт, Меган Р. «Тематическое моделирование: базовое введение». Журнал цифровых гуманитарных наук.
Тематические модели, применяемые к онлайн-новостям и обзорам Видео презентации Google Tech Talk Элис О, посвященной тематическому моделированию с помощью LDA
Моделирование науки: динамические тематические модели научных исследований Видео презентации Google Tech Talk Дэвида М. Блея
Автоматизированные тематические модели в политологии Видео презентации Брэндона Стюарта на семинаре «Инструменты для текста», 14 июня 2010 г.
Шон Грэм, Ян Миллиган и Скотт Вайнгарт «Начало работы с тематическим моделированием и MALLET». Историк программирования. Архивировано из оригинала 28 августа 2014 г. Проверено 29 мая 2014 г.
Блей, Дэвид М. «Вводные материалы и программное обеспечение»
код, демо — пример использования LDA для тематического моделирования