stringtranslate.com

Тематическая модель

В статистике и обработке естественного языка тематическая модель — это тип статистической модели для обнаружения абстрактных «тем», встречающихся в коллекции документов. Тематическое моделирование — это часто используемый инструмент анализа текста для обнаружения скрытых семантических структур в тексте. Интуитивно, учитывая, что документ посвящен определенной теме, можно было бы ожидать, что определенные слова будут появляться в документе более или менее часто: «собака» и «кость» будут чаще встречаться в документах о собаках, «кошке» и «мяу». появится в документах о кошках, причем «the» и «is» будут встречаться в обоих примерно одинаково. Документ обычно касается нескольких тем в разных пропорциях; таким образом, в документе, который на 10% посвящен кошкам и на 90% — собакам, слов о собаках, вероятно, будет примерно в 9 раз больше, чем слов о кошках. «Темы», созданные с помощью методов тематического моделирования, представляют собой группы похожих слов. Тематическая модель отражает эту интуицию в математической структуре, которая позволяет исследовать набор документов и на основе статистики слов в каждом из них обнаружить, какие могут быть темы и каков баланс тем в каждом документе.

Тематические модели также называются вероятностными тематическими моделями, что относится к статистическим алгоритмам для обнаружения скрытых семантических структур обширного текста. В век информации объем письменного материала, с которым мы сталкиваемся каждый день, просто превышает наши возможности обработки. Тематические модели могут помочь организовать и предложить нам информацию для понимания больших коллекций неструктурированных текстовых тел. Первоначально разработанные как инструмент для анализа текста, тематические модели использовались для обнаружения инструктивных структур в данных, таких как генетическая информация, изображения и сети. Они также имеют применение в других областях, таких как биоинформатика [1] и компьютерное зрение . [2]

История

Ранняя тематическая модель была описана Пападимитриу, Рагхаваном, Тамаки и Вемпалой в 1998 году. [3] Другая модель, названная вероятностным латентно-семантическим анализом (PLSA), была создана Томасом Хофманном в 1999 году . [4] Скрытое распределение Дирихле (LDA), возможно, наиболее распространенная тематическая модель, используемая в настоящее время, является обобщением PLSA. Разработанный Дэвидом Блей , Эндрю Нг и Майклом И. Джорданом в 2002 году, LDA вводит разреженные априорные распределения Дирихле по распределению тем документа и распределению слов темы, кодируя интуитивное представление о том, что документы охватывают небольшое количество тем и что темы часто используют небольшое количество тем. число слов. [5] Другие модели тем, как правило, являются расширениями LDA, например, распределение Пачинко , которое улучшает LDA за счет моделирования корреляций между темами в дополнение к корреляциям слов, составляющих темы. Иерархический анализ скрытого дерева (HLTA) является альтернативой LDA, который моделирует совместное появление слов с использованием дерева скрытых переменных, а состояния скрытых переменных, которые соответствуют мягким кластерам документов, интерпретируются как темы.

Анимация процесса обнаружения темы в матрице документ-слово посредством бикластеризации . Каждый столбец соответствует документу, каждая строка — слову. В ячейке хранится частота употребления слова в документе, а темные ячейки указывают на высокую частоту встречаемости слов. Эта процедура группирует документы, в которых используются похожие слова, так же, как группирует слова, встречающиеся в аналогичном наборе документов. Такие группы слов называются темами. Более распространенные тематические модели, такие как LDA, группируют только документы на основе более сложного и вероятностного механизма.

Тематические модели для контекстной информации

Подходы к временной информации включают определение Блоком и Ньюманом временной динамики тем в Pennsylvania Gazette в течение 1728–1800 годов. Гриффитс и Стейверс использовали тематическое моделирование на основе рефератов из журнала PNAS , чтобы определить темы, популярность которых росла или падала с 1991 по 2001 год, тогда как Ламба и Мадхусушан [6] использовали тематическое моделирование на полнотекстовых исследовательских статьях, полученных из журнала DJLIT с 1981 по 2018 год. В области библиотечного дела и информатики Ламба и Мадхусудхан [6] [7] [8] [9] применили тематическое моделирование к различным индийским ресурсам, таким как журнальные статьи, электронные диссертации и ресурсы (ETD). Нельсон [10] анализировал изменения тем с течением времени в Richmond Times-Dispatch , чтобы понять социальные и политические изменения и преемственность в Ричмонде во время Гражданской войны в США . Ян, Торгет и Михалча применяли методы тематического моделирования к газетам с 1829 по 2008 год. Мимно использовал тематическое моделирование с 24 журналами по классической филологии и археологии за 150 лет, чтобы посмотреть, как темы в журналах меняются с течением времени и как журналы становятся более разными или аналогично во времени.

Инь и др. [11] представили тематическую модель для географически распределенных документов, в которой положения документов объясняются скрытыми областями, которые обнаруживаются во время вывода.

Чанг и Блей [12] включили сетевую информацию между связанными документами в реляционную тематическую модель, чтобы смоделировать связи между веб-сайтами.

Модель автор-тема Розен-Цви и др. [13] моделирует темы, связанные с авторами документов, чтобы улучшить обнаружение тем для документов с информацией об авторстве.

HLTA был применен к коллекции недавних исследовательских работ, опубликованных на крупных площадках по искусственному интеллекту и машинному обучению. Полученная модель называется AI Tree. Полученные темы используются для индексации статей на aipano.cse.ust.hk, чтобы помочь исследователям отслеживать тенденции исследований и определять статьи для чтения, а также помогать организаторам конференций и редакторам журналов находить рецензентов для представленных материалов.

Чтобы улучшить качественные аспекты и согласованность создаваемых тем, некоторые исследователи изучили эффективность «оценок согласованности», или, иначе говоря, того, как извлеченные с помощью компьютера кластеры (т.е. темы) соответствуют человеческим критериям. [14] [15] Оценки согласованности — это показатели оптимизации количества тем, извлекаемых из корпуса документов. [16]

Алгоритмы

На практике исследователи пытаются подогнать подходящие параметры модели к корпусу данных, используя одну из нескольких эвристик для обеспечения максимального правдоподобия. Этот набор алгоритмов описан в обзоре Д. Блея. [17] Несколько групп исследователей, начиная с Papadimitriou et al. [3] попытались разработать алгоритмы с доказуемыми гарантиями. Предполагая, что данные на самом деле были сгенерированы рассматриваемой моделью, они пытаются разработать алгоритмы, которые, вероятно, находят модель, которая использовалась для создания данных. Используемые здесь методы включают разложение по сингулярным значениям (SVD) и метод моментов . В 2012 году был представлен алгоритм, основанный на неотрицательной матричной факторизации (NMF), который также обобщается на тематические модели с корреляциями между темами. [18]

В 2017 году нейронная сеть была использована в тематическом моделировании, чтобы ускорить процесс вывода [19] , что было расширенной версией со слабым контролем. [20]

В 2018 году был предложен новый подход к тематическим моделям: он основан на стохастической блочной модели . [21]

Благодаря недавнему развитию LLM, тематическое моделирование позволило использовать LLM посредством контекстного внедрения [22] и точной настройки. [23]

Применение тематических моделей

К количественной биомедицине

Тематические модели используются и в других контекстах. Например, появились примеры использования тематических моделей в исследованиях в области биологии и биоинформатики. [24] Недавно тематические модели стали использоваться для извлечения информации из набора данных геномных образцов рака. [25] В данном случае темы представляют собой биологические скрытые переменные, которые необходимо вывести.

К анализу музыки и творчества

Тематические модели можно использовать для анализа непрерывных сигналов, таких как музыка. Например, они использовались для количественной оценки того, как музыкальные стили меняются со временем, и определения влияния конкретных исполнителей на дальнейшее создание музыки. [26]

Смотрите также

Рекомендации

  1. ^ Блей, Дэвид (апрель 2012 г.). «Вероятностные тематические модели». Коммуникации АКМ . 55 (4): 77–84. дои : 10.1145/2133806.2133826. S2CID  753304.
  2. ^ Цао, Лянлян и Ли Фей-Фей. «Пространственно-когерентная модель скрытых тем для одновременной сегментации и классификации объектов и сцен». 2007 г. 11-я Международная конференция IEEE по компьютерному зрению. ИИЭР, 2007.
  3. ^ аб Пападимитриу, Христос; Рагхаван, Прабхакар; Тамаки, Хисао; Вемпала, Сантош (1998). «Скрытая семантическая индексация». Материалы семнадцатого симпозиума ACM SIGACT-SIGMOD-SIGART по принципам систем баз данных - PODS '98 . стр. 159–168. дои : 10.1145/275487.275505. ISBN 978-0897919968. S2CID  1479546. Архивировано из оригинала (Постскриптум) 9 мая 2013 г. Проверено 17 апреля 2012 г.{{cite book}}: CS1 maint: дата и год ( ссылка )
  4. ^ Хофманн, Томас (1999). «Вероятностное скрытое семантическое индексирование» (PDF) . Материалы двадцать второй ежегодной международной конференции SIGIR по исследованиям и разработкам в области информационного поиска . Архивировано из оригинала (PDF) 14 декабря 2010 г.
  5. ^ Блей, Дэвид М.; Нг, Эндрю Ю.; Джордан, Майкл I ; Лафферти, Джон (январь 2003 г.). «Скрытое распределение Дирихле». Журнал исследований машинного обучения . 3 : 993–1022. дои : 10.1162/jmlr.2003.3.4-5.993.
  6. ^ Аб Ламба, Маника июнь (2019). «Составление тем в журнале DESIDOC по библиотечным и информационным технологиям, Индия: исследование». Наукометрия . 120 (2): 477–505. дои : 10.1007/s11192-019-03137-5. ISSN  0138-9130. S2CID  174802673.
  7. ^ Ламба, Маника июнь (2019). «Тегирование метаданных и прогнозное моделирование: пример журнала DESIDOC Journal of Library and Information Technology (2008–2017)». Мировые цифровые библиотеки . 12 : 33–89. doi : 10.18329/09757597/2019/12103 (неактивен 31 января 2024 г.). ISSN  0975-7597.{{cite journal}}: CS1 maint: DOI неактивен по состоянию на январь 2024 г. ( ссылка )
  8. ^ Ламба, Маника Мэй (2019). «Авторское тематическое моделирование журнала библиотечных и информационных технологий DESIDOC (2008–2017), Индия». Библиотечная философия и практика .
  9. ^ Ламба, Маника, сентябрь (2018). Разметка метаданных диссертаций по библиотечным и информационным наукам: Шодганга (2013–2017 гг.) (PDF) . ETD2018: За пределами границ и океанов. Тайвань, Тайбэй.
  10. ^ Нельсон, Роб. «Майнинг диспетчерской». Майнинг диспетчеризации . Лаборатория цифровых стипендий, Университет Ричмонда . Проверено 26 марта 2021 г.
  11. ^ Инь, Чжицзюнь (2011). «Открытие и сравнение географических тем». Материалы 20-й международной конференции по Всемирной паутине . стр. 247–256. дои : 10.1145/1963405.1963443. ISBN 9781450306324. S2CID  17883132.{{cite book}}: CS1 maint: дата и год ( ссылка )
  12. ^ Чанг, Джонатан (2009). «Реляционные тематические модели для сетей документов» (PDF) . Айстат . 9 : 81–88.
  13. ^ Розен-Цви, Михал (2004). «Автор-тематическая модель для авторов и документов». Материалы 20-й конференции по неопределенности в искусственном интеллекте : 487–494. arXiv : 1207.4169 .
  14. ^ Николенко, Сергей (2017). «Тематическое моделирование для качественных исследований». Журнал информатики . 43 : 88–102. дои : 10.1177/0165551515617393. S2CID  30657489.
  15. ^ Ревертер-Рамбальди, Марсель (2022). Тематическое моделирование данных спонтанной речи (дипломная работа с отличием). Австралийский национальный университет. дои : 10.25911/M1YF-ZF55.
  16. ^ Ньюман, Дэвид (2010). «Автоматическая оценка связности темы». Технологии человеческого языка: Ежегодная конференция Североамериканского отделения Ассоциации компьютерной лингвистики 2010 г .: 100–108.
  17. ^ Блей, Дэвид М. (апрель 2012 г.). «Введение в вероятностные тематические модели» (PDF) . Комм. АКМ . 55 (4): 77–84. дои : 10.1145/2133806.2133826. S2CID  753304.
  18. ^ Санджив Арора; Ронг Ге; Анкур Мойтра (апрель 2012 г.). «Модели тем обучения — выходя за рамки SVD». arXiv : 1204.1956 [cs.LG].
  19. ^ Мяо, Ишу; Грефенштетт, Эдвард; Блансом, Фил (2017). «Обнаружение дискретных скрытых тем с помощью нейронного вариационного вывода». Материалы 34-й Международной конференции по машинному обучению . ПМЛР: 2410–2419.
  20. ^ Сюй, Вэйцзе; Цзян, Сяоюй; Сенгамеду Хануманта Рао, Шринивасан; Янначчи, Фрэнсис; Чжао, Цзиньцзинь (2023). «vONTSS: полуконтролируемое моделирование нейронных тем на основе vMF с оптимальным транспортом». Выводы Ассоциации компьютерной лингвистики: ACL 2023 . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 4433–4457. arXiv : 2307.01226 . doi : 10.18653/v1/2023.findings-acl.271.
  21. ^ Мартин Герлах; Тьяго Пексиото; Эдуардо Альтманн (2018). «Сетевой подход к тематическим моделям». Достижения науки . 4 (7): eaaq1360. arXiv : 1708.01677 . Бибкод : 2018SciA....4.1360G. doi : 10.1126/sciadv.aaq1360. ПМК 6051742 . ПМИД  30035215. 
  22. ^ Бьянки, Федерико; Терраньи, Сильвия; Хови, Дирк (2021). «Предварительное обучение — горячая тема: контекстуализированные встраивания документов улучшают согласованность тем». Материалы 59-го ежегодного собрания Ассоциации компьютерной лингвистики и 11-й Международной совместной конференции по обработке естественного языка (Том 2: Короткие статьи) . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики. стр. 759–766. doi : 10.18653/v1/2021.acl-short.96.
  23. ^ Сюй, Вэйцзе; Ху, Вэньсян; Ву, Фанью; Сенгамеду, Шринивасан (2023 г.). «DeTiME: Тематическое моделирование с расширенной диффузией с использованием LLM на основе кодировщика-декодера». Выводы Ассоциации компьютерной лингвистики: EMNLP 2023 . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 9040–9057. arXiv : 2310.15296 . doi : 10.18653/v1/2023.findings-emnlp.606.
  24. ^ Лю, Л.; Тан, Л.; и другие. (2016). «Обзор тематического моделирования и его текущих приложений в биоинформатике». СпрингерПлюс . 5 (1): 1608. doi : 10.1186/s40064-016-3252-8 . ПМК 5028368 . PMID  27652181. S2CID  16712827. 
  25. ^ Валле, Ф.; Оселла, М.; Казелле, М. (2020). «Тематическое моделирование транскриптомных данных TCGA рака молочной железы и легких». Раки . 12 (12): 3799. doi : 10.3390/cancers12123799 . ПМК 7766023 . PMID  33339347. S2CID  229325007. 
  26. ^ Шалит, Ури; Вайншолл, Дафна; Чечик, Галь (13 мая 2013 г.). «Моделирование музыкального влияния с помощью тематических моделей». Материалы 30-й Международной конференции по машинному обучению . ПМЛР: 244–252.

дальнейшее чтение

Внешние ссылки