Скрытый семантический анализ

Скрытый семантический анализ ( LSA ) — это метод обработки естественного языка , в частности дистрибутивной семантики , анализа отношений между набором документов и терминами, которые они содержат, путем создания набора понятий, связанных с документами и терминами. LSA предполагает, что близкие по значению слова будут встречаться в похожих фрагментах текста ( гипотеза распределения ). Матрица, содержащая количество слов в документе (строки представляют уникальные слова, а столбцы представляют каждый документ), строится из большого фрагмента текста, а математический метод, называемый разложением по сингулярным значениям (SVD), используется для уменьшения количества строк при сохранении структуры сходства. среди колонн. Затем документы сравниваются по косинусному сходству между любыми двумя столбцами. Значения, близкие к 1, представляют очень похожие документы, а значения, близкие к 0, представляют очень разные документы. ^[1]

Методика поиска информации с использованием скрытой семантической структуры была запатентована в 1988 году (патент США 4839853, заархивированный 2 декабря 2017 г. в Wayback Machine , срок действия истек) Скоттом Дирвестером , Сьюзен Дюмэ , Джорджем Фурнасом , Ричардом Харшманом , Томасом Ландауэром , Карен Лохбаум и Линн. Стритер. В контексте его применения к поиску информации его иногда называют скрытой семантической индексацией ( LSI ). ^[2]

Обзор

Анимация процесса обнаружения темы в матрице документ-слово. Каждый столбец соответствует документу, каждая строка — слову. В ячейке хранится вес слова в документе (например, по tf-idf ), темные ячейки указывают на высокий вес. LSA группирует как документы, содержащие похожие слова, так и слова, встречающиеся в аналогичном наборе документов. Полученные шаблоны используются для обнаружения скрытых компонентов. ^[3]

Матрица вхождений

LSA может использовать матрицу терминов документа, которая описывает появление терминов в документах; это разреженная матрица , строки которой соответствуют терминам , а столбцы — документам. Типичным примером взвешивания элементов матрицы является tf-idf (частота термина – обратная частота документа): вес элемента матрицы пропорционален количеству раз появления терминов в каждом документе, где редкие термины имеют повышенный вес, чтобы отразить их относительную важность.

Эта матрица также является общей для стандартных семантических моделей, хотя она не обязательно выражается в виде матрицы явно, поскольку не всегда используются математические свойства матриц.

Понижение ранга

После построения матрицы вхождений LSA находит низкоранговую аппроксимацию ^[4] матрицы термин-документ . Причин такого приближения может быть несколько:

Предполагается, что исходная матрица терминов-документов слишком велика для вычислительных ресурсов; в этом случае аппроксимированная матрица низкого ранга интерпретируется как приближение («наименьшее и необходимое зло»).
Исходная матрица терминов-документов считается зашумленной : например, необходимо исключить отдельные случаи терминов. С этой точки зрения аппроксимированная матрица интерпретируется как матрица без шума (лучшая матрица, чем исходная).
Исходная матрица терминов-документов считается слишком разреженной по сравнению с «истинной» матрицей терминов-документов. То есть в исходной матрице перечислены только слова, фактически присутствующие в каждом документе, тогда как нас могут интересовать все слова, относящиеся к каждому документу — обычно это гораздо больший набор из-за синонимии .

Следствием понижения ранга является то, что некоторые измерения объединяются и зависят более чем от одного термина:

{(автомобиль), (грузовик), (цветок)} → {(1,3452 * автомобиль + 0,2828 * грузовик), (цветок)}

Это смягчает проблему выявления синонимии, поскольку ожидается, что понижение ранга приведет к объединению измерений, связанных с терминами, имеющими схожие значения. Это также частично смягчает проблему с полисемией , поскольку компоненты многозначных слов, указывающие в «правильном» направлении, добавляются к компонентам слов, имеющих схожее значение. И наоборот, компоненты, указывающие в других направлениях, имеют тенденцию либо просто уравновешиваться, либо, в худшем случае, быть меньшими, чем компоненты в направлениях, соответствующих предполагаемому смыслу.

Вывод

Пусть это матрица, элемент которой описывает появление термина в документе (это может быть, например, частота). будет выглядеть так: $X$ $(i,j)$ $i$ $j$ $X$

{\begin{matrix}&{\textbf {d}}_{j}\\&\downarrow \\{\textbf {t}}_{i}^{T}\rightarrow &{\begin{bmatrix}x_{1,1}&\dots &x_{1,j}&\dots &x_{1,n}\\\vdots &\ddots &\vdots &\ddots &\vdots \\x_{i,1}&\dots &x_{i,j}&\dots &x_{i,n}\\\vdots &\ddots &\vdots &\ddots &\vdots \\x_{m,1}&\dots &x_{m,j}&\dots &x_{m,n}\\\end{bmatrix}}\end{matrix}}

Теперь строка в этой матрице будет вектором, соответствующим термину, задающему его отношение к каждому документу:

{\textbf {t}}_{i}^{T}={\begin{bmatrix}x_{i,1}&\dots &x_{i,j}&\dots &x_{i,n}\end{bmatrix}}

Аналогично, столбец в этой матрице будет вектором, соответствующим документу, указывающим его отношение к каждому термину:

{\textbf {d}}_{j}={\begin{bmatrix}x_{1,j}\\\vdots \\x_{i,j}\\\vdots \\x_{m,j}\\\end{bmatrix}}

Теперь скалярное произведение двух векторов терминов дает корреляцию между терминами в наборе документов. Матричный продукт содержит все эти скалярные произведения. Элемент (который равен элементу ) содержит скалярное произведение ( ). Аналогично, матрица содержит скалярные произведения между всеми векторами документа, определяющие их корреляцию между терминами: . ${\textbf {t}}_{i}^{T}{\textbf {t}}_{p}$ $XX^{T}$ $(i,p)$ $(p,i)$ ${\textbf {t}}_{i}^{T}{\textbf {t}}_{p}$ $={\textbf {t}}_{p}^{T}{\textbf {t}}_{i}$ $X^{T}X$ ${\textbf {d}}_{j}^{T}{\textbf {d}}_{q}={\textbf {d}}_{q}^{T}{\textbf {d}}_{j}$

Теперь из теории линейной алгебры существует такое разложение, что и являются ортогональными матрицами , а является диагональной матрицей . Это называется разложением по сингулярным значениям (SVD): $X$ $U$ $V$ $\Sigma$

{\begin{matrix}X=U\Sigma V^{T}\end{matrix}}

Матричные продукты, дающие нам корреляции между терминами и документами, затем становятся

{\begin{matrix}XX^{T}&=&(U\Sigma V^{T})(U\Sigma V^{T})^{T}=(U\Sigma V^{T})(V^{T^{T}}\Sigma ^{T}U^{T})=U\Sigma V^{T}V\Sigma ^{T}U^{T}=U\Sigma \Sigma ^{T}U^{T}\\X^{T}X&=&(U\Sigma V^{T})^{T}(U\Sigma V^{T})=(V^{T^{T}}\Sigma ^{T}U^{T})(U\Sigma V^{T})=V\Sigma ^{T}U^{T}U\Sigma V^{T}=V\Sigma ^{T}\Sigma V^{T}\end{matrix}}

Поскольку и диагональны, мы видим, что они должны содержать собственные векторы , а должны быть собственными векторами . Оба продукта имеют одинаковые ненулевые собственные значения, заданные ненулевыми записями , или, в равной степени, ненулевыми записями . Теперь разложение выглядит так: $\Sigma \Sigma ^{T}$ $\Sigma ^{T}\Sigma$ $U$ $XX^{T}$ $V$ $X^{T}X$ $\Sigma \Sigma ^{T}$ $\Sigma ^{T}\Sigma$

{\begin{matrix}&X&&&U&&\Sigma &&V^{T}\\&({\textbf {d}}_{j})&&&&&&&({\hat {\textbf {d}}}_{j})\\&\downarrow &&&&&&&\downarrow \\({\textbf {t}}_{i}^{T})\rightarrow &{\begin{bmatrix}x_{1,1}&\dots &x_{1,j}&\dots &x_{1,n}\\\vdots &\ddots &\vdots &\ddots &\vdots \\x_{i,1}&\dots &x_{i,j}&\dots &x_{i,n}\\\vdots &\ddots &\vdots &\ddots &\vdots \\x_{m,1}&\dots &x_{m,j}&\dots &x_{m,n}\\\end{bmatrix}}&=&({\hat {\textbf {t}}}_{i}^{T})\rightarrow &{\begin{bmatrix}{\begin{bmatrix}\,\\\,\\{\textbf {u}}_{1}\\\,\\\,\end{bmatrix}}\dots {\begin{bmatrix}\,\\\,\\{\textbf {u}}_{l}\\\,\\\,\end{bmatrix}}\end{bmatrix}}&\cdot &{\begin{bmatrix}\sigma _{1}&\dots &0\\\vdots &\ddots &\vdots \\0&\dots &\sigma _{l}\\\end{bmatrix}}&\cdot &{\begin{bmatrix}{\begin{bmatrix}&&{\textbf {v}}_{1}&&\end{bmatrix}}\\\vdots \\{\begin{bmatrix}&&{\textbf {v}}_{l}&&\end{bmatrix}}\end{bmatrix}}\end{matrix}}

Значения называются сингулярными значениями, а также левым и правым сингулярными векторами. Обратите внимание, что единственная часть этого значения — это строка. Пусть этот вектор-строка называется . Аналогично, единственная часть, на которую это влияет, — это столбец . Это не собственные векторы, но они зависят от всех собственных векторов. $\sigma _{1},\dots ,\sigma _{l}$ $u_{1},\dots ,u_{l}$ $v_{1},\dots ,v_{l}$ $U$ ${\textbf {t}}_{i}$ $i{\textrm {'th}}$ ${\hat {\textrm {t}}}_{i}^{T}$ $V^{T}$ ${\textbf {d}}_{j}$ $j{\textrm {'th}}$ ${\hat {\textrm {d}}}_{j}$

Оказывается, что когда вы выбираете самые большие сингулярные значения и соответствующие им сингулярные векторы из и , вы получаете ранговую аппроксимацию с наименьшей ошибкой ( норма Фробениуса ). Это приближение имеет минимальную погрешность. Но что еще более важно, теперь мы можем рассматривать векторы терминов и документов как «семантическое пространство». Вектор-строка «термин» затем имеет записи, отображающие его в пространство меньшей размерности. Эти новые измерения не связаны ни с какими понятными концепциями. Они представляют собой низкомерное приближение пространства более высоких измерений. Аналогично, вектор «документа» является приближением в этом пространстве более низкой размерности. Запишем это приближение как $k$ $U$ $V$ $k$ $X$ ${\hat {\textbf {t}}}_{i}^{T}$ $k$ ${\hat {\textbf {d}}}_{j}$

X_{k}=U_{k}\Sigma _{k}V_{k}^{T}

Теперь вы можете сделать следующее:

Посмотрите, как связаны документы и находятся в низкоразмерном пространстве, сравнив векторы и (обычно по косинусному подобию ). $j$ $q$ $\Sigma _{k}\cdot {\hat {\textbf {d}}}_{j}$ $\Sigma _{k}\cdot {\hat {\textbf {d}}}_{q}$
Сравнивая термины и сравнивая векторы и . Обратите внимание, что теперь это вектор-столбец. $i$ $p$ $\Sigma _{k}\cdot {\hat {\textbf {t}}}_{i}$ $\Sigma _{k}\cdot {\hat {\textbf {t}}}_{p}$ ${\hat {\textbf {t}}}$
Документы и представления векторов терминов можно кластеризовать с помощью традиционных алгоритмов кластеризации, таких как k-средние, с использованием мер сходства, таких как косинус.
Получив запрос, просмотрите его как мини-документ и сравните его со своими документами в низкоразмерном пространстве.

Чтобы сделать последнее, вы должны сначала перевести свой запрос в низкомерное пространство. Тогда интуитивно понятно, что вы должны использовать то же преобразование, которое вы используете в своих документах:

{\hat {\textbf {d}}}_{j}=\Sigma _{k}^{-1}U_{k}^{T}{\textbf {d}}_{j}

Обратите внимание, что обратную диагональную матрицу можно найти путем инвертирования каждого ненулевого значения в матрице. $\Sigma _{k}$

Это означает, что если у вас есть вектор запроса , вы должны выполнить перевод, прежде чем сравнивать его с векторами документа в низкомерном пространстве. Вы можете сделать то же самое для векторов псевдотерминов: $q$ ${\hat {\textbf {q}}}=\Sigma _{k}^{-1}U_{k}^{T}{\textbf {q}}$

{\textbf {t}}_{i}^{T}={\hat {\textbf {t}}}_{i}^{T}\Sigma _{k}V_{k}^{T}

{\hat {\textbf {t}}}_{i}^{T}={\textbf {t}}_{i}^{T}V_{k}^{-T}\Sigma _{k}^{-1}={\textbf {t}}_{i}^{T}V_{k}\Sigma _{k}^{-1}

{\hat {\textbf {t}}}_{i}=\Sigma _{k}^{-1}V_{k}^{T}{\textbf {t}}_{i}

Приложения

Новое низкоразмерное пространство обычно можно использовать для:

Сравните документы в маломерном пространстве ( кластеризация данных , классификация документов ).
Найдите похожие документы на разных языках после анализа базового набора переведенных документов ( поиск межъязыковой информации ).
Найдите отношения между терминами ( синонимия и многозначность ).
Получив запрос терминов, переведите его в низкомерное пространство и найдите соответствующие документы ( поиск информации ).
Найдите наилучшее сходство между небольшими группами терминов семантическим способом (т. е. в контексте корпуса знаний), как, например, в модели ответов MCQ на вопросы с несколькими вариантами ответов. ^[5]
Расширить пространство возможностей систем машинного обучения и интеллектуального анализа текста ^[6]
Анализировать словесные ассоциации в текстовом корпусе ^[7]

Синонимия и полисемия являются фундаментальными проблемами обработки естественного языка :

Синонимия – это явление, когда разные слова описывают одну и ту же идею. Таким образом, запрос в поисковой системе может не найти соответствующий документ, который не содержит слов, которые фигурировали в запросе. Например, поиск по слову «врачи» может не вернуть документ, содержащий слово « врачи », хотя эти слова имеют одинаковое значение.
Полисемия – явление, когда одно и то же слово имеет несколько значений. Таким образом, поиск может привести к обнаружению нерелевантных документов, содержащих нужные слова в неправильном значении. Например, ботанику и ученому-компьютерщику, ищущим слово «дерево», вероятно, понадобятся разные наборы документов.

Коммерческие приложения

LSA использовался для оказания помощи в поиске патентов по известному уровню техники . ^[8]

Приложения в человеческой памяти

Использование латентно-семантического анализа широко распространено при изучении человеческой памяти, особенно в областях свободного вспоминания и поиска в памяти. Существует положительная корреляция между семантическим сходством двух слов (по данным LSA) и вероятностью того, что слова будут вспоминаться одно за другим в заданиях на свободное запоминание с использованием учебных списков случайных нарицательных существительных. Они также отметили, что в этих ситуациях время ответа между похожими словами было намного быстрее, чем между разными словами. Эти результаты называются эффектом семантической близости. ^[9]

Когда участники допускали ошибки при воспроизведении изученных предметов, эти ошибки, как правило, касались предметов, которые были более семантически связаны с желаемым предметом и находились в ранее изученном списке. Эти вторжения из предыдущего списка, как их стали называть, похоже, конкурируют за отзыв с элементами из текущего списка. ^[10]

Другая модель, называемая «Пространство словесных ассоциаций» (WAS), также используется в исследованиях памяти путем сбора данных о свободных ассоциациях в результате серии экспериментов и включает меры родства слов для более чем 72 000 различных пар слов. ^[11]

Выполнение

SVD обычно вычисляется с использованием методов больших матриц (например, методов Ланцоша ), но также может вычисляться постепенно и со значительно меньшими ресурсами с помощью подхода , подобного нейронной сети , который не требует хранения большой матрицы полного ранга в Память. ^[12] Недавно был разработан быстрый инкрементный алгоритм SVD с малым объемом памяти и большой матрицей. ^[13] Доступны реализации этих быстрых алгоритмов в MATLAB и Python. В отличие от стохастической аппроксимации Горрелла и Уэбба (2005), алгоритм Брэнда (2003) обеспечивает точное решение. В последние годы был достигнут прогресс в снижении вычислительной сложности SVD; например, используя параллельный алгоритм ARPACK для выполнения параллельного разложения по собственным значениям, можно ускорить затраты на вычисления SVD, обеспечивая при этом сопоставимое качество прогнозирования. ^[14]

Ограничения

Некоторые из недостатков LSA включают в себя:

Полученные размеры могут быть трудными для интерпретации. Например, в

{(автомобиль), (грузовик), (цветок)} ↦ {(1,3452 * легковой автомобиль + 0,2828 * грузовой автомобиль), (цветок)}

компонент (1,3452 * легковой автомобиль + 0,2828 * грузовой автомобиль) можно интерпретировать как «транспортное средство». Однако весьма вероятно, что случаи, близкие к

{(машина), (бутылка), (цветок)} ↦ {(1,3452 * машина + 0,2828 * бутылка ), (цветок)}

произойдет. Это приводит к результатам, которые могут быть оправданы на математическом уровне, но не имеют непосредственного очевидного значения на естественном языке. Однако составляющая (1,3452 * автомобиль + 0,2828 * бутылка) может быть оправдана тем, что и бутылки, и автомобили имеют прозрачные и непрозрачные части, изготовлены человеком и с высокой вероятностью содержат на своей поверхности логотипы/слова; таким образом, во многих отношениях эти два понятия «разделяют семантику». То есть в рассматриваемом языке может не быть легкодоступного слова, которое можно было бы присвоить, и объяснимость становится задачей анализа, в отличие от простой задачи присвоения слова/класса/концепции.

LSA может лишь частично уловить полисемию (т. е. несколько значений слова), поскольку каждое появление слова рассматривается как имеющее одно и то же значение, поскольку слово представлено как одна точка в пространстве. Например, появление слова «председатель» в документе, содержащем «Председатель правления», и в отдельном документе, содержащем «председатель», считается одинаковым. Такое поведение приводит к тому, что векторное представление представляет собой среднее значение всех различных значений слова в корпусе, что может затруднить сравнение. ^[15] Однако эффект часто снижается из-за того, что слова имеют преобладающий смысл во всем корпусе (т.е. не все значения одинаково вероятны).
Ограничения модели «мешок слов» (BOW), в которой текст представлен как неупорядоченный набор слов. Чтобы устранить некоторые ограничения модели «мешок слов» (BOW), можно использовать многограммовый словарь для поиска прямых и косвенных ассоциаций, а также совпадений более высокого порядка между терминами. ^[16]
Вероятностная модель LSA не соответствует наблюдаемым данным: LSA предполагает, что слова и документы образуют совместную гауссову модель ( эргодическая гипотеза ), в то время как наблюдается распределение Пуассона . Таким образом, более новой альтернативой является вероятностный латентно-семантический анализ , основанный на полиномиальной модели, который, как сообщается, дает лучшие результаты, чем стандартный LSA. ^[17]

Альтернативные методы

Семантическое хеширование

При семантическом хешировании ^[18] документы сопоставляются с адресами памяти с помощью нейронной сети таким образом, что семантически схожие документы располагаются по соседним адресам. Глубокая нейронная сеть по сути строит графическую модель векторов количества слов, полученных из большого набора документов. Документы, подобные документу запроса, можно затем найти, просто обратившись ко всем адресам, которые отличаются всего на несколько битов от адреса документа запроса. Этот способ повышения эффективности хэш-кодирования для приблизительного сопоставления намного быстрее, чем хеширование с учетом местоположения , которое является самым быстрым из существующих методов. ^{[ нужны разъяснения ]}

Скрытая семантическая индексация

Скрытое семантическое индексирование ( LSI ) — это метод индексирования и поиска, который использует математический метод, называемый разложением по сингулярным значениям (SVD), для выявления закономерностей во взаимоотношениях между терминами и понятиями , содержащимися в неструктурированной коллекции текста. LSI основан на том принципе, что слова, используемые в одном и том же контексте, имеют схожее значение. Ключевой особенностью LSI является его способность извлекать концептуальное содержание текста путем установления ассоциаций между терминами, встречающимися в схожих контекстах . ^[19]

LSI также представляет собой применение анализа соответствий , многомерного статистического метода, разработанного Жаном-Полем Бензекри ^[20] в начале 1970-х годов, для таблицы непредвиденных обстоятельств , построенной на основе подсчета слов в документах.

Названный « скрытым семантическим индексированием» из-за его способности соотносить семантически связанные термины, которые скрыты в наборе текста, он был впервые применен к тексту в Bellcore в конце 1980-х годов. Этот метод, также называемый скрытым семантическим анализом (LSA), раскрывает скрытую семантическую структуру использования слов в тексте и то, как ее можно использовать для извлечения значения текста в ответ на запросы пользователя, обычно называемые как концептуальный поиск. Запросы или концептуальные поиски по набору документов, прошедших LSI, вернут результаты, которые концептуально схожи по смыслу с критериями поиска, даже если результаты не имеют общего с критериями поиска определенного слова или слов.

Преимущества ЛСИ

LSI помогает преодолеть синонимию за счет увеличения запоминаемости — одного из наиболее проблемных ограничений логических запросов по ключевым словам и моделей векторного пространства. ^[15] Синонимия часто является причиной несоответствия лексики авторов документов и пользователей информационно-поисковых систем. ^[21] В результате логические запросы или запросы по ключевым словам часто возвращают нерелевантные результаты и пропускают релевантную информацию.

LSI также используется для автоматической категоризации документов . Фактически, несколько экспериментов продемонстрировали, что существует ряд корреляций между тем, как LSI и люди обрабатывают и классифицируют текст. ^[22] Категоризация документов – это отнесение документов к одной или нескольким заранее определенным категориям на основе их сходства с концептуальным содержанием категорий. ^[23] LSI использует примеры документов для установления концептуальной основы для каждой категории. Во время обработки категоризации понятия, содержащиеся в категоризируемых документах, сравниваются с понятиями, содержащимися в примерных элементах, и категория (или категории) присваивается документам на основе сходства между понятиями, которые они содержат, и понятиями, которые содержатся. в примерах документов.

Динамическую кластеризацию на основе концептуального содержания документов также можно выполнить с помощью LSI. Кластеризация — это способ группировки документов на основе их концептуального сходства друг с другом без использования примеров документов для установления концептуальной основы для каждого кластера. Это очень полезно при работе с неизвестной коллекцией неструктурированного текста.

Поскольку LSI использует строго математический подход, он по своей сути независим от языка. Это позволяет LSI извлекать семантическое содержание информации, написанной на любом языке, без необходимости использования вспомогательных структур, таких как словари и тезаурусы. LSI также может выполнять межлингвистический поиск концепций и категоризацию на основе примеров. Например, запросы могут выполняться на одном языке, например английском, и будут возвращены концептуально схожие результаты, даже если они составлены на совершенно другом языке или на нескольких языках. ^{[ нужна цитата ]}

LSI не ограничивается работой только со словами. Он также может обрабатывать произвольные строки символов. Любой объект, который может быть выражен в виде текста, может быть представлен в векторном пространстве LSI. Например, тесты с рефератами MEDLINE показали, что LSI способна эффективно классифицировать гены на основе концептуального моделирования биологической информации, содержащейся в заголовках и рефератах цитат MEDLINE. ^[24]

LSI автоматически адаптируется к новой и меняющейся терминологии и, как было показано, очень устойчив к шуму (т. е. к орфографическим ошибкам в словах, опечаткам, нечитаемым символам и т. д.). ^[25] Это особенно важно для приложений, использующих текст, полученный с помощью оптического распознавания символов (OCR) и преобразования речи в текст. LSI также эффективно справляется с редкими, неоднозначными и противоречивыми данными.

Чтобы LSI был эффективным, текст не обязательно должен быть в форме предложения. Он может работать со списками, заметками в свободной форме, электронной почтой, веб-контентом и т. д. Пока набор текста содержит несколько терминов, LSI можно использовать для выявления закономерностей во взаимоотношениях между важными терминами и понятиями, содержащимися в текст.

LSI оказалась полезным решением ряда проблем концептуального сопоставления. ^[26]^[27] Было показано, что этот метод позволяет собирать ключевую информацию о взаимоотношениях, включая причинно-следственную, целенаправленную и таксономическую информацию. ^[28]

График работы LSI

Середина 1960-х годов - впервые описана и испытана техника факторного анализа (Х. Борко и М. Берник).
1988 г. - опубликована основополагающая статья по технологии LSI ^[19].
1989 г. - выдан оригинальный патент ^[19].
1992 г. – Первое использование LSI для назначения статей рецензентам ^[29].
1994 г. – выдан патент на межъязыковое применение LSI (Ландауэр и др.).
1995 – Первое использование LSI для оценки эссе (Фольц и др., Ландауэр и др.).
1999 — Первое внедрение технологии LSI для разведывательного сообщества для анализа неструктурированного текста ( SAIC ).
2002 г. - предложение продуктов на базе LSI правительственным агентствам, занимающимся разведывательной деятельностью (SAIC).

Математика БИС

LSI использует распространенные методы линейной алгебры для изучения концептуальных корреляций в наборе текста. В общем, процесс включает в себя построение взвешенной матрицы терминов-документов, выполнение разложения по сингулярным значениям матрицы и использование матрицы для идентификации понятий, содержащихся в тексте.

Матрица терминодокументов

LSI начинается с построения матрицы терминов-документов для идентификации вхождений уникальных терминов в набор документов. В матрице термин-документ каждый термин представлен строкой, а каждый документ представлен столбцом, где каждая ячейка матрицы первоначально представляет количество раз, когда соответствующий термин появляется в указанном документе . Эта матрица обычно очень большая и очень разреженная. $A$ $m$ $n$ $a_{ij}$ $\mathrm {tf_{ij}}$

После построения матрицы термин-документ к ней можно применить локальные и глобальные весовые функции для обработки данных. Весовые функции преобразуют каждую ячейку , в произведение веса локального термина, который описывает относительную частоту термина в документе, и глобального веса, который описывает относительную частоту термина во всей коллекции. документов. $a_{ij}$ $A$ $l_{ij}$ $g_{i}$

Некоторые распространенные локальные весовые функции ^[30] определены в следующей таблице.

Некоторые общие глобальные весовые функции определены в следующей таблице.

Эмпирические исследования с использованием LSI показывают, что функции взвешивания журнала и энтропии на практике хорошо работают со многими наборами данных. ^[31] Другими словами, каждая запись вычисляется как: $a_{ij}$ $A$

g_{i}=1+\sum _{j}{\frac {p_{ij}\log p_{ij}}{\log n}}

a_{ij}=g_{i}\ \log(\mathrm {tf} _{ij}+1)

Разложение сингулярных значений с пониженным рангом

Разложение по сингулярным значениям с пониженным рангом выполняется для определения закономерностей во взаимоотношениях между терминами и понятиями, содержащимися в тексте. SVD составляет основу LSI. ^[32] Он вычисляет векторные пространства терминов и документов путем аппроксимации одной матрицы частот терминов , в три другие матрицы — векторную матрицу терминов и понятий m на r , матрицу сингулярных значений r на r и концепцию n на r . -векторная матрица документа, , удовлетворяющая следующим соотношениям: $A$ $T$ $S$ $D$

$A\approx TSD^{T}$

$T^{T}T=I_{r}\quad D^{T}D=I_{r}$

$S_{1,1}\geq S_{2,2}\geq \ldots \geq S_{r,r}>0\quad S_{i,j}=0\;{\text{where}}\;i\neq j$

В формуле A — это взвешенная матрица m на n частот терминов в наборе текста, где m — количество уникальных терминов, а n — количество документов. T — это вычисленная матрица векторов терминов размером m на r , где r — ранг A — мера его уникальных размеров ≤ min( m,n ) . S — вычисленная диагональная матрица размером r на r убывающих сингулярных значений, а D — вычисленная матрица векторов документа размером n на r .

Затем SVD усекается , чтобы уменьшить ранг, сохраняя только самые большие k « r диагональные элементы в матрице сингулярных значений S , где k обычно имеет размерность от 100 до 300. Это эффективно уменьшает размеры векторной матрицы терминов и документов до m на k и n на k соответственно. Операция SVD, наряду с этим сокращением, позволяет сохранить наиболее важную семантическую информацию в тексте, одновременно уменьшая шум и другие нежелательные артефакты исходного пространства A. Этот сокращенный набор матриц часто обозначается модифицированной формулой, например:

А ≈ А _k знак равно Т _k S _k D _k^Т

Эффективные алгоритмы LSI вычисляют только первые k сингулярных значений, а также векторы терминов и документов, а не вычисляют полный SVD и затем усекают его.

Обратите внимание, что это понижение ранга по существу аналогично выполнению анализа главных компонентов (PCA) для матрицы A , за исключением того, что PCA вычитает средние значения. PCA теряет разреженность матрицы A , что может сделать его невозможным для больших словарей.

Запрос и расширение векторных пространств LSI

Вычисленные матрицы T _k и D _k определяют векторные пространства терминов и документов, которые с вычисленными сингулярными значениями S _k воплощают концептуальную информацию, полученную из коллекции документов. Сходство терминов или документов в этих пространствах является фактором того, насколько они близки друг к другу в этих пространствах, обычно вычисляемым как функция угла между соответствующими векторами.

Те же шаги используются для поиска векторов, представляющих текст запросов и новых документов, в пространстве документов существующего индекса LSI. Путем простого преобразования уравнения A = TSD ^T в эквивалентное уравнение D = ^AT TS ⁻¹ новый вектор d для запроса или нового документа может быть создан путем вычисления нового столбца в A и последующего умножения новый столбец по TS ⁻¹ . Новый столбец в A вычисляется с использованием первоначально полученных глобальных весов терминов и применения той же локальной весовой функции к терминам в запросе или в новом документе.

Недостаток вычисления векторов таким способом при добавлении новых документов, доступных для поиска, заключается в том, что термины, которые не были известны на этапе SVD для исходного индекса, игнорируются. Эти термины не окажут влияния на глобальные веса и изученные корреляции, полученные из исходной коллекции текста. Однако вычисленные векторы для нового текста по-прежнему очень важны для сравнения сходства со всеми другими векторами документа.

Процесс расширения векторных пространств документов для индекса LSI новыми документами таким образом называется свертыванием . Хотя процесс свертывания не учитывает новое семантическое содержание нового текста, добавление значительного количества документов таким способом все равно обеспечит хорошие результаты для запросов, если содержащиеся в них термины и понятия хорошо представлены в LSI. индекс, к которому они добавляются. Когда термины и понятия нового набора документов необходимо включить в индекс LSI, необходимо пересчитать либо матрицу терминов-документов, либо SVD, либо использовать метод постепенного обновления (например, описанный в ^[13] ). необходим.

Дополнительное использование LSI

Общепризнано, что умение работать с текстом на семантической основе имеет важное значение для современных информационно-поисковых систем. В результате в последние годы использование LSI значительно расширилось, поскольку были преодолены прежние проблемы масштабируемости и производительности.

LSI используется в различных приложениях для поиска информации и обработки текста, хотя его основным применением является поиск понятий и автоматическая категоризация документов. ^[33] Ниже приведены некоторые другие способы использования LSI:

Обнаружение информации ^[34] ( eDiscovery , Правительство/разведывательное сообщество, Публикация)
Автоматизированная классификация документов (обнаружение электронных данных, правительственное/разведывательное сообщество, публикации) ^[35]
Обобщение текста ^[36] (eDiscovery, Publishing)
Выявление взаимосвязей ^[37] (правительство, разведывательное сообщество, социальные сети)
Автоматическое создание диаграмм связей отдельных лиц и организаций ^[38] (Правительство, Разведывательное сообщество)
Согласование технических документов и грантов с рецензентами ^[39] (Правительство)
Онлайн-поддержка клиентов ^[40] (Управление клиентами)
Определение авторства документа ^[41] (Образование)
Автоматическое аннотирование изображений по ключевым словам ^[42]
Понимание исходного кода программного обеспечения ^[43] (Разработка программного обеспечения)
Фильтрация спама ^[44] (Системное администрирование)
Визуализация информации ^[45]
Оценка эссе ^[46] (Образование)
Открытие на основе литературы ^[47]
Прогноз доходности акций ^[6]
Анализ содержания сновидений (психология) ^[7]

LSI все чаще используется для обнаружения электронных документов (eDiscovery), чтобы помочь предприятиям подготовиться к судебным разбирательствам. В eDiscovery крайне важна возможность кластеризации, категоризации и поиска в больших коллекциях неструктурированного текста на концептуальной основе. Концептуальный поиск с использованием LSI был применен к процессу обнаружения электронных данных ведущими поставщиками еще в 2003 году. ^[48]

Проблемы LSI

Первые проблемы LSI были сосредоточены на масштабируемости и производительности. LSI требует относительно высокой вычислительной производительности и памяти по сравнению с другими методами поиска информации. ^[49] Однако с внедрением современных высокоскоростных процессоров и наличием недорогой памяти эти соображения были в значительной степени преодолены. Реальные приложения, включающие более 30 миллионов документов, которые были полностью обработаны с помощью вычислений матрицы и SVD, являются обычными в некоторых приложениях LSI. Полностью масштабируемая (неограниченное количество документов, онлайн-обучение) реализация LSI содержится в пакете программного обеспечения gensim с открытым исходным кодом . ^[50]

Еще одной проблемой для LSI была предполагаемая трудность в определении оптимального количества измерений, используемых для выполнения SVD. Как правило, меньшее количество измерений позволяет проводить более широкие сравнения понятий, содержащихся в наборе текста, тогда как большее количество измерений позволяет проводить более конкретные (или более релевантные) сравнения понятий. Фактическое количество измерений, которые можно использовать, ограничено количеством документов в коллекции. Исследования показали, что около 300 измерений обычно дают наилучшие результаты для коллекций документов среднего размера (сотни тысяч документов) и, возможно, 400 измерений для больших коллекций документов (миллионы документов). ^[51] Однако недавние исследования показывают, что 50-1000 измерений подходят в зависимости от размера и характера коллекции документов. ^[52] Проверка доли сохраняемой дисперсии, аналогично PCA или факторному анализу , для определения оптимальной размерности не подходит для LSI. Использование теста синонимов или прогнозирование пропущенных слов — два возможных метода определения правильной размерности. ^[53] Когда темы LSI используются в качестве функций в методах обучения с учителем, можно использовать измерения ошибок прогнозирования, чтобы найти идеальную размерность.

Смотрите также

дальнейшее чтение

Landauer, Thomas; Foltz, Peter W.; Laham, Darrell (1998). "Introduction to Latent Semantic Analysis" (PDF). Discourse Processes. 25 (2–3): 259–284. CiteSeerX 10.1.1.125.109. doi:10.1080/01638539809545028. S2CID 16625196.
Deerwester, Scott; Dumais, Susan T.; Furnas, George W.; Landauer, Thomas K.; Harshman, Richard (1990). "Indexing by Latent Semantic Analysis" (PDF). Journal of the American Society for Information Science. 41 (6): 391–407. CiteSeerX 10.1.1.33.2447. doi:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9. Archived from the original (PDF) on 2012-07-17. Original article where the model was first exposed.
Berry, Michael; Dumais, Susan T.; O'Brien, Gavin W. (1995). "Using Linear Algebra for Intelligent Information Retrieval". {{cite journal}}: Cite journal requires |journal= (help) (PDF) Archived 2018-11-23 at the Wayback Machine. Illustration of the application of LSA to document retrieval.
Chicco, D; Masseroli, M (2015). "Software suite for gene and protein annotation prediction and similarity search". IEEE/ACM Transactions on Computational Biology and Bioinformatics. 12 (4): 837–843. doi:10.1109/TCBB.2014.2382127. hdl:11311/959408. PMID 26357324. S2CID 14714823.
"Latent Semantic Analysis". InfoVis. Archived from the original on 2020-02-18. Retrieved 2005-07-01.
Fridolin Wild (November 23, 2005). "An Open Source LSA Package for R". CRAN. Retrieved November 20, 2006.
Thomas Landauer, Susan T. Dumais. "A Solution to Plato's Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge". Retrieved 2007-07-02.

External links

Articles on LSA

Latent Semantic Analysis, a scholarpedia article on LSA written by Tom Landauer, one of the creators of LSA.

Talks and demonstrations

LSA Overview, talk by Prof. Thomas Hofmann Archived 2017-12-22 at the Wayback Machine describing LSA, its applications in Information Retrieval, and its connections to probabilistic latent semantic analysis.
Complete LSA sample code in C# for Windows. The demo code includes enumeration of text files, filtering stop words, stemming, making a document-term matrix and SVD.

Implementations

Due to its cross-domain applications in Information Retrieval, Natural Language Processing (NLP), Cognitive Science and Computational Linguistics, LSA has been implemented to support many different kinds of applications.

Sense Clusters, an Information Retrieval-oriented perl implementation of LSA
S-Space Package, a Computational Linguistics and Cognitive Science-oriented Java implementation of LSA
Semantic Vectors applies Random Projection, LSA, and Reflective Random Indexing to Lucene term-document matrices
Infomap Project, an NLP-oriented C implementation of LSA (superseded by semanticvectors project)
Text to Matrix Generator Archived 2013-01-07 at archive.today, A MATLAB Toolbox for generating term-document matrices from text collections, with support for LSA
Gensim contains a Python implementation of LSA for matrices larger than RAM.