stringtranslate.com

Латентный семантический анализ

Латентный семантический анализ ( LSA ) — это метод обработки естественного языка , в частности, распределительной семантики , анализа связей между набором документов и содержащимися в них терминами путем создания набора концепций, связанных с документами и терминами. LSA предполагает, что слова, близкие по значению, будут встречаться в похожих фрагментах текста ( гипотеза распределения ). Матрица, содержащая количество слов на документ (строки представляют уникальные слова, а столбцы представляют каждый документ), строится из большого фрагмента текста, и математический метод, называемый разложением по сингулярным значениям (SVD), используется для сокращения количества строк при сохранении структуры сходства между столбцами. Затем документы сравниваются по косинусному сходству между любыми двумя столбцами. Значения, близкие к 1, представляют очень похожие документы, в то время как значения, близкие к 0, представляют очень непохожие документы. [1]

Метод поиска информации с использованием скрытой семантической структуры был запатентован в 1988 году [2] Скоттом Дирвестером , Сьюзан Дюмейс , Джорджем Фурнасом , Ричардом Харшманом , Томасом Ландауэром , Карен Лохбаум и Линн Стритер. В контексте его применения к поиску информации его иногда называют скрытой семантической индексацией ( LSI ). [3]

Обзор

Анимация процесса обнаружения темы в матрице документ-слово. Каждый столбец соответствует документу, каждая строка — слову. Ячейка хранит вес слова в документе (например, по tf-idf ), темные ячейки указывают на высокий вес. LSA группирует как документы, содержащие похожие слова, так и слова, которые встречаются в похожем наборе документов. Полученные шаблоны используются для обнаружения скрытых компонентов. [4]

Матрица вхождения

LSA может использовать матрицу документ-терм , которая описывает вхождения терминов в документы; это разреженная матрица , строки которой соответствуют терминам , а столбцы — документам. Типичным примером взвешивания элементов матрицы является tf-idf (term frequency–inverse document frequency): вес элемента матрицы пропорционален количеству появлений терминов в каждом документе, где редкие термины взвешиваются, чтобы отразить их относительную важность.

Эта матрица также является общей для стандартных семантических моделей, хотя она не обязательно явно выражена как матрица, поскольку математические свойства матриц не всегда используются.

Понижение ранга

После построения матрицы вхождений LSA находит низкоранговое приближение [5] к матрице термин-документ . Причины таких приближений могут быть разными:

Следствием понижения ранга является то, что некоторые измерения объединяются и зависят от более чем одного термина:

{(автомобиль), (грузовик), (цветок)} → {(1,3452 * автомобиль + 0,2828 * грузовик), (цветок)}

Это смягчает проблему идентификации синонимии, поскольку понижение ранга, как ожидается, объединит измерения, связанные с терминами, имеющими схожие значения. Это также частично смягчает проблему с полисемией , поскольку компоненты полисемичных слов, которые указывают в «правильном» направлении, добавляются к компонентам слов, которые разделяют схожее значение. И наоборот, компоненты, которые указывают в других направлениях, имеют тенденцию либо просто отменяться, либо, в худшем случае, быть меньше компонентов в направлениях, соответствующих предполагаемому смыслу.

Вывод

Пусть будет матрицей, где элемент описывает встречаемость термина в документе (это может быть, например, частота). будет выглядеть так:

Теперь строка в этой матрице будет вектором, соответствующим термину, определяющему его связь с каждым документом:

Аналогично, столбец в этой матрице будет вектором, соответствующим документу, определяющим его связь с каждым термином:

Теперь скалярное произведение между двумя векторами терминов дает корреляцию между терминами по набору документов. Матричное произведение содержит все эти скалярные произведения. Элемент (который равен элементу ) содержит скалярное произведение ( ). Аналогично, матрица содержит скалярные произведения между всеми векторами документов, давая их корреляцию по терминам: .

Теперь, из теории линейной алгебры, существует разложение такое , что и являются ортогональными матрицами и является диагональной матрицей . Это называется разложением по сингулярным значениям (SVD):

Матричные продукты, дающие нам корреляции терминов и документов, затем становятся

Так как и диагональны, то мы видим, что должны содержать собственные векторы , в то время как должны быть собственными векторами . Оба произведения имеют одинаковые ненулевые собственные значения, заданные ненулевыми элементами , или, что то же самое, ненулевыми элементами . Теперь разложение выглядит следующим образом:

Значения называются сингулярными значениями, а также левыми и правыми сингулярными векторами. Обратите внимание, что единственная часть, которая вносит вклад, — это строка. Пусть этот вектор-строка будет называться . Аналогично, единственная часть, которая вносит вклад, — это столбец, . Это не собственные векторы, но они зависят от всех собственных векторов.

Оказывается, когда вы выбираете наибольшие сингулярные значения и соответствующие им сингулярные векторы из и , вы получаете ранговое приближение к с наименьшей ошибкой ( норма Фробениуса ). Это приближение имеет минимальную ошибку. Но что еще важнее, теперь мы можем рассматривать векторы термина и документа как «семантическое пространство». Вектор строки «термин» затем имеет записи, отображающие его в пространство меньшей размерности. Эти новые измерения не связаны ни с какими понятными концепциями. Они являются приближением меньшей размерности пространства большей размерности. Аналогично, вектор «документ» является приближением в этом пространстве меньшей размерности. Мы записываем это приближение как

Теперь вы можете сделать следующее:

Чтобы сделать последнее, вы должны сначала перевести свой запрос в низкоразмерное пространство. Затем интуитивно понятно, что вы должны использовать то же преобразование, которое вы используете в своих документах:

Обратите внимание, что обратную диагональную матрицу можно найти, инвертируя каждое ненулевое значение внутри матрицы.

Это означает, что если у вас есть вектор запроса , вы должны выполнить перевод, прежде чем сравнивать его с векторами документа в низкоразмерном пространстве. Вы можете сделать то же самое для векторов псевдотерминов:

Приложения

Новое низкоразмерное пространство обычно можно использовать для:

Синонимия и полисемия являются фундаментальными проблемами в обработке естественного языка :

Коммерческое применение

LSA использовался для содействия в проведении поиска патентов по предшествующему уровню техники . [9]

Приложения в человеческой памяти

Использование латентного семантического анализа было распространено в изучении человеческой памяти, особенно в областях свободного припоминания и поиска в памяти. Существует положительная корреляция между семантическим сходством двух слов (измеренным с помощью LSA) и вероятностью того, что слова будут вспоминаться одно за другим в заданиях на свободное припоминание с использованием учебных списков случайных нарицательных существительных. Они также отметили, что в этих ситуациях время между ответами между похожими словами было намного меньше, чем между непохожими словами. Эти результаты называются эффектом семантической близости. [10]

Когда участники допускали ошибки при припоминании изученных элементов, эти ошибки, как правило, были элементами, которые были семантически более связаны с желаемым элементом и находились в ранее изученном списке. Эти вторжения в предыдущий список, как их стали называть, похоже, конкурируют с элементами в текущем списке за припоминание. [11]

Другая модель, называемая Пространствами словесных ассоциаций (WAS), также используется в исследованиях памяти путем сбора данных свободных ассоциаций из серии экспериментов и включает в себя меры связанности слов для более чем 72 000 отдельных пар слов. [12]

Выполнение

SVD обычно вычисляется с использованием методов больших матриц (например, методов Ланцоша ), но может также вычисляться пошагово и со значительно сокращенными ресурсами с помощью подхода , подобного нейронной сети , который не требует хранения в памяти большой матрицы полного ранга. [13] Был разработан быстрый, пошаговый, малозатратный, с большой матрицей алгоритм SVD. [14] Доступны реализации этих быстрых алгоритмов в MATLAB [15] и Python [16] . В отличие от стохастического приближения Горрелла и Уэбба (2005), алгоритм Брэнда (2003) обеспечивает точное решение. В последние годы был достигнут прогресс в снижении вычислительной сложности SVD; например, используя параллельный алгоритм ARPACK для выполнения параллельной декомпозиции собственных значений, можно ускорить стоимость вычисления SVD, обеспечивая при этом сопоставимое качество прогнозирования. [17]

Ограничения

Некоторые из недостатков LSA включают в себя:

{(автомобиль), (грузовик), (цветок)} ↦ {(1,3452 * автомобиль + 0,2828 * грузовик), (цветок)}
компонент (1,3452 * автомобиль + 0,2828 * грузовик) можно интерпретировать как "транспортное средство". Однако весьма вероятно, что случаи, близкие к
{(автомобиль), (бутылка), (цветок)} ↦ {(1,3452 * автомобиль + 0,2828 * бутылка ), (цветок)}
произойдет. Это приводит к результатам, которые могут быть обоснованы на математическом уровне, но не имеют непосредственного очевидного значения в естественном языке. Хотя компонент (1,3452 * автомобиль + 0,2828 * бутылка) может быть обоснован, поскольку и бутылки, и автомобили имеют прозрачные и непрозрачные части, сделаны человеком и с высокой вероятностью содержат логотипы/слова на своей поверхности; таким образом, во многих отношениях эти два понятия «разделяют семантику». То есть в рассматриваемом языке может не быть легкодоступного слова для назначения, и объяснимость становится задачей анализа в отличие от простой задачи назначения слова/класса/концепции.

Альтернативные методы

Семантическое хеширование

В семантическом хешировании [21] документы сопоставляются с адресами памяти с помощью нейронной сети таким образом, что семантически схожие документы располагаются по близлежащим адресам. Глубокая нейронная сеть по сути строит графическую модель векторов количества слов, полученных из большого набора документов. Документы, похожие на документ запроса, затем можно найти, просто обратившись ко всем адресам, которые отличаются всего на несколько бит от адреса документа запроса. Этот способ расширения эффективности хеширования до приблизительного соответствия намного быстрее, чем локально-чувствительное хеширование , которое является самым быстрым на данный момент методом. [ необходимо разъяснение ]

Скрытая семантическая индексация

Скрытое семантическое индексирование ( LSI ) — это метод индексирования и поиска, который использует математический метод, называемый разложением по сингулярным значениям (SVD), для выявления закономерностей в отношениях между терминами и концепциями, содержащимися в неструктурированной коллекции текста. LSI основан на принципе, что слова, которые используются в одних и тех же контекстах, как правило, имеют схожие значения. Ключевой особенностью LSI является его способность извлекать концептуальное содержание текста путем установления ассоциаций между терминами, которые встречаются в схожих контекстах . [22]

LSI также представляет собой применение анализа соответствий , многомерного статистического метода, разработанного Жаном-Полем Бензекри [23] в начале 1970-х годов, к таблице сопряженности, построенной на основе количества слов в документах.

Названный « скрытой семантической индексацией» из-за своей способности сопоставлять семантически связанные термины, которые скрыты в коллекции текста, он был впервые применен к тексту в Bellcore в конце 1980-х годов. Метод, также называемый латентным семантическим анализом (LSA), раскрывает базовую скрытую семантическую структуру в использовании слов в тексте и то, как его можно использовать для извлечения смысла текста в ответ на запросы пользователей, обычно называемые поиском концепций. Запросы или поиск концепций по набору документов, прошедших LSI, вернут результаты, которые концептуально схожи по значению с критериями поиска, даже если результаты не разделяют определенное слово или слова с критериями поиска.

Преимущества LSI

LSI помогает преодолеть синонимию, увеличивая полноту , одно из самых проблемных ограничений булевых запросов по ключевым словам и моделей векторного пространства. [18] Синонимия часто является причиной несоответствий в словаре, используемом авторами документов и пользователями систем поиска информации . [24] В результате булевы запросы или запросы по ключевым словам часто возвращают нерелевантные результаты и пропускают релевантную информацию.

LSI также используется для выполнения автоматизированной категоризации документов . Фактически, несколько экспериментов продемонстрировали, что существует ряд корреляций между тем, как LSI и люди обрабатывают и категоризируют текст. [25] Категоризация документов — это отнесение документов к одной или нескольким предопределенным категориям на основе их сходства с концептуальным содержанием категорий. [26] LSI использует образцы документов для установления концептуальной основы для каждой категории. Во время обработки категоризации концепции, содержащиеся в категоризируемых документах, сравниваются с концепциями, содержащимися в элементах примеров, и категория (или категории) присваиваются документам на основе сходства между концепциями, которые они содержат, и концепциями, которые содержатся в документах-образцах.

Динамическая кластеризация на основе концептуального содержания документов также может быть выполнена с использованием LSI. Кластеризация — это способ группировки документов на основе их концептуального сходства друг с другом без использования образцов документов для установления концептуальной основы для каждого кластера. Это очень полезно при работе с неизвестной коллекцией неструктурированного текста.

Поскольку он использует строго математический подход, LSI по своей сути независим от языка. Это позволяет LSI выявлять семантическое содержание информации, написанной на любом языке, не требуя использования вспомогательных структур, таких как словари и тезаурусы. LSI также может выполнять кросс-лингвистический поиск концепций и категоризацию на основе примеров. Например, запросы могут быть сделаны на одном языке, таком как английский, и концептуально похожие результаты будут возвращены, даже если они составлены на совершенно другом языке или на нескольких языках. [ необходима цитата ]

LSI не ограничивается работой только со словами. Он также может обрабатывать произвольные строки символов. Любой объект, который может быть выражен как текст, может быть представлен в векторном пространстве LSI. Например, тесты с рефератами MEDLINE показали, что LSI способен эффективно классифицировать гены на основе концептуального моделирования биологической информации, содержащейся в заголовках и рефератах ссылок MEDLINE. [27]

LSI автоматически адаптируется к новой и меняющейся терминологии и, как было показано, очень устойчив к шуму (например, неправильно написанным словам, опечаткам, нечитаемым символам и т. д.). [28] Это особенно важно для приложений, использующих текст, полученный с помощью оптического распознавания символов (OCR) и преобразования речи в текст. LSI также эффективно справляется с разреженными, неоднозначными и противоречивыми данными.

Текст не обязательно должен быть в форме предложения, чтобы LSI был эффективным. Он может работать со списками, заметками в свободной форме, электронной почтой, веб-контентом и т. д. Пока коллекция текста содержит несколько терминов, LSI может использоваться для выявления закономерностей в отношениях между важными терминами и концепциями, содержащимися в тексте.

LSI оказался полезным решением для ряда концептуальных проблем сопоставления. [29] [30] Было показано, что этот метод позволяет получить ключевую информацию о взаимоотношениях, включая причинно-следственную, целевую и таксономическую информацию. [31]

Хронология LSI

Математика LSI

LSI использует общие методы линейной алгебры для изучения концептуальных корреляций в коллекции текстов. В общем, процесс включает построение взвешенной матрицы термин-документ, выполнение разложения сингулярных значений на матрице и использование матрицы для идентификации концепций, содержащихся в тексте.

Матрица термин-документ

LSI начинает с построения матрицы термин-документ, , для определения вхождений уникальных терминов в коллекцию документов. В матрице термин-документ каждый термин представлен строкой, а каждый документ представлен столбцом, причем каждая ячейка матрицы, , изначально представляет количество раз, когда связанный термин появляется в указанном документе, . Эта матрица обычно очень большая и очень разреженная.

После построения матрицы термин-документ к ней можно применить локальные и глобальные весовые функции для приведения данных к требуемым условиям. Весовые функции преобразуют каждую ячейку, из , в произведение локального веса термина, , который описывает относительную частоту термина в документе, и глобального веса, , который описывает относительную частоту термина во всей коллекции документов.

Некоторые общие локальные весовые функции [33] определены в следующей таблице.

Некоторые общие глобальные весовые функции определены в следующей таблице.

Эмпирические исследования с LSI показывают, что функции взвешивания Log и Entropy хорошо работают на практике со многими наборами данных. [34] Другими словами, каждая запись вычисляется как:

Разложение сингулярных значений с пониженным рангом

Для матрицы выполняется разложение по сингулярным значениям с пониженным рангом, чтобы определить закономерности в отношениях между терминами и концепциями, содержащимися в тексте. SVD формирует основу для LSI. [35] Он вычисляет векторные пространства терминов и документов, аппроксимируя единственную матрицу частот терминов, , в три другие матрицы — векторную матрицу терминов-концепций размером m на r , матрицу сингулярных значений размером r на r и векторную матрицу понятий-документов размером n на r , которые удовлетворяют следующим соотношениям:

В формуле A — это предоставленная взвешенная матрица m на n частот терминов в коллекции текста, где m — количество уникальных терминов, а n — количество документов. T — это вычисленная матрица m на r векторов терминов, где r — ранг A — мера его уникальных измерений ≤ min( m,n ) . S — это вычисленная диагональная матрица r на r убывающих сингулярных значений, а D — это вычисленная матрица n на r векторов документов.

Затем SVD усекается для уменьшения ранга, сохраняя только самые большие k «  r диагональных элементов в матрице сингулярных значений S , где k обычно имеет порядок от 100 до 300 измерений. Это эффективно уменьшает размеры матрицы термина и вектора документа до m на k и n на k соответственно. Операция SVD, наряду с этим сокращением, имеет эффект сохранения наиболее важной семантической информации в тексте, одновременно уменьшая шум и другие нежелательные артефакты исходного пространства A . Этот сокращенный набор матриц часто обозначается модифицированной формулой, такой как:

А ≈ А к = Т к С к Д к Т

Эффективные алгоритмы LSI вычисляют только первые k сингулярных значений, а также векторы термов и документов, в отличие от вычисления полного SVD с последующим его усечением.

Обратите внимание, что это понижение ранга по сути то же самое, что и выполнение анализа главных компонент (PCA) на матрице A , за исключением того, что PCA вычитает средние значения. PCA теряет разреженность матрицы A , что может сделать его непригодным для больших словарей.

Запрос и расширение векторных пространств LSI

Вычисленные матрицы T k и D k определяют векторные пространства терминов и документов, которые с вычисленными сингулярными значениями, S k , воплощают концептуальную информацию, полученную из коллекции документов. Сходство терминов или документов в этих пространствах является фактором того, насколько они близки друг к другу в этих пространствах, обычно вычисляемым как функция угла между соответствующими векторами.

Те же шаги используются для поиска векторов, представляющих текст запросов и новых документов в пространстве документов существующего индекса LSI. Простым преобразованием уравнения A = TSD T в эквивалентное уравнение D = A T TS −1 можно создать новый вектор d для запроса или нового документа, вычислив новый столбец в A и затем умножив новый столбец на TS −1 . Новый столбец в A вычисляется с использованием изначально полученных глобальных весов терминов и применения той же локальной весовой функции к терминам в запросе или в новом документе.

Недостатком вычисления векторов таким образом при добавлении новых документов, доступных для поиска, является то, что термины, которые не были известны на этапе SVD для исходного индекса, игнорируются. Эти термины не окажут никакого влияния на глобальные веса и изученные корреляции, полученные из исходной коллекции текста. Однако вычисленные векторы для нового текста по-прежнему очень важны для сравнения сходства со всеми другими векторами документов.

Процесс дополнения векторных пространств документов для индекса LSI новыми документами таким образом называется сверткой . Хотя процесс свертывания не учитывает новое семантическое содержание нового текста, добавление значительного количества документов таким образом все равно даст хорошие результаты для запросов, пока содержащиеся в них термины и концепции хорошо представлены в индексе LSI, в который они добавляются. Когда термины и концепции нового набора документов необходимо включить в индекс LSI, необходимо либо пересчитать матрицу термин-документ и SVD, либо использовать метод инкрементального обновления (например, описанный в [14] ).

Дополнительные применения LSI

Общепризнано, что способность работать с текстом на семантической основе имеет важное значение для современных систем поиска информации. В результате использование LSI значительно расширилось в последние годы, поскольку были преодолены прежние проблемы масштабируемости и производительности.

LSI используется в различных приложениях по поиску информации и обработке текста, хотя его основное применение — поиск концепций и автоматическая категоризация документов. [36] Ниже приведены некоторые другие способы использования LSI:

LSI все чаще используется для электронного обнаружения документов (eDiscovery), чтобы помочь предприятиям подготовиться к судебным разбирательствам. В eDiscovery способность кластеризовать, категоризовать и искать большие коллекции неструктурированного текста на концептуальной основе имеет важное значение. Поиск на основе концепций с использованием LSI был применен к процессу eDiscovery ведущими поставщиками еще в 2003 году. [51]

Проблемы LSI

Ранние проблемы LSI были сосредоточены на масштабируемости и производительности. LSI требует относительно высокой вычислительной производительности и памяти по сравнению с другими методами поиска информации. [52] Однако с внедрением современных высокоскоростных процессоров и доступностью недорогой памяти эти соображения были в значительной степени преодолены. Реальные приложения, включающие более 30 миллионов документов, которые были полностью обработаны с помощью вычислений матрицы и SVD, являются обычным явлением в некоторых приложениях LSI. Полностью масштабируемая (неограниченное количество документов, онлайн-обучение) реализация LSI содержится в программном пакете с открытым исходным кодом gensim . [53]

Еще одной проблемой для LSI была предполагаемая сложность в определении оптимального количества измерений для использования при выполнении SVD. Как правило, меньшее количество измерений позволяет проводить более широкие сравнения концепций, содержащихся в коллекции текста, в то время как большее количество измерений позволяет проводить более конкретные (или более релевантные) сравнения концепций. Фактическое количество измерений, которые могут быть использованы, ограничено количеством документов в коллекции. Исследования показали, что около 300 измерений обычно обеспечивают наилучшие результаты с коллекциями документов среднего размера (сотни тысяч документов) и, возможно, 400 измерений для более крупных коллекций документов (миллионы документов). [54] Однако недавние исследования показывают, что подходит 50-1000 измерений в зависимости от размера и характера коллекции документов. [55] Проверка доли сохраненной дисперсии, аналогично PCA или факторному анализу , для определения оптимальной размерности не подходит для LSI. Использование теста синонимов или прогнозирования пропущенных слов являются двумя возможными методами поиска правильной размерности. [56] Когда темы LSI используются в качестве признаков в контролируемых методах обучения, можно использовать измерения ошибок прогнозирования, чтобы найти идеальную размерность.

Смотрите также

Ссылки

  1. ^ Сьюзен Т. Дюмейс (2005). «Латентный семантический анализ». Ежегодный обзор информационной науки и технологий . 38 : 188–230. doi :10.1002/aris.1440380105.
  2. ^ "Патент США 4,839,853". Архивировано из оригинала 2017-12-02.(теперь срок истек)
  3. ^ "Домашняя страница латентного семантического индексирования".
  4. ^ "image". topicmodels.west.uni-koblenz.de . Архивировано из оригинала 17 марта 2023 г.
  5. ^ Марковский И. (2012) Низкоранговая аппроксимация: алгоритмы, реализация, приложения, Springer, 2012, ISBN 978-1-4471-2226-5 [ нужна страница ] 
  6. ^ Ален Лифшиц; Сандра Жан-Лароз; Гай Деньер (2009). «Влияние настроенных параметров на модель ответов на вопросы с множественным выбором LSA» (PDF) . Методы исследования поведения . 41 (4): 1201–1209. arXiv : 0811.0146 . doi : 10.3758/BRM.41.4.1201 . PMID  19897829. S2CID  480826.
  7. ^ ab Ramiro H. Gálvez; Agustín Gravano (2017). «Оценка полезности интеллектуального анализа онлайн-досок объявлений в системах автоматического прогнозирования акций». Journal of Computational Science . 19 : 1877–7503. doi : 10.1016/j.jocs.2017.01.001. hdl : 11336/60065 .
  8. ^ ab Altszyler, E.; Ribeiro, S.; Sigman, M.; Fernández Slezak, D. (2017). «Толкование смысла сновидения: разрешение неоднозначности с помощью латентно-семантического анализа в небольшом корпусе текста». Сознание и познание . 56 : 178–187. arXiv : 1610.01520 . doi : 10.1016/j.concog.2017.09.004. PMID  28943127. S2CID  195347873.
  9. ^ Джерри Дж. Элман (октябрь 2007 г.). «Автоматизированная поддержка патентной экспертизы — предложение». Biotechnology Law Report . 26 (5): 435–436. doi :10.1089/blr.2007.9896.
  10. ^ Марк В. Ховард; Майкл Дж. Кахана (1999). «Контекстуальная изменчивость и эффекты последовательного положения при свободном припоминании» (PDF) . APA PsycNet Direct .
  11. ^ Франклин М. Заромб и др. (2006). Временные ассоциации и вторжения в априорный список в свободном припоминании (PDF) . Interspeech'2005.
  12. ^ Нельсон, Дуглас. "Университет Южной Флориды: словесные ассоциации, рифмы и нормы фрагментов слов" . Получено 8 мая 2011 г.
  13. ^ Geneviève Gorrell; Brandyn Webb (2005). "Обобщенный алгоритм Хебба для латентного семантического анализа" (PDF) . Interspeech'2005 . Архивировано из оригинала (PDF) 21.12.2008.
  14. ^ ab Matthew Brand (2006). «Быстрые низкоранговые модификации тонкого сингулярного разложения». Линейная алгебра и ее приложения . 415 : 20–30. doi : 10.1016/j.laa.2005.07.021 .
  15. ^ "MATLAB". Архивировано из оригинала 2014-02-28.
  16. ^ Питон
  17. ^ Дин, Ягуан; Чжу, Гофэн; Цуй, Чэньян; Чжоу, Цзянь; Тао, Лян (2011). «Параллельная реализация разложения сингулярных значений на основе Map-Reduce и PARPACK». Труды Международной конференции по информатике и сетевым технологиям 2011 г. С. 739–741. doi :10.1109/ICCSNT.2011.6182070. ISBN 978-1-4577-1587-7. S2CID  15281129.
  18. ^ ab Deerwester, Scott; Dumais, Susan T.; Furnas, George W.; Landauer, Thomas K.; Harshman, Richard (1990). «Индексирование с помощью латентного семантического анализа». Журнал Американского общества информационной науки . 41 (6): 391–407. CiteSeerX 10.1.1.108.8490 . doi :10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9. 
  19. ^ Абеди, Вида; Йесин, Мохаммед; Занд, Рамин (27 ноября 2014 г.). «Эмпирическое исследование с использованием сети семантически связанных ассоциаций для преодоления разрыва в знаниях». Журнал трансляционной медицины . 12 (1): 324. doi : 10.1186/s12967-014-0324-9 . PMC 4252998. PMID  25428570 . 
  20. ^ Томас Хофманн (1999). «Вероятностный латентный семантический анализ». Неопределенность в искусственном интеллекте . arXiv : 1301.6705 .
  21. ^ Салахутдинов, Руслан и Джеффри Хинтон. «Семантическое хеширование». RBM 500.3 (2007): 500.
  22. ^ abc Deerwester, S., et al, Улучшение поиска информации с помощью латентного семантического индексирования, Труды 51-го ежегодного заседания Американского общества информационной науки 25, 1988, стр. 36–40.
  23. ^ Бензекри, Ж.-П. (1973). L'Analyse des Données. Том II. L'Analyse des Correspondences . Париж, Франция: Дюно.
  24. ^ Фурнас, GW; Ландауэр, TK; Гомес, LM; Дюмейс, ST (1987). «Проблема словаря в общении человека и системы». Communications of the ACM . 30 (11): 964–971. CiteSeerX 10.1.1.118.4768 . doi :10.1145/32206.32212. S2CID  3002280. 
  25. ^ Ландауэр, Т. и др., Изучение человеческих знаний с помощью разложения по сингулярным значениям: отчет о ходе работы, MI Jordan, MJ Kearns & SA Solla (ред.), Достижения в области нейронных систем обработки информации 10, Кембридж: MIT Press, 1998, стр. 45–51.
  26. ^ Дюмейс, С.; Платт, Дж.; Хеккерман, Д.; Сахами, М. (1998). "Алгоритмы индуктивного обучения и представления для категоризации текста" (PDF) . Труды седьмой международной конференции по управлению информацией и знаниями - CIKM '98. стр. 148. CiteSeerX 10.1.1.80.8909 . doi :10.1145/288627.288651. ISBN  978-1581130614. S2CID  617436.
  27. ^ Хомаюни, Р.; Хайнрих, К.; Вэй, Л.; Берри, М. В. (2004). «Кластеризация генов с помощью латентного семантического индексирования рефератов MEDLINE». Биоинформатика . 21 (1): 104–115. doi : 10.1093/bioinformatics/bth464 . PMID  15308538.
  28. ^ Прайс, Р. Дж.; Зукас, А. Е. (2005). «Применение скрытой семантической индексации к обработке зашумленного текста». Intelligence and Security Informatics . Lecture Notes in Computer Science. Vol. 3495. p. 602. doi :10.1007/11427995_68. ISBN 978-3-540-25999-2.
  29. ^ Дин, К., Модель вероятности, основанная на сходстве, для латентного семантического индексирования, Труды 22-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска, 1999, стр. 59–65.
  30. ^ Бартелл, Б., Коттрелл, Г. и Белью, Р., Скрытое семантическое индексирование — оптимальный частный случай многомерного шкалирования [ нерабочая ссылка ] , Труды конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска, 1992, стр. 161–167.
  31. ^ Graesser, A.; Karnavat, A. (2000). «Латентный семантический анализ фиксирует причинные, целевые и таксономические структуры». Труды CogSci 2000 : 184–189. CiteSeerX 10.1.1.23.5444 . 
  32. ^ Дюмейс, С.; Нильсен, Дж. (1992). «Автоматизация распределения представленных рукописей рецензентам». Труды 15-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска — SIGIR '92 . С. 233–244. CiteSeerX 10.1.1.16.9793 . doi :10.1145/133160.133205. ISBN  978-0897915236. S2CID  15038631.
  33. ^ Берри, М. В. и Браун, М., Понимание поисковых систем: математическое моделирование и поиск текста, Общество промышленной и прикладной математики, Филадельфия, (2005).
  34. ^ Ландауэр, Т. и др., Справочник по латентному семантическому анализу, Lawrence Erlbaum Associates, 2007.
  35. ^ Берри, Майкл У., Дюмейс, Сьюзан Т., О'Брайен, Гэвин У., Использование линейной алгебры для интеллектуального поиска информации, декабрь 1994 г., SIAM Review 37:4 (1995), стр. 573–595.
  36. ^ Дюмейс, С., Латентный семантический анализ, ARIST Review of Information Science and Technology, т. 38, 2004, Глава 4.
  37. ^ Комментарий к передовому опыту использования методов поиска и извлечения информации в электронном обнаружении, конференция в Седоне, 2007 г., стр. 189–223.
  38. ^ Фольц, П. В. и Дюмейс, С. Т. Персонализированная доставка информации: анализ методов фильтрации информации, Communications of the ACM, 1992, 34(12), 51-60.
  39. ^ Гун, И. и Лю, С., Создание обобщенных текстовых резюме, Труды Шестой международной конференции по анализу и распознаванию документов, 2001, стр. 903–907.
  40. ^ Брэдфорд, Р., Эффективное обнаружение новой информации в больших текстовых базах данных, Труды Международной конференции IEEE по разведке и информатике безопасности, Атланта, Джорджия, LNCS Vol. 3495, Springer, 2005, стр. 374–380.
  41. ^ Брэдфорд, РБ (2006). «Применение скрытой семантической индексации при создании графов террористических сетей». Информатика разведки и безопасности . Конспект лекций по информатике. Том 3975. С. 674–675. doi :10.1007/11760146_84. ISBN 978-3-540-34478-0.
  42. ^ Яровски, Д. и Флориан, Р., Снятие нагрузки с председателей конференций: на пути к цифровому помощнику по маршрутизации документов, Труды совместной конференции SIGDAT 1999 года по эмпирическим методам в обработке естественного языка и очень больших корпусах, 1999, стр. 220–230.
  43. ^ Кэрон, Дж., Применение LSA к онлайн-поддержке клиентов: пробное исследование, неопубликованная магистерская диссертация, май 2000 г.
  44. ^ Соборофф, И. и др., Визуализация авторства документа с использованием N-грамм и скрытого семантического индексирования, Семинар по новым парадигмам в визуализации и обработке информации, 1997, стр. 43–48.
  45. ^ Моней, Ф. и Гатика-Перес, Д., Об автоматической аннотации изображений с использованием моделей скрытого пространства, Труды 11-й международной конференции ACM по мультимедиа, Беркли, Калифорния, 2003, стр. 275–278.
  46. ^ Maletic, J.; Marcus, A. (13–15 ноября 2000 г.). «Использование латентного семантического анализа для выявления сходств в исходном коде для поддержки понимания программ». Труды 12-й Международной конференции IEEE по инструментам с искусственным интеллектом. ICTAI 2000. стр. 46–53. CiteSeerX 10.1.1.36.6652 . doi :10.1109/TAI.2000.889845. ISBN  978-0-7695-0909-9. S2CID  10354564.
  47. ^ Джи, К., Использование скрытого семантического индексирования для фильтрации спама, в: Труды симпозиума ACM по прикладным вычислениям 2003 г., Мельбурн, Флорида, стр. 460–464.
  48. ^ Ландауэр, Т., Лахам, Д. и Дерр, М., От абзаца к графику: латентный семантический анализ для визуализации информации, Труды Национальной академии наук, 101, 2004, стр. 5214–5219.
  49. ^ Фольц, Питер В., Лахам, Даррелл и Ландауэр, Томас К., Автоматизированная оценка эссе: применение в образовательных технологиях, Труды EdMedia, 1999.
  50. ^ Гордон, М. и Дюмейс, С., Использование латентного семантического индексирования для обнаружения на основе литературы, Журнал Американского общества информационной науки, 49(8), 1998, стр. 674–685.
  51. ^ Должен быть лучший способ поиска, 2008, Белая книга, Fios, Inc.
  52. ^ Карыпис, Г., Хан, Э., Быстрый контролируемый алгоритм снижения размерности с применением к категоризации и поиску документов, Труды CIKM-00, 9-й конференции ACM по управлению информацией и знаниями.
  53. ^ Радим Ржехуржек (2011). «Отслеживание подпространства для латентного семантического анализа». Достижения в области информационного поиска . Конспект лекций по информатике. Том 6611. С. 289–300. doi :10.1007/978-3-642-20161-5_29. ISBN 978-3-642-20160-8.
  54. ^ Брэдфорд, Р., Эмпирическое исследование требуемой размерности для крупномасштабных приложений латентного семантического индексирования, Труды 17-й конференции ACM по управлению информацией и знаниями, Долина Напа, Калифорния, США, 2008, стр. 153–162.
  55. ^ Ландауэр, Томас К. и Дюмейс, Сьюзен Т., Латентный семантический анализ, Scholarpedia, 3(11):4356, 2008.
  56. ^ Ландауэр, ТК, Фольц, ПВ, и Лахам, Д. (1998). Введение в латентный семантический анализ. Процессы дискурса, 25, 259-284

Дальнейшее чтение

Внешние ссылки

Статьи о LSA

Переговоры и демонстрации

Реализации

Благодаря своим кросс-доменным приложениям в области поиска информации , обработки естественного языка (NLP), когнитивной науки и компьютерной лингвистики , LSA был реализован для поддержки множества различных видов приложений.