stringtranslate.com

Скрытый семантический анализ

Скрытый семантический анализ ( LSA ) — это метод обработки естественного языка , в частности дистрибутивной семантики , анализа отношений между набором документов и терминами, которые они содержат, путем создания набора понятий, связанных с документами и терминами. LSA предполагает, что близкие по значению слова будут встречаться в похожих фрагментах текста ( гипотеза распределения ). Матрица, содержащая количество слов в документе (строки представляют уникальные слова, а столбцы представляют каждый документ), строится из большого фрагмента текста, а математический метод, называемый разложением по сингулярным значениям (SVD), используется для уменьшения количества строк при сохранении структуры сходства. среди колонн. Затем документы сравниваются по косинусному сходству между любыми двумя столбцами. Значения, близкие к 1, представляют очень похожие документы, а значения, близкие к 0, представляют очень разные документы. [1]

Методика поиска информации с использованием скрытой семантической структуры была запатентована в 1988 году (патент США 4839853, заархивированный 2 декабря 2017 г. в Wayback Machine , срок действия истек) Скоттом Дирвестером , Сьюзен Дюмэ , Джорджем Фурнасом , Ричардом Харшманом , Томасом Ландауэром , Карен Лохбаум и Линн. Стритер. В контексте его применения к поиску информации его иногда называют скрытой семантической индексацией ( LSI ). [2]

Обзор

Анимация процесса обнаружения темы в матрице документ-слово. Каждый столбец соответствует документу, каждая строка — слову. В ячейке хранится вес слова в документе (например, по tf-idf ), темные ячейки указывают на высокий вес. LSA группирует как документы, содержащие похожие слова, так и слова, встречающиеся в аналогичном наборе документов. Полученные шаблоны используются для обнаружения скрытых компонентов. [3]

Матрица вхождений

LSA может использовать матрицу терминов документа, которая описывает появление терминов в документах; это разреженная матрица , строки которой соответствуют терминам , а столбцы — документам. Типичным примером взвешивания элементов матрицы является tf-idf (частота термина – обратная частота документа): вес элемента матрицы пропорционален количеству раз появления терминов в каждом документе, где редкие термины имеют повышенный вес, чтобы отразить их относительную важность.

Эта матрица также является общей для стандартных семантических моделей, хотя она не обязательно выражается в виде матрицы явно, поскольку не всегда используются математические свойства матриц.

Понижение ранга

После построения матрицы вхождений LSA находит низкоранговую аппроксимацию [4] матрицы термин-документ . Причин такого приближения может быть несколько:

Следствием понижения ранга является то, что некоторые измерения объединяются и зависят более чем от одного термина:

{(автомобиль), (грузовик), (цветок)} → {(1,3452 * автомобиль + 0,2828 * грузовик), (цветок)}

Это смягчает проблему выявления синонимии, поскольку ожидается, что понижение ранга приведет к объединению измерений, связанных с терминами, имеющими схожие значения. Это также частично смягчает проблему с полисемией , поскольку компоненты многозначных слов, указывающие в «правильном» направлении, добавляются к компонентам слов, имеющих схожее значение. И наоборот, компоненты, указывающие в других направлениях, имеют тенденцию либо просто уравновешиваться, либо, в худшем случае, быть меньшими, чем компоненты в направлениях, соответствующих предполагаемому смыслу.

Вывод

Пусть это матрица, элемент которой описывает появление термина в документе (это может быть, например, частота). будет выглядеть так:

Теперь строка в этой матрице будет вектором, соответствующим термину, задающему его отношение к каждому документу:

Аналогично, столбец в этой матрице будет вектором, соответствующим документу, указывающим его отношение к каждому термину:

Теперь скалярное произведение двух векторов терминов дает корреляцию между терминами в наборе документов. Матричный продукт содержит все эти скалярные произведения. Элемент (который равен элементу ) содержит скалярное произведение ( ). Аналогично, матрица содержит скалярные произведения между всеми векторами документа, определяющие их корреляцию между терминами: .

Теперь из теории линейной алгебры существует такое разложение, что и являются ортогональными матрицами , а является диагональной матрицей . Это называется разложением по сингулярным значениям (SVD):

Матричные продукты, дающие нам корреляции между терминами и документами, затем становятся

Поскольку и диагональны, мы видим, что они должны содержать собственные векторы , а должны быть собственными векторами . Оба продукта имеют одинаковые ненулевые собственные значения, заданные ненулевыми записями , или, в равной степени, ненулевыми записями . Теперь разложение выглядит так:

Значения называются сингулярными значениями, а также левым и правым сингулярными векторами. Обратите внимание, что единственная часть этого значения — это строка. Пусть этот вектор-строка называется . Аналогично, единственная часть, на которую это влияет, — это столбец . Это не собственные векторы, но они зависят от всех собственных векторов.

Оказывается, что когда вы выбираете самые большие сингулярные значения и соответствующие им сингулярные векторы из и , вы получаете ранговую аппроксимацию с наименьшей ошибкой ( норма Фробениуса ). Это приближение имеет минимальную погрешность. Но что еще более важно, теперь мы можем рассматривать векторы терминов и документов как «семантическое пространство». Вектор-строка «термин» затем имеет записи, отображающие его в пространство меньшей размерности. Эти новые измерения не связаны ни с какими понятными концепциями. Они представляют собой низкомерное приближение пространства более высоких измерений. Аналогично, вектор «документа» является приближением в этом пространстве более низкой размерности. Запишем это приближение как

Теперь вы можете сделать следующее:

Чтобы сделать последнее, вы должны сначала перевести свой запрос в низкомерное пространство. Тогда интуитивно понятно, что вы должны использовать то же преобразование, которое вы используете в своих документах:

Обратите внимание, что обратную диагональную матрицу можно найти путем инвертирования каждого ненулевого значения в матрице.

Это означает, что если у вас есть вектор запроса , вы должны выполнить перевод, прежде чем сравнивать его с векторами документа в низкомерном пространстве. Вы можете сделать то же самое для векторов псевдотерминов:

Приложения

Новое низкоразмерное пространство обычно можно использовать для:

Синонимия и полисемия являются фундаментальными проблемами обработки естественного языка :

Коммерческие приложения

LSA использовался для оказания помощи в поиске патентов по известному уровню техники . [8]

Приложения в человеческой памяти

Использование латентно-семантического анализа широко распространено при изучении человеческой памяти, особенно в областях свободного вспоминания и поиска в памяти. Существует положительная корреляция между семантическим сходством двух слов (по данным LSA) и вероятностью того, что слова будут вспоминаться одно за другим в заданиях на свободное запоминание с использованием учебных списков случайных нарицательных существительных. Они также отметили, что в этих ситуациях время ответа между похожими словами было намного быстрее, чем между разными словами. Эти результаты называются эффектом семантической близости. [9]

Когда участники допускали ошибки при воспроизведении изученных предметов, эти ошибки, как правило, касались предметов, которые были более семантически связаны с желаемым предметом и находились в ранее изученном списке. Эти вторжения из предыдущего списка, как их стали называть, похоже, конкурируют за отзыв с элементами из текущего списка. [10]

Другая модель, называемая «Пространство словесных ассоциаций» (WAS), также используется в исследованиях памяти путем сбора данных о свободных ассоциациях в результате серии экспериментов и включает меры родства слов для более чем 72 000 различных пар слов. [11]

Выполнение

SVD обычно вычисляется с использованием методов больших матриц (например, методов Ланцоша ), но также может вычисляться постепенно и со значительно меньшими ресурсами с помощью подхода , подобного нейронной сети , который не требует хранения большой матрицы полного ранга в Память. [12] Недавно был разработан быстрый инкрементный алгоритм SVD с малым объемом памяти и большой матрицей. [13] Доступны реализации этих быстрых алгоритмов в MATLAB и Python. В отличие от стохастической аппроксимации Горрелла и Уэбба (2005), алгоритм Брэнда (2003) обеспечивает точное решение. В последние годы был достигнут прогресс в снижении вычислительной сложности SVD; например, используя параллельный алгоритм ARPACK для выполнения параллельного разложения по собственным значениям, можно ускорить затраты на вычисления SVD, обеспечивая при этом сопоставимое качество прогнозирования. [14]

Ограничения

Некоторые из недостатков LSA включают в себя:

{(автомобиль), (грузовик), (цветок)} ↦ {(1,3452 * легковой автомобиль + 0,2828 * грузовой автомобиль), (цветок)}
компонент (1,3452 * легковой автомобиль + 0,2828 * грузовой автомобиль) можно интерпретировать как «транспортное средство». Однако весьма вероятно, что случаи, близкие к
{(машина), (бутылка), (цветок)} ↦ {(1,3452 * машина + 0,2828 * бутылка ), (цветок)}
произойдет. Это приводит к результатам, которые могут быть оправданы на математическом уровне, но не имеют непосредственного очевидного значения на естественном языке. Однако составляющая (1,3452 * автомобиль + 0,2828 * бутылка) может быть оправдана тем, что и бутылки, и автомобили имеют прозрачные и непрозрачные части, изготовлены человеком и с высокой вероятностью содержат на своей поверхности логотипы/слова; таким образом, во многих отношениях эти два понятия «разделяют семантику». То есть в рассматриваемом языке может не быть легкодоступного слова, которое можно было бы присвоить, и объяснимость становится задачей анализа, в отличие от простой задачи присвоения слова/класса/концепции.

Альтернативные методы

Семантическое хеширование

При семантическом хешировании [18] документы сопоставляются с адресами памяти с помощью нейронной сети таким образом, что семантически схожие документы располагаются по соседним адресам. Глубокая нейронная сеть по сути строит графическую модель векторов количества слов, полученных из большого набора документов. Документы, подобные документу запроса, можно затем найти, просто обратившись ко всем адресам, которые отличаются всего на несколько битов от адреса документа запроса. Этот способ повышения эффективности хэш-кодирования для приблизительного сопоставления намного быстрее, чем хеширование с учетом местоположения , которое является самым быстрым из существующих методов. [ нужны разъяснения ]

Скрытая семантическая индексация

Скрытое семантическое индексирование ( LSI ) — это метод индексирования и поиска, который использует математический метод, называемый разложением по сингулярным значениям (SVD), для выявления закономерностей во взаимоотношениях между терминами и понятиями , содержащимися в неструктурированной коллекции текста. LSI основан на том принципе, что слова, используемые в одном и том же контексте, имеют схожее значение. Ключевой особенностью LSI является его способность извлекать концептуальное содержание текста путем установления ассоциаций между терминами, встречающимися в схожих контекстах . [19]

LSI также представляет собой применение анализа соответствий , многомерного статистического метода, разработанного Жаном-Полем Бензекри [20] в начале 1970-х годов, для таблицы непредвиденных обстоятельств , построенной на основе подсчета слов в документах.

Названный « скрытым семантическим индексированием» из-за его способности соотносить семантически связанные термины, которые скрыты в наборе текста, он был впервые применен к тексту в Bellcore в конце 1980-х годов. Этот метод, также называемый скрытым семантическим анализом (LSA), раскрывает скрытую семантическую структуру использования слов в тексте и то, как ее можно использовать для извлечения значения текста в ответ на запросы пользователя, обычно называемые как концептуальный поиск. Запросы или концептуальные поиски по набору документов, прошедших LSI, вернут результаты, которые концептуально схожи по смыслу с критериями поиска, даже если результаты не имеют общего с критериями поиска определенного слова или слов.

Преимущества ЛСИ

LSI помогает преодолеть синонимию за счет увеличения запоминаемости — одного из наиболее проблемных ограничений логических запросов по ключевым словам и моделей векторного пространства. [15] Синонимия часто является причиной несоответствия лексики авторов документов и пользователей информационно-поисковых систем. [21] В результате логические запросы или запросы по ключевым словам часто возвращают нерелевантные результаты и пропускают релевантную информацию.

LSI также используется для автоматической категоризации документов . Фактически, несколько экспериментов продемонстрировали, что существует ряд корреляций между тем, как LSI и люди обрабатывают и классифицируют текст. [22] Категоризация документов – это отнесение документов к одной или нескольким заранее определенным категориям на основе их сходства с концептуальным содержанием категорий. [23] LSI использует примеры документов для установления концептуальной основы для каждой категории. Во время обработки категоризации понятия, содержащиеся в категоризируемых документах, сравниваются с понятиями, содержащимися в примерных элементах, и категория (или категории) присваивается документам на основе сходства между понятиями, которые они содержат, и понятиями, которые содержатся. в примерах документов.

Динамическую кластеризацию на основе концептуального содержания документов также можно выполнить с помощью LSI. Кластеризация — это способ группировки документов на основе их концептуального сходства друг с другом без использования примеров документов для установления концептуальной основы для каждого кластера. Это очень полезно при работе с неизвестной коллекцией неструктурированного текста.

Поскольку LSI использует строго математический подход, он по своей сути независим от языка. Это позволяет LSI извлекать семантическое содержание информации, написанной на любом языке, без необходимости использования вспомогательных структур, таких как словари и тезаурусы. LSI также может выполнять межлингвистический поиск концепций и категоризацию на основе примеров. Например, запросы могут выполняться на одном языке, например английском, и будут возвращены концептуально схожие результаты, даже если они составлены на совершенно другом языке или на нескольких языках. [ нужна цитата ]

LSI не ограничивается работой только со словами. Он также может обрабатывать произвольные строки символов. Любой объект, который может быть выражен в виде текста, может быть представлен в векторном пространстве LSI. Например, тесты с рефератами MEDLINE показали, что LSI способна эффективно классифицировать гены на основе концептуального моделирования биологической информации, содержащейся в заголовках и рефератах цитат MEDLINE. [24]

LSI автоматически адаптируется к новой и меняющейся терминологии и, как было показано, очень устойчив к шуму (т. е. к орфографическим ошибкам в словах, опечаткам, нечитаемым символам и т. д.). [25] Это особенно важно для приложений, использующих текст, полученный с помощью оптического распознавания символов (OCR) и преобразования речи в текст. LSI также эффективно справляется с редкими, неоднозначными и противоречивыми данными.

Чтобы LSI был эффективным, текст не обязательно должен быть в форме предложения. Он может работать со списками, заметками в свободной форме, электронной почтой, веб-контентом и т. д. Пока набор текста содержит несколько терминов, LSI можно использовать для выявления закономерностей во взаимоотношениях между важными терминами и понятиями, содержащимися в текст.

LSI оказалась полезным решением ряда проблем концептуального сопоставления. [26] [27] Было показано, что этот метод позволяет собирать ключевую информацию о взаимоотношениях, включая причинно-следственную, целенаправленную и таксономическую информацию. [28]

График работы LSI

Математика БИС

LSI использует распространенные методы линейной алгебры для изучения концептуальных корреляций в наборе текста. В общем, процесс включает в себя построение взвешенной матрицы терминов-документов, выполнение разложения по сингулярным значениям матрицы и использование матрицы для идентификации понятий, содержащихся в тексте.

Матрица терминодокументов

LSI начинается с построения матрицы терминов-документов для идентификации вхождений уникальных терминов в набор документов. В матрице термин-документ каждый термин представлен строкой, а каждый документ представлен столбцом, где каждая ячейка матрицы первоначально представляет количество раз, когда соответствующий термин появляется в указанном документе . Эта матрица обычно очень большая и очень разреженная.

После построения матрицы термин-документ к ней можно применить локальные и глобальные весовые функции для обработки данных. Весовые функции преобразуют каждую ячейку , в произведение веса локального термина, который описывает относительную частоту термина в документе, и глобального веса, который описывает относительную частоту термина во всей коллекции. документов.

Некоторые распространенные локальные весовые функции [30] определены в следующей таблице.

Некоторые общие глобальные весовые функции определены в следующей таблице.

Эмпирические исследования с использованием LSI показывают, что функции взвешивания журнала и энтропии на практике хорошо работают со многими наборами данных. [31] Другими словами, каждая запись вычисляется как:

Разложение сингулярных значений с пониженным рангом

Разложение по сингулярным значениям с пониженным рангом выполняется для определения закономерностей во взаимоотношениях между терминами и понятиями, содержащимися в тексте. SVD составляет основу LSI. [32] Он вычисляет векторные пространства терминов и документов путем аппроксимации одной матрицы частот терминов , в три другие матрицы — векторную матрицу терминов и понятий m на r , матрицу сингулярных значений r на r и концепцию n на r . -векторная матрица документа, , удовлетворяющая следующим соотношениям:

В формуле A — это взвешенная матрица m на n частот терминов в наборе текста, где m — количество уникальных терминов, а n — количество документов. T — это вычисленная матрица векторов терминов размером m на r , где r — ранг A — мера его уникальных размеров ≤ min( m,n ) . S — вычисленная диагональная матрица размером r на r убывающих сингулярных значений, а D — вычисленная матрица векторов документа размером n на r .

Затем SVD усекается , чтобы уменьшить ранг, сохраняя только самые большие k «  r диагональные элементы в матрице сингулярных значений S , где k обычно имеет размерность от 100 до 300. Это эффективно уменьшает размеры векторной матрицы терминов и документов до m на k и n на k соответственно. Операция SVD, наряду с этим сокращением, позволяет сохранить наиболее важную семантическую информацию в тексте, одновременно уменьшая шум и другие нежелательные артефакты исходного пространства A. Этот сокращенный набор матриц часто обозначается модифицированной формулой, например:

А ≈ А k знак равно Т k S k D k Т

Эффективные алгоритмы LSI вычисляют только первые k сингулярных значений, а также векторы терминов и документов, а не вычисляют полный SVD и затем усекают его.

Обратите внимание, что это понижение ранга по существу аналогично выполнению анализа главных компонентов (PCA) для матрицы A , за исключением того, что PCA вычитает средние значения. PCA теряет разреженность матрицы A , что может сделать его невозможным для больших словарей.

Запрос и расширение векторных пространств LSI

Вычисленные матрицы T k и D k определяют векторные пространства терминов и документов, которые с вычисленными сингулярными значениями S k воплощают концептуальную информацию, полученную из коллекции документов. Сходство терминов или документов в этих пространствах является фактором того, насколько они близки друг к другу в этих пространствах, обычно вычисляемым как функция угла между соответствующими векторами.

Те же шаги используются для поиска векторов, представляющих текст запросов и новых документов, в пространстве документов существующего индекса LSI. Путем простого преобразования уравнения A = TSD T в эквивалентное уравнение D = AT TS −1 новый вектор d для запроса или нового документа может быть создан путем вычисления нового столбца в A и последующего умножения новый столбец по TS −1 . Новый столбец в A вычисляется с использованием первоначально полученных глобальных весов терминов и применения той же локальной весовой функции к терминам в запросе или в новом документе.

Недостаток вычисления векторов таким способом при добавлении новых документов, доступных для поиска, заключается в том, что термины, которые не были известны на этапе SVD для исходного индекса, игнорируются. Эти термины не окажут влияния на глобальные веса и изученные корреляции, полученные из исходной коллекции текста. Однако вычисленные векторы для нового текста по-прежнему очень важны для сравнения сходства со всеми другими векторами документа.

Процесс расширения векторных пространств документов для индекса LSI новыми документами таким образом называется свертыванием . Хотя процесс свертывания не учитывает новое семантическое содержание нового текста, добавление значительного количества документов таким способом все равно обеспечит хорошие результаты для запросов, если содержащиеся в них термины и понятия хорошо представлены в LSI. индекс, к которому они добавляются. Когда термины и понятия нового набора документов необходимо включить в индекс LSI, необходимо пересчитать либо матрицу терминов-документов, либо SVD, либо использовать метод постепенного обновления (например, описанный в [13] ). необходим.

Дополнительное использование LSI

Общепризнано, что умение работать с текстом на семантической основе имеет важное значение для современных информационно-поисковых систем. В результате в последние годы использование LSI значительно расширилось, поскольку были преодолены прежние проблемы масштабируемости и производительности.

LSI используется в различных приложениях для поиска информации и обработки текста, хотя его основным применением является поиск понятий и автоматическая категоризация документов. [33] Ниже приведены некоторые другие способы использования LSI:

LSI все чаще используется для обнаружения электронных документов (eDiscovery), чтобы помочь предприятиям подготовиться к судебным разбирательствам. В eDiscovery крайне важна возможность кластеризации, категоризации и поиска в больших коллекциях неструктурированного текста на концептуальной основе. Концептуальный поиск с использованием LSI был применен к процессу обнаружения электронных данных ведущими поставщиками еще в 2003 году. [48]

Проблемы LSI

Первые проблемы LSI были сосредоточены на масштабируемости и производительности. LSI требует относительно высокой вычислительной производительности и памяти по сравнению с другими методами поиска информации. [49] Однако с внедрением современных высокоскоростных процессоров и наличием недорогой памяти эти соображения были в значительной степени преодолены. Реальные приложения, включающие более 30 миллионов документов, которые были полностью обработаны с помощью вычислений матрицы и SVD, являются обычными в некоторых приложениях LSI. Полностью масштабируемая (неограниченное количество документов, онлайн-обучение) реализация LSI содержится в пакете программного обеспечения gensim с открытым исходным кодом . [50]

Еще одной проблемой для LSI была предполагаемая трудность в определении оптимального количества измерений, используемых для выполнения SVD. Как правило, меньшее количество измерений позволяет проводить более широкие сравнения понятий, содержащихся в наборе текста, тогда как большее количество измерений позволяет проводить более конкретные (или более релевантные) сравнения понятий. Фактическое количество измерений, которые можно использовать, ограничено количеством документов в коллекции. Исследования показали, что около 300 измерений обычно дают наилучшие результаты для коллекций документов среднего размера (сотни тысяч документов) и, возможно, 400 измерений для больших коллекций документов (миллионы документов). [51] Однако недавние исследования показывают, что 50-1000 измерений подходят в зависимости от размера и характера коллекции документов. [52] Проверка доли сохраняемой дисперсии, аналогично PCA или факторному анализу , для определения оптимальной размерности не подходит для LSI. Использование теста синонимов или прогнозирование пропущенных слов — два возможных метода определения правильной размерности. [53] Когда темы LSI используются в качестве функций в методах обучения с учителем, можно использовать измерения ошибок прогнозирования, чтобы найти идеальную размерность.

Смотрите также

Рекомендации

  1. ^ Сьюзен Т. Дюмэ (2005). «Скрытый семантический анализ». Ежегодный обзор информационных наук и технологий . 38 : 188–230. дои : 10.1002/aris.1440380105.
  2. ^ "Домашняя страница скрытого семантического индексирования" .
  3. ^ http://topicmodels.west.uni-koblenz.de/ckling/tmt/svd_ap.html
  4. ^ Марковский И. (2012) Низкоранговая аппроксимация: алгоритмы, реализация, приложения, Springer, 2012, ISBN 978-1-4471-2226-5 [ нужна страница ] 
  5. ^ Ален Лифшиц; Сандра Жан-Лароз; Ги Деньер (2009). «Влияние настроенных параметров на модель ответов на вопросы LSA с множественным выбором» (PDF) . Методы исследования поведения . 41 (4): 1201–1209. arXiv : 0811.0146 . дои : 10.3758/BRM.41.4.1201 . PMID  19897829. S2CID  480826.
  6. ^ аб Рамиро Х. Гальвес; Агустин Гравано (2017). «Оценка полезности онлайн-анализа досок объявлений в автоматических системах прогнозирования запасов». Журнал вычислительной науки . 19 : 1877–7503. doi :10.1016/j.jocs.2017.01.001.
  7. ^ аб Альтшилер, Э.; Рибейро, С.; Сигман, М.; Фернандес Слезак, Д. (2017). «Толкование значения сна: разрешение двусмысленности с помощью скрытого семантического анализа в небольшом корпусе текста». Сознание и познание . 56 : 178–187. arXiv : 1610.01520 . doi :10.1016/j.concog.2017.09.004. PMID  28943127. S2CID  195347873.
  8. ^ Джерри Дж. Элман (октябрь 2007 г.). «Поддержка автоматизированной патентной экспертизы - предложение». Отчет о законе о биотехнологиях . 26 (5): 435–436. дои : 10.1089/blr.2007.9896.
  9. ^ Марк В. Ховард; Майкл Дж. Кахана (1999). «Эффекты контекстной изменчивости и последовательного положения в свободном отзыве» (PDF) . {{cite journal}}: Требуется цитировать журнал |journal=( помощь )
  10. ^ Франклин М. Заромб; и другие. (2006). Временные ассоциации и вторжения в предварительные списки в Free Recall (PDF) . Интерспич'2005.
  11. ^ Нельсон, Дуглас. «Словоассоциация Университета Южной Флориды, нормы рифм и фрагментов слов» . Проверено 8 мая 2011 г.
  12. ^ Женевьева Горрель; Брэндин Уэбб (2005). «Обобщенный алгоритм Хеббиана для скрытого семантического анализа» (PDF) . Интерспич'2005 . Архивировано из оригинала (PDF) 21 декабря 2008 г.
  13. ^ AB Мэтью Брэнд (2006). «Быстрые низкоранговые модификации тонкого разложения по сингулярным значениям» (PDF) . Линейная алгебра и ее приложения . 415 : 20–30. дои : 10.1016/j.laa.2005.07.021 . Архивировано из оригинала (PDF) 3 декабря 2013 г. Проверено 4 марта 2010 г.
  14. ^ Дин, Ягуан; Чжу, Гофэн; Цуй, Чэньян; Чжоу, Цзянь; Тао, Лян (2011). «Параллельная реализация разложения сингулярных значений на основе Map-Reduce и PARPACK». Материалы Международной конференции по компьютерным наукам и сетевым технологиям 2011 года . стр. 739–741. doi : 10.1109/ICCSNT.2011.6182070. ISBN 978-1-4577-1587-7. S2CID  15281129.
  15. ^ аб Дирвестер, Скотт; Дюмэ, Сьюзен Т.; Фурнас, Джордж В.; Ландауэр, Томас К.; Харшман, Ричард (1990). «Индексирование методом скрытого семантического анализа». Журнал Американского общества информатики . 41 (6): 391–407. CiteSeerX 10.1.1.108.8490 . doi :10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9. 
  16. ^ Абеди, Вида; Йасин, Мохаммед; Занд, Рамин (27 ноября 2014 г.). «Эмпирическое исследование с использованием сети семантически связанных ассоциаций для преодоления разрыва в знаниях». Журнал трансляционной медицины . 12 (1): 324. дои : 10.1186/s12967-014-0324-9 . ПМК 4252998 . ПМИД  25428570. 
  17. ^ Томас Хофманн (1999). «Вероятностный латентно-семантический анализ». Неопределенность в искусственном интеллекте . arXiv : 1301.6705 .
  18. ^ Салахутдинов, Руслан и Джеффри Хинтон. «Семантическое хеширование». РБМ 500.3 (2007): 500.
  19. ^ abc Дирвестер, С. и др., Улучшение поиска информации с помощью скрытого семантического индексирования, Труды 51-го ежегодного собрания Американского общества информатики, 25, 1988, стр. 36–40.
  20. ^ Бензекри, Ж.-П. (1973). L'Analyse des Données. Том II. L'Analyse des Correspondences . Париж, Франция: Дюно.
  21. ^ Фурнас, GW; Ландауэр, ТК; Гомес, Л.М.; Дюмэ, ST (1987). «Словарная проблема в общении человека и системы». Коммуникации АКМ . 30 (11): 964–971. CiteSeerX 10.1.1.118.4768 . дои : 10.1145/32206.32212. S2CID  3002280. 
  22. ^ Ландауэр Т. и др., Изучение человеческих знаний путем разложения сингулярных значений: отчет о ходе работы, М. И. Джордан, М. Дж. Кернс и С. А. Солла (ред.), Достижения в области нейронных систем обработки информации 10, Кембридж: MIT Press, 1998, стр. 45–51.
  23. ^ Дюмэ, С.; Платт, Дж.; Хекерман, Д.; Сахами, М. (1998). «Алгоритмы индуктивного обучения и представления для категоризации текста» (PDF) . Материалы седьмой международной конференции по управлению информацией и знаниями - CIKM '98. стр. 148. CiteSeerX 10.1.1.80.8909 . дои : 10.1145/288627.288651. ISBN  978-1581130614. S2CID  617436.
  24. ^ Хомаюни, Р.; Генрих, К.; Вэй, Л.; Берри, М.В. (2004). «Кластеризация генов с помощью латентно-семантического индексирования рефератов MEDLINE». Биоинформатика . 21 (1): 104–115. doi : 10.1093/биоинформатика/bth464 . ПМИД  15308538.
  25. ^ Прайс, Р.Дж.; Зукас, А.Е. (2005). «Применение скрытого семантического индексирования для обработки зашумленного текста». Информатика разведки и безопасности . Конспекты лекций по информатике. Том. 3495. с. 602. дои : 10.1007/11427995_68. ISBN 978-3-540-25999-2.
  26. ^ Дин, К., Вероятностная модель на основе сходства для скрытого семантического индексирования, Материалы 22-й Международной конференции ACM SIGIR по исследованиям и разработкам в области поиска информации, 1999, стр. 59–65.
  27. ^ Бартелл Б., Коттрелл Г. и Белью Р., Скрытое семантическое индексирование - оптимальный частный случай многомерного масштабирования [ мертвая ссылка ] , Материалы конференции ACM SIGIR по исследованиям и разработкам в области поиска информации, 1992, стр. 161–167.
  28. ^ Грассер, А.; Карнават, А. (2000). «Скрытый семантический анализ фиксирует причинно-следственные, целенаправленные и таксономические структуры». Труды CogSci 2000 : 184–189. CiteSeerX 10.1.1.23.5444 . 
  29. ^ Дюмэ, С.; Нильсен, Дж. (1992). «Автоматизация распределения представленных рукописей рецензентам». Материалы 15-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска - SIGIR '92 . стр. 233–244. CiteSeerX 10.1.1.16.9793 . дои : 10.1145/133160.133205. ISBN  978-0897915236. S2CID  15038631.
  30. ^ Берри, М.В., и Браун, М., Понимание поисковых систем: математическое моделирование и текстовый поиск, Общество промышленной и прикладной математики, Филадельфия, (2005).
  31. ^ Ландауэр Т. и др., Справочник по скрытому семантическому анализу, Lawrence Erlbaum Associates, 2007.
  32. ^ Берри, Майкл В., Дюмэ, Сьюзен Т., О'Брайен, Гэвин В., Использование линейной алгебры для интеллектуального поиска информации, декабрь 1994 г., SIAM Review 37:4 (1995), стр. 573–595.
  33. ^ Дюмэ, С., Скрытый семантический анализ, Обзор информационных наук и технологий ARIST, том. 38, 2004 г., Глава 4.
  34. ^ Комментарий к передовому опыту использования методов поиска и получения информации при обнаружении электронной информации, Конференция в Седоне, 2007 г., стр. 189–223.
  35. ^ Фольц, П.В. и Дюмэ, С.Т. Персонализированная доставка информации: анализ методов фильтрации информации [ постоянная мертвая ссылка ] , Communications of the ACM, 1992, 34 (12), 51-60.
  36. ^ Гонг, Ю., и Лю, X., Создание общих текстовых обзоров, материалы, Шестая международная конференция по анализу и распознаванию документов, 2001, стр. 903–907.
  37. ^ Брэдфорд, Р., Эффективное обнаружение новой информации в больших текстовых базах данных, Труды, Международная конференция IEEE по разведке и информатике безопасности, Атланта, Джорджия, LNCS Vol. 3495, Springer, 2005, стр. 374–380.
  38. ^ Брэдфорд, РБ (2006). «Применение скрытого семантического индексирования при создании графов террористических сетей». Информатика разведки и безопасности . Конспекты лекций по информатике. Том. 3975. стр. 674–675. дои : 10.1007/11760146_84. ISBN 978-3-540-34478-0.
  39. ^ Яровский Д. и Флориан Р., Снятие нагрузки с председателей конференции: к помощнику по маршрутизации цифровых документов, Материалы совместной конференции SIGDAT 1999 г. по эмпирическим методам в НЛП и очень больших корпорациях, 1999, стр. 220–230.
  40. ^ Кэрон, Дж., Применение LSA для онлайн-поддержки клиентов: пробное исследование, неопубликованная магистерская диссертация, май 2000 г.
  41. ^ Соборов И. и др., Визуализация авторства документов с использованием N-грамм и скрытого семантического индексирования, Семинар по новым парадигмам в визуализации и манипулировании информацией, 1997, стр. 43–48.
  42. ^ Моней, Ф., и Гатика-Перес, Д., Об автоматической аннотации изображений с помощью скрытых пространственных моделей, Материалы 11-й международной конференции ACM по мультимедиа, Беркли, Калифорния, 2003, стр. 275–278.
  43. ^ Малетик, Дж.; Маркус, А. (13–15 ноября 2000 г.). «Использование скрытого семантического анализа для выявления сходств в исходном коде для обеспечения понимания программы». Материалы 12-й Международной конференции IEEE по инструментам с искусственным интеллектом. ИКТАИ 2000 . Ванкувер, Британская Колумбия. стр. 46–53. CiteSeerX 10.1.1.36.6652 . дои : 10.1109/TAI.2000.889845. ISBN  978-0-7695-0909-9. S2CID  10354564.{{cite book}}: CS1 maint: location missing publisher (link)
  44. ^ Джи, К., Использование скрытого семантического индексирования для фильтрации спама, в: Proceedings, Симпозиум ACM по прикладным вычислениям, 2003 г., Мельбурн, Флорида, стр. 460–464.
  45. ^ Ландауэр Т., Лахам Д. и Дерр М., От абзаца к графику: скрытый семантический анализ для визуализации информации, Труды Национальной академии наук, 101, 2004, стр. 5214–5219.
  46. ^ Фольц, Питер В., Лахам, Даррелл и Ландауэр, Томас К., Автоматизированная оценка эссе: приложения к образовательным технологиям [ постоянная мертвая ссылка ] , Труды EdMedia, 1999.
  47. ^ Гордон М. и Дюмэ С., Использование скрытого семантического индексирования для открытий на основе литературы, Журнал Американского общества информатики, 49 (8), 1998, стр. 674–685.
  48. ^ Должен быть лучший способ поиска, 2008, Технический документ, Fios, Inc.
  49. ^ Карипис, Г., Хан, Э., Алгоритм быстрого контролируемого уменьшения размерности с приложениями для категоризации и поиска документов, Материалы CIKM-00, 9-я конференция ACM по управлению информацией и знаниями.
  50. ^ Радим Ржегуржек (2011). «Отслеживание подпространства для скрытого семантического анализа». Достижения в области поиска информации . Конспекты лекций по информатике. Том. 6611. стр. 289–300. дои : 10.1007/978-3-642-20161-5_29. ISBN 978-3-642-20160-8.
  51. ^ Брэдфорд, Р., Эмпирическое исследование необходимой размерности для крупномасштабных приложений латентно-семантического индексирования, Материалы 17-й конференции ACM по управлению информацией и знаниями, Напа-Вэлли, Калифорния, США, 2008, стр. 153–162.
  52. ^ Ландауэр, Томас К., и Дюмэ, Сьюзан Т., Скрытый семантический анализ, Scholarpedia, 3 (11): 4356, 2008.
  53. ^ Ландауэр, Т.К., Фольц, П.В., и Лахам, Д. (1998). Введение в латентно-семантический анализ. Дискурсивные процессы, 25, 259–284.

дальнейшее чтение

External links

Articles on LSA

Talks and demonstrations

Implementations

Due to its cross-domain applications in Information Retrieval, Natural Language Processing (NLP), Cognitive Science and Computational Linguistics, LSA has been implemented to support many different kinds of applications.