Латентный семантический анализ ( LSA ) — это метод обработки естественного языка , в частности, распределительной семантики , анализа связей между набором документов и содержащимися в них терминами путем создания набора концепций, связанных с документами и терминами. LSA предполагает, что слова, близкие по значению, будут встречаться в похожих фрагментах текста ( гипотеза распределения ). Матрица, содержащая количество слов на документ (строки представляют уникальные слова, а столбцы представляют каждый документ), строится из большого фрагмента текста, и математический метод, называемый разложением по сингулярным значениям (SVD), используется для сокращения количества строк при сохранении структуры сходства между столбцами. Затем документы сравниваются по косинусному сходству между любыми двумя столбцами. Значения, близкие к 1, представляют очень похожие документы, в то время как значения, близкие к 0, представляют очень непохожие документы. [1]
LSA может использовать матрицу документ-терм , которая описывает вхождения терминов в документы; это разреженная матрица , строки которой соответствуют терминам , а столбцы — документам. Типичным примером взвешивания элементов матрицы является tf-idf (term frequency–inverse document frequency): вес элемента матрицы пропорционален количеству появлений терминов в каждом документе, где редкие термины взвешиваются, чтобы отразить их относительную важность.
Эта матрица также является общей для стандартных семантических моделей, хотя она не обязательно явно выражена как матрица, поскольку математические свойства матриц не всегда используются.
Исходная матрица термин-документ предполагается слишком большой для вычислительных ресурсов; в этом случае аппроксимированная матрица низкого ранга интерпретируется как аппроксимация («наименьшее и необходимое зло»).
Исходная матрица термин-документ предполагается шумной : например, случайные примеры терминов должны быть устранены. С этой точки зрения приближенная матрица интерпретируется как очищенная от шума матрица (лучшая матрица, чем исходная).
Исходная матрица термин-документ предполагается чрезмерно разреженной по сравнению с «истинной» матрицей термин-документ. То есть исходная матрица перечисляет только слова, которые фактически присутствуют в каждом документе, тогда как нас могут интересовать все слова, относящиеся к каждому документу — как правило, гораздо больший набор из-за синонимии .
Следствием понижения ранга является то, что некоторые измерения объединяются и зависят от более чем одного термина:
Это смягчает проблему идентификации синонимии, поскольку понижение ранга, как ожидается, объединит измерения, связанные с терминами, имеющими схожие значения. Это также частично смягчает проблему с полисемией , поскольку компоненты полисемичных слов, которые указывают в «правильном» направлении, добавляются к компонентам слов, которые разделяют схожее значение. И наоборот, компоненты, которые указывают в других направлениях, имеют тенденцию либо просто отменяться, либо, в худшем случае, быть меньше компонентов в направлениях, соответствующих предполагаемому смыслу.
Вывод
Пусть будет матрицей, где элемент описывает встречаемость термина в документе (это может быть, например, частота). будет выглядеть так:
Теперь строка в этой матрице будет вектором, соответствующим термину, определяющему его связь с каждым документом:
Аналогично, столбец в этой матрице будет вектором, соответствующим документу, определяющим его связь с каждым термином:
Теперь скалярное произведение между двумя векторами терминов дает корреляцию между терминами по набору документов. Матричное произведение содержит все эти скалярные произведения. Элемент (который равен элементу ) содержит скалярное произведение ( ). Аналогично, матрица содержит скалярные произведения между всеми векторами документов, давая их корреляцию по терминам: .
Матричные продукты, дающие нам корреляции терминов и документов, затем становятся
Так как и диагональны, то мы видим, что должны содержать собственные векторы , в то время как должны быть собственными векторами . Оба произведения имеют одинаковые ненулевые собственные значения, заданные ненулевыми элементами , или, что то же самое, ненулевыми элементами . Теперь разложение выглядит следующим образом:
Значения называются сингулярными значениями, а также левыми и правыми сингулярными векторами. Обратите внимание, что единственная часть, которая вносит вклад, — это строка. Пусть этот вектор-строка будет называться . Аналогично, единственная часть, которая вносит вклад, — это столбец, . Это не собственные векторы, но они зависят от всех собственных векторов.
Оказывается, когда вы выбираете наибольшие сингулярные значения и соответствующие им сингулярные векторы из и , вы получаете ранговое приближение к с наименьшей ошибкой ( норма Фробениуса ). Это приближение имеет минимальную ошибку. Но что еще важнее, теперь мы можем рассматривать векторы термина и документа как «семантическое пространство». Вектор строки «термин» затем имеет записи, отображающие его в пространство меньшей размерности. Эти новые измерения не связаны ни с какими понятными концепциями. Они являются приближением меньшей размерности пространства большей размерности. Аналогично, вектор «документ» является приближением в этом пространстве меньшей размерности. Мы записываем это приближение как
Теперь вы можете сделать следующее:
Посмотрите, как связаны документы и находятся в низкоразмерном пространстве, сравнив векторы и (обычно с помощью косинусного подобия ).
Сравнивая термины и , сравнивая векторы и . Обратите внимание, что теперь это вектор-столбец.
Документы и векторные представления терминов можно кластеризовать с помощью традиционных алгоритмов кластеризации, таких как k-средних, с использованием мер сходства, таких как косинус.
Получив запрос, просмотрите его как мини-документ и сравните его с вашими документами в низкоразмерном пространстве.
Чтобы сделать последнее, вы должны сначала перевести свой запрос в низкоразмерное пространство. Затем интуитивно понятно, что вы должны использовать то же преобразование, которое вы используете в своих документах:
Обратите внимание, что обратную диагональную матрицу можно найти, инвертируя каждое ненулевое значение внутри матрицы.
Это означает, что если у вас есть вектор запроса , вы должны выполнить перевод, прежде чем сравнивать его с векторами документа в низкоразмерном пространстве. Вы можете сделать то же самое для векторов псевдотерминов:
Приложения
Новое низкоразмерное пространство обычно можно использовать для:
По заданному запросу терминов переведите его в низкоразмерное пространство и найдите соответствующие документы ( поиск информации ).
Найдите наилучшее сходство между небольшими группами терминов семантическим способом (т.е. в контексте корпуса знаний), как, например, в модели ответов на вопросы с несколькими вариантами ответов MCQ . [6]
Расширить пространство функций систем машинного обучения/анализа текста [7]
Анализировать ассоциации слов в корпусе текста [8]
Синонимия — это явление, когда разные слова описывают одну и ту же идею. Таким образом, запрос в поисковой системе может не найти релевантный документ, который не содержит слов, которые появились в запросе. Например, поиск по слову «врачи» может не вернуть документ, содержащий слово « врачи », даже если эти слова имеют одинаковое значение.
Полисемия — это явление, когда одно и то же слово имеет несколько значений. Поэтому поиск может выдать нерелевантные документы, содержащие искомые слова в неправильном значении. Например, ботаник и компьютерный ученый, ищущие слово «дерево», вероятно, хотят получить разные наборы документов.
Использование латентного семантического анализа было распространено в изучении человеческой памяти, особенно в областях свободного припоминания и поиска в памяти. Существует положительная корреляция между семантическим сходством двух слов (измеренным с помощью LSA) и вероятностью того, что слова будут вспоминаться одно за другим в заданиях на свободное припоминание с использованием учебных списков случайных нарицательных существительных. Они также отметили, что в этих ситуациях время между ответами между похожими словами было намного меньше, чем между непохожими словами. Эти результаты называются эффектом семантической близости. [10]
Когда участники допускали ошибки при припоминании изученных элементов, эти ошибки, как правило, были элементами, которые были семантически более связаны с желаемым элементом и находились в ранее изученном списке. Эти вторжения в предыдущий список, как их стали называть, похоже, конкурируют с элементами в текущем списке за припоминание. [11]
Другая модель, называемая Пространствами словесных ассоциаций (WAS), также используется в исследованиях памяти путем сбора данных свободных ассоциаций из серии экспериментов и включает в себя меры связанности слов для более чем 72 000 отдельных пар слов. [12]
Выполнение
SVD обычно вычисляется с использованием методов больших матриц (например, методов Ланцоша ), но может также вычисляться пошагово и со значительно сокращенными ресурсами с помощью подхода , подобного нейронной сети , который не требует хранения в памяти большой матрицы полного ранга. [13]
Был разработан быстрый, пошаговый, малозатратный, с большой матрицей алгоритм SVD. [14] Доступны реализации этих быстрых алгоритмов в MATLAB [15] и Python [16] . В отличие от стохастического приближения Горрелла и Уэбба (2005), алгоритм Брэнда (2003) обеспечивает точное решение. В последние годы был достигнут прогресс в снижении вычислительной сложности SVD; например, используя параллельный алгоритм ARPACK для выполнения параллельной декомпозиции собственных значений, можно ускорить стоимость вычисления SVD, обеспечивая при этом сопоставимое качество прогнозирования. [17]
Ограничения
Некоторые из недостатков LSA включают в себя:
Полученные размеры могут быть трудно интерпретируемыми. Например, в
произойдет. Это приводит к результатам, которые могут быть обоснованы на математическом уровне, но не имеют непосредственного очевидного значения в естественном языке. Хотя компонент (1,3452 * автомобиль + 0,2828 * бутылка) может быть обоснован, поскольку и бутылки, и автомобили имеют прозрачные и непрозрачные части, сделаны человеком и с высокой вероятностью содержат логотипы/слова на своей поверхности; таким образом, во многих отношениях эти два понятия «разделяют семантику». То есть в рассматриваемом языке может не быть легкодоступного слова для назначения, и объяснимость становится задачей анализа в отличие от простой задачи назначения слова/класса/концепции.
LSA может лишь частично охватить полисемию (т. е. множественные значения слова), поскольку каждое вхождение слова рассматривается как имеющее одно и то же значение из-за того, что слово представлено как одна точка в пространстве. Например, вхождение «chair» в документе, содержащем «The Chair of the Board», и в отдельном документе, содержащем «the chair maker», считается одинаковым. Такое поведение приводит к тому, что векторное представление становится средним значением всех различных значений слова в корпусе, что может затруднить сравнение. [18] Однако эффект часто уменьшается из-за того, что слова имеют преобладающий смысл во всем корпусе (т. е. не все значения одинаково вероятны).
В семантическом хешировании [21] документы сопоставляются с адресами памяти с помощью нейронной сети таким образом, что семантически схожие документы располагаются по близлежащим адресам. Глубокая нейронная сеть по сути строит графическую модель векторов количества слов, полученных из большого набора документов. Документы, похожие на документ запроса, затем можно найти, просто обратившись ко всем адресам, которые отличаются всего на несколько бит от адреса документа запроса. Этот способ расширения эффективности хеширования до приблизительного соответствия намного быстрее, чем локально-чувствительное хеширование , которое является самым быстрым на данный момент методом. [ необходимо разъяснение ]
Скрытая семантическая индексация
Скрытое семантическое индексирование ( LSI ) — это метод индексирования и поиска, который использует математический метод, называемый разложением по сингулярным значениям (SVD), для выявления закономерностей в отношениях между терминами и концепциями, содержащимися в неструктурированной коллекции текста. LSI основан на принципе, что слова, которые используются в одних и тех же контекстах, как правило, имеют схожие значения. Ключевой особенностью LSI является его способность извлекать концептуальное содержание текста путем установления ассоциаций между терминами, которые встречаются в схожих контекстах . [22]
Названный « скрытой семантической индексацией» из-за своей способности сопоставлять семантически связанные термины, которые скрыты в коллекции текста, он был впервые применен к тексту в Bellcore в конце 1980-х годов. Метод, также называемый латентным семантическим анализом (LSA), раскрывает базовую скрытую семантическую структуру в использовании слов в тексте и то, как его можно использовать для извлечения смысла текста в ответ на запросы пользователей, обычно называемые поиском концепций. Запросы или поиск концепций по набору документов, прошедших LSI, вернут результаты, которые концептуально схожи по значению с критериями поиска, даже если результаты не разделяют определенное слово или слова с критериями поиска.
Преимущества LSI
LSI помогает преодолеть синонимию, увеличивая полноту , одно из самых проблемных ограничений булевых запросов по ключевым словам и моделей векторного пространства. [18] Синонимия часто является причиной несоответствий в словаре, используемом авторами документов и пользователями систем поиска информации . [24] В результате булевы запросы или запросы по ключевым словам часто возвращают нерелевантные результаты и пропускают релевантную информацию.
LSI также используется для выполнения автоматизированной категоризации документов . Фактически, несколько экспериментов продемонстрировали, что существует ряд корреляций между тем, как LSI и люди обрабатывают и категоризируют текст. [25] Категоризация документов — это отнесение документов к одной или нескольким предопределенным категориям на основе их сходства с концептуальным содержанием категорий. [26] LSI использует образцы документов для установления концептуальной основы для каждой категории. Во время обработки категоризации концепции, содержащиеся в категоризируемых документах, сравниваются с концепциями, содержащимися в элементах примеров, и категория (или категории) присваиваются документам на основе сходства между концепциями, которые они содержат, и концепциями, которые содержатся в документах-образцах.
Динамическая кластеризация на основе концептуального содержания документов также может быть выполнена с использованием LSI. Кластеризация — это способ группировки документов на основе их концептуального сходства друг с другом без использования образцов документов для установления концептуальной основы для каждого кластера. Это очень полезно при работе с неизвестной коллекцией неструктурированного текста.
Поскольку он использует строго математический подход, LSI по своей сути независим от языка. Это позволяет LSI выявлять семантическое содержание информации, написанной на любом языке, не требуя использования вспомогательных структур, таких как словари и тезаурусы. LSI также может выполнять кросс-лингвистический поиск концепций и категоризацию на основе примеров. Например, запросы могут быть сделаны на одном языке, таком как английский, и концептуально похожие результаты будут возвращены, даже если они составлены на совершенно другом языке или на нескольких языках. [ необходима цитата ]
LSI не ограничивается работой только со словами. Он также может обрабатывать произвольные строки символов. Любой объект, который может быть выражен как текст, может быть представлен в векторном пространстве LSI. Например, тесты с рефератами MEDLINE показали, что LSI способен эффективно классифицировать гены на основе концептуального моделирования биологической информации, содержащейся в заголовках и рефератах ссылок MEDLINE. [27]
LSI автоматически адаптируется к новой и меняющейся терминологии и, как было показано, очень устойчив к шуму (например, неправильно написанным словам, опечаткам, нечитаемым символам и т. д.). [28] Это особенно важно для приложений, использующих текст, полученный с помощью оптического распознавания символов (OCR) и преобразования речи в текст. LSI также эффективно справляется с разреженными, неоднозначными и противоречивыми данными.
Текст не обязательно должен быть в форме предложения, чтобы LSI был эффективным. Он может работать со списками, заметками в свободной форме, электронной почтой, веб-контентом и т. д. Пока коллекция текста содержит несколько терминов, LSI может использоваться для выявления закономерностей в отношениях между важными терминами и концепциями, содержащимися в тексте.
LSI оказался полезным решением для ряда концептуальных проблем сопоставления. [29] [30] Было показано, что этот метод позволяет получить ключевую информацию о взаимоотношениях, включая причинно-следственную, целевую и таксономическую информацию. [31]
Хронология LSI
Середина 1960-х годов – Впервые описан и протестирован метод факторного анализа (Х. Борко и М. Берник)
1988 – Опубликована основополагающая статья по технике LSI [22]
1989 – Выдан первоначальный патент [22]
1992 – Первое использование LSI для распределения статей по рецензентам [32]
1994 – Выдан патент на кросс-языковое применение LSI (Ландауэр и др.)
1995 – Первое использование LSI для оценки эссе (Фольц и др., Ландауэр и др.)
1999 – Первое внедрение технологии LSI для разведывательного сообщества для анализа неструктурированного текста ( SAIC ).
2002 – Предложение продуктов на основе LSI правительственным агентствам разведки (SAIC)
Математика LSI
LSI использует общие методы линейной алгебры для изучения концептуальных корреляций в коллекции текстов. В общем, процесс включает построение взвешенной матрицы термин-документ, выполнение разложения сингулярных значений на матрице и использование матрицы для идентификации концепций, содержащихся в тексте.
Матрица термин-документ
LSI начинает с построения матрицы термин-документ, , для определения вхождений уникальных терминов в коллекцию документов. В матрице термин-документ каждый термин представлен строкой, а каждый документ представлен столбцом, причем каждая ячейка матрицы, , изначально представляет количество раз, когда связанный термин появляется в указанном документе, . Эта матрица обычно очень большая и очень разреженная.
После построения матрицы термин-документ к ней можно применить локальные и глобальные весовые функции для приведения данных к требуемым условиям. Весовые функции преобразуют каждую ячейку, из , в произведение локального веса термина, , который описывает относительную частоту термина в документе, и глобального веса, , который описывает относительную частоту термина во всей коллекции документов.
Некоторые общие локальные весовые функции [33] определены в следующей таблице.
Некоторые общие глобальные весовые функции определены в следующей таблице.
Эмпирические исследования с LSI показывают, что функции взвешивания Log и Entropy хорошо работают на практике со многими наборами данных. [34] Другими словами, каждая запись вычисляется как:
Разложение сингулярных значений с пониженным рангом
Для матрицы выполняется разложение по сингулярным значениям с пониженным рангом, чтобы определить закономерности в отношениях между терминами и концепциями, содержащимися в тексте. SVD формирует основу для LSI. [35] Он вычисляет векторные пространства терминов и документов, аппроксимируя единственную матрицу частот терминов, , в три другие матрицы — векторную матрицу терминов-концепций размером m на r , матрицу сингулярных значений размером r на r и векторную матрицу понятий-документов размером n на r , которые удовлетворяют следующим соотношениям:
В формуле A — это предоставленная взвешенная матрица m на n частот терминов в коллекции текста, где m — количество уникальных терминов, а n — количество документов. T — это вычисленная матрица m на r векторов терминов, где r — ранг A — мера его уникальных измерений ≤ min( m,n ) . S — это вычисленная диагональная матрица r на r убывающих сингулярных значений, а D — это вычисленная матрица n на r векторов документов.
Затем SVD усекается для уменьшения ранга, сохраняя только самые большие k « r диагональных элементов в матрице сингулярных значений S , где k обычно имеет порядок от 100 до 300 измерений. Это эффективно уменьшает размеры матрицы термина и вектора документа до m на k и n на k соответственно. Операция SVD, наряду с этим сокращением, имеет эффект сохранения наиболее важной семантической информации в тексте, одновременно уменьшая шум и другие нежелательные артефакты исходного пространства A . Этот сокращенный набор матриц часто обозначается модифицированной формулой, такой как:
А ≈ А к = Т к С к Д к Т
Эффективные алгоритмы LSI вычисляют только первые k сингулярных значений, а также векторы термов и документов, в отличие от вычисления полного SVD с последующим его усечением.
Обратите внимание, что это понижение ранга по сути то же самое, что и выполнение анализа главных компонент (PCA) на матрице A , за исключением того, что PCA вычитает средние значения. PCA теряет разреженность матрицы A , что может сделать его непригодным для больших словарей.
Запрос и расширение векторных пространств LSI
Вычисленные матрицы T k и D k определяют векторные пространства терминов и документов, которые с вычисленными сингулярными значениями, S k , воплощают концептуальную информацию, полученную из коллекции документов. Сходство терминов или документов в этих пространствах является фактором того, насколько они близки друг к другу в этих пространствах, обычно вычисляемым как функция угла между соответствующими векторами.
Те же шаги используются для поиска векторов, представляющих текст запросов и новых документов в пространстве документов существующего индекса LSI. Простым преобразованием уравнения A = TSD T в эквивалентное уравнение D = A T TS −1 можно создать новый вектор d для запроса или нового документа, вычислив новый столбец в A и затем умножив новый столбец на TS −1 . Новый столбец в A вычисляется с использованием изначально полученных глобальных весов терминов и применения той же локальной весовой функции к терминам в запросе или в новом документе.
Недостатком вычисления векторов таким образом при добавлении новых документов, доступных для поиска, является то, что термины, которые не были известны на этапе SVD для исходного индекса, игнорируются. Эти термины не окажут никакого влияния на глобальные веса и изученные корреляции, полученные из исходной коллекции текста. Однако вычисленные векторы для нового текста по-прежнему очень важны для сравнения сходства со всеми другими векторами документов.
Процесс дополнения векторных пространств документов для индекса LSI новыми документами таким образом называется сверткой . Хотя процесс свертывания не учитывает новое семантическое содержание нового текста, добавление значительного количества документов таким образом все равно даст хорошие результаты для запросов, пока содержащиеся в них термины и концепции хорошо представлены в индексе LSI, в который они добавляются. Когда термины и концепции нового набора документов необходимо включить в индекс LSI, необходимо либо пересчитать матрицу термин-документ и SVD, либо использовать метод инкрементального обновления (например, описанный в [14] ).
Дополнительные применения LSI
Общепризнано, что способность работать с текстом на семантической основе имеет важное значение для современных систем поиска информации. В результате использование LSI значительно расширилось в последние годы, поскольку были преодолены прежние проблемы масштабируемости и производительности.
LSI используется в различных приложениях по поиску информации и обработке текста, хотя его основное применение — поиск концепций и автоматическая категоризация документов. [36] Ниже приведены некоторые другие способы использования LSI:
Обнаружение информации [37] ( eDiscovery , Правительство/Разведывательное сообщество, Издательское дело)
LSI все чаще используется для электронного обнаружения документов (eDiscovery), чтобы помочь предприятиям подготовиться к судебным разбирательствам. В eDiscovery способность кластеризовать, категоризовать и искать большие коллекции неструктурированного текста на концептуальной основе имеет важное значение. Поиск на основе концепций с использованием LSI был применен к процессу eDiscovery ведущими поставщиками еще в 2003 году. [51]
Проблемы LSI
Ранние проблемы LSI были сосредоточены на масштабируемости и производительности. LSI требует относительно высокой вычислительной производительности и памяти по сравнению с другими методами поиска информации. [52] Однако с внедрением современных высокоскоростных процессоров и доступностью недорогой памяти эти соображения были в значительной степени преодолены. Реальные приложения, включающие более 30 миллионов документов, которые были полностью обработаны с помощью вычислений матрицы и SVD, являются обычным явлением в некоторых приложениях LSI. Полностью масштабируемая (неограниченное количество документов, онлайн-обучение) реализация LSI содержится в программном пакете с открытым исходным кодом gensim . [53]
Еще одной проблемой для LSI была предполагаемая сложность в определении оптимального количества измерений для использования при выполнении SVD. Как правило, меньшее количество измерений позволяет проводить более широкие сравнения концепций, содержащихся в коллекции текста, в то время как большее количество измерений позволяет проводить более конкретные (или более релевантные) сравнения концепций. Фактическое количество измерений, которые могут быть использованы, ограничено количеством документов в коллекции. Исследования показали, что около 300 измерений обычно обеспечивают наилучшие результаты с коллекциями документов среднего размера (сотни тысяч документов) и, возможно, 400 измерений для более крупных коллекций документов (миллионы документов). [54] Однако недавние исследования показывают, что подходит 50-1000 измерений в зависимости от размера и характера коллекции документов. [55] Проверка доли сохраненной дисперсии, аналогично PCA или факторному анализу , для определения оптимальной размерности не подходит для LSI. Использование теста синонимов или прогнозирования пропущенных слов являются двумя возможными методами поиска правильной размерности. [56] Когда темы LSI используются в качестве признаков в контролируемых методах обучения, можно использовать измерения ошибок прогнозирования, чтобы найти идеальную размерность.
^ Сьюзен Т. Дюмейс (2005). «Латентный семантический анализ». Ежегодный обзор информационной науки и технологий . 38 : 188–230. doi :10.1002/aris.1440380105.
^ "Патент США 4,839,853". Архивировано из оригинала 2017-12-02.(теперь срок истек)
^ Ален Лифшиц; Сандра Жан-Лароз; Гай Деньер (2009). «Влияние настроенных параметров на модель ответов на вопросы с множественным выбором LSA» (PDF) . Методы исследования поведения . 41 (4): 1201–1209. arXiv : 0811.0146 . doi : 10.3758/BRM.41.4.1201 . PMID 19897829. S2CID 480826.
^ ab Ramiro H. Gálvez; Agustín Gravano (2017). «Оценка полезности интеллектуального анализа онлайн-досок объявлений в системах автоматического прогнозирования акций». Journal of Computational Science . 19 : 1877–7503. doi : 10.1016/j.jocs.2017.01.001. hdl : 11336/60065 .
^ ab Altszyler, E.; Ribeiro, S.; Sigman, M.; Fernández Slezak, D. (2017). «Толкование смысла сновидения: разрешение неоднозначности с помощью латентно-семантического анализа в небольшом корпусе текста». Сознание и познание . 56 : 178–187. arXiv : 1610.01520 . doi : 10.1016/j.concog.2017.09.004. PMID 28943127. S2CID 195347873.
^ Джерри Дж. Элман (октябрь 2007 г.). «Автоматизированная поддержка патентной экспертизы — предложение». Biotechnology Law Report . 26 (5): 435–436. doi :10.1089/blr.2007.9896.
^ Марк В. Ховард; Майкл Дж. Кахана (1999). «Контекстуальная изменчивость и эффекты последовательного положения при свободном припоминании» (PDF) . APA PsycNet Direct .
^ Франклин М. Заромб и др. (2006). Временные ассоциации и вторжения в априорный список в свободном припоминании (PDF) . Interspeech'2005.
^ Нельсон, Дуглас. "Университет Южной Флориды: словесные ассоциации, рифмы и нормы фрагментов слов" . Получено 8 мая 2011 г.
^ ab Matthew Brand (2006). «Быстрые низкоранговые модификации тонкого сингулярного разложения». Линейная алгебра и ее приложения . 415 : 20–30. doi : 10.1016/j.laa.2005.07.021 .
^ "MATLAB". Архивировано из оригинала 2014-02-28.
^ Питон
^ Дин, Ягуан; Чжу, Гофэн; Цуй, Чэньян; Чжоу, Цзянь; Тао, Лян (2011). «Параллельная реализация разложения сингулярных значений на основе Map-Reduce и PARPACK». Труды Международной конференции по информатике и сетевым технологиям 2011 г. С. 739–741. doi :10.1109/ICCSNT.2011.6182070. ISBN978-1-4577-1587-7. S2CID 15281129.
^ ab Deerwester, Scott; Dumais, Susan T.; Furnas, George W.; Landauer, Thomas K.; Harshman, Richard (1990). «Индексирование с помощью латентного семантического анализа». Журнал Американского общества информационной науки . 41 (6): 391–407. CiteSeerX 10.1.1.108.8490 . doi :10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9.
^ Абеди, Вида; Йесин, Мохаммед; Занд, Рамин (27 ноября 2014 г.). «Эмпирическое исследование с использованием сети семантически связанных ассоциаций для преодоления разрыва в знаниях». Журнал трансляционной медицины . 12 (1): 324. doi : 10.1186/s12967-014-0324-9 . PMC 4252998. PMID 25428570 .
^ Томас Хофманн (1999). «Вероятностный латентный семантический анализ». Неопределенность в искусственном интеллекте . arXiv : 1301.6705 .
^ abc Deerwester, S., et al, Улучшение поиска информации с помощью латентного семантического индексирования, Труды 51-го ежегодного заседания Американского общества информационной науки 25, 1988, стр. 36–40.
^ Бензекри, Ж.-П. (1973). L'Analyse des Données. Том II. L'Analyse des Correspondences . Париж, Франция: Дюно.
^ Фурнас, GW; Ландауэр, TK; Гомес, LM; Дюмейс, ST (1987). «Проблема словаря в общении человека и системы». Communications of the ACM . 30 (11): 964–971. CiteSeerX 10.1.1.118.4768 . doi :10.1145/32206.32212. S2CID 3002280.
^ Ландауэр, Т. и др., Изучение человеческих знаний с помощью разложения по сингулярным значениям: отчет о ходе работы, MI Jordan, MJ Kearns & SA Solla (ред.), Достижения в области нейронных систем обработки информации 10, Кембридж: MIT Press, 1998, стр. 45–51.
^ Дюмейс, С.; Платт, Дж.; Хеккерман, Д.; Сахами, М. (1998). "Алгоритмы индуктивного обучения и представления для категоризации текста" (PDF) . Труды седьмой международной конференции по управлению информацией и знаниями - CIKM '98. стр. 148. CiteSeerX 10.1.1.80.8909 . doi :10.1145/288627.288651. ISBN978-1581130614. S2CID 617436.
^ Хомаюни, Р.; Хайнрих, К.; Вэй, Л.; Берри, М. В. (2004). «Кластеризация генов с помощью латентного семантического индексирования рефератов MEDLINE». Биоинформатика . 21 (1): 104–115. doi : 10.1093/bioinformatics/bth464 . PMID 15308538.
^ Прайс, Р. Дж.; Зукас, А. Е. (2005). «Применение скрытой семантической индексации к обработке зашумленного текста». Intelligence and Security Informatics . Lecture Notes in Computer Science. Vol. 3495. p. 602. doi :10.1007/11427995_68. ISBN978-3-540-25999-2.
^ Дин, К., Модель вероятности, основанная на сходстве, для латентного семантического индексирования, Труды 22-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска, 1999, стр. 59–65.
^ Бартелл, Б., Коттрелл, Г. и Белью, Р., Скрытое семантическое индексирование — оптимальный частный случай многомерного шкалирования [ нерабочая ссылка ] , Труды конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска, 1992, стр. 161–167.
^ Graesser, A.; Karnavat, A. (2000). «Латентный семантический анализ фиксирует причинные, целевые и таксономические структуры». Труды CogSci 2000 : 184–189. CiteSeerX 10.1.1.23.5444 .
^ Дюмейс, С.; Нильсен, Дж. (1992). «Автоматизация распределения представленных рукописей рецензентам». Труды 15-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска — SIGIR '92 . С. 233–244. CiteSeerX 10.1.1.16.9793 . doi :10.1145/133160.133205. ISBN978-0897915236. S2CID 15038631.
^
Берри, М. В. и Браун, М., Понимание поисковых систем: математическое моделирование и поиск текста, Общество промышленной и прикладной математики, Филадельфия, (2005).
^ Ландауэр, Т. и др., Справочник по латентному семантическому анализу, Lawrence Erlbaum Associates, 2007.
^ Берри, Майкл У., Дюмейс, Сьюзан Т., О'Брайен, Гэвин У., Использование линейной алгебры для интеллектуального поиска информации, декабрь 1994 г., SIAM Review 37:4 (1995), стр. 573–595.
^ Дюмейс, С., Латентный семантический анализ, ARIST Review of Information Science and Technology, т. 38, 2004, Глава 4.
^ Комментарий к передовому опыту использования методов поиска и извлечения информации в электронном обнаружении, конференция в Седоне, 2007 г., стр. 189–223.
^ Фольц, П. В. и Дюмейс, С. Т. Персонализированная доставка информации: анализ методов фильтрации информации, Communications of the ACM, 1992, 34(12), 51-60.
^ Гун, И. и Лю, С., Создание обобщенных текстовых резюме, Труды Шестой международной конференции по анализу и распознаванию документов, 2001, стр. 903–907.
^ Брэдфорд, Р., Эффективное обнаружение новой информации в больших текстовых базах данных, Труды Международной конференции IEEE по разведке и информатике безопасности, Атланта, Джорджия, LNCS Vol. 3495, Springer, 2005, стр. 374–380.
^ Брэдфорд, РБ (2006). «Применение скрытой семантической индексации при создании графов террористических сетей». Информатика разведки и безопасности . Конспект лекций по информатике. Том 3975. С. 674–675. doi :10.1007/11760146_84. ISBN978-3-540-34478-0.
^ Яровски, Д. и Флориан, Р., Снятие нагрузки с председателей конференций: на пути к цифровому помощнику по маршрутизации документов, Труды совместной конференции SIGDAT 1999 года по эмпирическим методам в обработке естественного языка и очень больших корпусах, 1999, стр. 220–230.
^ Кэрон, Дж., Применение LSA к онлайн-поддержке клиентов: пробное исследование, неопубликованная магистерская диссертация, май 2000 г.
^ Соборофф, И. и др., Визуализация авторства документа с использованием N-грамм и скрытого семантического индексирования, Семинар по новым парадигмам в визуализации и обработке информации, 1997, стр. 43–48.
^ Моней, Ф. и Гатика-Перес, Д., Об автоматической аннотации изображений с использованием моделей скрытого пространства, Труды 11-й международной конференции ACM по мультимедиа, Беркли, Калифорния, 2003, стр. 275–278.
^ Maletic, J.; Marcus, A. (13–15 ноября 2000 г.). «Использование латентного семантического анализа для выявления сходств в исходном коде для поддержки понимания программ». Труды 12-й Международной конференции IEEE по инструментам с искусственным интеллектом. ICTAI 2000. стр. 46–53. CiteSeerX 10.1.1.36.6652 . doi :10.1109/TAI.2000.889845. ISBN978-0-7695-0909-9. S2CID 10354564.
^ Джи, К., Использование скрытого семантического индексирования для фильтрации спама, в: Труды симпозиума ACM по прикладным вычислениям 2003 г., Мельбурн, Флорида, стр. 460–464.
^ Ландауэр, Т., Лахам, Д. и Дерр, М., От абзаца к графику: латентный семантический анализ для визуализации информации, Труды Национальной академии наук, 101, 2004, стр. 5214–5219.
^ Фольц, Питер В., Лахам, Даррелл и Ландауэр, Томас К., Автоматизированная оценка эссе: применение в образовательных технологиях, Труды EdMedia, 1999.
^ Гордон, М. и Дюмейс, С., Использование латентного семантического индексирования для обнаружения на основе литературы, Журнал Американского общества информационной науки, 49(8), 1998, стр. 674–685.
^ Должен быть лучший способ поиска, 2008, Белая книга, Fios, Inc.
^ Карыпис, Г., Хан, Э., Быстрый контролируемый алгоритм снижения размерности с применением к категоризации и поиску документов, Труды CIKM-00, 9-й конференции ACM по управлению информацией и знаниями.
^ Радим Ржехуржек (2011). «Отслеживание подпространства для латентного семантического анализа». Достижения в области информационного поиска . Конспект лекций по информатике. Том 6611. С. 289–300. doi :10.1007/978-3-642-20161-5_29. ISBN978-3-642-20160-8.
^ Брэдфорд, Р., Эмпирическое исследование требуемой размерности для крупномасштабных приложений латентного семантического индексирования, Труды 17-й конференции ACM по управлению информацией и знаниями, Долина Напа, Калифорния, США, 2008, стр. 153–162.
^ Ландауэр, Томас К. и Дюмейс, Сьюзен Т., Латентный семантический анализ, Scholarpedia, 3(11):4356, 2008.
^ Ландауэр, ТК, Фольц, ПВ, и Лахам, Д. (1998). Введение в латентный семантический анализ. Процессы дискурса, 25, 259-284
Дальнейшее чтение
Ландауэр, Томас ; Фольц, Питер В.; Лахам, Даррелл (1998). «Введение в латентный семантический анализ» (PDF) . Дискурсивные процессы . 25 (2–3): 259–284. CiteSeerX 10.1.1.125.109 . doi :10.1080/01638539809545028. S2CID 16625196.
Deerwester, Scott ; Dumais, Susan T. ; Furnas, George W. ; Landauer, Thomas K. ; Harshman, Richard (1990). "Индексирование с помощью латентного семантического анализа" (PDF) . Журнал Американского общества информационной науки . 41 (6): 391–407. CiteSeerX 10.1.1.33.2447 . doi :10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9. Архивировано из оригинала (PDF) 2012-07-17.Оригинальная статья, в которой модель была впервые представлена.
Берри, Майкл ; Дюмейс, Сьюзен Т.; О'Брайен, Гэвин В. (1995). «Использование линейной алгебры для интеллектуального поиска информации».(PDF) Архивировано 23.11.2018 в Wayback Machine . Иллюстрация применения LSA для поиска документов.
Chicco, D; Masseroli, M (2015). «Программный пакет для прогнозирования аннотаций генов и белков и поиска сходства». Труды IEEE/ACM по вычислительной биологии и биоинформатике . 12 (4): 837–843. doi : 10.1109/TCBB.2014.2382127. hdl : 11311/959408 . PMID 26357324. S2CID 14714823.
Фридолин Уайлд (23 ноября 2005 г.). "Пакет LSA с открытым исходным кодом для R". CRAN . Получено 20 ноября 2006 г.
Томас Ландауэр , Сьюзен Т. Дюмейс . "Решение проблемы Платона: теория латентного семантического анализа приобретения, индукции и представления знаний" . Получено 2007-07-02 .
Внешние ссылки
Статьи о LSA
Латентный семантический анализ, статья в научной педии о LSA, написанная Томом Ландауэром, одним из создателей LSA.
Полный пример кода LSA на C# для Windows. Демонстрационный код включает перечисление текстовых файлов, фильтрацию стоп-слов, стемминг, создание матрицы терминов документа и SVD.
Sense Clusters, ориентированная на поиск информации реализация LSA на Perl
Пакет S-Space, Java-реализация LSA, ориентированная на вычислительную лингвистику и когнитивную науку
Semantic Vectors применяет случайную проекцию, LSA и рефлексивную случайную индексацию к матрицам терминов-документов Lucene
Проект Infomap, реализация LSA на языке C, ориентированная на обработку естественного языка (заменен проектом semanticvectors)
Генератор текстовых матриц Архивировано 07.01.2013 в archive.today , Набор инструментов MATLAB для генерации матриц термин-документ из текстовых коллекций с поддержкой LSA
Gensim содержит реализацию LSA на Python для матриц, размер которых превышает размер оперативной памяти.