stringtranslate.com

Тематическая модель векторного пространства

Модель векторного пространства на основе тем (TVSM) [1] (литература: [1]) расширяет модель векторного пространства поиска информации , удаляя ограничение на ортогональность векторов термов. Предположение об ортогональных терминах неверно в отношении естественных языков, что вызывает проблемы с синонимами и сильно связанными терминами. Это облегчает использование списков стоп-слов, стемминга и тезауруса в TVSM. В отличие от модели обобщенного векторного пространства, TVSM не зависит от сходства между терминами, основанного на совпадении.

Определения

Основной предпосылкой TVSM является существование d -мерного пространства R только с положительными пересечениями осей, т.е. R в R + и d в N + . Каждое измерение R представляет фундаментальную тему. Вектор термов t имеет определенный вес для определенного R . Для расчета этих весов принимаются во внимание содержание документа. В идеале важные термины будут иметь высокий вес, а стоп-слова и термины, не относящиеся к теме, будут иметь низкий вес. Модель документа TVSM получается как сумма векторов терминов, представляющих термины в документе. Сходство между двумя документами Di и Dj определяется как скалярное произведение векторов документов.

Расширенная тематическая модель векторного пространства

Расширение расширенной тематической модели векторного пространства (eTVSM) [2] (литература: [2]) представляет собой предложение о том, как получить векторы терминов из онтологии . Использование синонима Ontology, созданного из WordNet Kuropka, показывает хорошие результаты по сходству документов. Если используется тривиальная онтология, результаты аналогичны модели векторного пространства.

Реализации

Рекомендации

  1. ^ Доминик Куропка; Йорг Беккер (2003), Тематическая векторная пространственная модель (PDF)
  2. ^ Доминик Куропка; Артем Поливяный (2007), Количественная оценка расширенной тематической векторной пространственной модели (PDF)