tf–idf

При поиске информации tf-idf (также TF*IDF , TFIDF , TF-IDF или Tf-idf ), сокращение от термина частота – обратная частота документа , является мерой важности слова для документа в коллекции или корпусе . , с поправкой на то, что некоторые слова в целом встречаются чаще. ^[1] Его часто использовали в качестве весового коэффициента при поиске информации, интеллектуальном анализе текста и моделировании пользователей . Опрос, проведенный в 2015 году, показал, что 83% текстовых рекомендательных систем в электронных библиотеках используют tf–idf. ^[2]

Вариации схемы взвешивания tf–idf часто использовались поисковыми системами в качестве центрального инструмента оценки и ранжирования релевантности документа по запросу пользователя .

Одна из простейших функций ранжирования вычисляется путем суммирования tf–idf для каждого термина запроса; многие более сложные функции ранжирования являются вариантами этой простой модели.

Мотивации

Карен Сперк Джонс (1972) предложила статистическую интерпретацию специфичности термина под названием «Обратная частота документов» (idf), которая стала краеугольным камнем взвешивания терминов: ^[3]

Специфика термина может быть определена количественно как обратная функция количества документов, в которых он встречается.

Например, df (частота документа) и idf для некоторых слов в 37 пьесах Шекспира таковы: ^[4]

Мы видим, что « Ромео », « Фальстаф » и «Салат» появляются в очень немногих пьесах, поэтому, увидев эти слова, можно получить хорошее представление о том, какая это может быть пьеса. Напротив, слова «хороший» и «милый» появляются в каждой пьесе и совершенно неинформативны относительно того, какая это пьеса.

Определение

Tf–idf — это произведение двух статистических данных: частоты терминов и обратной частоты документов . Существуют различные способы определения точных значений обеих статистических данных.
Формула, целью которой является определение важности ключевого слова или фразы в документе или веб-странице.

Периодичность термина

Частота термина $tf(t, d)$ — это относительная частота термина $t$ в документе $d$ ,

\mathrm {tf} (t,d)={\frac {f_{t,d}}{\sum _{t'\in d}{f_{t',d}}}}

где $f t, d$ — исходное количество терминов в документе, т. е. количество раз, когда термин $t$ встречается в документе $d$ . Обратите внимание, что знаменатель — это просто общее количество терминов в документе $d$ (с учетом каждого появления одного и того же термина отдельно). Существуют и другие способы определения частоты термина: ^[5]^{: 128}

сам необработанный подсчет: $tf(t, d) = f t, d$
Булевы «частоты»: $tf(t, d) = 1$ , если $t$ встречается в $d$ , и 0 в противном случае;
частота в логарифмическом масштабе : $tf(t, d) = log (1 + f t, d)$ ; ^[6]
увеличенная частота, чтобы предотвратить смещение в сторону более длинных документов, например, необработанная частота, деленная на необработанную частоту наиболее часто встречающегося термина в документе:

\mathrm {tf} (t,d)=0,5+0,5\cdot {\frac {f_{t,d}}{\max\{f_{t',d}:t'\in d\} }}

Обратная частота документов

Обратная частота документов — это мера того, сколько информации содержит слово, т. е. является ли оно обычным или редким во всех документах. Это логарифмическая обратная доля документов, содержащих это слово (полученная путем деления общего количества документов на количество документов, содержащих этот термин, а затем логарифмирования этого частного):

\mathrm {idf} (t,D)=\log {\frac {N}{|\{d\in D:t\in d\}|}}

$N$ : общее количество документов в корпусе $N={|D|}$
$|\{d\in D:t\in d\}|$ : количество документов, в которых встречается этот термин (т. е. ). Если термина нет в корпусе, это приведет к делению на ноль. Поэтому принято приводить числитель и знаменатель к . $t$ $\mathrm {tf} (t,d)\neq 0$ $1+N$ $1+|\{d\in D:t\in d\}|$

Частота термина – обратная частота документов.

Тогда tf–idf рассчитывается как

\mathrm {tfidf} (t,d,D)=\mathrm {tf} (t,d)\cdot \mathrm {idf} (t,D)

Высокий вес в tf–idf достигается за счет высокой частотности термина (в данном документе) и низкой документальной частотности термина во всей совокупности документов; следовательно, веса имеют тенденцию отфильтровывать общие термины. Поскольку соотношение внутри функции журнала idf всегда больше или равно 1, значение idf (и tf – idf) больше или равно 0. По мере того, как термин появляется в большем количестве документов, соотношение внутри логарифма приближается к 1. , приближая IDF и tf–idf к 0.

Обоснование ИДФ

Idf был введен Карен Сперк Джонс как «специфичность термина» в статье 1972 года. Хотя она хорошо сработала как эвристика , ее теоретические основы вызывали затруднения в течение как минимум трех десятилетий после этого, и многие исследователи пытались найти для нее теоретические обоснования. ^[7]

Собственное объяснение Сперка Джонса не содержало особой теории, за исключением связи с законом Ципфа . ^[7] Были предприняты попытки поставить idf на вероятностную основу, ^[8] путем оценки вероятности того, что данный документ $d$ содержит термин $t$ , как относительная частота документов,

P(t|D)={\frac {|\{d\in D:t\in d\}|}{N}},

чтобы мы могли определить IDF как

{\begin{aligned}\mathrm {idf} &=-\log P(t|D)\\&=\log {\frac {1}{P(t|D)}}\\&=\log {\frac {N}{|\{d\in D:t\in d\}|}}\end{aligned}}

А именно, обратная частота документов представляет собой логарифм «обратной» относительной частоты документов.

Эта вероятностная интерпретация, в свою очередь, принимает ту же форму, что и самоинформация . Однако применение таких теоретико-информационных понятий к задачам поиска информации приводит к проблемам при попытке определить соответствующие пространства событий для требуемых распределений вероятностей : необходимо учитывать не только документы, но также запросы и термины. ^[7]

Связь с теорией информации

Как частота терминов, так и обратная частота документов могут быть сформулированы в терминах теории информации ; это помогает понять, почему их продукт имеет значение с точки зрения общего информационного наполнения документа. Характерное предположение о распределении состоит в том, что: $p(d,t)$

p(d|t)={\frac {1}{|\{d\in D:t\in d\}|}}

По словам Айзавы, это предположение и его последствия: «представляют собой эвристику, которую использует tf–idf». ^[9]

Условная энтропия «случайно выбранного» документа в корпусе при условии, что он содержит определенный термин (и при условии, что все документы имеют равную вероятность быть выбранными): $D$ $t$

H({\cal {D}}|{\cal {T}}=t)=-\sum _{d}p_{d|t}\log p_{d|t}=-\log {\frac {1}{|\{d\in D:t\in d\}|}}=\log {\frac {|\{d\in D:t\in d\}|}{|D|}}+\log |D|=-\mathrm {idf} (t)+\log |D|

С точки зрения обозначений, и являются «случайными величинами», соответствующими соответственно рисованию документа или термина. Взаимную информацию можно выразить как ${\cal {D}}$ ${\cal {T}}$

M({\cal {T}};{\cal {D}})=H({\cal {D}})-H({\cal {D}}|{\cal {T}})=\sum _{t}p_{t}\cdot (H({\cal {D}})-H({\cal {D}}|W=t))=\sum _{t}p_{t}\cdot \mathrm {idf} (t)

Последний шаг — расширить безусловную вероятность нарисовать термин относительно (случайного) выбора документа, чтобы получить: $p_{t}$

M({\cal {T}};{\cal {D}})=\sum _{t,d}p_{t|d}\cdot p_{d}\cdot \mathrm {idf} (t)=\sum _{t,d}\mathrm {tf} (t,d)\cdot {\frac {1}{|D|}}\cdot \mathrm {idf} (t)={\frac {1}{|D|}}\sum _{t,d}\mathrm {tf} (t,d)\cdot \mathrm {idf} (t).

Это выражение показывает, что суммирование Tf–idf всех возможных терминов и документов восстанавливает взаимную информацию между документами и термином с учетом всех особенностей их совместного распространения. ^[9] Таким образом, каждый Tf–idf несет «бит информации», прикрепленный к паре термин x документ.

Пример tf–idf

Предположим, что у нас есть таблицы подсчета терминов корпуса, состоящего только из двух документов, как указано справа.

Расчет tf–idf для терма «это» выполняется следующим образом:

В своей необработанной частотной форме tf — это просто частота «это» для каждого документа. В каждом документе слово «это» встречается один раз; но поскольку в документе 2 больше слов, его относительная частота меньше.

\mathrm {tf} ({\mathsf {''this''}},d_{1})={\frac {1}{5}}=0.2

\mathrm {tf} ({\mathsf {''this''}},d_{2})={\frac {1}{7}}\approx 0.14

IDF является постоянным для каждого корпуса и учитывает долю документов, содержащих слово «это». В данном случае у нас есть корпус из двух документов, и все они содержат слово «это».

\mathrm {idf} ({\mathsf {''this''}},D)=\log \left({\frac {2}{2}}\right)=0

Таким образом, tf–idf для слова «this» равен нулю, что означает, что это слово не очень информативно, как оно встречается во всех документах.

\mathrm {tfidf} ({\mathsf {''this''}},d_{1},D)=0.2\times 0=0

\mathrm {tfidf} ({\mathsf {''this''}},d_{2},D)=0.14\times 0=0

Слово «пример» более интересно — оно встречается трижды, но только во втором документе:

\mathrm {tf} ({\mathsf {''example''}},d_{1})={\frac {0}{5}}=0

\mathrm {tf} ({\mathsf {''example''}},d_{2})={\frac {3}{7}}\approx 0.429

\mathrm {idf} ({\mathsf {''example''}},D)=\log \left({\frac {2}{1}}\right)=0.301

Окончательно,

\mathrm {tfidf} ({\mathsf {''example''}},d_{1},D)=\mathrm {tf} ({\mathsf {''example''}},d_{1})\times \mathrm {idf} ({\mathsf {''example''}},D)=0\times 0.301=0

\mathrm {tfidf} ({\mathsf {''example''}},d_{2},D)=\mathrm {tf} ({\mathsf {''example''}},d_{2})\times \mathrm {idf} ({\mathsf {''example''}},D)=0.429\times 0.301\approx 0.129

(используя логарифм по основанию 10 ).

За рамками условий

Идея tf-idf применима и к сущностям, отличным от терминов. В 1998 году к цитированию была применена концепция IDF. ^[10] Авторы утверждают, что «если очень необычная цитата является общей для двух документов, ей следует придавать более высокий вес, чем цитате, сделанной в большом количестве документов». Кроме того, tf–idf применялся к «визуальным словам» с целью проведения сопоставления объектов в видео, ^[11] и целых предложениях. ^[12] Однако концепция tf–idf не во всех случаях оказалась более эффективной, чем простая схема tf (без idf). Когда tf-idf был применен к цитированию, исследователи не смогли найти никаких улучшений по сравнению с простым весом подсчета цитирований, который не имел компонента idf. ^[13]

Производные

Ряд схем взвешивания терминов основан на tf–idf. Один из них — TF–PDF (частота термина * пропорциональная частота документов). ^[14] TF-PDF был представлен в 2001 году в контексте выявления новых тем в средствах массовой информации. Компонент PDF измеряет разницу в том, как часто термин встречается в разных доменах. Другое производное — TF–IDuF. В TF–IDuF ^[15] idf не рассчитывается на основе корпуса документов, который необходимо найти или рекомендовать. Вместо этого IDF рассчитывается на основе коллекций личных документов пользователей. Авторы сообщают, что TF-IDuF был столь же эффективен, как и tf-idf, но также мог применяться в ситуациях, когда, например, система моделирования пользователей не имеет доступа к глобальному корпусу документов.

Смотрите также

Внешние ссылки и рекомендуемая литература

Gensim — это библиотека Python для моделирования векторного пространства, включающая взвешивание tf–idf.
Анатомия поисковой системы
tf-idf и связанные определения, используемые в Lucene
TfidfTransformer в scikit-learn
Генератор текста в матрицу (TMG) Набор инструментов MATLAB, который можно использовать для различных задач интеллектуального анализа текста (TM), в частности i) индексации, ii) поиска, iii) уменьшения размерности, iv) кластеризации, v) классификации. Шаг индексирования предлагает пользователю возможность применять локальные и глобальные методы взвешивания, включая tf-idf.
Объяснение частоты термина Объяснение частоты термина