Аддитивное сглаживание

В статистике аддитивное сглаживание , также называемое сглаживанием Лапласа^[1] или сглаживанием Лидстоуна , представляет собой метод, используемый для сглаживания данных подсчетов, устраняющий проблемы, вызванные определенными значениями, имеющими 0 вхождений. При наличии набора подсчетов наблюдений из -мерного мультиномиального распределения с испытаниями, «сглаженная» версия подсчетов дает оценку $\mathbf {x} =\langle x_{1},x_{2},\ldots ,x_{d}\rangle$ $д$ $N$

{\hat {\theta }}_{i}={\frac {x_{i}+\alpha }{N+\alpha d}}\qquad (i=1,\ldots ,d),

где сглаженное число , а «псевдочисло» α > 0 — параметр сглаживания , причем α = 0 соответствует отсутствию сглаживания (этот параметр объясняется в § Псевдочисло ниже). Аддитивное сглаживание — это тип оценки сжатия , поскольку результирующая оценка будет находиться между эмпирической вероятностью ( относительной частотой ) и равномерной вероятностью. Используя правило последовательности Лапласа , некоторые авторы утверждали ^[^{требуется ссылка}^] , что α должно быть равно 1 (в этом случае также используется термин сглаживание с добавлением одного ^[2]^{[3] )}^[^{требуется дополнительное объяснение}^] , хотя на практике обычно выбирается меньшее значение. ${\hat {x}}_{i}=N{\hat {\theta }}_{i}$ $x_{i}/N$ $1/д.$

С байесовской точки зрения это соответствует ожидаемому значению апостериорного распределения , использующего симметричное распределение Дирихле с параметром α в качестве априорного распределения . В особом случае, когда число категорий равно 2, это эквивалентно использованию бета-распределения в качестве сопряженного априорного для параметров биномиального распределения .

История

Лаплас придумал этот метод сглаживания, когда пытался оценить вероятность того, что солнце взойдет завтра. Его обоснование состояло в том, что даже при наличии большой выборки дней с восходящим солнцем мы все равно не можем быть полностью уверены, что солнце все еще взойдет завтра (известно как проблема восхода солнца ). ^[4]

Псевдосчет

Псевдосчет — это количество (обычно не целое число, несмотря на свое название), добавляемое к числу наблюдаемых случаев для изменения ожидаемой вероятности в модели этих данных, когда неизвестно, что она равна нулю. Он так назван потому, что, грубо говоря, псевдосчетчик значения весит в апостериорном распределении аналогично каждой категории, имеющей дополнительный счет . Если частота каждого элемента находится вне выборок, эмпирическая вероятность события равна $\альфа$ $\альфа$ $я$ $x_{i}$ $N$ $я$

p_{i,{\text{эмпирический}}}={\frac {x_{i}}{N}},

но апостериорная вероятность при аддитивном сглаживании равна

p_{i,\alpha {\text{-сглаженный}}}={\frac {x_{i}+\alpha }{N+\alpha d}},

как будто для того, чтобы априори увеличить каждый счет . $x_{i}$ $\альфа$

В зависимости от предшествующих знаний, которые иногда являются субъективной величиной, псевдосчет может иметь любое неотрицательное конечное значение. Он может быть равен нулю (или возможность игнорируется), если это невозможно по определению, например, возможность того, что десятичная цифра $π$ является буквой, или физическая возможность, которая будет отклонена и, таким образом, не учтена, например, компьютер печатает букву при запуске допустимой программы для $π$ , или исключена и не учтена из-за отсутствия интереса, например, если интересны только нули и единицы. Как правило, также существует вероятность того, что никакое значение не может быть вычислено или наблюдаемо за конечное время (см. проблему остановки ). Но по крайней мере одна возможность должна иметь ненулевой псевдосчет, в противном случае никакое предсказание не может быть вычислено до первого наблюдения. Относительные значения псевдосчетов представляют собой относительные предшествующие ожидаемые вероятности их возможностей. Сумма псевдосчетов, которая может быть очень большой, представляет собой предполагаемый вес предшествующих знаний по сравнению со всеми фактическими наблюдениями (по одному для каждого) при определении ожидаемой вероятности.

В любом наблюдаемом наборе данных или образце существует вероятность, особенно с маловероятными событиями и с небольшими наборами данных, того, что возможное событие не произойдет. Его наблюдаемая частота, следовательно, равна нулю, что, по-видимому, подразумевает вероятность, равную нулю. Это упрощение неточно и часто бесполезно, особенно в методах машинного обучения на основе вероятности, таких как искусственные нейронные сети и скрытые марковские модели . Искусственно корректируя вероятность редких (но не невозможных) событий так, чтобы эти вероятности не были точно равны нулю, можно избежать проблем с нулевой частотой . См. также правило Кромвеля .

Самый простой подход — добавить единицу к каждому наблюдаемому числу событий, включая возможности нулевого счета. Иногда это называют правилом последовательности Лапласа . Этот подход эквивалентен предположению о равномерном априорном распределении вероятностей для каждого возможного события (охватывающего симплекс, где каждая вероятность находится между 0 и 1, и все они в сумме дают 1).

Используя априорный подход Джеффриса, к каждому возможному результату следует добавить псевдосчетчик, равный половине.

Псевдосчеты следует устанавливать на единицу только тогда, когда нет никаких предварительных знаний вообще – см. принцип безразличия . Однако, при наличии соответствующих предварительных знаний, сумма должна быть скорректирована пропорционально ожиданию того, что предварительные вероятности следует считать правильными, несмотря на доказательства обратного – см. дальнейший анализ . Более высокие значения уместны, поскольку есть предварительные знания об истинных значениях (например, для идеальной монеты); более низкие значения – поскольку есть предварительные знания о том, что существует вероятное смещение, но неизвестной степени (например, для гнутой монеты).

Более сложный подход заключается в оценке вероятности событий на основе других факторов и соответствующей корректировке.

Примеры

Один из способов мотивировать псевдосчетчики, особенно для биномиальных данных, — это использовать формулу для средней точки интервальной оценки , особенно доверительного интервала биномиальной пропорции . Наиболее известная из них принадлежит Эдвину Бидвеллу Уилсону в работе Уилсона (1927): средняя точка интервала оценок Уилсона, соответствующая стандартным отклонениям $z$ с обеих сторон, равна

{\frac {n_{S}+z}{n+2z}}.

Если использовать стандартные отклонения для приближения к 95% доверительному интервалу ( ⁠ ⁠ ), то получим псевдосчетчик 2 для каждого результата, то есть всего 4, что в разговорной речи известно как «правило плюс четыре»: $z=2$ $z\approx 1.96$

{\frac {n_{S}+2}{n+4}}.

Это также середина интервала Агрести-Кулла (Agresti & Coull 1998).

Обобщено для случая известных показателей заболеваемости

Часто смещение неизвестной исследуемой популяции проверяется по сравнению с контрольной популяцией с известными параметрами (частотами). В этом случае равномерную вероятность следует заменить известной частотой заболеваемости контрольной популяции для расчета сглаженной оценки: ${\boldsymbol {\mu }}=\langle \mu _{1},\mu _{2},\ldots ,\mu _{d}\rangle .$ $1/d$ $\mu _{i}$

{\hat {\theta }}_{i}={\frac {x_{i}+\mu _{i}\alpha d}{N+\alpha d}}\qquad (i=1,\ldots ,d).

В качестве проверки согласованности, если эмпирическая оценка оказывается равной показателю заболеваемости, то есть сглаженная оценка независима от показателя заболеваемости и также равна ему. $\mu _{i}=x_{i}/N,$ $\alpha$

Приложения

Классификация

Аддитивное сглаживание обычно является компонентом наивных байесовских классификаторов .

Статистическое моделирование языка

В модели обработки естественного языка и поиска информации «мешок слов» данные состоят из числа вхождений каждого слова в документе. Аддитивное сглаживание позволяет назначать ненулевые вероятности словам, которые не встречаются в выборке. Недавние исследования доказали, что аддитивное сглаживание более эффективно, чем другие методы сглаживания вероятности, в нескольких задачах поиска, таких как основанная на языковой модели обратная связь по псевдорелевантности и рекомендательные системы . ^[5]^[6]

Смотрите также

Ссылки

^ CD Manning, P. Raghavan и H. Schütze (2008). Введение в информационный поиск . Cambridge University Press, стр. 260.
^ Джурафски, Дэниел; Мартин, Джеймс Х. (июнь 2008 г.). Обработка речи и языка (2-е изд.). Prentice Hall. стр. 132. ISBN 978-0-13-187321-6.
^ Рассел, Стюарт; Норвиг, Питер (2010). Искусственный интеллект: современный подход (2-е изд.). Pearson Education, Inc. стр. 863.
↑ Лекция 5 | Машинное обучение (Стэнфорд) в 1 ч 10 м лекции
^ Хазиме, Хуссейн; Чжай, Чэнсян. «Аксиоматический анализ методов сглаживания в языковых моделях для обратной связи по псевдорелевантности». Труды Международной конференции по теории информационного поиска 2015 г. ICTIR '15 .
^ Валькарсе, Даниэль; Парапар, Хавьер; Баррейро, Альваро. «Аддитивное сглаживание для моделирования языка на основе релевантности в рекомендательных системах». Труды CERI '16 4-й Испанской конференции по информационному поиску .

Источники

Уилсон, ЭБ (1927). «Вероятный вывод, закон наследования и статистический вывод». Журнал Американской статистической ассоциации . 22 (158): 209–212. doi :10.1080/01621459.1927.10502953. JSTOR 2276774.
Агрести, Алан; Коулл, Брент А. (1998). «Приблизительное лучше, чем «точное» для интервальной оценки биномиальных пропорций». The American Statistician . 52 (2): 119–126. doi :10.2307/2685469. JSTOR 2685469. MR 1628435.

Внешние ссылки

SF Chen, J Goodman (1996). "Эмпирическое исследование методов сглаживания для моделирования языка". Труды 34-го ежегодного собрания Ассоциации компьютерной лингвистики .
Псевдосчеты
- Байесовская интерпретация псевдосчетных регуляризаторов
Видеоролик, объясняющий использование аддитивного сглаживания в наивном байесовском классификаторе