В статистике аддитивное сглаживание , также называемое сглаживанием Лапласа [1] или сглаживанием Лидстоуна , представляет собой метод, используемый для сглаживания данных подсчетов, устраняющий проблемы, вызванные определенными значениями, имеющими 0 вхождений. При наличии набора подсчетов наблюдений из -мерного мультиномиального распределения с испытаниями, «сглаженная» версия подсчетов дает оценку
где сглаженное число , а «псевдочисло» α > 0 — параметр сглаживания , причем α = 0 соответствует отсутствию сглаживания (этот параметр объясняется в § Псевдочисло ниже). Аддитивное сглаживание — это тип оценки сжатия , поскольку результирующая оценка будет находиться между эмпирической вероятностью ( относительной частотой ) и равномерной вероятностью. Используя правило последовательности Лапласа , некоторые авторы утверждали [ требуется ссылка ] , что α должно быть равно 1 (в этом случае также используется термин сглаживание с добавлением одного [2] [3] ) [ требуется дополнительное объяснение ] , хотя на практике обычно выбирается меньшее значение.
С байесовской точки зрения это соответствует ожидаемому значению апостериорного распределения , использующего симметричное распределение Дирихле с параметром α в качестве априорного распределения . В особом случае, когда число категорий равно 2, это эквивалентно использованию бета-распределения в качестве сопряженного априорного для параметров биномиального распределения .
Лаплас придумал этот метод сглаживания, когда пытался оценить вероятность того, что солнце взойдет завтра. Его обоснование состояло в том, что даже при наличии большой выборки дней с восходящим солнцем мы все равно не можем быть полностью уверены, что солнце все еще взойдет завтра (известно как проблема восхода солнца ). [4]
Псевдосчет — это количество (обычно не целое число, несмотря на свое название), добавляемое к числу наблюдаемых случаев для изменения ожидаемой вероятности в модели этих данных, когда неизвестно, что она равна нулю. Он так назван потому, что, грубо говоря, псевдосчетчик значения весит в апостериорном распределении аналогично каждой категории, имеющей дополнительный счет . Если частота каждого элемента находится вне выборок, эмпирическая вероятность события равна
но апостериорная вероятность при аддитивном сглаживании равна
как будто для того, чтобы априори увеличить каждый счет .
В зависимости от предшествующих знаний, которые иногда являются субъективной величиной, псевдосчет может иметь любое неотрицательное конечное значение. Он может быть равен нулю (или возможность игнорируется), если это невозможно по определению, например, возможность того, что десятичная цифра π является буквой, или физическая возможность, которая будет отклонена и, таким образом, не учтена, например, компьютер печатает букву при запуске допустимой программы для π , или исключена и не учтена из-за отсутствия интереса, например, если интересны только нули и единицы. Как правило, также существует вероятность того, что никакое значение не может быть вычислено или наблюдаемо за конечное время (см. проблему остановки ). Но по крайней мере одна возможность должна иметь ненулевой псевдосчет, в противном случае никакое предсказание не может быть вычислено до первого наблюдения. Относительные значения псевдосчетов представляют собой относительные предшествующие ожидаемые вероятности их возможностей. Сумма псевдосчетов, которая может быть очень большой, представляет собой предполагаемый вес предшествующих знаний по сравнению со всеми фактическими наблюдениями (по одному для каждого) при определении ожидаемой вероятности.
В любом наблюдаемом наборе данных или образце существует вероятность, особенно с маловероятными событиями и с небольшими наборами данных, того, что возможное событие не произойдет. Его наблюдаемая частота, следовательно, равна нулю, что, по-видимому, подразумевает вероятность, равную нулю. Это упрощение неточно и часто бесполезно, особенно в методах машинного обучения на основе вероятности, таких как искусственные нейронные сети и скрытые марковские модели . Искусственно корректируя вероятность редких (но не невозможных) событий так, чтобы эти вероятности не были точно равны нулю, можно избежать проблем с нулевой частотой . См. также правило Кромвеля .
Самый простой подход — добавить единицу к каждому наблюдаемому числу событий, включая возможности нулевого счета. Иногда это называют правилом последовательности Лапласа . Этот подход эквивалентен предположению о равномерном априорном распределении вероятностей для каждого возможного события (охватывающего симплекс, где каждая вероятность находится между 0 и 1, и все они в сумме дают 1).
Используя априорный подход Джеффриса, к каждому возможному результату следует добавить псевдосчетчик, равный половине.
Псевдосчеты следует устанавливать на единицу только тогда, когда нет никаких предварительных знаний вообще – см. принцип безразличия . Однако, при наличии соответствующих предварительных знаний, сумма должна быть скорректирована пропорционально ожиданию того, что предварительные вероятности следует считать правильными, несмотря на доказательства обратного – см. дальнейший анализ . Более высокие значения уместны, поскольку есть предварительные знания об истинных значениях (например, для идеальной монеты); более низкие значения – поскольку есть предварительные знания о том, что существует вероятное смещение, но неизвестной степени (например, для гнутой монеты).
Более сложный подход заключается в оценке вероятности событий на основе других факторов и соответствующей корректировке.
Один из способов мотивировать псевдосчетчики, особенно для биномиальных данных, — это использовать формулу для средней точки интервальной оценки , особенно доверительного интервала биномиальной пропорции . Наиболее известная из них принадлежит Эдвину Бидвеллу Уилсону в работе Уилсона (1927): средняя точка интервала оценок Уилсона, соответствующая стандартным отклонениям с обеих сторон, равна
Если использовать стандартные отклонения для приближения к 95% доверительному интервалу ( ), то получим псевдосчетчик 2 для каждого результата, то есть всего 4, что в разговорной речи известно как «правило плюс четыре»:
Это также середина интервала Агрести-Кулла (Agresti & Coull 1998).
Часто смещение неизвестной исследуемой популяции проверяется по сравнению с контрольной популяцией с известными параметрами (частотами). В этом случае равномерную вероятность следует заменить известной частотой заболеваемости контрольной популяции для расчета сглаженной оценки:
В качестве проверки согласованности, если эмпирическая оценка оказывается равной показателю заболеваемости, то есть сглаженная оценка независима от показателя заболеваемости и также равна ему.
Аддитивное сглаживание обычно является компонентом наивных байесовских классификаторов .
В модели обработки естественного языка и поиска информации «мешок слов» данные состоят из числа вхождений каждого слова в документе. Аддитивное сглаживание позволяет назначать ненулевые вероятности словам, которые не встречаются в выборке. Недавние исследования доказали, что аддитивное сглаживание более эффективно, чем другие методы сглаживания вероятности, в нескольких задачах поиска, таких как основанная на языковой модели обратная связь по псевдорелевантности и рекомендательные системы . [5] [6]