Усадка (статистика)

В статистике сокращение — это уменьшение последствий вариации выборки. В регрессионном анализе подобранная связь, по-видимому, работает менее эффективно на новом наборе данных, чем на наборе данных, использованном для подбора. ^[1] В частности, «сжимается» значение коэффициента детерминации . Эта идея дополняет переобучение и, отдельно, стандартную корректировку, вносимую в коэффициент детерминации для компенсации сослагательного эффекта дальнейшей выборки, например, контроль возможности появления новых пояснительных терминов, улучшающих модель случайно: то есть корректировка сама формула обеспечивает «усадку». Но формула корректировки дает искусственное сокращение.

Средство оценки усадки — это средство оценки , которое явно или неявно учитывает эффекты усадки. Грубо говоря, это означает, что наивная или необработанная оценка улучшается путем объединения ее с другой информацией. Этот термин относится к идее, что улучшенная оценка приближается к значению, предоставляемому «прочей информацией», чем необработанная оценка. В этом смысле сокращение используется для регуляризации некорректных задач вывода .

Сокращение является неявным в байесовском выводе и выводе о штрафном правдоподобии и явным в выводе типа Джеймса – Штейна . Напротив, простые типы процедур оценки максимального правдоподобия и наименьших квадратов не включают эффекты усадки, хотя их можно использовать в схемах оценки усадки.

Описание

Многие стандартные средства оценки можно улучшить с точки зрения среднеквадратической ошибки (MSE), сократив их до нуля (или любого другого конечного постоянного значения). Другими словами, улучшение оценки за счет соответствующего уменьшения ширины доверительного интервала может перевесить ухудшение оценки, вызванное смещением оценки в сторону нуля (см. компромисс между смещением и дисперсией ).

Предположим, что ожидаемое значение необработанной оценки не равно нулю, и рассмотрим другие оценки, полученные путем умножения необработанной оценки на определенный параметр. Значение этого параметра можно указать так, чтобы минимизировать MSE новой оценки. Для этого значения параметра новая оценка будет иметь меньшую MSE, чем необработанная. Таким образом, он был улучшен. Эффектом здесь может быть преобразование несмещенной исходной оценки в улучшенную смещенную оценку.

Примеры

Хорошо известный пример возникает при оценке дисперсии генеральной совокупности по выборочной дисперсии . Для размера выборки n использование делителя n - 1 в обычной формуле ( поправка Бесселя ) дает несмещенную оценку, в то время как другие делители имеют более низкую СКО за счет смещения. Оптимальный выбор делителя (взвешивание сокращения) зависит от избыточного эксцесса генеральной совокупности, как обсуждается в статье « Среднеквадратическая ошибка: дисперсия» , но всегда можно добиться большего (с точки зрения MSE), чем несмещенная оценка; для нормального распределения делитель n + 1 дает тот, который имеет минимальную среднеквадратическую ошибку.

Методы

Типы регрессии , которые включают оценки усадки, включают регрессию гребня , где коэффициенты, полученные из обычной регрессии наименьших квадратов, приближаются к нулю путем умножения на константу ( коэффициент усадки ), и регрессию лассо , где коэффициенты приближаются к нулю путем сложения или вычитание константы.

Использование оценок усадки в контексте регрессионного анализа, где может существовать большое количество объясняющих переменных, было описано Копасом. ^[2] Здесь значения оцененных коэффициентов регрессии сжимаются до нуля, что приводит к уменьшению среднеквадратической ошибки прогнозируемых значений модели при применении к новым данным. В более поздней статье Копаса ^[3] сокращение применяется в контексте, где проблема состоит в том, чтобы предсказать бинарный ответ на основе бинарных объясняющих переменных.

Хауссер и Стриммер «разрабатывают систему оценки усадки типа Джеймса-Стейна, в результате чего получается процедура, которая является высокоэффективной как статистически, так и вычислительно. Несмотря на свою простоту, ... она превосходит восемь других процедур оценки энтропии в широком диапазоне сценариев выборки и модели, генерирующие данные, даже в случаях серьезной недостаточной выборки. ...метод является полностью аналитическим и, следовательно, недорогим в вычислительном отношении. Более того, ...процедура одновременно обеспечивает оценки энтропии и частот ячеек. энтропия и взаимная информация, а также все другие исследованные средства оценки энтропии были реализованы в R (R Development Core Team, 2008). Соответствующий пакет R «энтропия» был размещен в архиве R CRAN и доступен по URL-адресу https: //cran.r-project.org/web/packages/entropy/ под лицензией GNU General Public License». ^[4]

Смотрите также

Статистическое программное обеспечение