Усадка (статистика)

В статистике сокращение — это уменьшение эффектов вариации выборки. В регрессионном анализе подобранное отношение, по-видимому, работает хуже на новом наборе данных, чем на наборе данных, использованном для подгонки. [ ^1] В частности, значение коэффициента детерминации «сжимается». Эта идея дополняет переобучение и, отдельно, стандартную корректировку, сделанную в коэффициенте детерминации для компенсации сослагательных эффектов дальнейшей выборки, например, контроль за потенциалом новых пояснительных терминов, улучшающих модель случайно: то есть сама формула корректировки обеспечивает «сокращение». Но формула корректировки приводит к искусственному сокращению.

Оценщик усадки — это оценщик , который явно или неявно учитывает эффекты усадки. В общих чертах это означает, что наивная или сырая оценка улучшается путем объединения ее с другой информацией. Термин относится к представлению о том, что улучшенная оценка становится ближе к значению, предоставленному «другой информацией», чем сырая оценка. В этом смысле усадка используется для регуляризации некорректных задач вывода .

Сжатие подразумевается в байесовском выводе и выводе штрафного правдоподобия и явно в выводе типа Джеймса–Стейна . Напротив, простые типы процедур оценки максимального правдоподобия и наименьших квадратов не включают эффекты сжатия, хотя они могут использоваться в схемах оценки сжатия.

Описание

Многие стандартные оценщики могут быть улучшены с точки зрения средней квадратичной ошибки (MSE), сужая их до нуля (или любого другого конечного постоянного значения). Другими словами, улучшение оценки от соответствующего уменьшения ширины доверительного интервала может перевесить ухудшение оценки, вызванное смещением оценки до нуля (см. компромисс смещения-дисперсии ).

Предположим, что ожидаемое значение сырой оценки не равно нулю, и рассмотрим другие оценщики, полученные путем умножения сырой оценки на определенный параметр. Значение этого параметра может быть указано таким образом, чтобы минимизировать MSE новой оценки. Для этого значения параметра новая оценка будет иметь меньшую MSE, чем сырая. Таким образом, она была улучшена. Эффект здесь может заключаться в преобразовании несмещенной сырой оценки в улучшенную смещенную.

Примеры

Известный пример возникает при оценке дисперсии популяции с помощью дисперсии выборки . Для размера выборки n использование делителя n − 1 в обычной формуле ( поправка Бесселя ) дает несмещенную оценку, в то время как другие делители имеют более низкую MSE за счет смещения. Оптимальный выбор делителя (взвешивание сокращения) зависит от избыточного эксцесса популяции, как обсуждалось в среднеквадратической ошибке: дисперсия , но всегда можно добиться лучшего (с точки зрения MSE), чем несмещенная оценка; для нормального распределения делитель n + 1 дает оценку, которая имеет минимальную среднеквадратичную ошибку.

Методы

Типы регрессии , включающие оценки усадки, включают гребневую регрессию , где коэффициенты, полученные из обычной регрессии наименьших квадратов, приближаются к нулю путем умножения на константу ( коэффициент усадки ), и лассо-регрессию , где коэффициенты приближаются к нулю путем прибавления или вычитания константы.

Использование оценок сжатия в контексте регрессионного анализа, где может быть большое количество объясняющих переменных, было описано Копасом. ^[2] Здесь значения оцененных коэффициентов регрессии сжимаются до нуля с эффектом уменьшения среднеквадратической ошибки предсказанных значений из модели при применении к новым данным. Более поздняя статья Копаса ^[3] применяет сокращение в контексте, где проблема заключается в прогнозировании бинарного отклика на основе бинарных объясняющих переменных.

Хауссер и Стриммер «разрабатывают оценщик усадки типа Джеймса-Стейна, что приводит к процедуре, которая является высокоэффективной как статистически, так и вычислительно. Несмотря на свою простоту, ...она превосходит восемь других процедур оценки энтропии в широком диапазоне сценариев выборки и моделей генерации данных, даже в случаях серьезной недостаточной выборки. ...метод полностью аналитический и, следовательно, вычислительно недорогой. Более того, ...процедура одновременно обеспечивает оценки энтропии и частот ячеек. ...Предложенные оценщики усадки энтропии и взаимной информации, а также все другие исследованные оценщики энтропии были реализованы в R (R Development Core Team, 2008). Соответствующий пакет R «entropy» был размещен в архиве R CRAN и доступен по URL https://cran.r-project.org/web/packages/entropy/ в соответствии с лицензией GNU General Public License». ^[4]

Смотрите также

Статистическое программное обеспечение

Хауссер, Жан. "энтропия". Пакет энтропии для R. Получено 23.03.2013 .

Ссылки

^ Эверитт Б.С. (2002) Кембриджский словарь статистики (2-е издание), CUP. ISBN 0-521-81099-X
^ Копас, Дж. Б. (1983). «Регрессия, прогнозирование и сокращение». Журнал Королевского статистического общества, серия B. 45 ( 3): 311–354. JSTOR 2345402. MR 0737642.
^ Копас, Дж. Б. (1993). «Сокращение методов оценки по точкам». Журнал Королевского статистического общества, Серия C. 42 ( 2): 315–331. JSTOR 2986235.
^ Хауссер, Жан; Стриммер (2009). «Вывод энтропии и оценщик Джеймса-Стейна с применением к нелинейным сетям ассоциаций генов» (PDF) . Журнал исследований машинного обучения . 10 : 1469–1484 . Получено 23.03.2013 .