Повторная выборка складного ножа

В статистике складной нож ( перекрестная проверка складным ножом) — это метод перекрестной проверки и, следовательно, форма повторной выборки . Это особенно полезно для оценки смещения и дисперсии . Складной нож появился раньше других распространенных методов повторной выборки, таких как бутстрап . Учитывая выборку размером , можно построить оценщик складного ножа путем агрегирования оценок параметров из каждой подвыборки размера, полученных путем исключения одного наблюдения. ^[1] $п$ $(n-1)$

Техника складного ножа была разработана Морисом Кенуем (1924–1973) в 1949 году и усовершенствована в 1956 году. Джон Тьюки расширил эту технику в 1958 году и предложил название «складной нож», потому что, как и обычный складной нож (компактный складной нож), это готовый инструмент, который может импровизировать решение множества проблем, хотя конкретные проблемы можно более эффективно решить с помощью специально разработанного инструмента. ^[2]

Складной нож — это линейная аппроксимация бутстрапа . ^[2]

Простой пример: средняя оценка

Оценщик параметра «складной нож» находится путем систематического исключения каждого наблюдения из набора данных и расчета оценки параметра по оставшимся наблюдениям, а затем агрегирования этих вычислений.

Например, если оцениваемый параметр — это генеральное среднее случайной величины , то для данного набора наблюдений iid естественной оценкой является выборочное среднее: $х$ $x_{1},...,x_{n}$

{\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}={\frac {1}{n}}\sum _{i\in [n]}x_{i},

где последняя сумма использовала другой способ указать, что индекс пробегает набор . $я$ $[n]=\{1,\ldots,n\}$

Затем мы действуем следующим образом: для каждого из них мы вычисляем среднее значение подвыборки складного ножа, состоящей из всех точек данных, кроме -й, и это называется -й репликой складного ножа: $я\в [п]$ ${\bar {x}}_{(i)}$ $я$ $я$

{\bar {x}}_{(i)}={\frac {1}{n-1}}\sum _{j\in [n],j\neq i}x_{j}, \quad \quad i=1,\dots,n.

Было бы полезно подумать, что эти повторы складного ножа дают нам приблизительное распределение выборочного среднего значения , и чем больше, тем лучше будет это приближение. Затем, наконец, чтобы получить оценку складного ножа, мы берем среднее значение этих повторений складного ножа: $п$ ${\bar {x}}_{(1)},\ldots ,{\bar {x}}_{(n)}$ ${\bar {x}}$ $п$ $п$

{\bar {x}}_{\mathrm {jack} }={\frac {1}{n}}\sum _{i=1}^{n}{\bar {x}}_{ (я)}.

Можно задаться вопросом о смещении и дисперсии . Из определения среднего значения повторов складного ножа можно попытаться рассчитать явно, и смещение - это тривиальный расчет, но дисперсия более сложна, поскольку повторы складного ножа не являются независимыми. ${\bar {x}}_{\mathrm {jack} }$ ${\bar {x}}_{\mathrm {jack} }$ ${\bar {x}}_{\mathrm {jack} }$

Для частного случая среднего можно явно показать, что оценка складного ножа равна обычной оценке:

{\frac {1}{n}}\sum _{i=1}^{n}{\bar {x}}_{(i)}={\bar {x}}.

Это устанавливает личность . Тогда, взяв ожидания, мы получим , что означает объективность, а приняв дисперсию, мы получим . Однако эти свойства обычно не справедливы для других параметров, кроме среднего. ${\bar {x}}_{\mathrm {jack} }={\bar {x}}$ $E[{\bar {x}} _ {\mathrm {jack} }]=E[{\bar {x}}]=E[x]$ ${\bar {x}}_{\mathrm {jack} }$ $V[{\bar {x}} _ {\mathrm {jack} }]=V[{\bar {x}}]=V[x]/n$

Этот простой пример для случая оценки среднего предназначен только для иллюстрации конструкции оценщика складного ножа, в то время как реальные тонкости (и полезность) проявляются в случае оценки других параметров, таких как моменты, более высокие, чем среднее значение, или другие функционалы от распределение.

${\bar {x}}_{\mathrm {jack} }$ может быть использовано для построения эмпирической оценки смещения , а именно с некоторым подходящим коэффициентом , хотя в этом случае мы знаем, что эта конструкция не добавляет никаких значимых знаний, но дает правильную оценку смещения (которая равна нулю) . ${\bar {x}}$ ${\widehat {\operatorname {bias} }}({\bar {x}})_{\mathrm {jack} }=c({\bar {x}}_{\mathrm {jack} } - {\бар {x}})$ $c>0$ ${\bar {x}}_{\mathrm {jack} }={\bar {x}}$

Оценку дисперсии складного ножа можно рассчитать на основе дисперсии повторов складного ножа : ^[3]^[4] ${\bar {x}}$ ${\bar {x}}_{(i)}$

{\widehat {\operatorname {var} }}({\bar {x}})_{\mathrm {jack} }={\frac {n-1}{n}}\sum _{i=1}^{n}({\bar {x}}_{(i)}-{\bar {x}}_{\mathrm {jack} })^{2}={\frac {1}{n(n-1)}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}.

Левое равенство определяет оценщик , а правое равенство представляет собой тождество, которое можно проверить напрямую. Затем, взяв ожидания, мы получаем , так что это несмещенная оценка дисперсии . ${\widehat {\operatorname {var} }}({\bar {x}})_{\mathrm {jack} }$ $E[{\widehat {\operatorname {var} }}({\bar {x}})_{\mathrm {jack} }]=V[x]/n=V[{\bar {x}}]$ ${\bar {x}}$

Оценка смещения оценщика

Метод «складного ножа» можно использовать для оценки (и корректировки) смещения оценщика, рассчитанного по всей выборке.

Предположим , это целевой параметр, который, как предполагается, является некоторым функционалом распределения . На основе конечного набора наблюдений , который, как предполагается, состоит из iid копий , строится оценщик : $\theta$ $x$ $x_{1},...,x_{n}$ $x$ ${\hat {\theta }}$

{\hat {\theta }}=f_{n}(x_{1},\ldots ,x_{n}).

Значение зависит от выборки, поэтому это значение будет меняться от одной случайной выборки к другой. ${\hat {\theta }}$

По определению, смещение выглядит следующим образом: ${\hat {\theta }}$

{\text{bias}}({\hat {\theta }})=E[{\hat {\theta }}]-\theta .

Можно вычислить несколько значений из нескольких выборок и усреднить их, чтобы вычислить эмпирическую аппроксимацию , но это невозможно, когда нет «других выборок», когда для расчета использовался весь набор доступных наблюдений . В такой ситуации может помочь метод повторной выборки «складной нож». ${\hat {\theta }}$ $E[{\hat {\theta }}]$ $x_{1},...,x_{n}$ ${\hat {\theta }}$

Конструируем повторы складного ножа:

{\hat {\theta }}_{(1)}=f_{n-1}(x_{2},x_{3}\ldots ,x_{n})

{\hat {\theta }}_{(2)}=f_{n-1}(x_{1},x_{3},\ldots ,x_{n})

\vdots

{\hat {\theta }}_{(n)}=f_{n-1}(x_{1},x_{2},\ldots ,x_{n-1})

где каждый экземпляр представляет собой оценку с «исключением одного» на основе подвыборки складного ножа, состоящей из всех точек данных, кроме одной:

{\hat {\theta }}_{(i)}=f_{n-1}(x_{1},\ldots ,x_{i-1},x_{i+1},\ldots ,x_{n})\quad \quad i=1,\dots ,n.

Затем мы определяем их среднее значение:

{\hat {\theta }}_{\mathrm {jack} }={\frac {1}{n}}\sum _{i=1}^{n}{\hat {\theta }}_{(i)}

Складная оценка смещения определяется следующим образом: ${\hat {\theta }}$

{\widehat {\text{bias}}}({\hat {\theta }})_{\mathrm {jack} }=(n-1)({\hat {\theta }}_{\mathrm {jack} }-{\hat {\theta }})

и результирующая оценка складного ножа с поправкой на смещение определяется по формуле: $\theta$

{\hat {\theta }}_{\text{jack}}^{*}={\hat {\theta }}-{\widehat {\text{bias}}}({\hat {\theta }})_{\mathrm {jack} }=n{\hat {\theta }}-(n-1){\hat {\theta }}_{\mathrm {jack} }.

Это устраняет смещение в частном случае, которым оно является, и уменьшает его в других случаях. ^[2] $O(n^{-1})$ $O(n^{-2})$

Оценка дисперсии оценщика

Метод «складного ножа» также можно использовать для оценки дисперсии оценщика, рассчитанного по всей выборке.

Смотрите также

Литература

Бергер, Ю.Г. (2007). «Оценщик дисперсии складного ножа для одноступенчатых стратифицированных выборок с неравными вероятностями». Биометрика . 94 (4): 953–964. doi : 10.1093/biomet/asm072.
Бергер, Ю.Г.; Рао, JNK (2006). «Скорректированный складной нож для вменения при выборке с неравной вероятностью без замены». Журнал Королевского статистического общества, серия B. 68 (3): 531–547. дои : 10.1111/j.1467-9868.2006.00555.x .
Бергер, Ю.Г.; Скиннер, CJ (2005). «Оценщик дисперсии складного ножа для выборки с неравной вероятностью». Журнал Королевского статистического общества, серия B. 67 (1): 79–89. дои : 10.1111/j.1467-9868.2005.00489.x.
Цзян, Дж.; Лахири, П.; Ван, С.М. (2002). «Единая теория складного ножа для эмпирического наилучшего прогнозирования с M-оценкой». Анналы статистики . 30 (6): 1782–810. дои : 10.1214/aos/1043351257 .
Джонс, Х.Л. (1974). «Складная оценка функций слоевых средств». Биометрика . 61 (2): 343–348. дои : 10.2307/2334363. JSTOR 2334363.
Киш, Л.; Франкель, MR (1974). «Вывод из сложных выборок». Журнал Королевского статистического общества, серия B. 36 (1): 1–37.
Кревски, Д.; Рао, JNK (1981). «Вывод на основе стратифицированных выборок: свойства линеаризации, складной нож и сбалансированные методы повторной репликации». Анналы статистики . 9 (5): 1010–1019. дои : 10.1214/aos/1176345580 .
Кенуй, Миннесота (1956). «Заметки о предвзятости в оценке». Биометрика . 43 (3–4): 353–360. дои : 10.1093/biomet/43.3-4.353.
Рао, JNK; Шао, Дж. (1992). «Оценка дисперсии складного ножа с использованием данных обследования при вменении горячей колоды». Биометрика . 79 (4): 811–822. дои : 10.1093/biomet/79.4.811.
Рао, JNK; Ву, CFJ; Юэ, К. (1992). «Некоторые недавние работы по методам повторной выборки для сложных опросов». Методика опроса . 18 (2): 209–217.
Шао Дж. и Ту Д. (1995). Складной нож и бутстрап. Спрингер-Верлаг, Инк.
Тьюки, JW (1958). «Смещение и уверенность в не совсем больших выборках (аннотация)». Анналы математической статистики . 29 (2): 614.
Ву, CFJ (1986). «Складной нож, Bootstrap и другие методы повторной выборки в регрессионном анализе». Анналы статистики . 14 (4): 1261–1295. дои : 10.1214/aos/1176350142 .

Примечания

^ Эфрон 1982, с. 2.
^ abc Cameron & Trivedi 2005, с. 375.
^ Эфрон 1982, с. 14.
^ Макинтош, Эйвери И. «Метод оценки складного ножа» (PDF) . Бостонский университет . Эйвери И. Макинтош. Архивировано из оригинала (PDF) 14 мая 2016 г. Проверено 30 апреля 2016 г.: п. 3.