Достаточная статистика

В статистике достаточность — это свойство статистики , вычисляемое на выборочном наборе данных по отношению к параметрической модели набора данных. Достаточная статистика содержит всю информацию, которую набор данных предоставляет о параметрах модели. Она тесно связана с концепциями вспомогательной статистики , которая не содержит никакой информации о параметрах модели, и полной статистики , которая содержит только информацию о параметрах и никакой вспомогательной информации.

Связанное понятие — это понятие линейной достаточности , которое слабее, чем достаточность , но может применяться в некоторых случаях, когда нет достаточной статистики, хотя оно ограничено линейными оценщиками. ^[1]Структурная функция Колмогорова имеет дело с отдельными конечными данными; связанное с ней понятие — алгоритмическая достаточная статистика.

Эта концепция была предложена сэром Рональдом Фишером в 1920 году. ^[2] Стивен Стиглер в 1973 году отметил, что концепция достаточности вышла из употребления в описательной статистике из-за сильной зависимости от предположения о форме распределения (см. теорему Питмана–Купмана–Дармуа ниже), но осталась очень важной в теоретической работе. ^[3]

Фон

Грубо говоря, если задан набор независимых одинаково распределенных данных, обусловленных неизвестным параметром , достаточная статистика — это функция , значение которой содержит всю информацию, необходимую для вычисления любой оценки параметра (например, оценки максимального правдоподобия ). В силу теоремы о факторизации (см. ниже) для достаточной статистики плотность вероятности можно записать как . Из этой факторизации легко увидеть, что оценка максимального правдоподобия будет взаимодействовать с только через . Обычно достаточная статистика — это простая функция данных, например, сумма всех точек данных. $\mathbf {X}$ $\тета$ $T(\mathbf {X} )$ $T(\mathbf {X} )$ $f_{\mathbf {X} }(x;\theta )=h(x)\,g(\theta ,T(x))$ $\тета$ $\mathbf {X}$ $T(\mathbf {X} )$

В более общем смысле «неизвестный параметр» может представлять собой вектор неизвестных величин или может представлять собой все, что неизвестно или не полностью определено в модели. В таком случае достаточная статистика может быть набором функций, называемым совместно достаточной статистикой . Обычно существует столько же функций, сколько и параметров. Например, для гауссовского распределения с неизвестным средним значением и дисперсией совместно достаточная статистика, из которой можно оценить оценки максимального правдоподобия обоих параметров, состоит из двух функций: суммы всех точек данных и суммы всех квадратов точек данных (или, что эквивалентно, выборочного среднего значения и выборочной дисперсии ).

Другими словами, совместное распределение вероятностей данных условно независимо от параметра, учитывая значение достаточной статистики для параметра . Как статистика, так и базовый параметр могут быть векторами.

Математическое определение

Статистика t = T ( X ) достаточна для базового параметра θ именно в том случае, если условное распределение вероятностей данных X , заданное статистикой t = T ( X ), не зависит от параметра θ . ^[4]

В качестве альтернативы можно сказать, что статистика T ( X ) достаточна для θ , если для всех априорных распределений по θ взаимная информация между θ и T(X) равна взаимной информации между θ и X. ^[5] Другими словами, неравенство обработки данных становится равенством:

I{\bigl (}\theta ;T(X){\bigr )}=I(\theta ;X)

Пример

Например, выборочное среднее достаточно для среднего ( μ ) нормального распределения с известной дисперсией. Как только выборочное среднее известно, из самой выборки нельзя получить никакой дополнительной информации о μ . С другой стороны, для произвольного распределения медианы недостаточно для среднего: даже если медиана выборки известна, знание самой выборки предоставит дополнительную информацию о среднем значении совокупности. Например, если наблюдения, которые меньше медианы, лишь немного меньше, но наблюдения, превышающие медиану, превосходят ее на большую величину, то это будет иметь отношение к выводу о среднем значении совокупности.

Теорема факторизации Фишера-Неймана

Теорема факторизации Фишера или критерий факторизации дает удобную характеристику достаточной статистики. Если функция плотности вероятности равна ƒ_θ ( x ), то T достаточно для θ тогда и только тогда, когда можно найти неотрицательные функции g и h , такие, что

f(x;\theta )=h(x)\,g(\theta ,T(x)),

т. е. плотность ƒ может быть разложена на множители таким образом, что один множитель, h , не зависит от θ , а другой множитель, который зависит от θ , зависит от x только через T ( x ). Общее доказательство этого было дано Халмошем и Сэвиджем ^[6] , и теорему иногда называют теоремой о факторизации Халмоша–Сэвиджа. ^[7] Приведенные ниже доказательства рассматривают особые случаи, но можно дать альтернативное общее доказательство в том же духе. ^[8] Во многих простых случаях функция плотности вероятности полностью определяется и , и (см. Примеры). $\theta$ $T(x)$ $h(x)=1$

Легко видеть, что если F ( t ) является функцией один к одному, а T является достаточной статистикой, то F ( T ) является достаточной статистикой. В частности, мы можем умножить достаточную статистику на ненулевую константу и получить другую достаточную статистику.

Интерпретация принципа правдоподобия

Следствием теоремы является то, что при использовании вывода на основе правдоподобия два набора данных, дающие одно и то же значение для достаточной статистики T ( X ), всегда будут давать одни и те же выводы о θ . По критерию факторизации зависимость правдоподобия от θ существует только в сочетании с T ( X ). Поскольку это одно и то же в обоих случаях, зависимость от θ также будет одинаковой, что приведет к идентичным выводам.

Доказательство

Согласно Хоггу и Крейгу. ^[9] Пусть , обозначает случайную выборку из распределения, имеющего плотность распределения f ( x , θ ) для ι < θ < δ . Пусть Y ₁ = u ₁ ( X ₁ , X ₂ , ..., X _n ) будет статистикой, плотность распределения которой равна g ₁ ( y ₁ ; θ ). Мы хотим доказать, что Y ₁ = u ₁ ( X ₁ , X ₂ , ..., X _n ) является достаточной статистикой для θ тогда и только тогда, когда для некоторой функции H , $X_{1},X_{2},\ldots ,X_{n}$

\prod _{i=1}^{n}f(x_{i};\theta )=g_{1}\left[u_{1}(x_{1},x_{2},\dots ,x_{n});\theta \right]H(x_{1},x_{2},\dots ,x_{n}).

Во-первых, предположим, что

\prod _{i=1}^{n}f(x_{i};\theta )=g_{1}\left[u_{1}(x_{1},x_{2},\dots ,x_{n});\theta \right]H(x_{1},x_{2},\dots ,x_{n}).

Сделаем преобразование y _i = u _i ( x ₁ , x ₂ , ..., x _n ), для i = 1, ..., n , имея обратные функции x _i = w _i ( y ₁ , y ₂ , ..., y _n ), для i = 1, ..., n , и якобиан . Таким образом, $J=\left[w_{i}/y_{j}\right]$

\prod _{i=1}^{n}f\left[w_{i}(y_{1},y_{2},\dots ,y_{n});\theta \right]=|J|g_{1}(y_{1};\theta )H\left[w_{1}(y_{1},y_{2},\dots ,y_{n}),\dots ,w_{n}(y_{1},y_{2},\dots ,y_{n})\right].

Левый член — это совместная функция плотности распределения g ( y ₁ , y ₂ , ..., y _n ; θ) функции Y ₁ = u ₁ ( X ₁ , ..., X _n ), ..., Y _n = u _n ( X ₁ , ..., X _n ). В правом члене — это функция плотности распределения , так что — это частное от деления и ; то есть это условная функция плотности распределения данного . $g_{1}(y_{1};\theta )$ $Y_{1}$ $H[w_{1},\dots ,w_{n}]|J|$ $g(y_{1},\dots ,y_{n};\theta )$ $g_{1}(y_{1};\theta )$ $h(y_{2},\dots ,y_{n}\mid y_{1};\theta )$ $Y_{2},\dots ,Y_{n}$ $Y_{1}=y_{1}$

Но , и таким образом , было дано не зависеть от . Поскольку не было введено в преобразование и , соответственно , не в якобиан , следует , что не зависит от и что является достаточной статистикой для . $H(x_{1},x_{2},\dots ,x_{n})$ $H\left[w_{1}(y_{1},\dots ,y_{n}),\dots ,w_{n}(y_{1},\dots ,y_{n}))\right]$ $\theta$ $\theta$ $J$ $h(y_{2},\dots ,y_{n}\mid y_{1};\theta )$ $\theta$ $Y_{1}$ $\theta$

Обратное доказывается следующим образом:

g(y_{1},\dots ,y_{n};\theta )=g_{1}(y_{1};\theta )h(y_{2},\dots ,y_{n}\mid y_{1}),

где не зависит от , поскольку зависят только от , которые независимы от при условии , достаточная статистика по гипотезе. Теперь разделим оба члена на абсолютное значение неисчезающего якобиана и заменим функциями в . Это дает $h(y_{2},\dots ,y_{n}\mid y_{1})$ $\theta$ $Y_{2}...Y_{n}$ $X_{1}...X_{n}$ $\Theta$ $Y_{1}$ $J$ $y_{1},\dots ,y_{n}$ $u_{1}(x_{1},\dots ,x_{n}),\dots ,u_{n}(x_{1},\dots ,x_{n})$ $x_{1},\dots ,x_{n}$

{\frac {g\left[u_{1}(x_{1},\dots ,x_{n}),\dots ,u_{n}(x_{1},\dots ,x_{n});\theta \right]}{|J^{*}|}}=g_{1}\left[u_{1}(x_{1},\dots ,x_{n});\theta \right]{\frac {h(u_{2},\dots ,u_{n}\mid u_{1})}{|J^{*}|}}

где есть якобиан с заменой на их значение в терминах . Левый член обязательно является совместной функцией PDF . Поскольку , и, таким образом , , не зависит от , то $J^{*}$ $y_{1},\dots ,y_{n}$ $x_{1},\dots ,x_{n}$ $f(x_{1};\theta )\cdots f(x_{n};\theta )$ $X_{1},\dots ,X_{n}$ $h(y_{2},\dots ,y_{n}\mid y_{1})$ $h(u_{2},\dots ,u_{n}\mid u_{1})$ $\theta$

H(x_{1},\dots ,x_{n})={\frac {h(u_{2},\dots ,u_{n}\mid u_{1})}{|J^{*}|}}

— это функция, которая не зависит от . $\theta$

Еще одно доказательство

Более простое и наглядное доказательство состоит в следующем, хотя оно применимо только в дискретном случае.

Мы используем сокращенную запись для обозначения совместной плотности вероятности через . Поскольку является функцией , то имеем , пока и ноль в противном случае. Следовательно: $(X,T(X))$ $f_{\theta }(x,t)$ $T$ $X$ $f_{\theta }(x,t)=f_{\theta }(x)$ $t=T(x)$

{\begin{aligned}f_{\theta }(x)&=f_{\theta }(x,t)\\[5pt]&=f_{\theta }(x\mid t)f_{\theta }(t)\\[5pt]&=f(x\mid t)f_{\theta }(t)\end{aligned}}

причем последнее равенство верно по определению достаточной статистики. Таким образом, при и . $f_{\theta }(x)=a(x)b_{\theta }(t)$ $a(x)=f_{X\mid t}(x)$ $b_{\theta }(t)=f_{\theta }(t)$

Наоборот, если , то мы имеем $f_{\theta }(x)=a(x)b_{\theta }(t)$

{\begin{aligned}f_{\theta }(t)&=\sum _{x:T(x)=t}f_{\theta }(x,t)\\[5pt]&=\sum _{x:T(x)=t}f_{\theta }(x)\\[5pt]&=\sum _{x:T(x)=t}a(x)b_{\theta }(t)\\[5pt]&=\left(\sum _{x:T(x)=t}a(x)\right)b_{\theta }(t).\end{aligned}}

Первое равенство следует из определения функции плотности распределения для нескольких переменных , второе — из замечания выше, третье — из предположения, а четвертое — потому что суммирование еще не закончено . $t$

Пусть обозначает условную плотность вероятности данного . Тогда мы можем вывести явное выражение для этого: $f_{X\mid t}(x)$ $X$ $T(X)$

{\begin{aligned}f_{X\mid t}(x)&={\frac {f_{\theta }(x,t)}{f_{\theta }(t)}}\\[5pt]&={\frac {f_{\theta }(x)}{f_{\theta }(t)}}\\[5pt]&={\frac {a(x)b_{\theta }(t)}{\left(\sum _{x:T(x)=t}a(x)\right)b_{\theta }(t)}}\\[5pt]&={\frac {a(x)}{\sum _{x:T(x)=t}a(x)}}.\end{aligned}}

С первым равенством по определению условной плотности вероятности, вторым по замечанию выше, третьим по доказанному выше равенству и четвертым по упрощению. Это выражение не зависит от и, таким образом, является достаточной статистикой. ^[10] $\theta$ $T$

Минимальная достаточность

Достаточная статистика является минимально достаточной , если ее можно представить как функцию любой другой достаточной статистики. Другими словами, S ( X ) является минимально достаточной тогда и только тогда, когда ^[11]

S ( X ) достаточно, и
если T ( X ) достаточно, то существует функция f такая, что S ( X ) = f ( T ( X )).

Интуитивно понятно, что минимально достаточная статистика наиболее эффективно охватывает всю возможную информацию о параметре θ .

Полезная характеристика минимальной достаточности заключается в том, что при наличии плотности f _θ S ( X ) является минимально достаточной тогда и только тогда, когда ^{[ необходима цитата ]}

{\frac {f_{\theta }(x)}{f_{\theta }(y)}}

не зависит от θ : S ( x ) = S ( y )

\Longleftrightarrow

Это следует из теоремы Фишера о факторизации, изложенной выше.

Случай, когда нет минимальной достаточной статистики, был показан Бахадуром в 1954 году. ^[12] Однако при мягких условиях минимальная достаточная статистика всегда существует. В частности, в евклидовом пространстве эти условия всегда выполняются, если случайные величины (связанные с ) все дискретны или все непрерывны. $P_{\theta }$

Если существует минимальная достаточная статистика, а это обычно так, то каждая полная достаточная статистика обязательно является минимально достаточной ^[13] (обратите внимание, что это утверждение не исключает патологический случай, в котором существует полная достаточная статистика, но нет минимальной достаточной статистики). Хотя трудно найти случаи, в которых минимальная достаточная статистика не существует, не так уж трудно найти случаи, в которых нет полной статистики.

Набор отношений правдоподобия для является минимальной достаточной статистикой, если пространство параметров дискретно . $\left\{{\frac {L(X\mid \theta _{i})}{L(X\mid \theta _{0})}}\right\}$ $i=1,...,k$ $\left\{\theta _{0},...,\theta _{k}\right\}$

Примеры

Распределение Бернулли

Если X ₁ , ...., X _n — независимые случайные величины , распределенные по закону Бернулли, с ожидаемым значением p , то сумма T ( X ) = X ₁ + ... + X _n является достаточной статистикой для p (здесь «успех» соответствует X _i = 1, а «неудача» — X _i = 0; таким образом, T — общее число успехов).

Это видно из рассмотрения совместного распределения вероятностей:

\Pr\{X=x\}=\Pr\{X_{1}=x_{1},X_{2}=x_{2},\ldots ,X_{n}=x_{n}\}.

Поскольку наблюдения независимы, это можно записать как

p^{x_{1}}(1-p)^{1-x_{1}}p^{x_{2}}(1-p)^{1-x_{2}}\cdots p^{x_{n}}(1-p)^{1-x_{n}}

и, собирая степени p и 1 − p , получаем

p^{\sum x_{i}}(1-p)^{n-\sum x_{i}}=p^{T(x)}(1-p)^{n-T(x)}

что удовлетворяет критерию факторизации, причем h ( x ) = 1 является просто константой.

Обратите внимание на важную особенность: неизвестный параметр p взаимодействует с данными x только через статистику T ( x ) = Σ x _i .

В качестве конкретного приложения это дает процедуру различения честной монеты от нечестной .

Равномерное распределение

Если X ₁ , ...., X _n независимы и равномерно распределены на интервале [0, θ ], то T ( X ) = max( X ₁ , ..., X _n ) достаточно для θ — максимум выборки является достаточной статистикой для максимума популяции.

Чтобы увидеть это, рассмотрим функцию плотности совместной вероятности X ( X ₁ ,..., X _n ). Поскольку наблюдения независимы , pdf можно записать как произведение индивидуальных плотностей

{\begin{aligned}f_{\theta }(x_{1},\ldots ,x_{n})&={\frac {1}{\theta }}\mathbf {1} _{\{0\leq x_{1}\leq \theta \}}\cdots {\frac {1}{\theta }}\mathbf {1} _{\{0\leq x_{n}\leq \theta \}}\\[5pt]&={\frac {1}{\theta ^{n}}}\mathbf {1} _{\{0\leq \min\{x_{i}\}\}}\mathbf {1} _{\{\max\{x_{i}\}\leq \theta \}}\end{aligned}}

где 1 _{{ ... }} — индикаторная функция . Таким образом, плотность принимает форму, требуемую теоремой о факторизации Фишера–Неймана, где h ( x ) = 1 _{{min{ x _i }≥0}} , а остальная часть выражения является функцией только θ и T ( x ) = max{ x _i }.

Фактически, несмещенная оценка с минимальной дисперсией (MVUE) для θ имеет вид

{\frac {n+1}{n}}T(X).

Это выборочный максимум, масштабированный для коррекции смещения , и является MVUE по теореме Лемана–Шеффе . Немасштабированный выборочный максимум T ( X ) является оценкой максимального правдоподобия для θ .

Равномерное распределение (с двумя параметрами)

Если независимы и равномерно распределены на интервале (где и — неизвестные параметры), то — двумерная достаточная статистика для . $X_{1},...,X_{n}$ $[\alpha ,\beta ]$ $\alpha$ $\beta$ $T(X_{1}^{n})=\left(\min _{1\leq i\leq n}X_{i},\max _{1\leq i\leq n}X_{i}\right)$ $(\alpha \,,\,\beta )$

Чтобы увидеть это, рассмотрим функцию плотности совместной вероятности . Поскольку наблюдения независимы, pdf можно записать как произведение индивидуальных плотностей, т.е. $X_{1}^{n}=(X_{1},\ldots ,X_{n})$

{\begin{aligned}f_{X_{1}^{n}}(x_{1}^{n})&=\prod _{i=1}^{n}\left({1 \over \beta -\alpha }\right)\mathbf {1} _{\{\alpha \leq x_{i}\leq \beta \}}=\left({1 \over \beta -\alpha }\right)^{n}\mathbf {1} _{\{\alpha \leq x_{i}\leq \beta ,\,\forall \,i=1,\ldots ,n\}}\\&=\left({1 \over \beta -\alpha }\right)^{n}\mathbf {1} _{\{\alpha \,\leq \,\min _{1\leq i\leq n}X_{i}\}}\mathbf {1} _{\{\max _{1\leq i\leq n}X_{i}\,\leq \,\beta \}}.\end{aligned}}

Совместная плотность выборки принимает форму, требуемую теоремой факторизации Фишера–Неймана, если допустить, что

{\begin{aligned}h(x_{1}^{n})=1,\quad g_{(\alpha ,\beta )}(x_{1}^{n})=\left({1 \over \beta -\alpha }\right)^{n}\mathbf {1} _{\{\alpha \,\leq \,\min _{1\leq i\leq n}X_{i}\}}\mathbf {1} _{\{\max _{1\leq i\leq n}X_{i}\,\leq \,\beta \}}.\end{aligned}}

Так как не зависит от параметра и зависит только от через функцию $h(x_{1}^{n})$ $(\alpha ,\beta )$ $g_{(\alpha \,,\,\beta )}(x_{1}^{n})$ $x_{1}^{n}$ $T(X_{1}^{n})=\left(\min _{1\leq i\leq n}X_{i},\max _{1\leq i\leq n}X_{i}\right),$

теорема Фишера–Неймана о факторизации подразумевает, что является достаточной статистикой для . $T(X_{1}^{n})=\left(\min _{1\leq i\leq n}X_{i},\max _{1\leq i\leq n}X_{i}\right)$ $(\alpha \,,\,\beta )$

Распределение Пуассона

Если X ₁ , ...., X _n независимы и имеют распределение Пуассона с параметром λ , то сумма T ( X ) = X ₁ + ... + X _n является достаточной статистикой для λ .

Чтобы увидеть это, рассмотрим совместное распределение вероятностей:

\Pr(X=x)=P(X_{1}=x_{1},X_{2}=x_{2},\ldots ,X_{n}=x_{n}).

Поскольку наблюдения независимы, это можно записать как

{e^{-\lambda }\lambda ^{x_{1}} \over x_{1}!}\cdot {e^{-\lambda }\lambda ^{x_{2}} \over x_{2}!}\cdots {e^{-\lambda }\lambda ^{x_{n}} \over x_{n}!}

что может быть записано как

e^{-n\lambda }\lambda ^{(x_{1}+x_{2}+\cdots +x_{n})}\cdot {1 \over x_{1}!x_{2}!\cdots x_{n}!}

что показывает, что критерий факторизации выполняется, где h ( x ) — обратная величина произведения факториалов. Обратите внимание, что параметр λ взаимодействует с данными только через свою сумму T ( X ).

Нормальное распределение

Если независимы и нормально распределены с ожидаемым значением (параметром) и известной конечной дисперсией , то $X_{1},\ldots ,X_{n}$ $\theta$ $\sigma ^{2},$

T(X_{1}^{n})={\overline {x}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}

достаточная статистика для $\theta .$

{\begin{aligned}f_{X_{1}^{n}}(x_{1}^{n})&=\prod _{i=1}^{n}{\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left(-{\frac {(x_{i}-\theta )^{2}}{2\sigma ^{2}}}\right)\\[6pt]&=(2\pi \sigma ^{2})^{-{\frac {n}{2}}}\exp \left(-\sum _{i=1}^{n}{\frac {(x_{i}-\theta )^{2}}{2\sigma ^{2}}}\right)\\[6pt]&=(2\pi \sigma ^{2})^{-{\frac {n}{2}}}\exp \left(-\sum _{i=1}^{n}{\frac {\left(\left(x_{i}-{\overline {x}}\right)-\left(\theta -{\overline {x}}\right)\right)^{2}}{2\sigma ^{2}}}\right)\\[6pt]&=(2\pi \sigma ^{2})^{-{\frac {n}{2}}}\exp \left(-{1 \over 2\sigma ^{2}}\left(\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}+\sum _{i=1}^{n}(\theta -{\overline {x}})^{2}-2\sum _{i=1}^{n}(x_{i}-{\overline {x}})(\theta -{\overline {x}})\right)\right)\\[6pt]&=(2\pi \sigma ^{2})^{-{\frac {n}{2}}}\exp \left(-{1 \over 2\sigma ^{2}}\left(\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}+n(\theta -{\overline {x}})^{2}\right)\right)&&\sum _{i=1}^{n}(x_{i}-{\overline {x}})(\theta -{\overline {x}})=0\\[6pt]&=(2\pi \sigma ^{2})^{-{\frac {n}{2}}}\exp \left(-{1 \over 2\sigma ^{2}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}\right)\exp \left(-{\frac {n}{2\sigma ^{2}}}(\theta -{\overline {x}})^{2}\right)\end{aligned}}

{\begin{aligned}h(x_{1}^{n})&=(2\pi \sigma ^{2})^{-{\frac {n}{2}}}\exp \left(-{1 \over 2\sigma ^{2}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}\right)\\[6pt]g_{\theta }(x_{1}^{n})&=\exp \left(-{\frac {n}{2\sigma ^{2}}}(\theta -{\overline {x}})^{2}\right)\end{aligned}}

Так как не зависит от параметра и зависит только от через функцию $h(x_{1}^{n})$ $\theta$ $g_{\theta }(x_{1}^{n})$ $x_{1}^{n}$

T(X_{1}^{n})={\overline {x}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i},

теорема Фишера–Неймана о факторизации подразумевает, что является достаточной статистикой для . $T(X_{1}^{n})$ $\theta$

Если неизвестно и поскольку , то указанную выше вероятность можно переписать как $\sigma ^{2}$ $s^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}$

{\begin{aligned}f_{X_{1}^{n}}(x_{1}^{n})=(2\pi \sigma ^{2})^{-n/2}\exp \left(-{\frac {n-1}{2\sigma ^{2}}}s^{2}\right)\exp \left(-{\frac {n}{2\sigma ^{2}}}(\theta -{\overline {x}})^{2}\right).\end{aligned}}

Теорема факторизации Фишера–Неймана по-прежнему верна и подразумевает, что является совместной достаточной статистикой для . $({\overline {x}},s^{2})$ $(\theta ,\sigma ^{2})$

Экспоненциальное распределение

Если независимы и экспоненциально распределены с ожидаемым значением θ (неизвестный действительный положительный параметр), то является достаточной статистикой для θ. $X_{1},\dots ,X_{n}$ $T(X_{1}^{n})=\sum _{i=1}^{n}X_{i}$

{\begin{aligned}f_{X_{1}^{n}}(x_{1}^{n})&=\prod _{i=1}^{n}{1 \over \theta }\,e^{{-1 \over \theta }x_{i}}={1 \over \theta ^{n}}\,e^{{-1 \over \theta }\sum _{i=1}^{n}x_{i}}.\end{aligned}}

{\begin{aligned}h(x_{1}^{n})=1,\,\,\,g_{\theta }(x_{1}^{n})={1 \over \theta ^{n}}\,e^{{-1 \over \theta }\sum _{i=1}^{n}x_{i}}.\end{aligned}}

Так как не зависит от параметра и зависит только от через функцию $h(x_{1}^{n})$ $\theta$ $g_{\theta }(x_{1}^{n})$ $x_{1}^{n}$ $T(X_{1}^{n})=\sum _{i=1}^{n}X_{i}$

теорема Фишера–Неймана о факторизации подразумевает, что является достаточной статистикой для . $T(X_{1}^{n})=\sum _{i=1}^{n}X_{i}$ $\theta$

Гамма-распределение

Если независимы и распределены как , где и — неизвестные параметры гамма-распределения , то — двумерная достаточная статистика для . $X_{1},\dots ,X_{n}$ $\Gamma (\alpha \,,\,\beta )$ $\alpha$ $\beta$ $T(X_{1}^{n})=\left(\prod _{i=1}^{n}{X_{i}},\sum _{i=1}^{n}X_{i}\right)$ $(\alpha ,\beta )$

{\begin{aligned}f_{X_{1}^{n}}(x_{1}^{n})&=\prod _{i=1}^{n}\left({1 \over \Gamma (\alpha )\beta ^{\alpha }}\right)x_{i}^{\alpha -1}e^{(-1/\beta )x_{i}}\\[5pt]&=\left({1 \over \Gamma (\alpha )\beta ^{\alpha }}\right)^{n}\left(\prod _{i=1}^{n}x_{i}\right)^{\alpha -1}e^{{-1 \over \beta }\sum _{i=1}^{n}x_{i}}.\end{aligned}}

{\begin{aligned}h(x_{1}^{n})=1,\,\,\,g_{(\alpha \,,\,\beta )}(x_{1}^{n})=\left({1 \over \Gamma (\alpha )\beta ^{\alpha }}\right)^{n}\left(\prod _{i=1}^{n}x_{i}\right)^{\alpha -1}e^{{-1 \over \beta }\sum _{i=1}^{n}x_{i}}.\end{aligned}}

Так как не зависит от параметра и зависит только от через функцию $h(x_{1}^{n})$ $(\alpha \,,\,\beta )$ $g_{(\alpha \,,\,\beta )}(x_{1}^{n})$ $x_{1}^{n}$ $T(x_{1}^{n})=\left(\prod _{i=1}^{n}x_{i},\sum _{i=1}^{n}x_{i}\right),$

теорема Фишера-Неймана о факторизации подразумевает, что это достаточная статистика для $T(X_{1}^{n})=\left(\prod _{i=1}^{n}X_{i},\sum _{i=1}^{n}X_{i}\right)$ $(\alpha \,,\,\beta ).$

Теорема Рао–Блэквелла

Достаточность находит полезное применение в теореме Рао–Блэквелла , которая гласит, что если g ( X ) является любым видом оценки θ , то обычно условное ожидание g ( X ) при достаточной статистике T ( X ) является лучшей (в смысле наличия более низкой дисперсии ) оценкой θ и никогда не бывает хуже. Иногда можно очень легко построить очень грубую оценку g ( X ), а затем оценить это условное ожидаемое значение, чтобы получить оценку, которая является оптимальной в различных смыслах.

Экспоненциальная семья

Согласно теореме Питмана–Купмана–Дармуа, среди семейств распределений вероятностей, область определения которых не меняется с оцениваемым параметром, только в экспоненциальных семействах существует достаточная статистика, размерность которой остается ограниченной при увеличении размера выборки. Интуитивно это означает, что неэкспоненциальные семейства распределений на действительной прямой требуют непараметрической статистики для полного охвата информации в данных.

Менее кратко, предположим, что являются независимыми одинаково распределенными действительными случайными величинами, распределение которых, как известно, принадлежит некоторому семейству распределений вероятностей, параметризованному с помощью , удовлетворяющему определенным техническим условиям регулярности, тогда это семейство является экспоненциальным семейством тогда и только тогда, когда существует -значная достаточная статистика, число скалярных компонентов которой не увеличивается с увеличением размера выборки n . ^[14] $X_{n},n=1,2,3,\dots$ $\theta$ $\mathbb {R} ^{m}$ $T(X_{1},\dots ,X_{n})$ $m$

Эта теорема показывает, что существование конечномерной, действительной векторнозначной достаточной статистики резко ограничивает возможные формы семейства распределений на действительной прямой .

Когда параметры или случайные величины больше не являются действительными, ситуация становится более сложной. ^[15]

Другие виды достаточности

Байесовская достаточность

Альтернативная формулировка условия достаточности статистики, заданная в байесовском контексте, включает апостериорные распределения, полученные с использованием полного набора данных и с использованием только статистики. Таким образом, требование заключается в том, что для почти каждого x ,

\Pr(\theta \mid X=x)=\Pr(\theta \mid T(X)=t(x)).

В более общем плане, не прибегая к параметрической модели, можно сказать, что статистика T достаточно предсказательная , если

\Pr(X'=x'\mid X=x)=\Pr(X'=x'\mid T(X)=t(x)).

Оказывается, что эта «байесовская достаточность» является следствием приведенной выше формулировки, ^[16] однако они не являются напрямую эквивалентными в бесконечномерном случае. ^[17] Доступен ряд теоретических результатов для достаточности в байесовском контексте. ^[18]

Линейная достаточность

Понятие, называемое «линейной достаточностью», может быть сформулировано в байесовском контексте ^[19] и в более общем смысле. ^[20] Сначала определим наилучший линейный предиктор вектора Y на основе X как . Тогда линейная статистика T ( x ) является линейно достаточной ^[21], если ${\hat {E}}[Y\mid X]$

{\hat {E}}[\theta \mid X]={\hat {E}}[\theta \mid T(X)].

Смотрите также

Полнота статистики
Теорема Басу о независимости полных достаточных и вспомогательных статистик
Теорема Лемана–Шеффе : полная достаточная оценка является наилучшей оценкой своего ожидания
Теорема Рао–Блэквелла
Теорема Ченцова
Достаточное уменьшение размеров
Вспомогательная статистика

Примечания

^ Додж, И. (2003) — запись для линейной достаточности
^ Фишер, РА (1922). «О математических основах теоретической статистики». Philosophical Transactions of the Royal Society A. 222 ( 594–604): 309–368. Bibcode :1922RSPTA.222..309F. doi : 10.1098/rsta.1922.0009 . hdl : 2440/15172 . JFM 48.1280.02. JSTOR 91208.
^ Стиглер, Стивен (декабрь 1973 г.). «Исследования по истории вероятности и статистики. XXXII: Лаплас, Фишер и открытие концепции достаточности». Biometrika . 60 (3): 439–445. doi :10.1093/biomet/60.3.439. JSTOR 2334992. MR 0326872.
^ Казелла, Джордж; Бергер, Роджер Л. (2002). Статистический вывод, 2-е изд . Duxbury Press.
^ Cover, Thomas M. (2006). Элементы теории информации . Joy A. Thomas (2-е изд.). Hoboken, NJ: Wiley-Interscience. стр. 36. ISBN 0-471-24195-4. OCLC 59879802.
^ Halmos, PR; Savage, LJ (1949). «Применение теоремы Радона-Никодима к теории достаточных статистик». Анналы математической статистики . 20 (2): 225–241. doi : 10.1214/aoms/1177730032 . ISSN 0003-4851.
^ "Теорема о факторизации - Энциклопедия математики". encyclopediaofmath.org . Получено 2022-09-07 .
^ Таралдсен, Г. (2022). «Теорема факторизации для достаточности». Препринт . doi :10.13140/RG.2.2.15068.87687.
^ Хогг, Роберт В.; Крейг, Аллен Т. (1995). Введение в математическую статистику . Prentice Hall. ISBN 978-0-02-355722-4.
^ «Теорема Фишера–Неймана о факторизации».. Веб-страница на сайте Connexions (cnx.org)
^ Dodge (2003) — запись для минимальной достаточной статистики
^ Леманн и Каселла (1998), Теория точечной оценки , 2-е издание, Springer, стр. 37
^ Леманн и Каселла (1998), Теория точечной оценки , 2-е издание, Springer, стр. 42
^ Тикочинский, Y.; Тишби, NZ; Левин, RD (1984-11-01). «Альтернативный подход к выводу максимальной энтропии». Physical Review A. 30 ( 5): 2638–2644. Bibcode : 1984PhRvA..30.2638T. doi : 10.1103/physreva.30.2638. ISSN 0556-2791.
^ Андерсен, Эрлинг Бернхард (сентябрь 1970 г.). «Достаточность и экспоненциальные семейства для дискретных выборочных пространств». Журнал Американской статистической ассоциации . 65 (331): 1248–1255. doi :10.1080/01621459.1970.10481160. ISSN 0162-1459.
^ Бернардо, Дж. М .; Смит, А. Ф. М. (1994). "Раздел 5.1.4". Байесовская теория . Wiley. ISBN 0-471-92416-4.
^ Блэквелл, Д.; Рамамурти, Р.В. (1982). «Байесовский, но не классически достаточный статистический показатель». Annals of Statistics . 10 (3): 1025–1026. doi : 10.1214/aos/1176345895 . MR 0663456. Zbl 0485.62004.
^ Ногалес, АГ; Ойола, ДЖА; Перес, П. (2000). «Об условной независимости и связи между достаточностью и инвариантностью с байесовской точки зрения». Statistics & Probability Letters . 46 (1): 75–84. doi :10.1016/S0167-7152(99)00089-9. MR 1731351. Zbl 0964.62003.
^ Голдштейн, М.; О'Хаган, А. (1996). «Байесовская линейная достаточность и системы экспертных апостериорных оценок». Журнал Королевского статистического общества . Серия B. 58 (2): 301–316. JSTOR 2345978.
^ Годамбе, В. П. (1966). «Новый подход к выборке из конечных совокупностей. II Достаточность без распределения». Журнал Королевского статистического общества . Серия B. 28 (2): 320–328. JSTOR 2984375.
^ Witting, T. (1987). «Линейное свойство Маркова в теории достоверности». ASTIN Bulletin . 17 (1): 71–84. doi : 10.2143/ast.17.1.2014984 . hdl : 20.500.11850/422507 .

Ссылки

Холево, А.С. (2001) [1994], «Достаточная статистика», Энциклопедия математики , Издательство EMS
Lehmann, EL; Casella, G. (1998). Теория точечной оценки (2-е изд.). Springer. Глава 4. ISBN 0-387-98502-6.
Додж, И. (2003) Оксфордский словарь статистических терминов , OUP. ISBN 0-19-920613-9