Достаточная статистика

В статистике статистика достаточна в отношении статистической модели и связанного с ней неизвестного параметра , если «никакая другая статистика, которая может быть рассчитана на основе той же выборки , не дает никакой дополнительной информации относительно значения параметра». ^[1] В частности, статистика достаточна для семейства вероятностных распределений , если выборка, на основе которой она рассчитывается, не дает никакой дополнительной информации, кроме статистики, о том, какое из этих вероятностных распределений является выборочным распределением .

Родственной концепцией является концепция линейной достаточности , которая слабее, чем достаточность , но может применяться в некоторых случаях, когда нет достаточной статистики, хотя она ограничена линейными оценками. ^[2]Структурная функция Колмогорова имеет дело с отдельными конечными данными; связанное с этим понятие – алгоритмическая достаточная статистика.

Эта концепция принадлежит сэру Рональду Фишеру в 1920 году. Стивен Стиглер отметил в 1973 году, что концепция достаточности вышла из моды в описательной статистике из-за сильной зависимости от предположения о форме распределения (см. теорему Питмана-Купмана-Дармуа ниже). ), но оставался очень важным в теоретической работе. ^[3]

Фон

Грубо говоря, при наличии набора независимых одинаково распределенных данных, обусловленных неизвестным параметром , достаточной статистикой является функция , значение которой содержит всю информацию, необходимую для вычисления любой оценки параметра (например, оценки максимального правдоподобия ). В соответствии с теоремой факторизации (см. ниже) для достаточной статистики плотность вероятности можно записать как . Из этой факторизации легко увидеть, что оценка максимального правдоподобия будет взаимодействовать только через . Обычно достаточная статистика представляет собой простую функцию данных, например, сумму всех точек данных. $\mathbf {X}$ ${\ displaystyle \ theta }$ ${\ displaystyle T (\ mathbf {X})}$ ${\ displaystyle T (\ mathbf {X})}$ ${\ displaystyle f _ {\ mathbf {X} } (x) = h (x) \, g (\ theta, T (x))}$ ${\ displaystyle \ theta }$ $\mathbf {X}$ ${\ displaystyle T (\ mathbf {X})}$

В более общем смысле «неизвестный параметр» может представлять собой вектор неизвестных величин или может представлять все, что касается модели, что неизвестно или не полностью указано. В таком случае достаточная статистика может представлять собой набор функций, называемый совместно достаточной статистикой . Обычно функций столько, сколько параметров. Например, для гауссовского распределения с неизвестным средним значением и дисперсией совместно достаточная статистика, из которой можно оценить оценки максимального правдоподобия обоих параметров, состоит из двух функций: суммы всех точек данных и суммы всех квадратов точек данных ( или, что то же самое, выборочное среднее и выборочная дисперсия ).

Другими словами, совместное распределение вероятностей данных условно независимо от параметра, учитывая значение достаточной статистики для параметра . И статистика, и базовый параметр могут быть векторами.

Математическое определение

Статистика t = T ( X ) достаточна для основного параметра θ именно в том случае, если условное распределение вероятностей данных X с учетом статистики t = T ( X ) не зависит от параметра θ . ^[4]

В качестве альтернативы можно сказать, что статистика T ( X ) достаточна для θ , если для всех предшествующих распределений по θ взаимная информация между θ и T(X) равна взаимной информации между θ и X. ^[5] Другими словами, неравенство обработки данных становится равенством:

{\ displaystyle I {\ bigl (} \ theta; T (X) {\ bigr)} = I (\ theta; X)}

Пример

Например, выборочное среднее достаточно для среднего значения ( μ ) нормального распределения с известной дисперсией. Если известно среднее значение выборки, из самой выборки невозможно получить дополнительную информацию о μ . С другой стороны, для произвольного распределения медианы недостаточно для определения среднего значения: даже если медиана выборки известна, знание самой выборки предоставит дополнительную информацию о среднем значении генеральной совокупности. Например, если наблюдения, которые меньше медианы, лишь немного меньше, а наблюдения, превышающие медиану, значительно превышают ее, то это будет иметь отношение к выводу о среднем значении генеральной совокупности.

Теорема о факторизации Фишера – Неймана

Теорема факторизации Фишера или критерий факторизации обеспечивает удобную характеристику достаточной статистики. Если функция плотности вероятности равна ƒ_θ ( x ), то T достаточно для θ тогда и только тогда, когда можно найти неотрицательные функции g и h такие, что

f_{\theta }(x)=h(x)\,g_{\theta }(T(x)),

т.е. плотность ƒ может быть разложена на произведение так, что один фактор, h , не зависит от θ , а другой фактор, который действительно зависит от θ , зависит от x только через T ( x ). Общее доказательство этого было дано Халмошем и Сэвиджем ^[6] , и эту теорему иногда называют теоремой факторизации Халмоша–Сэвиджа. ^[7] Приведенные ниже доказательства касаются особых случаев, но можно привести альтернативное общее доказательство в том же духе. ^[8]

Легко видеть, что если F ( t ) является взаимно однозначной функцией и T является достаточной статистикой, то F ( T ) является достаточной статистикой. В частности, мы можем умножить достаточную статистику на ненулевую константу и получить другую достаточную статистику.

Интерпретация принципа правдоподобия

Следствием теоремы является то, что при использовании вывода на основе правдоподобия два набора данных, дающие одно и то же значение для достаточной статистики T ( X ), всегда будут давать одни и те же выводы относительно θ . По критерию факторизации зависимость правдоподобия от θ существует только в сочетании с T ( X ). Поскольку в обоих случаях это одинаково, зависимость от θ также будет одинаковой, что приведет к идентичным выводам.

Доказательство

Благодаря Хоггу и Крейгу. ^[9] Пусть , обозначает случайную выборку из распределения, имеющего PDF f ( x , θ ) для ι < θ < δ . Пусть Y ₁ = u ₁ ( X ₁ , X ₂ , ..., X _n ) будет статистикой, PDF-файл которой равен g ₁ ( y ₁ ; θ ). Мы хотим доказать, что Y ₁ = u ₁ ( X ₁ , X ₂ , ..., X _n ) является достаточной статистикой для θ тогда и только тогда, когда для некоторой функции H $X_{1},X_{2},\ldots ,X_{n}$

\prod _{i=1}^{n}f(x_{i};\theta )=g_{1}\left[u_{1}(x_{1},x_{2},\dots ,x_{n});\theta \right]H(x_{1},x_{2},\dots ,x_{n}).

Во-первых, предположим, что

\prod _{i=1}^{n}f(x_{i};\theta )=g_{1}\left[u_{1}(x_{1},x_{2},\dots ,x_{n});\theta \right]H(x_{1},x_{2},\dots ,x_{n}).

Сделаем преобразование y _i = u _i ( x ₁ , x ₂ , ..., x _n ), для i = 1, ..., n , имея обратные функции x _i = w _i ( y ₁ , y ₂ , ..., y _n ), для i = 1, ..., n и якобиан . Таким образом, $J=\left[w_{i}/y_{j}\right]$

\prod _{i=1}^{n}f\left[w_{i}(y_{1},y_{2},\dots ,y_{n});\theta \right]=|J|g_{1}(y_{1};\theta )H\left[w_{1}(y_{1},y_{2},\dots ,y_{n}),\dots ,w_{n}(y_{1},y_{2},\dots ,y_{n})\right].

Левый элемент представляет собой совместную PDF-файлу g ( y ₁ , y ₂ , ..., y _n ; θ) Y ₁ = u ₁ ( X ₁ , ..., X _n ), ..., Y _n знак равно ты _п ( Икс ₁ , ..., Икс _п ). В правом члене находится PDF-файл , так что это частное от и ; то есть это условный PDF-файл данного файла . $g_{1}(y_{1};\theta )$ $Y_{1}$ $H[w_{1},\dots ,w_{n}]|J|$ $g(y_{1},\dots ,y_{n};\theta )$ $g_{1}(y_{1};\theta )$ $h(y_{2},\dots ,y_{n}\mid y_{1};\theta )$ $Y_{2},\dots ,Y_{n}$ $Y_{1}=y_{1}$

Но , и таким образом , было дано не зависеть . Так как не было введено в преобразование и соответственно не в якобиан , то отсюда следует, что не зависит от и это достаточная статистика для . $H(x_{1},x_{2},\dots ,x_{n})$ $H\left[w_{1}(y_{1},\dots ,y_{n}),\dots ,w_{n}(y_{1},\dots ,y_{n}))\right]$ $\theta$ $\theta$ $J$ $h(y_{2},\dots ,y_{n}\mid y_{1};\theta )$ $\theta$ $Y_{1}$ $\theta$

Обратное доказывается, если взять:

g(y_{1},\dots ,y_{n};\theta )=g_{1}(y_{1};\theta )h(y_{2},\dots ,y_{n}\mid y_{1}),

где не зависит от, потому что зависят только от , которые независимы, когда обусловлены достаточной статистикой по гипотезе. Теперь разделите оба члена на абсолютное значение ненулевого якобиана и замените функциями из . Это дает $h(y_{2},\dots ,y_{n}\mid y_{1})$ $\theta$ $Y_{2}...Y_{n}$ $X_{1}...X_{n}$ $\Theta$ $Y_{1}$ $J$ $y_{1},\dots ,y_{n}$ $u_{1}(x_{1},\dots ,x_{n}),\dots ,u_{n}(x_{1},\dots ,x_{n})$ $x_{1},\dots ,x_{n}$

{\frac {g\left[u_{1}(x_{1},\dots ,x_{n}),\dots ,u_{n}(x_{1},\dots ,x_{n});\theta \right]}{|J^{*}|}}=g_{1}\left[u_{1}(x_{1},\dots ,x_{n});\theta \right]{\frac {h(u_{2},\dots ,u_{n}\mid u_{1})}{|J^{*}|}}

где - якобиан с заменой их значения в терминах . Левый элемент обязательно является совместным PDF- файлом . Поскольку , и, следовательно , не зависит от , то $J^{*}$ $y_{1},\dots ,y_{n}$ $x_{1},\dots ,x_{n}$ $f(x_{1};\theta )\cdots f(x_{n};\theta )$ $X_{1},\dots ,X_{n}$ $h(y_{2},\dots ,y_{n}\mid y_{1})$ $h(u_{2},\dots ,u_{n}\mid u_{1})$ $\theta$

H(x_{1},\dots ,x_{n})={\frac {h(u_{2},\dots ,u_{n}\mid u_{1})}{|J^{*}|}}

это функция, которая не зависит от . $\theta$

Еще одно доказательство

Более простое и наглядное доказательство состоит в следующем, хотя оно применимо только в дискретном случае.

Мы используем сокращенное обозначение для обозначения совместной плотности вероятности by . Поскольку является функцией , мы имеем , пока и ноль в противном случае. Поэтому: $(X,T(X))$ $f_{\theta }(x,t)$ $T$ $X$ $f_{\theta }(x,t)=f_{\theta }(x)$ $t=T(x)$

{\begin{aligned}f_{\theta }(x)&=f_{\theta }(x,t)\\[5pt]&=f_{\theta }(x\mid t)f_{\theta }(t)\\[5pt]&=f(x\mid t)f_{\theta }(t)\end{aligned}}

причем последнее равенство истинно по определению достаточной статистики. Таким образом, с и . $f_{\theta }(x)=a(x)b_{\theta }(t)$ $a(x)=f_{X\mid t}(x)$ $b_{\theta }(t)=f_{\theta }(t)$

Обратно, если мы имеем $f_{\theta }(x)=a(x)b_{\theta }(t)$

{\begin{aligned}f_{\theta }(t)&=\sum _{x:T(x)=t}f_{\theta }(x,t)\\[5pt]&=\sum _{x:T(x)=t}f_{\theta }(x)\\[5pt]&=\sum _{x:T(x)=t}a(x)b_{\theta }(t)\\[5pt]&=\left(\sum _{x:T(x)=t}a(x)\right)b_{\theta }(t).\end{aligned}}

При первом равенстве по определению pdf для нескольких переменных , втором по замечанию выше, третьему по гипотезе и четвертому, потому что суммирование еще не закончено . $t$

Обозначим условную плотность вероятности данного . Тогда мы можем вывести для этого явное выражение: $f_{X\mid t}(x)$ $X$ $T(X)$

{\begin{aligned}f_{X\mid t}(x)&={\frac {f_{\theta }(x,t)}{f_{\theta }(t)}}\\[5pt]&={\frac {f_{\theta }(x)}{f_{\theta }(t)}}\\[5pt]&={\frac {a(x)b_{\theta }(t)}{\left(\sum _{x:T(x)=t}a(x)\right)b_{\theta }(t)}}\\[5pt]&={\frac {a(x)}{\sum _{x:T(x)=t}a(x)}}.\end{aligned}}

Причём первое равенство — по определению условной плотности вероятности, второе — по замечанию выше, третье — по доказанному выше равенству, четвертое — по упрощению. Это выражение не зависит от и поэтому является достаточной статистикой. ^[10] $\theta$ $T$

Минимальная достаточность

Достаточной статистикой называется минимально достаточная , если ее можно представить как функцию любой другой достаточной статистики. Другими словами, S ( X ) достаточно минимально тогда и только тогда, когда ^[11]

S ( X ) достаточно, и
если T ( X ) достаточно, то существует функция f такая, что S ( X ) = f ( T ( X )).

Интуитивно понятно, что минимальная достаточная статистика наиболее эффективно собирает всю возможную информацию о параметре θ .

Полезная характеристика минимальной достаточности состоит в том, что когда плотность f _θ существует, S ( X ) является минимально достаточным тогда и только тогда, когда ^{[ нужна цитата ]}

{\frac {f_{\theta }(x)}{f_{\theta }(y)}}

не зависит от θ : S ( x ) = S ( y )

\Longleftrightarrow

Это следует как следствие сформулированной выше факторизационной теоремы Фишера.

Случай, когда не существует минимальной достаточной статистики, был показан Бахадуром, 1954. ^[12] Однако в мягких условиях минимальная достаточная статистика всегда существует. В частности, в евклидовом пространстве эти условия всегда выполняются, если все случайные величины (связанные с ) дискретны или все непрерывны. $P_{\theta }$

Если существует минимальная достаточная статистика, а это обычно так, то каждая полная достаточная статистика обязательно является минимально достаточной ^[13] (заметим, что это утверждение не исключает патологического случая, когда полная достаточная статистика существует, но не существует минимально достаточной статистики). статистика). Хотя трудно найти случаи, в которых не существует минимально достаточной статистики, не так сложно найти случаи, в которых нет полной статистики.

Набор отношений правдоподобия для , является минимальной достаточной статистикой, если пространство параметров дискретно . $\left\{{\frac {L(X\mid \theta _{i})}{L(X\mid \theta _{0})}}\right\}$ $i=1,...,k$ $\left\{\theta _{0},...,\theta _{k}\right\}$

Примеры

Распределение Бернулли

Если X ₁ , ...., X _n — независимые случайные величины с распределением Бернулли и ожидаемым значением p , то сумма T ( X ) = X ₁ + ... + X _n является достаточной статистикой для p (здесь «успех» ' соответствует X _i = 1, а 'неудача' - X _i = 0; поэтому T - общее количество успехов)

Это видно, если рассмотреть совместное распределение вероятностей:

\Pr\{X=x\}=\Pr\{X_{1}=x_{1},X_{2}=x_{2},\ldots ,X_{n}=x_{n}\}.

Поскольку наблюдения независимы, это можно записать как

p^{x_{1}}(1-p)^{1-x_{1}}p^{x_{2}}(1-p)^{1-x_{2}}\cdots p^{x_{n}}(1-p)^{1-x_{n}}

и, собирая степени p и 1 − p , дает

p^{\sum x_{i}}(1-p)^{n-\sum x_{i}}=p^{T(x)}(1-p)^{n-T(x)}

который удовлетворяет критерию факторизации, где h ( x ) = 1 является просто константой.

Обратите внимание на важную особенность: неизвестный параметр p взаимодействует с данными x только через статистику T ( x ) = Σ x _i .

В качестве конкретного применения это дает процедуру отличия честной монеты от необъективной .

Равномерное распределение

Если X ₁ , ...., X _n независимы и равномерно распределены на интервале [0, θ ], то T ( X ) = max( X ₁ , ..., X _n ) достаточно для θ — выборки максимум является достаточной статистикой для максимума популяции.

Чтобы убедиться в этом, рассмотрим совместную функцию плотности вероятности X ( X _{1 ,}... , X _n ). Поскольку наблюдения независимы, PDF-файл можно записать как произведение отдельных плотностей.

{\begin{aligned}f_{\theta }(x_{1},\ldots ,x_{n})&={\frac {1}{\theta }}\mathbf {1} _{\{0\leq x_{1}\leq \theta \}}\cdots {\frac {1}{\theta }}\mathbf {1} _{\{0\leq x_{n}\leq \theta \}}\\[5pt]&={\frac {1}{\theta ^{n}}}\mathbf {1} _{\{0\leq \min\{x_{i}\}\}}\mathbf {1} _{\{\max\{x_{i}\}\leq \theta \}}\end{aligned}}

где 1 _{{ ... }} – индикаторная функция . Таким образом, плотность принимает форму, требуемую факторизационной теоремой Фишера-Неймана, где h ( x ) = 1 _{{min{ x _i }≥0}} , а остальная часть выражения является функцией только θ и T ( x ) = max { х _я }.

Фактически, несмещенная оценка минимальной дисперсии (MVUE) для θ равна

{\frac {n+1}{n}}T(X).

Это выборочный максимум, масштабированный для корректировки смещения , и по теореме Лемана-Шеффе он равен MVUE . Немасштабированный выборочный максимум T ( X ) является оценщиком максимального правдоподобия для θ .

Равномерное распределение (с двумя параметрами)

Если независимы и равномерно распределены на интервале (где и – неизвестные параметры), то это двумерная достаточная статистика для . $X_{1},...,X_{n}$ $[\alpha ,\beta ]$ $\alpha$ $\beta$ $T(X_{1}^{n})=\left(\min _{1\leq i\leq n}X_{i},\max _{1\leq i\leq n}X_{i}\right)$ $(\alpha \,,\,\beta )$

Чтобы убедиться в этом, рассмотрим совместную функцию плотности вероятности . Поскольку наблюдения независимы, PDF-файл можно записать как произведение отдельных плотностей, т.е. $X_{1}^{n}=(X_{1},\ldots ,X_{n})$

{\begin{aligned}f_{X_{1}^{n}}(x_{1}^{n})&=\prod _{i=1}^{n}\left({1 \over \beta -\alpha }\right)\mathbf {1} _{\{\alpha \leq x_{i}\leq \beta \}}=\left({1 \over \beta -\alpha }\right)^{n}\mathbf {1} _{\{\alpha \leq x_{i}\leq \beta ,\,\forall \,i=1,\ldots ,n\}}\\&=\left({1 \over \beta -\alpha }\right)^{n}\mathbf {1} _{\{\alpha \,\leq \,\min _{1\leq i\leq n}X_{i}\}}\mathbf {1} _{\{\max _{1\leq i\leq n}X_{i}\,\leq \,\beta \}}.\end{aligned}}

Совместная плотность выборки принимает форму, требуемую факторизационной теоремой Фишера – Неймана, позволяя

{\begin{aligned}h(x_{1}^{n})=1,\quad g_{(\alpha ,\beta )}(x_{1}^{n})=\left({1 \over \beta -\alpha }\right)^{n}\mathbf {1} _{\{\alpha \,\leq \,\min _{1\leq i\leq n}X_{i}\}}\mathbf {1} _{\{\max _{1\leq i\leq n}X_{i}\,\leq \,\beta \}}.\end{aligned}}

Так как не зависит от параметра и зависит только от через функцию $h(x_{1}^{n})$ $(\alpha ,\beta )$ $g_{(\alpha \,,\,\beta )}(x_{1}^{n})$ $x_{1}^{n}$ $T(X_{1}^{n})=\left(\min _{1\leq i\leq n}X_{i},\max _{1\leq i\leq n}X_{i}\right),$

теорема факторизации Фишера-Неймана предполагает, что это достаточная статистика для . $T(X_{1}^{n})=\left(\min _{1\leq i\leq n}X_{i},\max _{1\leq i\leq n}X_{i}\right)$ $(\alpha \,,\,\beta )$

распределение Пуассона

Если X ₁ , ...., X _n независимы и имеют распределение Пуассона с параметром λ , то сумма T ( X ) = X ₁ + ... + X _n является достаточной статистикой для λ .

Чтобы убедиться в этом, рассмотрим совместное распределение вероятностей:

\Pr(X=x)=P(X_{1}=x_{1},X_{2}=x_{2},\ldots ,X_{n}=x_{n}).

Поскольку наблюдения независимы, это можно записать как

{e^{-\lambda }\lambda ^{x_{1}} \over x_{1}!}\cdot {e^{-\lambda }\lambda ^{x_{2}} \over x_{2}!}\cdots {e^{-\lambda }\lambda ^{x_{n}} \over x_{n}!}

который можно записать как

e^{-n\lambda }\lambda ^{(x_{1}+x_{2}+\cdots +x_{n})}\cdot {1 \over x_{1}!x_{2}!\cdots x_{n}!}

который показывает, что критерий факторизации удовлетворен, где h ( x ) является обратной величиной произведения факториалов. Обратите внимание, что параметр λ взаимодействует с данными только через свою сумму T ( X ).

Нормальное распределение

Если они независимы и нормально распределены с ожидаемым значением (параметром) и известной конечной дисперсией, то $X_{1},\ldots ,X_{n}$ $\theta$ $\sigma ^{2},$

T(X_{1}^{n})={\overline {x}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}

является достаточной статистикой для $\theta .$

{\begin{aligned}f_{X_{1}^{n}}(x_{1}^{n})&=\prod _{i=1}^{n}{\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left(-{\frac {(x_{i}-\theta )^{2}}{2\sigma ^{2}}}\right)\\[6pt]&=(2\pi \sigma ^{2})^{-{\frac {n}{2}}}\exp \left(-\sum _{i=1}^{n}{\frac {(x_{i}-\theta )^{2}}{2\sigma ^{2}}}\right)\\[6pt]&=(2\pi \sigma ^{2})^{-{\frac {n}{2}}}\exp \left(-\sum _{i=1}^{n}{\frac {\left(\left(x_{i}-{\overline {x}}\right)-\left(\theta -{\overline {x}}\right)\right)^{2}}{2\sigma ^{2}}}\right)\\[6pt]&=(2\pi \sigma ^{2})^{-{\frac {n}{2}}}\exp \left(-{1 \over 2\sigma ^{2}}\left(\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}+\sum _{i=1}^{n}(\theta -{\overline {x}})^{2}-2\sum _{i=1}^{n}(x_{i}-{\overline {x}})(\theta -{\overline {x}})\right)\right)\\[6pt]&=(2\pi \sigma ^{2})^{-{\frac {n}{2}}}\exp \left(-{1 \over 2\sigma ^{2}}\left(\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}+n(\theta -{\overline {x}})^{2}\right)\right)&&\sum _{i=1}^{n}(x_{i}-{\overline {x}})(\theta -{\overline {x}})=0\\[6pt]&=(2\pi \sigma ^{2})^{-{\frac {n}{2}}}\exp \left(-{1 \over 2\sigma ^{2}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}\right)\exp \left(-{\frac {n}{2\sigma ^{2}}}(\theta -{\overline {x}})^{2}\right)\end{aligned}}

{\begin{aligned}h(x_{1}^{n})&=(2\pi \sigma ^{2})^{-{\frac {n}{2}}}\exp \left(-{1 \over 2\sigma ^{2}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}\right)\\[6pt]g_{\theta }(x_{1}^{n})&=\exp \left(-{\frac {n}{2\sigma ^{2}}}(\theta -{\overline {x}})^{2}\right)\end{aligned}}

Так как не зависит от параметра и зависит только от через функцию $h(x_{1}^{n})$ $\theta$ $g_{\theta }(x_{1}^{n})$ $x_{1}^{n}$

T(X_{1}^{n})={\overline {x}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i},

теорема факторизации Фишера-Неймана предполагает, что это достаточная статистика для . $T(X_{1}^{n})$ $\theta$

Если неизвестно и поскольку , приведенную выше вероятность можно переписать как $\sigma ^{2}$ $s^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}$

{\begin{aligned}f_{X_{1}^{n}}(x_{1}^{n})=(2\pi \sigma ^{2})^{-n/2}\exp \left(-{\frac {n-1}{2\sigma ^{2}}}s^{2}\right)\exp \left(-{\frac {n}{2\sigma ^{2}}}(\theta -{\overline {x}})^{2}\right).\end{aligned}}

Теорема факторизации Фишера-Неймана все еще верна и подразумевает, что это совместная достаточная статистика для . $({\overline {x}},s^{2})$ $(\theta ,\sigma ^{2})$

Экспоненциальное распределение

Если они независимы и экспоненциально распределены с ожидаемым значением θ (неизвестный положительный параметр с действительным знаком), то это достаточная статистика для θ. $X_{1},\dots ,X_{n}$ $T(X_{1}^{n})=\sum _{i=1}^{n}X_{i}$

{\begin{aligned}f_{X_{1}^{n}}(x_{1}^{n})&=\prod _{i=1}^{n}{1 \over \theta }\,e^{{-1 \over \theta }x_{i}}={1 \over \theta ^{n}}\,e^{{-1 \over \theta }\sum _{i=1}^{n}x_{i}}.\end{aligned}}

{\begin{aligned}h(x_{1}^{n})=1,\,\,\,g_{\theta }(x_{1}^{n})={1 \over \theta ^{n}}\,e^{{-1 \over \theta }\sum _{i=1}^{n}x_{i}}.\end{aligned}}

Так как не зависит от параметра и зависит только от через функцию $h(x_{1}^{n})$ $\theta$ $g_{\theta }(x_{1}^{n})$ $x_{1}^{n}$ $T(X_{1}^{n})=\sum _{i=1}^{n}X_{i}$

теорема факторизации Фишера-Неймана предполагает, что это достаточная статистика для . $T(X_{1}^{n})=\sum _{i=1}^{n}X_{i}$ $\theta$

Гамма-распределение

Если независимы и распределены как , где и – неизвестные параметры гамма-распределения , то это двумерная достаточная статистика для . $X_{1},\dots ,X_{n}$ $\Gamma (\alpha \,,\,\beta )$ $\alpha$ $\beta$ $T(X_{1}^{n})=\left(\prod _{i=1}^{n}{X_{i}},\sum _{i=1}^{n}X_{i}\right)$ $(\alpha ,\beta )$

{\begin{aligned}f_{X_{1}^{n}}(x_{1}^{n})&=\prod _{i=1}^{n}\left({1 \over \Gamma (\alpha )\beta ^{\alpha }}\right)x_{i}^{\alpha -1}e^{(-1/\beta )x_{i}}\\[5pt]&=\left({1 \over \Gamma (\alpha )\beta ^{\alpha }}\right)^{n}\left(\prod _{i=1}^{n}x_{i}\right)^{\alpha -1}e^{{-1 \over \beta }\sum _{i=1}^{n}x_{i}}.\end{aligned}}

{\begin{aligned}h(x_{1}^{n})=1,\,\,\,g_{(\alpha \,,\,\beta )}(x_{1}^{n})=\left({1 \over \Gamma (\alpha )\beta ^{\alpha }}\right)^{n}\left(\prod _{i=1}^{n}x_{i}\right)^{\alpha -1}e^{{-1 \over \beta }\sum _{i=1}^{n}x_{i}}.\end{aligned}}

Так как не зависит от параметра и зависит только от через функцию $h(x_{1}^{n})$ $(\alpha \,,\,\beta )$ $g_{(\alpha \,,\,\beta )}(x_{1}^{n})$ $x_{1}^{n}$ $T(x_{1}^{n})=\left(\prod _{i=1}^{n}x_{i},\sum _{i=1}^{n}x_{i}\right),$

теорема факторизации Фишера-Неймана подразумевает, что это достаточная статистика для $T(X_{1}^{n})=\left(\prod _{i=1}^{n}X_{i},\sum _{i=1}^{n}X_{i}\right)$ $(\alpha \,,\,\beta ).$

Теорема Рао – Блэквелла

Достаточность находит полезное применение в теореме Рао -Блэквелла , которая утверждает, что если g ( X ) является любым видом оценки θ , то обычно условное ожидание g ( X ) с учетом достаточной статистики T ( X ) является лучшим (в смысл иметь более низкую дисперсию ) оценки θ и никогда не бывает хуже. Иногда можно очень легко построить очень грубую оценку g ( X ), а затем вычислить это условное ожидаемое значение, чтобы получить оценку, которая является в различных смыслах оптимальной.

Экспоненциальное семейство

Согласно теореме Питмана-Купмана-Дармуа, среди семейств вероятностных распределений, область определения которых не меняется в зависимости от оцениваемого параметра, только в экспоненциальных семействах существует достаточная статистика, размерность которой остается ограниченной при увеличении размера выборки. Интуитивно это означает, что неэкспоненциальные семейства распределений на реальной линии требуют непараметрической статистики для полного отражения информации в данных.

Менее кратко, предположим, что являются независимыми одинаково распределенными действительными случайными величинами, чье распределение, как известно, находится в некотором семействе вероятностных распределений, параметризованном , удовлетворяющем определенным техническим условиям регулярности, тогда это семейство является экспоненциальным семейством тогда и только тогда, когда существует -значное достаточное статистика , число скалярных компонент которой не увеличивается с увеличением размера выборки n . ^[14] $X_{n},n=1,2,3,\dots$ $\theta$ $\mathbb {R} ^{m}$ $T(X_{1},\dots ,X_{n})$ $m$

Эта теорема показывает, что существование конечномерной вещественно-векторной достаточной статистики резко ограничивает возможные формы семейства распределений на действительной прямой .

Когда параметры или случайные величины больше не имеют действительных значений, ситуация становится более сложной. ^[15]

Другие виды достаточности

Байесовская достаточность

Альтернативная формулировка условия достаточности статистики, заданная в байесовском контексте, включает апостериорные распределения, полученные с использованием полного набора данных и с использованием только статистики. Таким образом, требование состоит в том, чтобы почти для каждого x

\Pr(\theta \mid X=x)=\Pr(\theta \mid T(X)=t(x)).

В более общем смысле, не предполагая параметрическую модель, мы можем сказать, что статистика T является достаточной для прогнозирования, если

\Pr(X'=x'\mid X=x)=\Pr(X'=x'\mid T(X)=t(x)).

Оказывается, эта «байесовская достаточность» является следствием приведенной выше формулировки ^[16] , однако в бесконечномерном случае они не эквивалентны напрямую. ^[17] Доступен ряд теоретических результатов по достаточности в байесовском контексте. ^[18]

Линейная достаточность

Понятие, называемое «линейной достаточностью», может быть сформулировано в байесовском контексте ^[19] и в более общем смысле. ^[20] Сначала определите лучший линейный предиктор вектора Y на основе X как . Тогда линейная статистика T ( x ) является достаточной линейной ^[21] , если ${\hat {E}}[Y\mid X]$

{\hat {E}}[\theta \mid X]={\hat {E}}[\theta \mid T(X)].

Смотрите также

Полнота статистики
Теорема Басу о независимости полной достаточной и вспомогательной статистики
Теорема Лемана – Шеффе : полная достаточная оценка является лучшей оценкой своего ожидания.
Теорема Рао – Блэквелла
Теорема Ченцова
Достаточное уменьшение размеров
Вспомогательная статистика

Примечания

^ Фишер, РА (1922). «О математических основах теоретической статистики». Философские труды Королевского общества А. 222 (594–604): 309–368. Бибкод : 1922RSPTA.222..309F. дои : 10.1098/rsta.1922.0009 . hdl : 2440/15172 . ЖФМ 48.1280.02. JSTOR 91208.
^ Додж, Ю. (2003) - запись о линейной достаточности
^ Стиглер, Стивен (декабрь 1973 г.). «Исследования по истории вероятности и статистики. XXXII: Лаплас, Фишер и открытие концепции достаточности». Биометрика . 60 (3): 439–445. дои : 10.1093/биомет/60.3.439. JSTOR 2334992. MR 0326872.
^ Казелла, Джордж; Бергер, Роджер Л. (2002). Статистический вывод, 2-е изд . Даксбери Пресс.
^ Обложка, Томас М. (2006). Элементы теории информации . Джой А. Томас (2-е изд.). Хобокен, Нью-Джерси: Wiley-Interscience. п. 36. ISBN 0-471-24195-4. OCLC 59879802.
^ Халмос, PR; Сэвидж, ЖЖ (1949). «Применение теоремы Радона-Никодима к теории достаточной статистики». Анналы математической статистики . 20 (2): 225–241. дои : 10.1214/aoms/1177730032 . ISSN 0003-4851.
^ "Теорема факторизации - Энциклопедия математики" . энциклопедияofmath.org . Проверено 7 сентября 2022 г.
^ Таральдсен, Г. (2022). «Теорема факторизации достаточности». Препринт . дои : 10.13140/RG.2.2.15068.87687.
^ Хогг, Роберт В.; Крейг, Аллен Т. (1995). Введение в математическую статистику . Прентис Холл. ISBN 978-0-02-355722-4.
^ "Теорема факторизации Фишера-Неймана" .. Веб-страница на сайте Connexions (cnx.org)
^ Додж (2003) - запись о минимально достаточной статистике
^ Леманн и Казелла (1998), Теория точечной оценки , 2-е издание, Springer, стр. 37
^ Леманн и Казелла (1998), Теория точечной оценки , 2-е издание, Springer, стр. 42
^ Тикочинский, Ю.; Тишби, Новая Зеландия; Левин, РД (1 ноября 1984 г.). «Альтернативный подход к выводу о максимальной энтропии». Физический обзор А. 30 (5): 2638–2644. Бибкод : 1984PhRvA..30.2638T. doi :10.1103/physreva.30.2638. ISSN 0556-2791.
^ Андерсен, Эрлинг Бернхард (сентябрь 1970 г.). «Достаточность и экспоненциальные семейства для дискретных выборочных пространств». Журнал Американской статистической ассоциации . 65 (331): 1248–1255. дои : 10.1080/01621459.1970.10481160. ISSN 0162-1459.
^ Бернардо, Дж. М .; Смит, AFM (1994). «Раздел 5.1.4». Байесовская теория . Уайли. ISBN 0-471-92416-4.
^ Блэквелл, Д .; Рамамурти, Р.В. (1982). «Байесовая, но классически недостаточная статистика». Анналы статистики . 10 (3): 1025–1026. дои : 10.1214/aos/1176345895 . МР 0663456. Збл 0485.62004.
^ Ногалес, AG; Ойола, Дж.А.; Перес, П. (2000). «Об условной независимости и взаимосвязи между достаточностью и инвариантностью с байесовской точки зрения». Статистика и вероятностные буквы . 46 (1): 75–84. дои : 10.1016/S0167-7152(99)00089-9. МР 1731351. Збл 0964.62003.
^ Гольдштейн, М.; О'Хаган, А. (1996). «Линейная достаточность Байеса и системы экспертных апостериорных оценок». Журнал Королевского статистического общества . Серия Б. 58 (2): 301–316. JSTOR 2345978.
^ Годамбе, вице-президент (1966). «Новый подход к выборке из конечной совокупности. II Достаточность без распределения». Журнал Королевского статистического общества . Серия Б. 28 (2): 320–328. JSTOR 2984375.
^ Уиттинг, Т. (1987). «Линейное марковское свойство в теории правдоподобия». Бюллетень АСТИН . 17 (1): 71–84. дои : 10.2143/ast.17.1.2014984 . hdl : 20.500.11850/422507 .