stringtranslate.com

Достаточная статистика

В статистике достаточность — это свойство статистики , вычисляемое на выборочном наборе данных по отношению к параметрической модели набора данных. Достаточная статистика содержит всю информацию, которую набор данных предоставляет о параметрах модели. Она тесно связана с концепциями вспомогательной статистики , которая не содержит никакой информации о параметрах модели, и полной статистики , которая содержит только информацию о параметрах и никакой вспомогательной информации.

Связанное понятие — это понятие линейной достаточности , которое слабее, чем достаточность , но может применяться в некоторых случаях, когда нет достаточной статистики, хотя оно ограничено линейными оценщиками. [1] Структурная функция Колмогорова имеет дело с отдельными конечными данными; связанное с ней понятие — алгоритмическая достаточная статистика.

Эта концепция была предложена сэром Рональдом Фишером в 1920 году. [2] Стивен Стиглер в 1973 году отметил, что концепция достаточности вышла из употребления в описательной статистике из-за сильной зависимости от предположения о форме распределения (см. теорему Питмана–Купмана–Дармуа ниже), но осталась очень важной в теоретической работе. [3]

Фон

Грубо говоря, если задан набор независимых одинаково распределенных данных, обусловленных неизвестным параметром , достаточная статистика — это функция , значение которой содержит всю информацию, необходимую для вычисления любой оценки параметра (например, оценки максимального правдоподобия ). В силу теоремы о факторизации (см. ниже) для достаточной статистики плотность вероятности можно записать как . Из этой факторизации легко увидеть, что оценка максимального правдоподобия будет взаимодействовать с только через . Обычно достаточная статистика — это простая функция данных, например, сумма всех точек данных.

В более общем смысле «неизвестный параметр» может представлять собой вектор неизвестных величин или может представлять собой все, что неизвестно или не полностью определено в модели. В таком случае достаточная статистика может быть набором функций, называемым совместно достаточной статистикой . Обычно существует столько же функций, сколько и параметров. Например, для гауссовского распределения с неизвестным средним значением и дисперсией совместно достаточная статистика, из которой можно оценить оценки максимального правдоподобия обоих параметров, состоит из двух функций: суммы всех точек данных и суммы всех квадратов точек данных (или, что эквивалентно, выборочного среднего значения и выборочной дисперсии ).

Другими словами, совместное распределение вероятностей данных условно независимо от параметра, учитывая значение достаточной статистики для параметра . Как статистика, так и базовый параметр могут быть векторами.

Математическое определение

Статистика t  =  T ( X ) достаточна для базового параметра θ именно в том случае, если условное распределение вероятностей данных X , заданное статистикой t  =  T ( X ), не зависит от параметра θ . [4]

В качестве альтернативы можно сказать, что статистика  T ( X ) достаточна для θ , если для всех априорных распределений по θ взаимная информация между θ и T(X) равна взаимной информации между θ и X. [5] Другими словами, неравенство обработки данных становится равенством:

Пример

Например, выборочное среднее достаточно для среднего ( μ ) нормального распределения с известной дисперсией. Как только выборочное среднее известно, из самой выборки нельзя получить никакой дополнительной информации о μ . С другой стороны, для произвольного распределения медианы недостаточно для среднего: даже если медиана выборки известна, знание самой выборки предоставит дополнительную информацию о среднем значении совокупности. Например, если наблюдения, которые меньше медианы, лишь немного меньше, но наблюдения, превышающие медиану, превосходят ее на большую величину, то это будет иметь отношение к выводу о среднем значении совокупности.

Теорема факторизации Фишера-Неймана

Теорема факторизации Фишера или критерий факторизации дает удобную характеристику достаточной статистики. Если функция плотности вероятности равна ƒ θ ( x ), то T достаточно для θ тогда и только тогда, когда можно найти неотрицательные функции g и h , такие, что

т. е. плотность ƒ может быть разложена на множители таким образом, что один множитель, h , не зависит от θ , а другой множитель, который зависит от θ , зависит от x только через T ( x ). Общее доказательство этого было дано Халмошем и Сэвиджем [6] , и теорему иногда называют теоремой о факторизации Халмоша–Сэвиджа. [7] Приведенные ниже доказательства рассматривают особые случаи, но можно дать альтернативное общее доказательство в том же духе. [8] Во многих простых случаях функция плотности вероятности полностью определяется и , и (см. Примеры).

Легко видеть, что если F ( t ) является функцией один к одному, а T является достаточной статистикой, то F ( T ) является достаточной статистикой. В частности, мы можем умножить достаточную статистику на ненулевую константу и получить другую достаточную статистику.

Интерпретация принципа правдоподобия

Следствием теоремы является то, что при использовании вывода на основе правдоподобия два набора данных, дающие одно и то же значение для достаточной статистики T ( X ), всегда будут давать одни и те же выводы о θ . По критерию факторизации зависимость правдоподобия от θ существует только в сочетании с T ( X ). Поскольку это одно и то же в обоих случаях, зависимость от θ также будет одинаковой, что приведет к идентичным выводам.

Доказательство

Согласно Хоггу и Крейгу. [9] Пусть , обозначает случайную выборку из распределения, имеющего плотность распределения f ( xθ ) для ι  <  θ  <  δ . Пусть Y 1  =  u 1 ( X 1X 2 , ...,  X n ) будет статистикой, плотность распределения которой равна g 1 ( y 1θ ). Мы хотим доказать, что Y 1  =  u 1 ( X 1 , X 2 , ...,  X n ) является достаточной статистикой для θ тогда и только тогда, когда для некоторой функции H ,

Во-первых, предположим, что

Сделаем преобразование y i  =  u i ( x 1x 2 , ...,  x n ), для i  = 1, ...,  n , имея обратные функции x i  =  w i ( y 1y 2 , ...,  y n ), для i  = 1, ...,  n , и якобиан . Таким образом,

Левый член — это совместная функция плотности распределения g ( y 1 , y 2 , ..., y n ; θ) функции Y 1 = u 1 ( X 1 , ..., X n ), ..., Y n = u n ( X 1 , ..., X n ). В правом члене — это функция плотности распределения , так что — это частное от деления и ; то есть это условная функция плотности распределения данного .

Но , и таким образом , было дано не зависеть от . Поскольку не было введено в преобразование и , соответственно , не в якобиан , следует , что не зависит от и что является достаточной статистикой для .

Обратное доказывается следующим образом:

где не зависит от , поскольку зависят только от , которые независимы от при условии , достаточная статистика по гипотезе. Теперь разделим оба члена на абсолютное значение неисчезающего якобиана и заменим функциями в . Это дает

где есть якобиан с заменой на их значение в терминах . Левый член обязательно является совместной функцией PDF . Поскольку , и, таким образом , , не зависит от , то

— это функция, которая не зависит от .

Еще одно доказательство

Более простое и наглядное доказательство состоит в следующем, хотя оно применимо только в дискретном случае.

Мы используем сокращенную запись для обозначения совместной плотности вероятности через . Поскольку является функцией , то имеем , пока и ноль в противном случае. Следовательно:

причем последнее равенство верно по определению достаточной статистики. Таким образом, при и .

Наоборот, если , то мы имеем

Первое равенство следует из определения функции плотности распределения для нескольких переменных , второе — из замечания выше, третье — из предположения, а четвертое — потому что суммирование еще не закончено .

Пусть обозначает условную плотность вероятности данного . Тогда мы можем вывести явное выражение для этого:

С первым равенством по определению условной плотности вероятности, вторым по замечанию выше, третьим по доказанному выше равенству и четвертым по упрощению. Это выражение не зависит от и, таким образом, является достаточной статистикой. [10]

Минимальная достаточность

Достаточная статистика является минимально достаточной , если ее можно представить как функцию любой другой достаточной статистики. Другими словами, S ( X ) является минимально достаточной тогда и только тогда, когда [11]

  1. S ( X ) достаточно, и
  2. если T ( X ) достаточно, то существует функция f такая, что S ( X ) = f ( T ( X )).

Интуитивно понятно, что минимально достаточная статистика наиболее эффективно охватывает всю возможную информацию о параметре θ .

Полезная характеристика минимальной достаточности заключается в том, что при наличии плотности f θ S ( X ) является минимально достаточной тогда и только тогда, когда [ необходима цитата ]

не зависит от θ  : S ( x ) = S ( y )

Это следует из теоремы Фишера о факторизации, изложенной выше.

Случай, когда нет минимальной достаточной статистики, был показан Бахадуром в 1954 году. [12] Однако при мягких условиях минимальная достаточная статистика всегда существует. В частности, в евклидовом пространстве эти условия всегда выполняются, если случайные величины (связанные с ) все дискретны или все непрерывны.

Если существует минимальная достаточная статистика, а это обычно так, то каждая полная достаточная статистика обязательно является минимально достаточной [13] (обратите внимание, что это утверждение не исключает патологический случай, в котором существует полная достаточная статистика, но нет минимальной достаточной статистики). Хотя трудно найти случаи, в которых минимальная достаточная статистика не существует, не так уж трудно найти случаи, в которых нет полной статистики.

Набор отношений правдоподобия для является минимальной достаточной статистикой, если пространство параметров дискретно .

Примеры

Распределение Бернулли

Если X 1 , ....,  X n — независимые случайные величины , распределенные по закону Бернулли, с ожидаемым значением p , то сумма T ( X ) =  X 1  + ... +  X n является достаточной статистикой для p (здесь «успех» соответствует X i  = 1, а «неудача» — X i  = 0; таким образом, T — общее число успехов).

Это видно из рассмотрения совместного распределения вероятностей:

Поскольку наблюдения независимы, это можно записать как

и, собирая степени p и 1 −  p , получаем

что удовлетворяет критерию факторизации, причем h ( x ) = 1 является просто константой.

Обратите внимание на важную особенность: неизвестный параметр p взаимодействует с данными x только через статистику T ( x ) = Σ  x i .

В качестве конкретного приложения это дает процедуру различения честной монеты от нечестной .

Равномерное распределение

Если X 1 , ...., X n независимы и равномерно распределены на интервале [0, θ ], то T ( X ) = max( X 1 , ..., X n ) достаточно для θ — максимум выборки является достаточной статистикой для максимума популяции.

Чтобы увидеть это, рассмотрим функцию плотности совместной вероятности X   ( X 1 ,..., X n ). Поскольку наблюдения независимы , pdf можно записать как произведение индивидуальных плотностей

где 1 { ... }индикаторная функция . Таким образом, плотность принимает форму, требуемую теоремой о факторизации Фишера–Неймана, где h ( x ) =  1 {min{ x i }≥0} , а остальная часть выражения является функцией только θ и T ( x ) = max{ x i }.

Фактически, несмещенная оценка с минимальной дисперсией (MVUE) для θ имеет вид

Это выборочный максимум, масштабированный для коррекции смещения , и является MVUE по теореме Лемана–Шеффе . Немасштабированный выборочный максимум T ( X ) является оценкой максимального правдоподобия для θ .

Равномерное распределение (с двумя параметрами)

Если независимы и равномерно распределены на интервале (где и — неизвестные параметры), то — двумерная достаточная статистика для .

Чтобы увидеть это, рассмотрим функцию плотности совместной вероятности . Поскольку наблюдения независимы, pdf можно записать как произведение индивидуальных плотностей, т.е.

Совместная плотность выборки принимает форму, требуемую теоремой факторизации Фишера–Неймана, если допустить, что

Так как не зависит от параметра и зависит только от через функцию

теорема Фишера–Неймана о факторизации подразумевает, что является достаточной статистикой для .

Распределение Пуассона

Если X 1 , ....,  X n независимы и имеют распределение Пуассона с параметром λ , то сумма T ( X ) =  X 1  + ... +  X n является достаточной статистикой для  λ .

Чтобы увидеть это, рассмотрим совместное распределение вероятностей:

Поскольку наблюдения независимы, это можно записать как

что может быть записано как

что показывает, что критерий факторизации выполняется, где h ( x ) — обратная величина произведения факториалов. Обратите внимание, что параметр λ взаимодействует с данными только через свою сумму T ( X ).

Нормальное распределение

Если независимы и нормально распределены с ожидаемым значением (параметром) и известной конечной дисперсией , то

достаточная статистика для

Чтобы увидеть это, рассмотрим функцию плотности совместной вероятности . Поскольку наблюдения независимы, pdf можно записать как произведение индивидуальных плотностей, т.е.

Совместная плотность выборки принимает форму, требуемую теоремой факторизации Фишера–Неймана, если допустить, что

Так как не зависит от параметра и зависит только от через функцию

теорема Фишера–Неймана о факторизации подразумевает, что является достаточной статистикой для .

Если неизвестно и поскольку , то указанную выше вероятность можно переписать как

Теорема факторизации Фишера–Неймана по-прежнему верна и подразумевает, что является совместной достаточной статистикой для .

Экспоненциальное распределение

Если независимы и экспоненциально распределены с ожидаемым значением θ (неизвестный действительный положительный параметр), то является достаточной статистикой для θ.

Чтобы увидеть это, рассмотрим функцию плотности совместной вероятности . Поскольку наблюдения независимы, pdf можно записать как произведение индивидуальных плотностей, т.е.

Совместная плотность выборки принимает форму, требуемую теоремой факторизации Фишера–Неймана, если допустить, что

Так как не зависит от параметра и зависит только от через функцию

теорема Фишера–Неймана о факторизации подразумевает, что является достаточной статистикой для .

Гамма-распределение

Если независимы и распределены как , где и — неизвестные параметры гамма-распределения , то — двумерная достаточная статистика для .

Чтобы увидеть это, рассмотрим функцию плотности совместной вероятности . Поскольку наблюдения независимы, pdf можно записать как произведение индивидуальных плотностей, т.е.

Совместная плотность выборки принимает форму, требуемую теоремой факторизации Фишера–Неймана, если допустить, что

Так как не зависит от параметра и зависит только от через функцию

теорема Фишера-Неймана о факторизации подразумевает, что это достаточная статистика для

Теорема Рао–Блэквелла

Достаточность находит полезное применение в теореме Рао–Блэквелла , которая гласит, что если g ( X ) является любым видом оценки θ , то обычно условное ожидание g ( X ) при достаточной статистике T ( X ) является лучшей (в смысле наличия более низкой дисперсии ) оценкой θ и никогда не бывает хуже. Иногда можно очень легко построить очень грубую оценку g ( X ), а затем оценить это условное ожидаемое значение, чтобы получить оценку, которая является оптимальной в различных смыслах.

Экспоненциальная семья

Согласно теореме Питмана–Купмана–Дармуа, среди семейств распределений вероятностей, область определения которых не меняется с оцениваемым параметром, только в экспоненциальных семействах существует достаточная статистика, размерность которой остается ограниченной при увеличении размера выборки. Интуитивно это означает, что неэкспоненциальные семейства распределений на действительной прямой требуют непараметрической статистики для полного охвата информации в данных.

Менее кратко, предположим, что являются независимыми одинаково распределенными действительными случайными величинами, распределение которых, как известно, принадлежит некоторому семейству распределений вероятностей, параметризованному с помощью , удовлетворяющему определенным техническим условиям регулярности, тогда это семейство является экспоненциальным семейством тогда и только тогда, когда существует -значная достаточная статистика, число скалярных компонентов которой не увеличивается с увеличением размера выборки n . [14]

Эта теорема показывает, что существование конечномерной, действительной векторнозначной достаточной статистики резко ограничивает возможные формы семейства распределений на действительной прямой .

Когда параметры или случайные величины больше не являются действительными, ситуация становится более сложной. [15]

Другие виды достаточности

Байесовская достаточность

Альтернативная формулировка условия достаточности статистики, заданная в байесовском контексте, включает апостериорные распределения, полученные с использованием полного набора данных и с использованием только статистики. Таким образом, требование заключается в том, что для почти каждого x ,

В более общем плане, не прибегая к параметрической модели, можно сказать, что статистика T достаточно предсказательная , если

Оказывается, что эта «байесовская достаточность» является следствием приведенной выше формулировки, [16] однако они не являются напрямую эквивалентными в бесконечномерном случае. [17] Доступен ряд теоретических результатов для достаточности в байесовском контексте. [18]

Линейная достаточность

Понятие, называемое «линейной достаточностью», может быть сформулировано в байесовском контексте [19] и в более общем смысле. [20] Сначала определим наилучший линейный предиктор вектора Y на основе X как . Тогда линейная статистика T ( x ) является линейно достаточной [21], если

Смотрите также

Примечания

  1. ^ Додж, И. (2003) — запись для линейной достаточности
  2. ^ Фишер, РА (1922). «О математических основах теоретической статистики». Philosophical Transactions of the Royal Society A. 222 ( 594–604): 309–368. Bibcode :1922RSPTA.222..309F. doi : 10.1098/rsta.1922.0009 . hdl : 2440/15172 . JFM  48.1280.02. JSTOR  91208.
  3. ^ Стиглер, Стивен (декабрь 1973 г.). «Исследования по истории вероятности и статистики. XXXII: Лаплас, Фишер и открытие концепции достаточности». Biometrika . 60 (3): 439–445. doi :10.1093/biomet/60.3.439. JSTOR  2334992. MR  0326872.
  4. ^ Казелла, Джордж; Бергер, Роджер Л. (2002). Статистический вывод, 2-е изд . Duxbury Press.
  5. ^ Cover, Thomas M. (2006). Элементы теории информации . Joy A. Thomas (2-е изд.). Hoboken, NJ: Wiley-Interscience. стр. 36. ISBN 0-471-24195-4. OCLC  59879802.
  6. ^ Halmos, PR; Savage, LJ (1949). «Применение теоремы Радона-Никодима к теории достаточных статистик». Анналы математической статистики . 20 (2): 225–241. doi : 10.1214/aoms/1177730032 . ISSN  0003-4851.
  7. ^ "Теорема о факторизации - Энциклопедия математики". encyclopediaofmath.org . Получено 2022-09-07 .
  8. ^ Таралдсен, Г. (2022). «Теорема факторизации для достаточности». Препринт . doi :10.13140/RG.2.2.15068.87687.
  9. ^ Хогг, Роберт В.; Крейг, Аллен Т. (1995). Введение в математическую статистику . Prentice Hall. ISBN 978-0-02-355722-4.
  10. ^ «Теорема Фишера–Неймана о факторизации».. Веб-страница на сайте Connexions (cnx.org)
  11. ^ Dodge (2003) — запись для минимальной достаточной статистики
  12. ^ Леманн и Каселла (1998), Теория точечной оценки , 2-е издание, Springer, стр. 37
  13. ^ Леманн и Каселла (1998), Теория точечной оценки , 2-е издание, Springer, стр. 42
  14. ^ Тикочинский, Y.; Тишби, NZ; Левин, RD (1984-11-01). «Альтернативный подход к выводу максимальной энтропии». Physical Review A. 30 ( 5): 2638–2644. Bibcode : 1984PhRvA..30.2638T. doi : 10.1103/physreva.30.2638. ISSN  0556-2791.
  15. ^ Андерсен, Эрлинг Бернхард (сентябрь 1970 г.). «Достаточность и экспоненциальные семейства для дискретных выборочных пространств». Журнал Американской статистической ассоциации . 65 (331): 1248–1255. doi :10.1080/01621459.1970.10481160. ISSN  0162-1459.
  16. ^ Бернардо, Дж. М .; Смит, А. Ф. М. (1994). "Раздел 5.1.4". Байесовская теория . Wiley. ISBN 0-471-92416-4.
  17. ^ Блэквелл, Д.; Рамамурти, Р.В. (1982). «Байесовский, но не классически достаточный статистический показатель». Annals of Statistics . 10 (3): 1025–1026. doi : 10.1214/aos/1176345895 . MR  0663456. Zbl  0485.62004.
  18. ^ Ногалес, АГ; Ойола, ДЖА; Перес, П. (2000). «Об условной независимости и связи между достаточностью и инвариантностью с байесовской точки зрения». Statistics & Probability Letters . 46 (1): 75–84. doi :10.1016/S0167-7152(99)00089-9. MR  1731351. Zbl  0964.62003.
  19. ^ Голдштейн, М.; О'Хаган, А. (1996). «Байесовская линейная достаточность и системы экспертных апостериорных оценок». Журнал Королевского статистического общества . Серия B. 58 (2): 301–316. JSTOR  2345978.
  20. ^ Годамбе, В. П. (1966). «Новый подход к выборке из конечных совокупностей. II Достаточность без распределения». Журнал Королевского статистического общества . Серия B. 28 (2): 320–328. JSTOR  2984375.
  21. ^ Witting, T. (1987). «Линейное свойство Маркова в теории достоверности». ASTIN Bulletin . 17 (1): 71–84. doi : 10.2143/ast.17.1.2014984 . hdl : 20.500.11850/422507 .

Ссылки