Статистический принцип
В статистике достаточность — это свойство статистики , вычисляемое на выборочном наборе данных по отношению к параметрической модели набора данных. Достаточная статистика содержит всю информацию, которую набор данных предоставляет о параметрах модели. Она тесно связана с концепциями вспомогательной статистики , которая не содержит никакой информации о параметрах модели, и полной статистики , которая содержит только информацию о параметрах и никакой вспомогательной информации.
Связанное понятие — это понятие линейной достаточности , которое слабее, чем достаточность , но может применяться в некоторых случаях, когда нет достаточной статистики, хотя оно ограничено линейными оценщиками. [1] Структурная функция Колмогорова имеет дело с отдельными конечными данными; связанное с ней понятие — алгоритмическая достаточная статистика.
Эта концепция была предложена сэром Рональдом Фишером в 1920 году. [2] Стивен Стиглер в 1973 году отметил, что концепция достаточности вышла из употребления в описательной статистике из-за сильной зависимости от предположения о форме распределения (см. теорему Питмана–Купмана–Дармуа ниже), но осталась очень важной в теоретической работе. [3]
Фон
Грубо говоря, если задан набор независимых одинаково распределенных данных, обусловленных неизвестным параметром , достаточная статистика — это функция , значение которой содержит всю информацию, необходимую для вычисления любой оценки параметра (например, оценки максимального правдоподобия ). В силу теоремы о факторизации (см. ниже) для достаточной статистики плотность вероятности можно записать как . Из этой факторизации легко увидеть, что оценка максимального правдоподобия будет взаимодействовать с только через . Обычно достаточная статистика — это простая функция данных, например, сумма всех точек данных.
В более общем смысле «неизвестный параметр» может представлять собой вектор неизвестных величин или может представлять собой все, что неизвестно или не полностью определено в модели. В таком случае достаточная статистика может быть набором функций, называемым совместно достаточной статистикой . Обычно существует столько же функций, сколько и параметров. Например, для гауссовского распределения с неизвестным средним значением и дисперсией совместно достаточная статистика, из которой можно оценить оценки максимального правдоподобия обоих параметров, состоит из двух функций: суммы всех точек данных и суммы всех квадратов точек данных (или, что эквивалентно, выборочного среднего значения и выборочной дисперсии ).
Другими словами, совместное распределение вероятностей данных условно независимо от параметра, учитывая значение достаточной статистики для параметра . Как статистика, так и базовый параметр могут быть векторами.
Математическое определение
Статистика t = T ( X ) достаточна для базового параметра θ именно в том случае, если условное распределение вероятностей данных X , заданное статистикой t = T ( X ), не зависит от параметра θ . [4]
В качестве альтернативы можно сказать, что статистика T ( X ) достаточна для θ , если для всех априорных распределений по θ взаимная информация между θ и T(X) равна взаимной информации между θ и X. [5] Другими словами, неравенство обработки данных становится равенством:
Пример
Например, выборочное среднее достаточно для среднего ( μ ) нормального распределения с известной дисперсией. Как только выборочное среднее известно, из самой выборки нельзя получить никакой дополнительной информации о μ . С другой стороны, для произвольного распределения медианы недостаточно для среднего: даже если медиана выборки известна, знание самой выборки предоставит дополнительную информацию о среднем значении совокупности. Например, если наблюдения, которые меньше медианы, лишь немного меньше, но наблюдения, превышающие медиану, превосходят ее на большую величину, то это будет иметь отношение к выводу о среднем значении совокупности.
Теорема факторизации Фишера-Неймана
Теорема факторизации Фишера или критерий факторизации дает удобную характеристику достаточной статистики. Если функция плотности вероятности равна ƒ θ ( x ), то T достаточно для θ тогда и только тогда, когда можно найти
неотрицательные функции g и h , такие, что
т. е. плотность ƒ может быть разложена на множители таким образом, что один множитель, h , не зависит от θ , а другой множитель, который зависит от θ , зависит от x только через T ( x ). Общее доказательство этого было дано Халмошем и Сэвиджем [6] , и теорему иногда называют теоремой о факторизации Халмоша–Сэвиджа. [7] Приведенные ниже доказательства рассматривают особые случаи, но можно дать альтернативное общее доказательство в том же духе. [8] Во многих простых случаях функция плотности вероятности полностью определяется и , и (см. Примеры).
Легко видеть, что если F ( t ) является функцией один к одному, а T является достаточной статистикой, то F ( T ) является достаточной статистикой. В частности, мы можем умножить достаточную статистику на ненулевую константу и получить другую достаточную статистику.
Интерпретация принципа правдоподобия
Следствием теоремы является то, что при использовании вывода на основе правдоподобия два набора данных, дающие одно и то же значение для достаточной статистики T ( X ), всегда будут давать одни и те же выводы о θ . По критерию факторизации зависимость правдоподобия от θ существует только в сочетании с T ( X ). Поскольку это одно и то же в обоих случаях, зависимость от θ также будет одинаковой, что приведет к идентичным выводам.
Доказательство
Согласно Хоггу и Крейгу. [9] Пусть , обозначает случайную выборку из распределения, имеющего плотность распределения f ( x , θ ) для ι < θ < δ . Пусть Y 1 = u 1 ( X 1 , X 2 , ..., X n ) будет статистикой, плотность распределения которой равна g 1 ( y 1 ; θ ). Мы хотим доказать, что Y 1 = u 1 ( X 1 , X 2 , ..., X n ) является достаточной статистикой для θ тогда и только тогда, когда для некоторой функции H ,
Во-первых, предположим, что
Сделаем преобразование y i = u i ( x 1 , x 2 , ..., x n ), для i = 1, ..., n , имея обратные функции x i = w i ( y 1 , y 2 , ..., y n ), для i = 1, ..., n , и якобиан . Таким образом,
Левый член — это совместная функция плотности распределения g ( y 1 , y 2 , ..., y n ; θ) функции Y 1 = u 1 ( X 1 , ..., X n ), ..., Y n = u n ( X 1 , ..., X n ). В правом члене — это функция плотности распределения , так что — это частное от деления и ; то есть это условная функция плотности распределения данного .
Но , и таким образом , было дано не зависеть от . Поскольку не было введено в преобразование и , соответственно , не в якобиан , следует , что не зависит от и что является достаточной статистикой для .
Обратное доказывается следующим образом:
где не зависит от , поскольку зависят только от , которые независимы от при условии , достаточная статистика по гипотезе. Теперь разделим оба члена на абсолютное значение неисчезающего якобиана и заменим функциями в . Это дает
где есть якобиан с заменой на их значение в терминах . Левый член обязательно является совместной функцией PDF . Поскольку , и, таким образом , , не зависит от , то
— это функция, которая не зависит от .
Еще одно доказательство
Более простое и наглядное доказательство состоит в следующем, хотя оно применимо только в дискретном случае.
Мы используем сокращенную запись для обозначения совместной плотности вероятности через . Поскольку является функцией , то имеем , пока и ноль в противном случае. Следовательно:
причем последнее равенство верно по определению достаточной статистики. Таким образом, при и .
Наоборот, если , то мы имеем
Первое равенство следует из определения функции плотности распределения для нескольких переменных , второе — из замечания выше, третье — из предположения, а четвертое — потому что суммирование еще не закончено .
Пусть обозначает условную плотность вероятности данного . Тогда мы можем вывести явное выражение для этого:
С первым равенством по определению условной плотности вероятности, вторым по замечанию выше, третьим по доказанному выше равенству и четвертым по упрощению. Это выражение не зависит от и, таким образом, является достаточной статистикой. [10]
Минимальная достаточность
Достаточная статистика является минимально достаточной , если ее можно представить как функцию любой другой достаточной статистики. Другими словами, S ( X ) является минимально достаточной тогда и только тогда, когда [11]
- S ( X ) достаточно, и
- если T ( X ) достаточно, то существует функция f такая, что S ( X ) = f ( T ( X )).
Интуитивно понятно, что минимально достаточная статистика наиболее эффективно охватывает всю возможную информацию о параметре θ .
Полезная характеристика минимальной достаточности заключается в том, что при наличии плотности f θ S ( X ) является минимально достаточной тогда и только тогда, когда [ необходима цитата ]
- не зависит от θ : S ( x ) = S ( y )
Это следует из теоремы Фишера о факторизации, изложенной выше.
Случай, когда нет минимальной достаточной статистики, был показан Бахадуром в 1954 году. [12] Однако при мягких условиях минимальная достаточная статистика всегда существует. В частности, в евклидовом пространстве эти условия всегда выполняются, если случайные величины (связанные с ) все дискретны или все непрерывны.
Если существует минимальная достаточная статистика, а это обычно так, то каждая полная достаточная статистика обязательно является минимально достаточной [13] (обратите внимание, что это утверждение не исключает патологический случай, в котором существует полная достаточная статистика, но нет минимальной достаточной статистики). Хотя трудно найти случаи, в которых минимальная достаточная статистика не существует, не так уж трудно найти случаи, в которых нет полной статистики.
Набор отношений правдоподобия для является минимальной достаточной статистикой, если пространство параметров дискретно .
Примеры
Распределение Бернулли
Если X 1 , ...., X n — независимые случайные величины , распределенные по закону Бернулли, с ожидаемым значением p , то сумма T ( X ) = X 1 + ... + X n является достаточной статистикой для p (здесь «успех» соответствует X i = 1, а «неудача» — X i = 0; таким образом, T — общее число успехов).
Это видно из рассмотрения совместного распределения вероятностей:
Поскольку наблюдения независимы, это можно записать как
и, собирая степени p и 1 − p , получаем
что удовлетворяет критерию факторизации, причем h ( x ) = 1 является просто константой.
Обратите внимание на важную особенность: неизвестный параметр p взаимодействует с данными x только через статистику T ( x ) = Σ x i .
В качестве конкретного приложения это дает процедуру различения честной монеты от нечестной .
Равномерное распределение
Если X 1 , ...., X n независимы и равномерно распределены на интервале [0, θ ], то T ( X ) = max( X 1 , ..., X n ) достаточно для θ — максимум выборки является достаточной статистикой для максимума популяции.
Чтобы увидеть это, рассмотрим функцию плотности совместной вероятности X ( X 1 ,..., X n ). Поскольку наблюдения независимы , pdf можно записать как произведение индивидуальных плотностей
где 1 { ... } — индикаторная функция . Таким образом, плотность принимает форму, требуемую теоремой о факторизации Фишера–Неймана, где h ( x ) = 1 {min{ x i }≥0} , а остальная часть выражения является функцией только θ и T ( x ) = max{ x i }.
Фактически, несмещенная оценка с минимальной дисперсией (MVUE) для θ имеет вид
Это выборочный максимум, масштабированный для коррекции смещения , и является MVUE по теореме Лемана–Шеффе . Немасштабированный выборочный максимум T ( X ) является оценкой максимального правдоподобия для θ .
Равномерное распределение (с двумя параметрами)
Если независимы и равномерно распределены на интервале (где и — неизвестные параметры), то — двумерная достаточная статистика для .
Чтобы увидеть это, рассмотрим функцию плотности совместной вероятности . Поскольку наблюдения независимы, pdf можно записать как произведение индивидуальных плотностей, т.е.
Совместная плотность выборки принимает форму, требуемую теоремой факторизации Фишера–Неймана, если допустить, что
Так как не зависит от параметра и зависит только от через функцию
теорема Фишера–Неймана о факторизации подразумевает, что является достаточной статистикой для .
Распределение Пуассона
Если X 1 , ...., X n независимы и имеют распределение Пуассона с параметром λ , то сумма T ( X ) = X 1 + ... + X n является достаточной статистикой для λ .
Чтобы увидеть это, рассмотрим совместное распределение вероятностей:
Поскольку наблюдения независимы, это можно записать как
что может быть записано как
что показывает, что критерий факторизации выполняется, где h ( x ) — обратная величина произведения факториалов. Обратите внимание, что параметр λ взаимодействует с данными только через свою сумму T ( X ).
Нормальное распределение
Если независимы и нормально распределены с ожидаемым значением (параметром) и известной конечной дисперсией , то
достаточная статистика для
Чтобы увидеть это, рассмотрим функцию плотности совместной вероятности . Поскольку наблюдения независимы, pdf можно записать как произведение индивидуальных плотностей, т.е.
Совместная плотность выборки принимает форму, требуемую теоремой факторизации Фишера–Неймана, если допустить, что
Так как не зависит от параметра и зависит только от через функцию
теорема Фишера–Неймана о факторизации подразумевает, что является достаточной статистикой для .
Если неизвестно и поскольку , то указанную выше вероятность можно переписать как
Теорема факторизации Фишера–Неймана по-прежнему верна и подразумевает, что является совместной достаточной статистикой для .
Экспоненциальное распределение
Если независимы и экспоненциально распределены с ожидаемым значением θ (неизвестный действительный положительный параметр), то является достаточной статистикой для θ.
Чтобы увидеть это, рассмотрим функцию плотности совместной вероятности . Поскольку наблюдения независимы, pdf можно записать как произведение индивидуальных плотностей, т.е.
Совместная плотность выборки принимает форму, требуемую теоремой факторизации Фишера–Неймана, если допустить, что
Так как не зависит от параметра и зависит только от через функцию
теорема Фишера–Неймана о факторизации подразумевает, что является достаточной статистикой для .
Гамма-распределение
Если независимы и распределены как , где и — неизвестные параметры гамма-распределения , то — двумерная достаточная статистика для .
Чтобы увидеть это, рассмотрим функцию плотности совместной вероятности . Поскольку наблюдения независимы, pdf можно записать как произведение индивидуальных плотностей, т.е.
Совместная плотность выборки принимает форму, требуемую теоремой факторизации Фишера–Неймана, если допустить, что
Так как не зависит от параметра и зависит только от через функцию
теорема Фишера-Неймана о факторизации подразумевает, что это достаточная статистика для
Теорема Рао–Блэквелла
Достаточность находит полезное применение в теореме Рао–Блэквелла , которая гласит, что если g ( X ) является любым видом оценки θ , то обычно условное ожидание g ( X ) при достаточной статистике T ( X ) является лучшей (в смысле наличия более низкой дисперсии ) оценкой θ и никогда не бывает хуже. Иногда можно очень легко построить очень грубую оценку g ( X ), а затем оценить это условное ожидаемое значение, чтобы получить оценку, которая является оптимальной в различных смыслах.
Экспоненциальная семья
Согласно теореме Питмана–Купмана–Дармуа, среди семейств распределений вероятностей, область определения которых не меняется с оцениваемым параметром, только в экспоненциальных семействах существует достаточная статистика, размерность которой остается ограниченной при увеличении размера выборки. Интуитивно это означает, что неэкспоненциальные семейства распределений на действительной прямой требуют непараметрической статистики для полного охвата информации в данных.
Менее кратко, предположим, что являются независимыми одинаково распределенными действительными случайными величинами, распределение которых, как известно, принадлежит некоторому семейству распределений вероятностей, параметризованному с помощью , удовлетворяющему определенным техническим условиям регулярности, тогда это семейство является экспоненциальным семейством тогда и только тогда, когда существует -значная достаточная статистика, число скалярных компонентов которой не увеличивается с увеличением размера выборки n . [14]
Эта теорема показывает, что существование конечномерной, действительной векторнозначной достаточной статистики резко ограничивает возможные формы семейства распределений на действительной прямой .
Когда параметры или случайные величины больше не являются действительными, ситуация становится более сложной. [15]
Другие виды достаточности
Байесовская достаточность
Альтернативная формулировка условия достаточности статистики, заданная в байесовском контексте, включает апостериорные распределения, полученные с использованием полного набора данных и с использованием только статистики. Таким образом, требование заключается в том, что для почти каждого x ,
В более общем плане, не прибегая к параметрической модели, можно сказать, что статистика T достаточно предсказательная , если
Оказывается, что эта «байесовская достаточность» является следствием приведенной выше формулировки, [16] однако они не являются напрямую эквивалентными в бесконечномерном случае. [17] Доступен ряд теоретических результатов для достаточности в байесовском контексте. [18]
Линейная достаточность
Понятие, называемое «линейной достаточностью», может быть сформулировано в байесовском контексте [19] и в более общем смысле. [20] Сначала определим наилучший линейный предиктор вектора Y на основе X как . Тогда линейная статистика T ( x ) является линейно достаточной [21], если
Смотрите также
Примечания
- ^ Додж, И. (2003) — запись для линейной достаточности
- ^ Фишер, РА (1922). «О математических основах теоретической статистики». Philosophical Transactions of the Royal Society A. 222 ( 594–604): 309–368. Bibcode :1922RSPTA.222..309F. doi : 10.1098/rsta.1922.0009 . hdl : 2440/15172 . JFM 48.1280.02. JSTOR 91208.
- ^ Стиглер, Стивен (декабрь 1973 г.). «Исследования по истории вероятности и статистики. XXXII: Лаплас, Фишер и открытие концепции достаточности». Biometrika . 60 (3): 439–445. doi :10.1093/biomet/60.3.439. JSTOR 2334992. MR 0326872.
- ^ Казелла, Джордж; Бергер, Роджер Л. (2002). Статистический вывод, 2-е изд . Duxbury Press.
- ^ Cover, Thomas M. (2006). Элементы теории информации . Joy A. Thomas (2-е изд.). Hoboken, NJ: Wiley-Interscience. стр. 36. ISBN 0-471-24195-4. OCLC 59879802.
- ^ Halmos, PR; Savage, LJ (1949). «Применение теоремы Радона-Никодима к теории достаточных статистик». Анналы математической статистики . 20 (2): 225–241. doi : 10.1214/aoms/1177730032 . ISSN 0003-4851.
- ^ "Теорема о факторизации - Энциклопедия математики". encyclopediaofmath.org . Получено 2022-09-07 .
- ^ Таралдсен, Г. (2022). «Теорема факторизации для достаточности». Препринт . doi :10.13140/RG.2.2.15068.87687.
- ^ Хогг, Роберт В.; Крейг, Аллен Т. (1995). Введение в математическую статистику . Prentice Hall. ISBN 978-0-02-355722-4.
- ^ «Теорема Фишера–Неймана о факторизации».. Веб-страница на сайте Connexions (cnx.org)
- ^ Dodge (2003) — запись для минимальной достаточной статистики
- ^ Леманн и Каселла (1998), Теория точечной оценки , 2-е издание, Springer, стр. 37
- ^ Леманн и Каселла (1998), Теория точечной оценки , 2-е издание, Springer, стр. 42
- ^ Тикочинский, Y.; Тишби, NZ; Левин, RD (1984-11-01). «Альтернативный подход к выводу максимальной энтропии». Physical Review A. 30 ( 5): 2638–2644. Bibcode : 1984PhRvA..30.2638T. doi : 10.1103/physreva.30.2638. ISSN 0556-2791.
- ^ Андерсен, Эрлинг Бернхард (сентябрь 1970 г.). «Достаточность и экспоненциальные семейства для дискретных выборочных пространств». Журнал Американской статистической ассоциации . 65 (331): 1248–1255. doi :10.1080/01621459.1970.10481160. ISSN 0162-1459.
- ^ Бернардо, Дж. М .; Смит, А. Ф. М. (1994). "Раздел 5.1.4". Байесовская теория . Wiley. ISBN 0-471-92416-4.
- ^ Блэквелл, Д.; Рамамурти, Р.В. (1982). «Байесовский, но не классически достаточный статистический показатель». Annals of Statistics . 10 (3): 1025–1026. doi : 10.1214/aos/1176345895 . MR 0663456. Zbl 0485.62004.
- ^ Ногалес, АГ; Ойола, ДЖА; Перес, П. (2000). «Об условной независимости и связи между достаточностью и инвариантностью с байесовской точки зрения». Statistics & Probability Letters . 46 (1): 75–84. doi :10.1016/S0167-7152(99)00089-9. MR 1731351. Zbl 0964.62003.
- ^ Голдштейн, М.; О'Хаган, А. (1996). «Байесовская линейная достаточность и системы экспертных апостериорных оценок». Журнал Королевского статистического общества . Серия B. 58 (2): 301–316. JSTOR 2345978.
- ^ Годамбе, В. П. (1966). «Новый подход к выборке из конечных совокупностей. II Достаточность без распределения». Журнал Королевского статистического общества . Серия B. 28 (2): 320–328. JSTOR 2984375.
- ^ Witting, T. (1987). «Линейное свойство Маркова в теории достоверности». ASTIN Bulletin . 17 (1): 71–84. doi : 10.2143/ast.17.1.2014984 . hdl : 20.500.11850/422507 .
Ссылки