Статистическая теорема
В статистике теорема Рао -Блэквелла , иногда называемая теоремой Рао-Блэквелла-Колмогорова , представляет собой результат, характеризующий преобразование сколь угодно грубой оценки в оценку, оптимальную по критерию среднеквадратической ошибки или любому из множество схожих критериев.
Теорема Рао–Блэквелла утверждает, что если g ( X ) является какой-либо оценкой параметра θ, то условное ожидание g ( X ) при условии T ( X ) , где T — достаточная статистика , обычно является лучшей оценкой параметра θ. θ, и никогда не бывает хуже. Иногда можно очень легко построить очень грубую оценку g ( X ), а затем вычислить это условное ожидаемое значение, чтобы получить оценку, которая является в различных смыслах оптимальной.
Теорема названа в честь Ч.Р. Рао и Дэвида Блэквелла . Процесс преобразования средства оценки с использованием теоремы Рао–Блэквелла можно назвать « рао–Блэквеллизацией» . Преобразованная оценка называется оценкой Рао – Блэквелла . [1] [2] [3]
Определения
- Оценка δ( X ) — это наблюдаемая случайная величина (т.е. статистика ) , используемая для оценки некоторой ненаблюдаемой величины. Например, невозможно наблюдать средний рост всех студентов мужского пола в Университете X, но можно наблюдать рост случайной выборки из 40 из них. Средний рост этих 40 человек — «средний выборочный показатель» — может использоваться в качестве оценки ненаблюдаемого «среднего показателя населения».
- Достаточной статистикой T ( X ) является статистика, рассчитанная на основе данных X для оценки некоторого параметра θ, для которого никакая другая статистика, которая может быть рассчитана на основе данных X, не предоставляет никакой дополнительной информации о θ. Она определяется как наблюдаемая случайная величина, такая, что условное распределение вероятностей всех наблюдаемых данных X при заданном T ( X ) не зависит от ненаблюдаемого параметра θ, такого как среднее или стандартное отклонение всей совокупности, из которой были получены данные X. взятый. В наиболее часто приводимых примерах «ненаблюдаемые» величины представляют собой параметры, которые параметризуют известное семейство вероятностных распределений , согласно которым распределяются данные.
- Другими словами, достаточная статистика T(X) для параметра θ — это статистика , такая, что условная вероятность данных X при заданном T ( X ) не зависит от параметра θ.
- Оценка Рао –Блэквелла δ 1 ( X ) ненаблюдаемой величины θ — это условное математическое ожидание E(δ( X ) | T ( X )) некоторой оценки δ( X ) при достаточной статистике T ( X ). Назовем δ( X ) «исходной оценкой» , а δ1 ( X ) « улучшенной оценкой» . Важно, чтобы улучшенная оценка была наблюдаемой , т. е. не зависела от θ. Обычно условное ожидаемое значение одной функции этих данных при другой функции этих данных действительно зависит от θ, но из самого определения достаточности, данного выше, следует, что эта функция не зависит.
- Среднеквадратическая ошибка оценщика — это ожидаемое значение квадрата его отклонения от оцениваемой ненаблюдаемой величины θ.
Теорема
Версия со среднеквадратической ошибкой
Один из случаев теоремы Рао – Блэквелла гласит:
- Среднеквадратическая ошибка оценки Рао–Блэквелла не превышает ошибку исходной оценки.
Другими словами,
![{\displaystyle \operatorname {E} ((\delta _{1}(X)-\theta )^{2})\leq \operatorname {E} ((\delta (X)-\theta )^{2} ).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Важными инструментами доказательства, помимо приведенного выше определения, являются закон полного ожидания и тот факт, что для любой случайной величины Y E( Y 2 ) не может быть меньше [E( Y )] 2 . Это неравенство представляет собой случай неравенства Йенсена , хотя можно также показать, что оно немедленно следует из часто упоминаемого факта, что
![{\displaystyle 0\leq \operatorname {Var} (Y)=\operatorname {E} ((Y-\operatorname {E} (Y))^{2})=\operatorname {E} (Y^{2} )-(\operatorname {E} (Y))^{2}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Точнее, среднеквадратическая ошибка оценки Рао-Блэквелла имеет следующее разложение [4]
![{\displaystyle \operatorname {E} [(\delta _{1}(X)-\theta )^{2}] = \operatorname {E} [(\delta (X)-\theta )^{2}] -\operatorname {E} [\operatorname {Var} (\delta (X)\mid T(X))]}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Поскольку , немедленно следует теорема Рао-Блэквелла.![{\displaystyle \operatorname {E} [\operatorname {Var} (\delta (X)\mid T(X))]\geq 0}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Выпуклое обобщение потерь
Более общая версия теоремы Рао-Блэквелла говорит об «ожидаемых потерях» или функции риска :
![{\displaystyle \operatorname {E} (L(\delta _{1}(X)))\leq \operatorname {E} (L(\delta (X)))}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
где «функция потерь» L может быть любой выпуклой функцией . Если функция потерь дважды дифференцируема, как в случае среднеквадратической ошибки, то мы имеем более точное неравенство [4]
![{\displaystyle \operatorname {E} (L(\delta (X)))-\operatorname {E} (L(\delta _{1}(X)))\geq {\frac {1}{2}} \operatorname {E} _{T}\left[\inf _{x}L''(x)\operatorname {Var} (\delta (X)\mid T)\right].}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Характеристики
Улучшенная оценка является несмещенной тогда и только тогда, когда исходная оценка несмещена, в чем можно сразу убедиться, используя закон полного ожидания . Теорема справедлива независимо от того, используются ли смещенные или несмещенные оценки.
Теорема кажется очень слабой: она говорит лишь о том, что оценка Рао–Блэквелла не хуже исходной. Однако на практике улучшение часто бывает огромным. [5]
Пример
Телефонные звонки поступают на коммутатор в соответствии с процессом Пуассона со средней скоростью λ в минуту. Эта скорость не наблюдаема, но наблюдаются числа X 1 , ..., X n телефонных звонков, поступивших в течение n последовательных одноминутных периодов. Требуется оценить вероятность e −λ того, что следующий минутный период пройдет без телефонных звонков.
Чрезвычайно грубая оценка желаемой вероятности :
![{\displaystyle \delta _{0}=\left\{{\begin{matrix}1&{\text{if}}\ X_{1}=0,\\0&{\text{иначе,}}\end{ матрица}}\справа.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
т. е. он оценивает эту вероятность как 1, если в первую минуту не поступило ни одного телефонного звонка, и как нулевую в противном случае. Несмотря на очевидные ограничения этой оценки, результат, полученный с помощью ее Рао-Блэквеллизации, является очень хорошей оценкой.
Сумма
![{\displaystyle S_{n}=\sum _{i=1}^{n}X_{i}=X_{1}+\cdots +X_{n}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
можно легко показать, что это достаточная статистика для λ, т. е. условное распределение данных X 1 , ..., X n зависит от λ только через эту сумму. Таким образом, мы находим оценку Рао–Блэквелла
![{\displaystyle \delta _{1} =\operatorname {E} (\delta _{0}\mid S_{n}=s_{n}).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
После некоторых алгебраических действий мы имеем
![{\displaystyle {\begin{aligned}\delta _{1} &=\operatorname {E} \left(\mathbf {1} _{\{X_{1}=0\}}{\Bigg |}\sum _{i=1}^{n}X_{i}=s_{n}\right)\\&=P\left(X_{1}=0{\Bigg |}\sum _{i=1}^ {n}X_{i}=s_{n}\right)\\&=P\left(X_{1}=0,\sum _{i=2}^{n}X_{i}=s_{n }\right)\times P\left(\sum _{i=1}^{n}X_{i}=s_{n}\right)^{-1}\\&=e^{-\lambda } {\frac {\left((n-1)\lambda \right)^{s_{n}}e^{-(n-1)\lambda }}{s_{n}!}}\times \left( {\frac {(n\lambda )^{s_{n}}e^{-n\lambda }}{s_{n}!}}\right)^{-1}\\&={\frac {\ left((n-1)\lambda \right)^{s_{n}}e^{-n\lambda }}{s_{n}!}}\times {\frac {s_{n}!}{( n\lambda )^{s_{n}}e^{-n\lambda }}}\\&=\left(1-{\frac {1}{n}}\right)^{s_{n}} \end{выровнено}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Поскольку среднее количество вызовов, поступающих в течение первых n минут, равно n λ, можно не удивляться, если эта оценка имеет довольно высокую вероятность (если n велико) быть близкой к
![{\displaystyle \left(1-{1 \over n}\right)^{n\lambda}\approx e^{-\lambda }.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Таким образом, δ1 , очевидно, является значительно улучшенной оценкой этой последней величины. Фактически, поскольку Sn является полным и δ 0 является несмещенным, δ 1 является единственной несмещенной оценкой минимальной дисперсии по теореме Лемана – Шеффе .
Идемпотентность
Рао-Блэквеллизация — идемпотентная операция. Использование его для улучшения уже улучшенной оценки не приводит к дальнейшему улучшению, а просто возвращает на выходе ту же улучшенную оценку.
Полнота и минимальная дисперсия Лемана – Шеффе
Если обуславливающая статистика является одновременно полной и достаточной , а начальная оценка несмещена, то оценка Рао-Блэквелла является уникальной « лучшей несмещенной оценкой »: см. теорему Лемана-Шеффе .
Пример улучшаемого улучшения Рао-Блэквелла при использовании минимальной достаточной статистики, которая не является полной , был предоставлен Галили и Мейлиджсоном в 2016 году. [6] Пусть это случайная выборка из равномерного по масштабу распределения с неизвестным средним значением и известным дизайном. параметр . При поиске «наилучших» возможных несмещенных оценок для естественно рассматривать в качестве исходной (грубой) несмещенную оценку для и затем пытаться ее улучшить. Поскольку не является функцией , минимальной достаточной статистики для (где и ), ее можно улучшить с помощью теоремы Рао – Блэквелла следующим образом:![{\displaystyle X_{1},\ldots,X_{n}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\ displaystyle X \ sim U \ left ((1-k) \ theta, (1 + k) \ theta \ right),}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle E[X]=\theta }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle k\in (0,1)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \тета,}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle X_{1}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\ displaystyle \ theta }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle X_{1}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\ displaystyle T = \ left (X_ {(1)}, X_ {(n)} \ right)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\ displaystyle \ theta }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle X_{(1)}=\min(X_{i})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle X_{(n)}=\max(X_{i})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\hat {\theta }}_{RB}=E_{\theta }\left[X_{1}|X_{(1)},X_{(n)}\right]={\frac { X_{(1)}+X_{(n)}}{2}}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Однако можно показать, что следующая несмещенная оценка имеет меньшую дисперсию:
![{\displaystyle {\hat {\theta }}_{LV}={\frac {1}{2\left(k^{2}{\frac {n-1}{n+1}}+1\right )}}\left[(1-k){{X}_{(1)}}+(1+k){{X}_{(n)}}\right].}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Фактически, его можно было бы еще улучшить, если бы использовать следующую оценку:
![{\displaystyle {\hat {\theta }}_{BAYES}={\frac {n+1}{n}}\left[1-{\frac {{\frac {\left({\frac {{X }_{(1)}}{1-k}}\right)}{\left({\frac {{X}_{(n)}}{1+k}}\right)}}-1} {{{\left[{\frac {\left({\frac {{X}_{(1)}}{1-k}}\right)}{\left({\frac {{X}_{ (n)}}{1+k}}\right)}}\right]}^{n+1}}-1}}\right]{\frac {X_{(n)}}{1+k} }}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Модель представляет собой масштабную модель . Затем можно получить оптимальные эквивариантные оценки для инвариантных функций потерь . [7]
Смотрите также
Рекомендации
- ^ Блэквелл, Д. (1947). «Условное ожидание и несмещенная последовательная оценка». Анналы математической статистики . 18 (1): 105–110. дои : 10.1214/aoms/1177730497 . МР 0019903. Збл 0033.07603.
- ^ Колмогоров, А.Н. (1950). «Непредвзятые оценки». Известия Акад. Наук СССР. Сер. Мат . 14 : 303–326. МР 0036479.
- ^ Рао, К. Радхакришна (1945). «Информация и точность, достижимые при оценке статистических параметров». Бюллетень Калькуттского математического общества . 37 (3): 81–91.
- ^ аб Дж. Г. Ляо; А. Берг (22 июня 2018 г.). «Уточнение неравенства Дженсена». Американский статистик . 73 (3): 278–281. arXiv : 1707.08644 . дои : 10.1080/00031305.2017.1419145. S2CID 88515366.
- ↑ Карпентер, Боб (20 января 2020 г.). «Рао-блэквеллизация и дискретные параметры в Стэне». Статистическое моделирование, причинный вывод и социальные науки . Проверено 13 сентября 2021 г.
Теорема Рао-Блэквелла утверждает, что маржинальный подход имеет дисперсию, меньшую или равную прямому подходу. На практике эта разница может быть огромной.
- ^ Таль Галили; Исаак Мейлиджсон (31 марта 2016 г.). «Пример улучшаемого улучшения Рао – Блэквелла, неэффективной оценки максимального правдоподобия и несмещенной обобщенной оценки Байеса». Американский статистик . 70 (1): 108–113. дои : 10.1080/00031305.2015.1100683. ПМК 4960505 . ПМИД 27499547.
- ^ Таральдсен, Гуннар (2020). «Миха Мандель (2020), «Возвращение к масштабной однородной модели», Американский статистик, 74: 1, 98–100: Комментарий». Американский статистик . 74 (3): 315. дои : 10.1080/00031305.2020.1769727. ISSN 0003-1305. S2CID 219493070.
Внешние ссылки