Объединенная дисперсия

В статистике объединенная дисперсия (также известная как комбинированная дисперсия , составная дисперсия или общая дисперсия и письменная ) — это метод оценки дисперсии нескольких различных совокупностей, когда среднее значение каждой совокупности может быть разным, но можно предположить, что дисперсия каждая популяция одинакова. Численная оценка, полученная в результате использования этого метода, также называется объединенной дисперсией. $\sigma ^{2}$

При предположении о равных дисперсиях генеральной совокупности дисперсия объединенной выборки дает более точную оценку дисперсии, чем дисперсия отдельной выборки. Эта более высокая точность может привести к увеличению статистической мощности при использовании в статистических тестах , сравнивающих популяции, таких как t -критерий .

Квадратный корень из средства оценки объединенной дисперсии известен как объединенное стандартное отклонение (также известное как комбинированное стандартное отклонение , составное стандартное отклонение или общее стандартное отклонение ).

Мотивация

В статистике часто данные собираются для зависимой переменной y в диапазоне значений независимой переменной x . Например, наблюдение за расходом топлива можно изучить как функцию частоты вращения двигателя при постоянной нагрузке двигателя. Если для достижения небольшой дисперсии y требуются многочисленные повторные тесты для каждого значения x , затраты на тестирование могут стать непомерно высокими. Разумные оценки дисперсии можно определить, используя принцип объединенной дисперсии после повторения каждого теста в определенном x всего несколько раз.

Определение и расчет

Объединенная дисперсия представляет собой оценку фиксированной общей дисперсии, лежащей в основе различных совокупностей, имеющих разные средние значения. $\sigma ^{2}$

Нам дан набор выборочных дисперсий , в которых генеральная совокупность индексируется : $s_{i}^{2}$ $я = 1,\ldots,м$

s_{i}^{2}

"="

{\frac {1}{n_{i}-1}}\sum _{j=1}^{n_{i}}\left(y_{j}-{\overline {y}}_{ я}\вправо)^{2}.

Предполагая одинаковые размеры выборки , тогда объединенную дисперсию можно вычислить по среднему арифметическому : $n_{i}=n$ $s_{p}^{2}$

s_{p}^{2}={\frac {\sum _{i=1}^{m}s_{i}^{2}}{m}}={\frac {s_{1} ^{2}+s_{2}^{2}+\cdots +s_{m}^{2}}{m}}.

Если размеры выборки неоднородны, то объединенную дисперсию можно вычислить по средневзвешенному значению , используя в качестве весов соответствующие степени свободы (см. также: Поправка Бесселя ): $s_{p}^{2}$ $w_{i}=n_{i}-1$

s_{p}^{2}={\frac {\sum _{i=1}^{m}(n_{i}-1)s_{i}^{2}}{\sum _{i=1}^{m}(n_{i}-1)}}={\frac {(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}+\cdots +(n_{m}-1)s_{m}^{2}}{n_{1}+n_{2}+\cdots +n_{m}-m}}.

Распространение есть . $s_{p}^{2}/\sigma ^{2}$ $\chi ^{2}(\sum _{i}n_{i}-m)$

Доказательство. Когда имеется одно среднее значение, распределение является гауссовым в -мерном симплексе со стандартным отклонением . При наличии нескольких средних значений распределение является гауссовым в . $(y_{1}-{\bar {y}},\dots ,y_{n}-{\bar {y}})$ $\Delta _{n-1}$ $(n-1)$ $\sigma$ $(y_{1,1}-{\bar {y}}_{1},\dots ,y_{1,n_{1}}-{\bar {y}}_{1},\dots ,y_{m,1}-{\bar {y}}_{m},\dots ,y_{m,n_{m}}-{\bar {y}}_{m})$ $\Delta _{n_{1}-1}\times \dots \times \Delta _{n_{m}-1}$

Варианты

Несмещенная оценка методом наименьших квадратов (как представлено выше) и смещенная оценка максимального правдоподобия ниже: $\sigma ^{2}$

s_{p}^{2}={\frac {\sum _{i=1}^{N}(n_{i}-1)s_{i}^{2}}{\sum _{i=1}^{N}n_{i}}},

используются в разных контекстах. ^{[ нужна цитата ]} Первый может дать объективную оценку , когда две группы имеют одинаковую дисперсию населения. Последний вариант может дать более эффективную оценку , хотя и подвержен предвзятости. Обратите внимание, что величины в правых частях обоих уравнений являются несмещенными оценками. $s_{p}^{2}$ $\sigma ^{2}$ $s_{p}^{2}$ $\sigma ^{2}$ $s_{i}^{2}$

Пример

Рассмотрим следующий набор данных для y , полученных на различных уровнях независимой переменной x .

Количество испытаний, среднее значение, дисперсия и стандартное отклонение представлены в следующей таблице.

Эти статистические данные представляют собой дисперсию и стандартное отклонение для каждого подмножества данных на различных уровнях x . Если мы можем предположить, что одни и те же явления порождают случайные ошибки на каждом уровне x , приведенные выше данные можно «объединить» для выражения единой оценки дисперсии и стандартного отклонения. В каком-то смысле это предполагает поиск средней дисперсии или стандартного отклонения среди пяти приведенных выше результатов. Эта средняя дисперсия рассчитывается путем взвешивания отдельных значений с размером подмножества для каждого уровня x . Таким образом, объединенная дисперсия определяется выражением

s_{p}^{2}={\frac {(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}+\cdots +(n_{k}-1)s_{k}^{2}}{(n_{1}-1)+(n_{2}-1)+\cdots +(n_{k}-1)}}

где n ₁ , n ₂ , . . ., n _k — размеры подмножеств данных на каждом уровне переменной x , а s ₁² , s ₂² , . . ., s _k² — их соответствующие дисперсии.

Таким образом, объединенная дисперсия данных, показанных выше, равна:

s_{p}^{2}=2.764\,

Влияние на точность

Объединенная дисперсия — это оценка, когда существует корреляция между объединенными наборами данных или среднее значение наборов данных не идентично. Объединенная вариация тем менее точна, чем более ненулевая корреляция или чем более далеки средние значения между наборами данных.

Варианты данных для непересекающихся наборов данных:

\sigma _{X}^{2}={\frac {\sum _{i}\left[(N_{X_{i}}-1)\sigma _{X_{i}}^{2}+N_{X_{i}}\mu _{X_{i}}^{2}\right]-\left[\sum _{i}N_{X_{i}}\right]\mu _{X}^{2}}{\sum _{i}N_{X_{i}}-1}}

где среднее значение определяется как:

\mu _{X}={\frac {\sum _{i}N_{X_{i}}\mu _{X_{i}}}{\sum _{i}N_{X_{i}}}}

Учитывая смещенную максимальную вероятность, определяемую как:

s_{p}^{2}={\frac {\sum _{i=1}^{k}(n_{i}-1)s_{i}^{2}}{\sum _{i=1}^{k}n_{i}}},

Тогда ошибка в смещенной оценке максимального правдоподобия составит:

{\begin{aligned}{\text{Error}}&=s_{p}^{2}-\sigma _{X}^{2}\\[6pt]&={\frac {\sum _{i}(N_{X_{i}}-1)s_{i}^{2}}{\sum _{i}N_{X_{i}}}}-{\frac {1}{\sum _{i}N_{X_{i}}-1}}\left(\sum _{i}\left[(N_{X_{i}}-1)\sigma _{X_{i}}^{2}+N_{X_{i}}\mu _{X_{i}}^{2}\right]-\left[\sum _{i}N_{X_{i}}\right]\mu _{X}^{2}\right)\end{aligned}}

Предполагая, что N велико, так что:

\sum _{i}N_{X_{i}}\approx \sum _{i}N_{X_{i}}-1

Тогда ошибка оценки сводится к:

{\begin{aligned}E&=-{\frac {\left(\sum _{i}\left[N_{X_{i}}\mu _{X_{i}}^{2}\right]-\left[\sum _{i}N_{X_{i}}\right]\mu _{X}^{2}\right)}{\sum _{i}N_{X_{i}}}}\\[3pt]&=\mu _{X}^{2}-{\frac {\sum _{i}\left[N_{X_{i}}\mu _{X_{i}}^{2}\right]}{\sum _{i}N_{X_{i}}}}\end{aligned}}

Или альтернативно:

{\begin{aligned}E&=\left[{\frac {\sum _{i}N_{X_{i}}\mu _{X_{i}}}{\sum _{i}N_{X_{i}}}}\right]^{2}-{\frac {\sum _{i}\left[N_{X_{i}}\mu _{X_{i}}^{2}\right]}{\sum _{i}N_{X_{i}}}}\\[3pt]&={\frac {\left[\sum _{i}N_{X_{i}}\mu _{X_{i}}\right]^{2}-\sum _{i}N_{X_{i}}\sum _{i}\left[N_{X_{i}}\mu _{X_{i}}^{2}\right]}{\left[\sum _{i}N_{X_{i}}\right]^{2}}}\end{aligned}}

Агрегирование данных о стандартном отклонении

Вместо оценки совокупного стандартного отклонения ниже представлен способ точного агрегирования стандартного отклонения, когда доступно больше статистической информации.

Статистика населения

Популяции наборов, которые могут перекрываться, можно рассчитать просто следующим образом:

{\begin{aligned}&&N_{X\cup Y}&=N_{X}+N_{Y}-N_{X\cap Y}\\\end{aligned}}

Популяции наборов, которые не перекрываются, можно рассчитать просто следующим образом:

{\begin{aligned}X\cap Y=\varnothing &\Rightarrow &N_{X\cap Y}&=0\\&\Rightarrow &N_{X\cup Y}&=N_{X}+N_{Y}\end{aligned}}

Стандартные отклонения непересекающихся подгрупп ( X ∩ Y = ∅ ) можно агрегировать следующим образом, если известны размер (фактический или относительно друг друга) и средние значения каждой:

{\begin{aligned}\mu _{X\cup Y}&={\frac {N_{X}\mu _{X}+N_{Y}\mu _{Y}}{N_{X}+N_{Y}}}\\[3pt]\sigma _{X\cup Y}&={\sqrt {{\frac {N_{X}\sigma _{X}^{2}+N_{Y}\sigma _{Y}^{2}}{N_{X}+N_{Y}}}+{\frac {N_{X}N_{Y}}{(N_{X}+N_{Y})^{2}}}(\mu _{X}-\mu _{Y})^{2}}}\end{aligned}}

Например, предположим, что известно, что средний рост американца составляет 70 дюймов со стандартным отклонением в три дюйма, а средний рост средней американки составляет 65 дюймов со стандартным отклонением в два дюйма. Также предположим, что количество мужчин N равно количеству женщин. Тогда среднее и стандартное отклонение роста взрослых американцев можно было бы рассчитать как

{\begin{aligned}\mu &={\frac {N\cdot 70+N\cdot 65}{N+N}}={\frac {70+65}{2}}=67.5\\[3pt]\sigma &={\sqrt {{\frac {3^{2}+2^{2}}{2}}+{\frac {(70-65)^{2}}{2^{2}}}}}={\sqrt {12.75}}\approx 3.57\end{aligned}}

Для более общего случая M непересекающихся популяций, от X ₁ до X _M , и совокупной популяции , ${\textstyle X\,=\,\bigcup _{i}X_{i}}$

{\begin{aligned}\mu _{X}&={\frac {\sum _{i}N_{X_{i}}\mu _{X_{i}}}{\sum _{i}N_{X_{i}}}}\\[3pt]\sigma _{X}&={\sqrt {{\frac {\sum _{i}N_{X_{i}}\sigma _{X_{i}}^{2}}{\sum _{i}N_{X_{i}}}}+{\frac {\sum _{i<j}N_{X_{i}}N_{X_{j}}(\mu _{X_{i}}-\mu _{X_{j}})^{2}}{{\big (}\sum _{i}N_{X_{i}}{\big )}^{2}}}}}\end{aligned}}

где

X_{i}\cap X_{j}=\varnothing ,\quad \forall \ i<j.

Если размер (фактический или относительно друг друга), среднее значение и стандартное отклонение двух перекрывающихся популяций известны для популяций, а также для их пересечения, то стандартное отклонение всей совокупности все равно можно рассчитать следующим образом:

{\begin{aligned}\mu _{X\cup Y}&={\frac {1}{N_{X\cup Y}}}\left(N_{X}\mu _{X}+N_{Y}\mu _{Y}-N_{X\cap Y}\mu _{X\cap Y}\right)\\[3pt]\sigma _{X\cup Y}&={\sqrt {{\frac {1}{N_{X\cup Y}}}\left(N_{X}[\sigma _{X}^{2}+\mu _{X}^{2}]+N_{Y}[\sigma _{Y}^{2}+\mu _{Y}^{2}]-N_{X\cap Y}[\sigma _{X\cap Y}^{2}+\mu _{X\cap Y}^{2}]\right)-\mu _{X\cup Y}^{2}}}\end{aligned}}

Если два или более наборов данных суммируются по точкам данных, стандартное отклонение результата можно рассчитать, если известно стандартное отклонение каждого набора данных и ковариация между каждой парой наборов данных:

\sigma _{X}={\sqrt {\sum _{i}{\sigma _{X_{i}}^{2}}+2\sum _{i,j}\operatorname {cov} (X_{i},X_{j})}}

В особом случае, когда корреляция между какой-либо парой наборов данных отсутствует, отношение сводится к корневой сумме квадратов:

{\begin{aligned}&\operatorname {cov} (X_{i},X_{j})=0,\quad \forall i<j\\\Rightarrow &\;\sigma _{X}={\sqrt {\sum _{i}{\sigma _{X_{i}}^{2}}}}.\end{aligned}}

Статистика на основе выборки

Стандартные отклонения непересекающихся ( X ∩ Y = ∅ ) подвыборок можно агрегировать следующим образом, если известны фактический размер и средние значения каждой:

{\begin{aligned}\mu _{X\cup Y}&={\frac {1}{N_{X\cup Y}}}\left(N_{X}\mu _{X}+N_{Y}\mu _{Y}\right)\\[3pt]\sigma _{X\cup Y}&={\sqrt {{\frac {1}{N_{X\cup Y}-1}}\left([N_{X}-1]\sigma _{X}^{2}+N_{X}\mu _{X}^{2}+[N_{Y}-1]\sigma _{Y}^{2}+N_{Y}\mu _{Y}^{2}-[N_{X}+N_{Y}]\mu _{X\cup Y}^{2}\right)}}\end{aligned}}

Для более общего случая M непересекающихся наборов данных, от X ₁ до X _M , и совокупного набора данных , ${\textstyle X\,=\,\bigcup _{i}X_{i}}$

{\begin{aligned}\mu _{X}&={\frac {1}{\sum _{i}{N_{X_{i}}}}}\left(\sum _{i}{N_{X_{i}}\mu _{X_{i}}}\right)\\[3pt]\sigma _{X}&={\sqrt {{\frac {1}{\sum _{i}{N_{X_{i}}-1}}}\left(\sum _{i}{\left[(N_{X_{i}}-1)\sigma _{X_{i}}^{2}+N_{X_{i}}\mu _{X_{i}}^{2}\right]}-\left[\sum _{i}{N_{X_{i}}}\right]\mu _{X}^{2}\right)}}\end{aligned}}

где

X_{i}\cap X_{j}=\varnothing ,\quad \forall i<j.

Если размер, среднее значение и стандартное отклонение двух перекрывающихся выборок известны для выборок, а также их пересечение, то стандартное отклонение агрегированной выборки все равно можно рассчитать. В общем,

{\begin{aligned}\mu _{X\cup Y}&={\frac {1}{N_{X\cup Y}}}\left(N_{X}\mu _{X}+N_{Y}\mu _{Y}-N_{X\cap Y}\mu _{X\cap Y}\right)\\[3pt]\sigma _{X\cup Y}&={\sqrt {\frac {[N_{X}-1]\sigma _{X}^{2}+N_{X}\mu _{X}^{2}+[N_{Y}-1]\sigma _{Y}^{2}+N_{Y}\mu _{Y}^{2}-[N_{X\cap Y}-1]\sigma _{X\cap Y}^{2}-N_{X\cap Y}\mu _{X\cap Y}^{2}-[N_{X}+N_{Y}-N_{X\cap Y}]\mu _{X\cup Y}^{2}}{N_{X\cup Y}-1}}}\end{aligned}}

Смотрите также

Внешние ссылки

Золотая книга ИЮПАК – объединенное стандартное отклонение
[1]
– также имеется в виду d Коэна (на странице 6)