Метод оценки дисперсии нескольких различных популяций
В статистике объединенная дисперсия (также известная как комбинированная дисперсия , составная дисперсия или общая дисперсия и письменная ) — это метод оценки дисперсии нескольких различных совокупностей, когда среднее значение каждой совокупности может быть разным, но можно предположить, что дисперсия каждая популяция одинакова. Численная оценка, полученная в результате использования этого метода, также называется объединенной дисперсией.
При предположении о равных дисперсиях генеральной совокупности дисперсия объединенной выборки дает более точную оценку дисперсии, чем дисперсия отдельной выборки. Эта более высокая точность может привести к увеличению статистической мощности при использовании в статистических тестах , сравнивающих популяции, таких как t -критерий .
Квадратный корень из средства оценки объединенной дисперсии известен как объединенное стандартное отклонение (также известное как комбинированное стандартное отклонение , составное стандартное отклонение или общее стандартное отклонение ).
Мотивация
В статистике часто данные собираются для зависимой переменной y в диапазоне значений независимой переменной x . Например, наблюдение за расходом топлива можно изучить как функцию частоты вращения двигателя при постоянной нагрузке двигателя. Если для достижения небольшой дисперсии y требуются многочисленные повторные тесты для каждого значения x , затраты на тестирование могут стать непомерно высокими. Разумные оценки дисперсии можно определить, используя принцип объединенной дисперсии после повторения каждого теста в определенном x всего несколько раз.
Определение и расчет
Объединенная дисперсия представляет собой оценку фиксированной общей дисперсии, лежащей в основе различных совокупностей, имеющих разные средние значения.![{\displaystyle \sigma ^{2}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Нам дан набор выборочных дисперсий , в которых генеральная совокупность индексируется :![{\displaystyle s_{i}^{2}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle я = 1,\ldots,м}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
"="![{\displaystyle {\frac {1}{n_{i}-1}}\sum _{j=1}^{n_{i}}\left(y_{j}-{\overline {y}}_{ я}\вправо)^{2}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Предполагая одинаковые размеры выборки , тогда объединенную дисперсию можно вычислить по среднему арифметическому :![{\displaystyle n_{i}=n}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle s_{p}^{2}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle s_{p}^{2}={\frac {\sum _{i=1}^{m}s_{i}^{2}}{m}}={\frac {s_{1} ^{2}+s_{2}^{2}+\cdots +s_{m}^{2}}{m}}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Если размеры выборки неоднородны, то объединенную дисперсию можно вычислить по средневзвешенному значению , используя в качестве весов соответствующие степени свободы (см. также: Поправка Бесселя ):![{\displaystyle s_{p}^{2}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle w_{i}=n_{i}-1}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle s_{p}^{2}={\frac {\sum _{i=1}^{m}(n_{i}-1)s_{i}^{2}}{\sum _{ i=1}^{m}(n_{i}-1)}}={\frac {(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{ 2}^{2}+\cdots +(n_{m}-1)s_{m}^{2}}{n_{1}+n_{2}+\cdots +n_{m}-m}}. }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Распространение есть .![{\displaystyle s_{p}^{2}/\sigma ^{2}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \chi ^{2}(\sum _{i}n_{i}-m)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Доказательство. Когда имеется одно среднее значение, распределение является гауссовым в -мерном симплексе со стандартным отклонением . При наличии нескольких средних значений распределение является гауссовым в .![{\displaystyle (y_{1}-{\bar {y}},\dots,y_{n}-{\bar {y}})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \Delta _ {n-1}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle (n-1)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\ displaystyle \ сигма }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle (y_{1,1}-{\bar {y}}_{1},\dots ,y_{1,n_{1}}-{\bar {y}}_{1},\dots ,y_{m,1}-{\bar {y}}_{m},\dots ,y_{m,n_{m}}-{\bar {y}}_{m})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \Delta _{n_{1}-1}\times \dots \times \Delta _{n_{m}-1}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Варианты
Несмещенная оценка методом наименьших квадратов (как представлено выше) и смещенная оценка максимального правдоподобия ниже:![{\displaystyle \sigma ^{2}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle s_{p}^{2}={\frac {\sum _{i=1}^{N}(n_{i}-1)s_{i}^{2}}{\sum _{ я=1}^{N}n_{i}}},}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
используются в разных контекстах. [ нужна цитата ] Первый может дать объективную оценку , когда две группы имеют одинаковую дисперсию населения. Последний вариант может дать более эффективную оценку , хотя и подвержен предвзятости. Обратите внимание, что величины в правых частях обоих уравнений являются несмещенными оценками.![{\displaystyle s_{p}^{2}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle s_{p}^{2}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \sigma ^{2}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle s_{i}^{2}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Пример
Рассмотрим следующий набор данных для y , полученных на различных уровнях независимой переменной x .
Количество испытаний, среднее значение, дисперсия и стандартное отклонение представлены в следующей таблице.
Эти статистические данные представляют собой дисперсию и стандартное отклонение для каждого подмножества данных на различных уровнях x . Если мы можем предположить, что одни и те же явления порождают случайные ошибки на каждом уровне x , приведенные выше данные можно «объединить» для выражения единой оценки дисперсии и стандартного отклонения. В каком-то смысле это предполагает поиск средней дисперсии или стандартного отклонения среди пяти приведенных выше результатов. Эта средняя дисперсия рассчитывается путем взвешивания отдельных значений с размером подмножества для каждого уровня x . Таким образом, объединенная дисперсия определяется выражением
![{\displaystyle s_{p}^{2}={\frac {(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}+ \cdots +(n_{k}-1)s_{k}^{2}}{(n_{1}-1)+(n_{2}-1)+\cdots +(n_{k}-1) }}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
где n 1 , n 2 , . . ., n k — размеры подмножеств данных на каждом уровне переменной x , а s 1 2 , s 2 2 , . . ., s k 2 — их соответствующие дисперсии.
Таким образом, объединенная дисперсия данных, показанных выше, равна:
![{\displaystyle s_{p}^{2}=2,764\,}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Влияние на точность
Объединенная дисперсия — это оценка, когда существует корреляция между объединенными наборами данных или среднее значение наборов данных не идентично. Объединенная вариация тем менее точна, чем более ненулевая корреляция или чем более далеки средние значения между наборами данных.
Варианты данных для непересекающихся наборов данных:
![{\displaystyle \sigma _{X}^{2}={\frac {\sum _{i}\left[(N_{X_{i}}-1)\sigma _{X_{i}}^{2 }+N_{X_{i}}\mu _{X_{i}}^{2}\right]-\left[\sum _{i}N_{X_{i}}\right]\mu _{X }^{2}}{\sum _{i}N_{X_{i}}-1}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
где среднее значение определяется как:
![{\displaystyle \mu _{X}={\frac {\sum _{i}N_{X_{i}}\mu _{X_{i}}}{\sum _{i}N_{X_{i} }}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Учитывая смещенную максимальную вероятность, определяемую как:
![{\displaystyle s_{p}^{2}={\frac {\sum _{i=1}^{k}(n_{i}-1)s_{i}^{2}}{\sum _{ я=1}^{k}n_{i}}},}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Тогда ошибка в смещенной оценке максимального правдоподобия составит:
![{\displaystyle {\begin{aligned}{\text{Error}}&=s_{p}^{2}-\sigma _{X}^{2}\\[6pt]&={\frac {\sum _{i}(N_{X_{i}}-1)s_{i}^{2}}{\sum _{i}N_{X_{i}}}}-{\frac {1}{\sum _{i}N_{X_{i}}-1}}\left(\sum _{i}\left[(N_{X_{i}}-1)\sigma _{X_{i}}^{2 }+N_{X_{i}}\mu _{X_{i}}^{2}\right]-\left[\sum _{i}N_{X_{i}}\right]\mu _{X }^{2}\right)\end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Предполагая, что N велико, так что:
![{\displaystyle \sum _{i}N_{X_{i}} \approx \sum _{i}N_{X_{i}}-1}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Тогда ошибка оценки сводится к:
![{\displaystyle {\begin{aligned}E&=-{\frac {\left(\sum _{i}\left[N_{X_{i}}\mu _{X_{i}}^{2}\right ]-\left[\sum _{i}N_{X_{i}}\right]\mu _{X}^{2}\right)}{\sum _{i}N_{X_{i}}} }\\[3pt]&=\mu _{X}^{2}-{\frac {\sum _{i}\left[N_{X_{i}}\mu _{X_{i}}^{ 2}\right]}{\sum _{i}N_{X_{i}}}}\end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Или альтернативно:
![{\displaystyle {\begin{aligned}E&=\left[{\frac {\sum _{i}N_{X_{i}}\mu _{X_{i}}}{\sum _{i}N_{ X_{i}}}}\right]^{2}-{\frac {\sum _{i}\left[N_{X_{i}}\mu _{X_{i}}^{2}\right ]}{\sum _{i}N_{X_{i}}}}\\[3pt]&={\frac {\left[\sum _{i}N_{X_{i}}\mu _{X_ {i}}\right]^{2}-\sum _{i}N_{X_{i}}\sum _{i}\left[N_{X_{i}}\mu _{X_{i}} ^{2}\right]}{\left[\sum _{i}N_{X_{i}}\right]^{2}}}\end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Агрегирование данных о стандартном отклонении
Вместо оценки совокупного стандартного отклонения ниже представлен способ точного агрегирования стандартного отклонения, когда доступно больше статистической информации.
Статистика населения
Популяции наборов, которые могут перекрываться, можно рассчитать просто следующим образом:
![{\displaystyle {\begin{aligned}&&N_{X\cup Y}&=N_{X}+N_{Y}-N_{X\cap Y}\\\end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Популяции наборов, которые не перекрываются, можно рассчитать просто следующим образом:
![{\displaystyle {\begin{aligned}X\cap Y=\varnothing &\Rightarrow &N_{X\cap Y} &=0\\&\Rightarrow &N_{X\cup Y}&=N_{X}+N_{ Y}\end{выровнено}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Стандартные отклонения непересекающихся подгрупп ( X ∩ Y = ∅ ) можно агрегировать следующим образом, если известны размер (фактический или относительно друг друга) и средние значения каждой:
![{\displaystyle {\begin{aligned}\mu _{X\cup Y} &={\frac {N_{X}\mu _{X}+N_{Y}\mu _{Y}}{N_{X }+N_{Y}}}\\[3pt]\sigma _{X\cup Y}&={\sqrt {{\frac {N_{X}\sigma _{X}^{2}+N_{Y }\sigma _{Y}^{2}}{N_{X}+N_{Y}}}+{\frac {N_{X}N_{Y}}{(N_{X}+N_{Y}) ^{2}}}(\mu _{X}-\mu _{Y})^{2}}}\end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Например, предположим, что известно, что средний рост американца составляет 70 дюймов со стандартным отклонением в три дюйма, а средний рост средней американки составляет 65 дюймов со стандартным отклонением в два дюйма. Также предположим, что количество мужчин N равно количеству женщин. Тогда среднее и стандартное отклонение роста взрослых американцев можно было бы рассчитать как
![{\displaystyle {\begin{aligned}\mu &={\frac {N\cdot 70+N\cdot 65}{N+N}}={\frac {70+65}{2}}=67,5\\ [3pt]\sigma &={\sqrt {{\frac {3^{2}+2^{2}}{2}}+{\frac {(70-65)^{2}}{2^{ 2}}}}}={\sqrt {12,75}}\приблизительно 3,57\end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Для более общего случая M непересекающихся популяций, от X 1 до X M , и совокупной популяции ,![{\textstyle X\,=\,\bigcup _{i}X_{i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
,
где
![{\displaystyle X_{i}\cap X_{j}=\varnothing,\quad \forall \ i<j.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Если размер (фактический или относительно друг друга), среднее значение и стандартное отклонение двух перекрывающихся популяций известны для популяций, а также для их пересечения, то стандартное отклонение всей совокупности все равно можно рассчитать следующим образом:
![{\displaystyle {\begin{aligned}\mu _{X\cup Y} &={\frac {1}{N_{X\cup Y}}}\left(N_{X}\mu _{X}+ N_{Y}\mu _{Y}-N_{X\cap Y}\mu _{X\cap Y}\right)\\[3pt]\sigma _{X\cup Y}&={\sqrt { {\frac {1}{N_{X\cup Y}}}\left(N_{X}[\sigma _{X}^{2}+\mu _{X}^{2}]+N_{Y }[\sigma _{Y}^{2}+\mu _{Y}^{2}]-N_{X\cap Y}[\sigma _{X\cap Y}^{2}+\mu _ {X\cap Y}^{2}]\right)-\mu _{X\cup Y}^{2}}}\end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Если два или более наборов данных суммируются по точкам данных, стандартное отклонение результата можно рассчитать, если известно стандартное отклонение каждого набора данных и ковариация между каждой парой наборов данных:
![{\displaystyle \sigma _{X}={\sqrt {\sum _{i}{\sigma _{X_{i}}^{2}}+2\sum _{i,j}\operatorname {cov} (X_{i},X_{j})}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
В особом случае, когда корреляция между какой-либо парой наборов данных отсутствует, отношение сводится к корневой сумме квадратов:
![{\displaystyle {\begin{aligned} &\operatorname {cov} (X_{i},X_{j})=0,\quad \forall i<j\\\Rightarrow &\;\sigma _{X}= {\sqrt {\sum _{i}{\sigma _{X_{i}}^{2}}}}.\end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Статистика на основе выборки
Стандартные отклонения непересекающихся ( X ∩ Y = ∅ ) подвыборок можно агрегировать следующим образом, если известны фактический размер и средние значения каждой:
![{\displaystyle {\begin{aligned}\mu _{X\cup Y} &={\frac {1}{N_{X\cup Y}}}\left(N_{X}\mu _{X}+ N_{Y}\mu _{Y}\right)\\[3pt]\sigma _{X\cup Y}&={\sqrt {{\frac {1}{N_{X\cup Y}-1} }\left([N_{X}-1]\sigma _{X}^{2}+N_{X}\mu _{X}^{2}+[N_{Y}-1]\sigma _{ Y}^{2}+N_{Y}\mu _{Y}^{2}-[N_{X}+N_{Y}]\mu _{X\чашка Y}^{2}\right)} }\end{выровнено}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Для более общего случая M непересекающихся наборов данных, от X 1 до X M , и совокупного набора данных ,![{\textstyle X\,=\,\bigcup _{i}X_{i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\begin{aligned}\mu _{X}&={\frac {1}{\sum _{i}{N_{X_{i}}}}}\left(\sum _{i} {N_{X_{i}}\mu _{X_{i}}}\right)\\[3pt]\sigma _{X}&={\sqrt {{\frac {1}{\sum _{i }{N_{X_{i}}-1}}}\left(\sum _{i}{\left[(N_{X_{i}}-1)\sigma _{X_{i}}^{2 }+N_{X_{i}}\mu _{X_{i}}^{2}\right]}-\left[\sum _{i}{N_{X_{i}}}\right]\mu _{X}^{2}\right)}}\end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
где
![{\displaystyle X_{i}\cap X_{j}=\varnothing,\quad \forall i<j.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Если размер, среднее значение и стандартное отклонение двух перекрывающихся выборок известны для выборок, а также их пересечение, то стандартное отклонение агрегированной выборки все равно можно рассчитать. В общем,
![{\displaystyle {\begin{aligned}\mu _{X\cup Y} &={\frac {1}{N_{X\cup Y}}}\left(N_{X}\mu _{X}+ N_{Y}\mu _{Y}-N_{X\cap Y}\mu _{X\cap Y}\right)\\[3pt]\sigma _{X\cup Y}&={\sqrt { \frac {[N_{X}-1]\sigma _{X}^{2}+N_{X}\mu _{X}^{2}+[N_{Y}-1]\sigma _{Y }^{2}+N_{Y}\mu _{Y}^{2}-[N_{X\cap Y}-1]\sigma _{X\cap Y}^{2}-N_{X\ cap Y}\mu _{X\cap Y}^{2}-[N_{X}+N_{Y}-N_{X\cap Y}]\mu _{X\cup Y}^{2}} {N_{X\чашка Y}-1}}}\end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Смотрите также
Рекомендации
- Киллин PR (май 2005 г.). «Альтернатива тестам значимости нулевой гипотезы». Психологическая наука . 16 (5): 345–53. дои : 10.1111/j.0956-7976.2005.01538.x. ПМК 1473027 . ПМИД 15869691.
Внешние ссылки
- Золотая книга ИЮПАК – объединенное стандартное отклонение
- [1]
- – также имеется в виду d Коэна (на странице 6)