stringtranslate.com

Объединенная дисперсия

В статистике объединенная дисперсия (также известная как комбинированная дисперсия , составная дисперсия или общая дисперсия и написанная как ) — это метод оценки дисперсии нескольких различных совокупностей, когда среднее значение каждой совокупности может быть разным , но можно предположить, что дисперсия каждой совокупности одинакова. Численная оценка, полученная в результате использования этого метода, также называется объединенной дисперсией.

При условии равных дисперсий совокупности объединенная выборочная дисперсия обеспечивает более высокую точность оценки дисперсии, чем индивидуальные выборочные дисперсии. Эта более высокая точность может привести к увеличению статистической мощности при использовании в статистических тестах , сравнивающих совокупности, таких как t -тест .

Квадратный корень из объединенной оценки дисперсии известен как объединенное стандартное отклонение (также известное как объединенное стандартное отклонение , составное стандартное отклонение или общее стандартное отклонение ).

Мотивация

В статистике часто собираются данные для зависимой переменной y в диапазоне значений независимой переменной x . Например, наблюдение за расходом топлива может изучаться как функция скорости двигателя, в то время как нагрузка на двигатель остается постоянной. Если для достижения небольшой дисперсии y требуется множество повторных испытаний при каждом значении x , стоимость испытаний может стать непомерной. Разумные оценки дисперсии можно определить, используя принцип объединенной дисперсии после повторения каждого испытания при определенном x всего несколько раз.

Определение и расчет

Объединенная дисперсия представляет собой оценку фиксированной общей дисперсии, лежащей в основе различных совокупностей, имеющих разные средние значения.

Нам дан набор выборочных дисперсий , где популяции индексированы ,

=

Предполагая, что размеры выборки одинаковы , объединенную дисперсию можно вычислить с помощью среднего арифметического :

Если размеры выборки неравномерны, то объединенную дисперсию можно вычислить с помощью средневзвешенного значения , используя в качестве весов соответствующие степени свободы (см. также: поправка Бесселя ):

Распределение равно .

Доказательство. Когда есть одно среднее, распределение является гауссовым в , -мерном симплексе, со стандартным отклонением . Когда есть несколько средних, распределение является гауссовым в .

Варианты

Несмещенная оценка наименьших квадратов (как представлено выше) и смещенная оценка максимального правдоподобия ниже:

используются в разных контекстах. [ необходима цитата ] Первый может дать несмещенную оценку , когда две группы разделяют равную дисперсию популяции. Последний может дать более эффективную оценку , хотя и подвержен смещению. Обратите внимание, что величины в правых частях обоих уравнений являются несмещенными оценками.

Пример

Рассмотрим следующий набор данных для y, полученных на различных уровнях независимой переменной  x .

Количество испытаний, среднее значение, дисперсия и стандартное отклонение представлены в следующей таблице.

Эти статистики представляют дисперсию и стандартное отклонение для каждого подмножества данных на различных уровнях x . Если мы можем предположить, что одни и те же явления генерируют случайную ошибку на каждом уровне x , то приведенные выше данные можно «объединить» для выражения единой оценки дисперсии и стандартного отклонения. В некотором смысле это предполагает нахождение средней дисперсии или стандартного отклонения среди пяти приведенных выше результатов. Эта средняя дисперсия вычисляется путем взвешивания отдельных значений с размером подмножества для каждого уровня x . Таким образом, объединенная дисперсия определяется как

где n 1 , n 2 , . . ., n k — размеры подмножеств данных на каждом уровне переменной x , а s 1 2 , s 2 2 , . . ., s k 2 — их соответствующие дисперсии.

Таким образом, объединенная дисперсия данных, показанных выше, составляет:

Влияние на точность

Объединенная дисперсия является оценкой, когда между объединенными наборами данных существует корреляция или среднее значение наборов данных не идентично. Объединенная дисперсия менее точна, чем больше ненулевая корреляция или чем больше удалены средние значения между наборами данных.

Вариация данных для непересекающихся наборов данных составляет:

где среднее значение определяется как:

Учитывая смещенное максимальное правдоподобие, определяемое как:

Тогда ошибка в смещенной оценке максимального правдоподобия равна:

Предположим, что N велико, так что:

Тогда ошибка в оценке уменьшается до:

Или альтернативно:

Агрегация данных стандартного отклонения

Вместо оценки объединенного стандартного отклонения можно использовать следующий способ точного агрегирования стандартного отклонения при наличии дополнительной статистической информации.

Статистика по населению

Популяции наборов, которые могут перекрываться, можно просто рассчитать следующим образом:

Популяции наборов, которые не перекрываются, можно просто рассчитать следующим образом:

Стандартные отклонения неперекрывающихся ( XY = ∅ ) субпопуляций можно агрегировать следующим образом, если известны размер (фактический или относительный друг к другу) и средние значения каждой из них:

Например, предположим, что известно, что средний рост американского мужчины составляет 70 дюймов со стандартным отклонением в три дюйма, а средний рост американской женщины составляет 65 дюймов со стандартным отклонением в два дюйма. Также предположим, что количество мужчин N равно количеству женщин. Тогда среднее значение и стандартное отклонение роста взрослых американцев можно рассчитать как

Для более общего случая M неперекрывающихся популяций, X 1 через X M , и совокупной популяции ,

,

где

Если известны размер (фактический или относительный друг к другу), среднее значение и стандартное отклонение двух перекрывающихся популяций, а также их пересечение, то стандартное отклонение общей популяции все равно можно рассчитать следующим образом:

Если два или более наборов данных суммируются по точкам, то стандартное отклонение результата можно рассчитать, если известны стандартное отклонение каждого набора данных и ковариация между каждой парой наборов данных:

Для особого случая, когда между любой парой наборов данных не существует корреляции, отношение сводится к квадратному корню суммы квадратов:

Статистика на основе выборки

Стандартные отклонения неперекрывающихся ( XY = ∅ ) подвыборок можно агрегировать следующим образом, если известны фактический размер и средние значения каждой из них:

Для более общего случая M неперекрывающихся наборов данных, от X 1 до X M , и совокупного набора данных ,

где

Если известны размер, среднее значение и стандартное отклонение двух перекрывающихся выборок, а также их пересечение, то стандартное отклонение агрегированной выборки все еще можно рассчитать. В общем,

Смотрите также

Ссылки

Внешние ссылки