stringtranslate.com

Дисперсия

Пример выборок из двух популяций с одинаковым средним значением, но разными дисперсиями. Красная популяция имеет среднее значение 100 и дисперсию 100 (SD=10), тогда как синяя популяция имеет среднее значение 100 и дисперсию 2500 (SD=50), где SD означает стандартное отклонение.

В теории вероятностей и статистике дисперсия — это ожидаемое значение квадрата отклонения от среднего значения случайной величины . Стандартное отклонение (SD) получается как квадратный корень дисперсии. Дисперсия — это мера дисперсии , то есть это мера того, насколько далеко набор чисел отклоняется от своего среднего значения. Это второй центральный момент распределения и ковариация случайной величины сама с собой, и он часто обозначается как , , , или . [1]

Преимущество дисперсии как меры дисперсии состоит в том, что она более поддается алгебраическим манипуляциям, чем другие меры дисперсии, такие как ожидаемое абсолютное отклонение ; например, дисперсия суммы некоррелированных случайных величин равна сумме их дисперсий. Недостатком дисперсии для практического применения является то, что, в отличие от стандартного отклонения, ее единицы измерения отличаются от случайной величины, поэтому после завершения расчета стандартное отклонение чаще указывается как мера дисперсии.

Есть два различных понятия, каждое из которых называется «дисперсией». Один из них, как обсуждалось выше, является частью теоретического распределения вероятностей и определяется уравнением. Другая дисперсия является характеристикой набора наблюдений. Когда дисперсия рассчитывается на основе наблюдений, эти наблюдения обычно измеряются на основе реальной системы. Если присутствуют все возможные наблюдения системы, то рассчитанная дисперсия называется генеральной дисперсией. Однако обычно доступно только подмножество, и рассчитанная на его основе дисперсия называется выборочной дисперсией. Дисперсия, рассчитанная по выборке, считается оценкой полной дисперсии генеральной совокупности. Существует несколько способов расчета оценки дисперсии генеральной совокупности, как описано в разделе ниже.

Эти два вида дисперсии тесно связаны между собой. Чтобы увидеть, как это сделать, предположим, что теоретическое распределение вероятностей можно использовать в качестве генератора гипотетических наблюдений. Если с использованием распределения генерируется бесконечное количество наблюдений, то выборочная дисперсия, рассчитанная на основе этого бесконечного набора, будет соответствовать значению, рассчитанному с использованием уравнения распределения дисперсии. Дисперсия играет центральную роль в статистике, где некоторые идеи, которые ее используют, включают описательную статистику , статистический вывод , проверку гипотез , степень соответствия и выборку Монте-Карло .

Геометрическая визуализация дисперсии произвольного распределения (2, 4, 4, 4, 5, 5, 7, 9):
  1. Построено частотное распределение.
  2. Центроид распределения дает его среднее значение.
  3. Для каждого значения формируется квадрат со сторонами, равными разнице каждого значения от среднего.
  4. Расположение квадратов в прямоугольнике, одна сторона которого равна количеству значений n , приводит к тому, что другая сторона представляет собой дисперсию распределения σ 2 .

Определение

Дисперсия случайной величины – это ожидаемое значение квадрата отклонения от среднего значения :

Это определение охватывает случайные величины, которые генерируются дискретными , непрерывными , нивелирующими или смешанными процессами. Дисперсию также можно рассматривать как ковариацию случайной величины самой с собой:

Дисперсия также эквивалентна второму кумулянту распределения вероятностей, которое генерирует . Дисперсия обычно обозначается как , иногда как или , или символически как или просто (произносится как « сигма в квадрате»). Выражение для дисперсии можно расширить следующим образом:

Другими словами, дисперсия X равна среднему квадрату X минус квадрат среднего значения X. Это уравнение не следует использовать для вычислений с использованием арифметики с плавающей запятой , поскольку оно страдает от катастрофического сокращения , если два компонента уравнения одинаковы по величине. Другие численно стабильные альтернативы см. в разделе «Алгоритмы расчета дисперсии» .

Дискретная случайная величина

Если генератор случайной величины дискретен с функцией массы вероятности , то

где ожидаемое значение. То есть,

(Когда такая дискретная взвешенная дисперсия определяется весами, сумма которых не равна 1, тогда происходит деление на сумму весов.)

Дисперсию набора равновероятных значений можно записать как

где среднее значение. То есть,

Дисперсия набора равновероятных значений может быть эквивалентно выражена, без прямой ссылки на среднее значение, через квадраты отклонений всех попарных квадратов расстояний точек друг от друга: [2]

Абсолютно непрерывная случайная величина

Если случайная величина имеет функцию плотности вероятности и является соответствующей кумулятивной функцией распределения , то

или эквивалентно,

где ожидаемое значение, заданное выражением

В этих формулах интегралы по и являются интегралами Лебега и Лебега–Стилтьеса соответственно.

Если функция интегрируема по Риману на любом конечном интервале, то

где интеграл является несобственным интегралом Римана .

Примеры

Экспоненциальное распределение

Экспоненциальное распределение с параметром λ представляет собой непрерывное распределение, функция плотности вероятности которого определяется выражением

на интервале [0, ∞) . Можно показать, что его среднее значение равно

Используя интегрирование по частям и используя уже вычисленное ожидаемое значение, мы имеем:

Таким образом, дисперсия X определяется выражением

Ярмарка умереть

Честный шестигранный кубик можно смоделировать как дискретную случайную величину X с исходами от 1 до 6, каждый с равной вероятностью 1/6. Ожидаемое значение X равно. Следовательно, дисперсия X равна

Общая формула для дисперсии результата X n -гранной игральной кости:

Часто используемые распределения вероятностей

В следующей таблице перечислены дисперсии для некоторых часто используемых распределений вероятностей.

Характеристики

Основные свойства

Дисперсия неотрицательна, поскольку квадраты положительны или равны нулю:

Дисперсия константы равна нулю.

И наоборот, если дисперсия случайной величины равна 0, то она почти наверняка является константой. То есть оно всегда имеет одно и то же значение:

Проблемы конечности

Если распределение не имеет конечного ожидаемого значения, как в случае распределения Коши , то дисперсия также не может быть конечной. Однако некоторые распределения могут не иметь конечной дисперсии, несмотря на то, что их ожидаемое значение конечно. Примером является распределение Парето , индекс которого удовлетворяет

Разложение

Общая формула разложения дисперсии или закон полной дисперсии такова : Если и — две случайные величины и дисперсия существует, то

Условное ожидание данного и условную дисперсию можно понимать следующим образом . Учитывая любое конкретное значение y случайной величины  Y , существует условное ожидание данного события  Y  =  y . Эта величина зависит от конкретного значения  y ; это функция . Та же самая функция, оцениваемая по случайной величине Y, представляет собой условное математическое ожидание.

В частности, если – дискретная случайная величина, принимающая возможные значения с соответствующими вероятностями , то в формуле для полной дисперсии первый член в правой части принимает вид

где . Аналогично, второй член в правой части становится

где и . Таким образом, общая дисперсия определяется выражением

Аналогичная формула применяется при дисперсионном анализе , где соответствующая формула имеет вид

здесь имеется в виду среднее значение квадратов. В линейном регрессионном анализе соответствующая формула:

Это также можно вывести из аддитивности дисперсий, поскольку общий (наблюдаемый) балл представляет собой сумму прогнозируемого балла и балла ошибки, причем последние два некоррелированы.

Аналогичные разложения возможны и для суммы квадратов отклонений (суммы квадратов, ):

Расчет из CDF

Дисперсия генеральной совокупности для неотрицательной случайной величины может быть выражена через кумулятивную функцию распределения F , используя

Это выражение можно использовать для расчета дисперсии в ситуациях, когда удобно выразить CDF, но не плотность .

Характерное свойство

Второй момент случайной величины достигает минимального значения, если взять его около первого момента (т. е. среднего) случайной величины, т. е . Обратно, если непрерывная функция удовлетворяет для всех случайных величин X , то она обязательно имеет вид , где a > 0 . Это справедливо и в многомерном случае. [3]

Меры измерения

В отличие от ожидаемого абсолютного отклонения , дисперсия переменной имеет единицы измерения, являющиеся квадратами единиц самой переменной. Например, переменная, измеряемая в метрах, будет иметь отклонение, измеряемое в метрах в квадрате. По этой причине описание наборов данных через их стандартное отклонение или среднеквадратическое отклонение часто предпочтительнее, чем использование дисперсии. В примере с игральными костями стандартное отклонение составляет 2,9 ≈ 1,7 , что немного превышает ожидаемое абсолютное отклонение 1,5.

Стандартное отклонение и ожидаемое абсолютное отклонение могут использоваться как индикатор «разброса» распределения. Стандартное отклонение более поддается алгебраическим манипуляциям, чем ожидаемое абсолютное отклонение, и вместе с дисперсией и ее обобщенной ковариацией часто используется в теоретической статистике; однако ожидаемое абсолютное отклонение имеет тенденцию быть более устойчивым , поскольку оно менее чувствительно к выбросам , возникающим из-за аномалий измерений или чрезмерно тяжелого распределения .

Распространение

Сложение и умножение на константу

Дисперсия инвариантна по отношению к изменениям параметра местоположения . То есть, если ко всем значениям переменной добавить константу, дисперсия не изменится:

Если все значения масштабируются по константе, дисперсия масштабируется по квадрату этой константы:

Дисперсия суммы двух случайных величин определяется выражением

где ковариация . _

Линейные комбинации

В общем случае для суммы случайных величин дисперсия становится:

см. также личность генерала Бьенеме .

Эти результаты приводят к дисперсии линейной комбинации как:

Если случайные величины таковы, что

тогда они называются некоррелированными . Из приведенного ранее выражения сразу следует, что если случайные величины некоррелированы, то дисперсия их суммы равна сумме их дисперсий, или, выражаясь символически:

Поскольку независимые случайные величины всегда некоррелированы (см. Ковариация § Некоррелированность и независимость ), приведенное выше уравнение справедливо, в частности, когда случайные величины независимы. Таким образом, независимости достаточно, но не обязательно, чтобы дисперсия суммы равнялась сумме дисперсий.

Матричное обозначение дисперсии линейной комбинации

Определите как вектор-столбец случайных величин и как вектор-столбец скаляров . Следовательно, представляет собой линейную комбинацию этих случайных величин, где обозначает транспонирование . Также пусть будет ковариационная матрица . Тогда дисперсия определяется следующим образом: [4]

Это означает, что дисперсию среднего значения можно записать как (с вектор-столбцом из единиц)

Сумма переменных

Сумма некоррелирующих переменных

Одна из причин использования дисперсии вместо других мер дисперсии заключается в том, что дисперсия суммы (или разности) некоррелированных случайных величин представляет собой сумму их дисперсий:

Это утверждение называется формулой Бьенеме [5] и было открыто в 1853 году. [6] [7] Часто оно делается с более сильным условием, что переменные независимы , но достаточно того, что они некоррелированы. Итак, если все переменные имеют одинаковую дисперсию σ2 , то, поскольку деление на n является линейным преобразованием, из этой формулы сразу следует, что дисперсия их среднего значения равна

То есть дисперсия среднего значения уменьшается с увеличением n . Эта формула дисперсии среднего используется при определении стандартной ошибки выборочного среднего, которая используется в центральной предельной теореме .

Для доказательства исходного утверждения достаточно показать, что

Общий результат затем следует по индукции. Начиная с определения,

Используя линейность оператора ожидания и предположение о независимости (или некоррелированности) X и Y , это еще больше упрощается следующим образом:

Сумма коррелирующих переменных

Сумма коррелирующих переменных с фиксированным размером выборки

В общем, дисперсия суммы n переменных представляет собой сумму их ковариаций :

(Примечание: второе равенство вытекает из того факта, что Cov( X i , X i ) = Var( X i ) .)

Здесь – ковариация , равная нулю для независимых случайных величин (если она существует). Формула утверждает, что дисперсия суммы равна сумме всех элементов ковариационной матрицы компонентов. Следующее выражение эквивалентно утверждает, что дисперсия суммы представляет собой сумму диагонали ковариационной матрицы плюс удвоенную сумму ее верхних треугольных элементов (или ее нижних треугольных элементов); это подчеркивает, что ковариационная матрица симметрична. Эта формула используется в теории альфа Кронбаха в классической теории тестов .

Таким образом, если переменные имеют одинаковую дисперсию σ 2 и средняя корреляция различных переменных равна ρ , то дисперсия их среднего значения равна

Это означает, что дисперсия среднего значения увеличивается вместе со средним значением корреляций. Другими словами, дополнительные коррелированные наблюдения не так эффективны для снижения неопределенности среднего значения, как дополнительные независимые наблюдения . Более того, если переменные имеют единичную дисперсию, например, если они стандартизированы, то это упрощается до

Эта формула используется в формуле прогнозирования Спирмена-Брауна классической теории тестов. Это сходится к ρ , если n стремится к бесконечности, при условии, что средняя корреляция остается постоянной или тоже сходится. Таким образом, для дисперсии среднего стандартизированных переменных с равными корреляциями или сходящейся средней корреляцией мы имеем

Следовательно, дисперсия среднего значения большого числа стандартизированных переменных примерно равна их средней корреляции. Это ясно показывает, что выборочное среднее коррелирующих переменных обычно не сходится к генеральному среднему, хотя закон больших чисел утверждает, что выборочное среднее сходится для независимых переменных.

Сумма некоррелирующих переменных со случайным размером выборки

Бывают случаи, когда выборку берут, не зная заранее, сколько наблюдений будет приемлемым по какому-либо критерию. В таких случаях размер выборки N представляет собой случайную величину, изменение которой добавляется к изменению X , так что

[8]

что следует из закона полной дисперсии .

Если N имеет распределение Пуассона , то с оценкой n = N. Таким образом, оценщик становится , давая (см. стандартную ошибку выборочного среднего ).

Взвешенная сумма переменных

Свойство масштабирования и формула Бьенеме, а также свойство ковариации Cov ( aXbY ) = ab Cov( XY ) совместно означают, что

Это означает, что во взвешенной сумме переменных переменная с наибольшим весом будет иметь непропорционально большой вес в дисперсии суммы. Например, если X и Y некоррелированы и вес X в два раза превышает вес Y , то вес дисперсии X будет в четыре раза больше веса дисперсии Y.

Выражение выше можно расширить до взвешенной суммы нескольких переменных:

Произведение переменных

Произведение независимых переменных

Если две переменные X и Y независимы , дисперсия их произведения определяется формулой [9]

Эквивалентно, используя основные свойства ожидания, оно определяется выражением

Произведение статистически зависимых переменных

В общем, если две переменные статистически зависимы, то дисперсия их произведения определяется выражением:

Произвольные функции

Дельта -метод использует разложения Тейлора второго порядка для аппроксимации дисперсии функции одной или нескольких случайных величин: см. Разложения Тейлора для моментов функций случайных величин . Например, приблизительная дисперсия функции одной переменной определяется выражением

при условии, что f дважды дифференцируема и что среднее значение и дисперсия X конечны.

Дисперсия генеральной совокупности и выборочная дисперсия

Реальные наблюдения, такие как измерения вчерашнего дождя в течение дня, обычно не могут представлять собой полный набор всех возможных наблюдений. Таким образом, дисперсия, рассчитанная на основе конечного набора, в целом не будет соответствовать дисперсии, которая была бы рассчитана на основе полной совокупности возможных наблюдений. Это означает, что среднее значение и дисперсию оценивают на основе ограниченного набора наблюдений с помощью уравнения оценки . Оценщик является функцией выборки из n наблюдений , взятой без систематической ошибки наблюдений из всей совокупности потенциальных наблюдений. В этом примере эта выборка будет набором фактических измерений вчерашних осадков с помощью доступных дождемеров в интересующей географии.

Простейшие оценки генерального среднего и генеральной дисперсии — это просто среднее и дисперсия выборки, выборочное среднее и (нескорректированная) выборочная дисперсия . Это непротиворечивые оценки (они сходятся к правильному значению по мере увеличения числа выборок), но могут быть улучшено. Оценка генеральной дисперсии на основе выборочной дисперсии в целом близка к оптимальной, но ее можно улучшить двумя способами. Проще всего, выборочная дисперсия вычисляется как среднее квадратичных отклонений от среднего (выборочного) путем деления на n. Однако использование значений, отличных от n , улучшает оценку различными способами. Четыре общих значения знаменателя: n, n  - 1, n  + 1 и n  - 1,5: n - самое простое (дисперсия генеральной совокупности выборки), n  - 1 устраняет смещение, n  + 1 минимизирует среднеквадратическую ошибку для нормального значения. распределение, а n  - 1,5 в основном устраняет смещение при несмещенной оценке стандартного отклонения для нормального распределения.

Во-первых, если истинное среднее значение генеральной совокупности неизвестно, то выборочная дисперсия (которая использует выборочное среднее вместо истинного среднего) является смещенной оценкой : она занижает дисперсию в ( n  - 1) / n ; поправка на этот коэффициент (деление на n  - 1 вместо n ) называется поправкой Бесселя . Полученная в результате оценка является несмещенной и называется (скорректированной) выборочной дисперсией или несмещенной выборочной дисперсией . Например, когда n  = 1, дисперсия одного наблюдения относительно выборочного среднего (сама по себе) очевидно равна нулю независимо от дисперсии генеральной совокупности. Если среднее значение определяется каким-либо иным способом, кроме тех же выборок, которые использовались для оценки дисперсии, то эта погрешность не возникает, и дисперсию можно безопасно оценить как дисперсию выборок относительно (независимо известного) среднего значения.

Во-вторых, выборочная дисперсия обычно не минимизирует среднеквадратичную ошибку между выборочной дисперсией и генеральной дисперсией. Поправка на систематическую ошибку часто ухудшает ситуацию: всегда можно выбрать масштабный коэффициент, который работает лучше, чем скорректированная выборочная дисперсия, хотя оптимальный масштабный коэффициент зависит от избыточного эксцесса генеральной совокупности (см. Среднеквадратическая ошибка: дисперсия ) и вносит смещение. Это всегда состоит из уменьшения масштаба несмещенной оценки (деление на число, большее, чем n  - 1), и является простым примером оценки сокращения : несмещенную оценку «сжимают» до нуля. Для нормального распределения деление на n  + 1 (вместо n  − 1 или n ) минимизирует среднеквадратическую ошибку. Однако полученная оценка является смещенной и известна как смещенная выборочная вариация .

Дисперсия населения

В общем, дисперсия конечной популяции размера N со значениями x i определяется выражением

где среднее значение численности населения

Дисперсия генеральной совокупности также может быть вычислена с использованием

Это правда, потому что

Дисперсия совокупности соответствует дисперсии генерирующего распределения вероятностей. В этом смысле концепцию популяции можно распространить на непрерывные случайные величины с бесконечной популяцией.

Выборочная дисперсия

Смещенная выборочная дисперсия

Во многих практических ситуациях истинная дисперсия популяции неизвестна априори и должна быть каким-то образом вычислена. При работе с чрезвычайно большими популяциями невозможно подсчитать каждый объект в популяции, поэтому вычисления необходимо выполнять на выборке совокупности . [10] Обычно это называется выборочной дисперсией или эмпирической дисперсией . Выборочная дисперсия также может применяться для оценки дисперсии непрерывного распределения по выборке этого распределения.

Берем выборку с заменой n значений Y 1 , ...,  Y n из генеральной совокупности, где n  <  N , и оцениваем дисперсию на основе этой выборки. [11] Непосредственное определение дисперсии выборочных данных дает среднее значение квадратов отклонений :

Здесь обозначает выборочное среднее значение :

Поскольку Y i выбираются случайным образом, оба и являются случайными величинами. Их ожидаемые значения можно оценить путем усреднения по ансамблю всех возможных выборок { Y i } размера n из совокупности. За это дает:

Следовательно, дает оценку дисперсии генеральной совокупности, которая смещена в . По этой причине ее называют смещенной выборочной дисперсией .

Непредвзятая выборочная дисперсия

Поправка на это смещение дает несмещенную выборочную дисперсию , обозначаемую :

Любой оценщик можно просто назвать выборочной дисперсией , если версию можно определить по контексту. То же доказательство применимо и для выборок, взятых из непрерывного распределения вероятностей.

Использование термина n  - 1 называется поправкой Бесселя , а также используется в выборочной ковариации и выборочном стандартном отклонении (квадратном корне дисперсии). Квадратный корень является вогнутой функцией и, таким образом, вносит отрицательное смещение (согласно неравенству Йенсена ), которое зависит от распределения, и, таким образом, скорректированное стандартное отклонение выборки (с использованием поправки Бесселя) является смещенным. Несмещенная оценка стандартного отклонения является технически сложной проблемой, хотя для нормального распределения использование члена n  - 1,5 дает почти несмещенную оценку.

Несмещенная выборочная дисперсия представляет собой U-статистику для функции ƒ ( y 1y 2 ) = ( y 1  −  y 2 ) 2 /2, что означает, что она получается путем усреднения статистики из 2 выборок по 2-элементным подмножествам население.

Распределение выборочной дисперсии

Будучи функцией случайных величин , выборочная дисперсия сама по себе является случайной величиной, и естественно изучать ее распределение. В случае, когда Y i являются независимыми наблюдениями от нормального распределения , теорема Кокрена показывает, что S 2 следует масштабированному распределению хи-квадрат (см. также: асимптотические свойства и элементарное доказательство ): [12]

Как прямое следствие, отсюда следует, что

и [13]

Если Y i независимы и одинаково распределены, но не обязательно нормально распределены, то [14]

где κэксцесс распределения, а µ 4 – четвертый центральный момент .

Если условия закона больших чисел выполняются для наблюдений в квадрате, S 2 является последовательной оценкой  σ 2 . Действительно, можно видеть, что дисперсия оценки асимптотически стремится к нулю. Асимптотически эквивалентная формула была дана Кенни и Кикингом (1951:164), Роузом и Смитом (2002:264) и Вейсстейном (nd). [15] [16] [17]

Неравенство Самуэльсона

Неравенство Самуэльсона - это результат, который устанавливает границы значений, которые могут принимать отдельные наблюдения в выборке, при условии, что были рассчитаны выборочное среднее и (смещенная) дисперсия. [18] Значения должны находиться в пределах

Связь с гармоническими и арифметическими средними

Было показано [19] , что для выборки { yi } положительных действительных чисел

где y max — максимум выборки, A — среднее арифметическое, H — среднее гармоническое выборки и (смещенная) дисперсия выборки.

Эта граница была улучшена, и известно, что дисперсия ограничена выражением

где y min — минимум выборки. [20]

Критерии равенства дисперсий

F -критерий равенства дисперсий и тест хи-квадрат адекватны, когда выборка нормально распределена. Ненормальность затрудняет проверку равенства двух или более дисперсий.

Было предложено несколько непараметрических тестов: к ним относятся тест Бартона-Дэвида-Ансари-Фрейнда-Зигеля-Тьюки, тест Кейпона, тест настроения , тест Клотца и тест Сукхатме. Тест Сукхатме применяется к двум дисперсиям и требует, чтобы обе медианы были известны и были равны нулю. Критерии Настроения, Клотца, Кейпона и Бартона-Дэвида-Ансари-Фрейнда-Зигеля-Тьюки также применимы к двум дисперсиям. Они допускают, чтобы медиана была неизвестна, но требуют, чтобы две медианы были равны.

Тест Лемана представляет собой параметрический тест двух дисперсий. Известно несколько вариантов этого теста. Другие тесты равенства дисперсий включают тест Бокса, тест Бокса-Андерсона и тест Мозеса.

Методы повторной выборки, в том числе бутстрап и складной нож , могут использоваться для проверки равенства дисперсий.

Момент инерции

Дисперсия распределения вероятностей аналогична моменту инерции в классической механике соответствующего распределения массы вдоль линии относительно вращения вокруг ее центра масс. [ нужна цитата ] Именно из-за этой аналогии такие вещи, как дисперсия, называются моментами вероятностных распределений . [ нужна цитата ] Ковариационная матрица связана с тензором момента инерции для многомерных распределений. Момент инерции облака из n точек с ковариационной матрицей определяется выражением [ нужна ссылка ]

Эта разница между моментом инерции в физике и статистике очевидна для точек, расположенных вдоль линии. Предположим, что множество точек расположены близко к оси x и распределены вдоль нее. Ковариационная матрица может выглядеть так

То есть наибольшая дисперсия наблюдается в направлении x . Физики сочли бы, что это имеет низкий момент относительно оси x , поэтому тензор момента инерции равен

Семивариантность

Полудисперсия рассчитывается так же, как и дисперсия, но в расчет включаются только те наблюдения, которые находятся ниже среднего :

[21]

О неравенствах, связанных с полувариантностью, см. неравенство Чебышева § Семивариации .

Этимология

Термин « дисперсия» был впервые введен Рональдом Фишером в его статье 1918 года «Корреляция между родственниками на основании предположения о менделевском наследовании» : [22]

Большой объем доступной статистики показывает нам, что отклонения человеческих измерений от их среднего значения очень точно соответствуют нормальному закону ошибок и, следовательно, что изменчивость может быть равномерно измерена с помощью стандартного отклонения , соответствующего квадратному корню из среднего значения . квадратная ошибка . Когда существуют две независимые причины изменчивости, способные привести к равномерному в остальном распределению населения со стандартными отклонениями и , обнаруживается, что распределение, когда обе причины действуют вместе, имеет стандартное отклонение . Поэтому при анализе причин изменчивости желательно иметь дело с квадратом стандартного отклонения как мерой изменчивости. Мы назовем эту величину дисперсией...

Обобщения

Для комплексных переменных

Если это скалярная комплексная случайная величина со значениями в, то ее дисперсия равна где - комплексно-сопряженная величина. Эта дисперсия является действительным скаляром.

Для векторных случайных величин

В качестве матрицы

Если это случайная величина с векторным значением, значения которой рассматриваются как вектор-столбец, то естественным обобщением дисперсии является то, где и является транспонированием , а также вектором-строкой. Результатом является положительная полуопределенная квадратная матрица , обычно называемая дисперсионно-ковариационной матрицей (или просто ковариационной матрицей ).

Если это векторная и комплексная случайная величина со значениями внутри, то ковариационная матрица равна где - сопряженное транспонирование [ необходима цитация ]. Эта матрица также является положительной полуопределенной и квадратной.

Как скаляр

Другое обобщение дисперсии для векторных случайных величин , которое приводит к скалярному значению, а не к матрице, — это обобщенная дисперсия , определитель ковариационной матрицы. Можно показать, что обобщенная дисперсия связана с многомерным разбросом точек вокруг их среднего значения. [23]

Другое обобщение получается, если рассматривать уравнение скалярной дисперсии и переинтерпретировать его как квадрат евклидова расстояния между случайной величиной и ее средним значением или просто как скалярное произведение вектора на самого себя. В результате получается след ковариационной матрицы.

Смотрите также

Виды дисперсии

Рекомендации

  1. ^ Вассерман, Ларри (2005). Вся статистика: краткий курс статистических выводов . Тексты Спрингера в статистике. п. 51. ИСБН 978-1-4419-2322-6.
  2. ^ Юли Чжан; Хуайюй Ву; Лей Ченг (июнь 2012 г.). Некоторые новые формулы деформации, касающиеся дисперсии и ковариации . Материалы 4-й Международной конференции по моделированию, идентификации и контролю (ICMIC2012). стр. 987–992.
  3. ^ Каган, А.; Шепп, Луизиана (1998). «Почему такая разница?». Статистика и вероятностные буквы . 38 (4): 329–333. дои : 10.1016/S0167-7152(98)00041-8.
  4. ^ Джонсон, Ричард; Вичерн, Дин (2001). Прикладной многомерный статистический анализ . Прентис Холл. п. 76. ИСБН 0-13-187715-1.
  5. ^ Лоев, М. (1977) «Теория вероятностей», Тексты для аспирантов по математике , том 45, 4-е издание, Springer-Verlag, стр. 12.
  6. ^ Бьенеме, И.-Ж. (1853) «Соображения о приближении Лапласа к закону вероятности в методе моих мыслей», Comptes rendus de l'Académie des Sciences Paris , 37, стр. 309–317; доступна цифровая копия [1]
  7. ^ Бьенеме, И.-Ж. (1867) «Соображения о приложении Лапласа к закону вероятности в методе моих мыслей», Journal de Mathématiques Pures et Appliquées, Série 2 , Tome 12, p. 158–167; доступна цифровая копия [2][3]
  8. ^ Корнелл, младший, и Бенджамин, Калифорния, Вероятность, статистика и решения для инженеров-строителей, МакГроу-Хилл, Нью-Йорк, 1970, стр. 178-9.
  9. ^ Гудман, Лео А. (декабрь 1960 г.). «О точном отклонении продуктов». Журнал Американской статистической ассоциации . 55 (292): 708–713. дои : 10.2307/2281592. JSTOR  2281592.
  10. ^ Навиди, Уильям (2006) Статистика для инженеров и ученых , McGraw-Hill, стр. 14.
  11. ^ Монтгомери, округ Колумбия, и Рангер, GC (1994) Прикладная статистика и вероятность для инженеров , стр. 201. John Wiley & Sons, Нью-Йорк
  12. ^ Найт К. (2000), Математическая статистика , Чепмен и Холл, Нью-Йорк. (предложение 2.11)
  13. ^ Казелла и Бергер (2002) Статистический вывод , пример 7.3.3, стр. 331 [ нужна полная цитата ]
  14. ^ Настроение, А.М., Грейбилл, Ф.А. и Боес, округ Колумбия (1974) Введение в теорию статистики , 3-е издание, McGraw-Hill, Нью-Йорк, стр. 229
  15. ^ Кенни, Джон Ф.; Хранение, Е.С. (1951) Математика статистики. Часть вторая. 2-е изд. Компания Д. Ван Ностранд, Инк. Принстон: Нью-Джерси. http://krishikosh.egranth.ac.in/bitstream/1/2025521/1/G2257.pdf
  16. ^ Роуз, Колин; Смит, Мюррей Д. (2002) Математическая статистика в системе Mathematica. Спрингер-Верлаг, Нью-Йорк. http://www.mathstatica.com/book/Mathematical_Statistics_with_Mathematica.pdf
  17. ^ Вайсштейн, Эрик В. (nd) Выборочное распределение дисперсии. MathWorld — веб-ресурс Wolfram. http://mathworld.wolfram.com/SampleVarianceDistribution.html
  18. ^ Самуэльсон, Пол (1968). «Насколько ты можешь быть девиантным?». Журнал Американской статистической ассоциации . 63 (324): 1522–1525. дои : 10.1080/01621459.1968.10480944. JSTOR  2285901.
  19. ^ Мерсер, А. МакД. (2000). «Оценки для A – G, A – H, G – H и семейства неравенств типа Кая Фана с использованием общего метода». Дж. Математика. Анальный. Приложение . 243 (1): 163–173. дои : 10.1006/jmaa.1999.6688 .
  20. ^ Шарма, Р. (2008). «Еще несколько неравенств для среднего арифметического, среднего гармонического и дисперсии». Журнал математических неравенств . 2 (1): 109–114. CiteSeerX 10.1.1.551.9397 . дои : 10.7153/jmi-02-11. 
  21. ^ Фама, Юджин Ф.; Френч, Кеннет Р. (21 апреля 2010 г.). «Вопросы и ответы: полудисперсия: лучший показатель риска?». Фама/Французский форум .
  22. ^ Рональд Фишер (1918) Корреляция между родственниками на основании предположения о менделевском наследовании
  23. ^ Кочерлакота, С.; Кочерлакота, К. (2004). «Обобщенная дисперсия». Энциклопедия статистических наук . Интернет-библиотека Уайли. дои : 10.1002/0471667196.ess0869. ISBN 0-471-66719-6.