stringtranslate.com

Закон полной дисперсии

В теории вероятностей закон полной дисперсии [1] или формула разложения дисперсии или формулы условной дисперсии или закон итерированных дисперсий, также известный как закон Евы , [2] гласит, что если и являются случайными величинами на одном и том же вероятностном пространстве , а дисперсия конечна , то

На языке, возможно, более известном статистикам, чем теоретикам вероятностей, эти два термина — «необъяснённые» и «объяснённые» компоненты дисперсии соответственно (ср. необъяснённая доля дисперсии , объясненная вариация ). В актуарной науке , в частности в теории достоверности , первый компонент называется ожидаемым значением дисперсии процесса ( EVPV ), а второй — дисперсией гипотетических средних ( VHM ). [3] Эти два компонента также являются источником термина «закон Евы», от инициалов EV VE для «ожидания дисперсии» и «дисперсии ожидания».

Объяснение

Чтобы понять формулу выше, нам нужно понять случайные величины и . Эти переменные зависят от значения : для заданного , и являются постоянными числами. По сути, мы используем возможные значения для группировки результатов, а затем вычисляем ожидаемые значения и дисперсии для каждой группы.

Компонент "unexplained" - это просто среднее значение всех дисперсий в каждой группе. Компонент "explained" - это дисперсия ожидаемых значений, т.е. он представляет собой часть дисперсии, которая объясняется вариацией среднего значения для каждой группы.

Вес собак по породам

Для иллюстрации рассмотрим пример выставки собак (выбранный отрывок из Analysis_of_variance#Example ). Пусть случайная величина соответствует весу собаки и соответствует породе. В этой ситуации разумно ожидать, что порода объясняет большую часть дисперсии веса, поскольку существует большая дисперсия в средних весах пород. Конечно, все еще есть некоторая дисперсия веса для каждой породы, которая учитывается в термине «необъясненное».

Обратите внимание, что термин «объясненный» на самом деле означает «объясненный средними значениями». Если дисперсии для каждого фиксированного значения (например, для каждой породы в приведенном выше примере) очень различимы, эти дисперсии все равно объединяются в термин «необъясненный».

Примеры

Пример 1

Пять аспирантов сдают экзамен, который оценивается по шкале от 0 до 100. Пусть обозначает оценку студента и указывает, является ли студент иностранным или отечественным. Данные суммируются следующим образом:

Среди иностранных студентов среднее значение равно , а дисперсия — .

Среди отечественных студентов среднее значение равно , а дисперсия равна .

Часть дисперсии "необъясненного" по является средним значением дисперсий для каждой группы. В этом случае это . Часть дисперсии "объясненного" по является дисперсией средних значений внутри каждой группы, определяемой значениями . В этом случае это ноль, поскольку среднее значение одинаково для каждой группы. Таким образом, общая дисперсия равна

Пример 2

Предположим, что X — это подбрасывание монеты с вероятностью выпадения орла h . Предположим, что когда X = орел , то Y выбирается из нормального распределения со средним значением μ h и стандартным отклонением σ h , и что когда X = решка , то Y выбирается из нормального распределения со средним значением μ t и стандартным отклонением σ t . Тогда первый, «необъясненный» член в правой части приведенной выше формулы — это средневзвешенное значение дисперсий, h 2 + (1 − h ) σ t 2 , а второй, «объясненный» член — это дисперсия распределения, которая дает μ h с вероятностью h и дает μ t с вероятностью 1 − h .

Формулировка

Существует общая формула разложения дисперсии для компонентов (см. ниже). [4] Например, с двумя обусловливающими случайными величинами: что следует из закона полной условной дисперсии: [4]

Обратите внимание, что условное ожидаемое значение является случайной величиной сама по себе, значение которой зависит от значения Обратите внимание, что условное ожидаемое значение при данном событии является функцией (здесь становится важным соблюдение общепринятой и строго чувствительной к регистру нотации теории вероятностей!). Если мы запишем то случайная величина равна просто Аналогичные комментарии применимы к условной дисперсии .

Один особый случай (похожий на закон полного ожидания ) гласит, что если является разделом всего пространства результатов, то есть эти события являются взаимоисключающими и исчерпывающими, то

В этой формуле первый компонент — это математическое ожидание условной дисперсии; два других компонента — это дисперсия условного ожиданий.

Доказательство

Конечный случай

Пусть наблюдаются значения , с повторениями.

Установите и для каждого возможного значения установите .

Обратите внимание, что

Суммируя их для , последняя посылка становится

Следовательно,

Общий случай

Закон полной дисперсии можно доказать, используя закон полного ожидания . [5] Во-первых, из определения дисперсии. Опять же, из определения дисперсии и применяя закон полного ожидания, мы имеем

Теперь перепишем условный второй момент через его дисперсию и первый момент и применим закон полного математического ожидания к правой части:

Поскольку ожидание суммы является суммой ожиданий, то теперь члены можно перегруппировать:

Наконец, мы распознаем члены во втором наборе скобок как дисперсию условного ожидания :

Общая дисперсионная декомпозиция, применимая к динамическим системам

Следующая формула показывает, как применить общую формулу разложения дисперсии с теорией меры [4] к стохастическим динамическим системам. Пусть будет значением системной переменной в момент времени Предположим, что у нас есть внутренние истории ( естественные фильтрации ) , каждая из которых соответствует истории (траектории) различного набора системных переменных. Наборы не обязательно должны быть непересекающимися. Дисперсию можно разложить для всех моментов времени на компоненты следующим образом:

Разложение не является единственным. Оно зависит от порядка обусловливания в последовательном разложении.

Квадрат корреляции и объясненная (или информационная) вариация

В случаях, когда таковы, что условное ожидаемое значение является линейным; то есть в случаях, когда из билинейности ковариации следует, что и и объясненный компонент дисперсии, деленный на общую дисперсию, есть просто квадрат корреляции между и то есть в таких случаях

Одним из примеров такой ситуации является двумерное нормальное (гауссовское) распределение.

В более общем случае, когда условное ожидание является нелинейной функцией [4] , которую можно оценить как квадрат нелинейной регрессии на основе данных , полученных из совместного распределения Когда имеет гауссовское распределение (и является обратимой функцией ), или само имеет (предельное) гауссовское распределение, этот объясненный компонент вариации устанавливает нижнюю границу взаимной информации : [4]

Высшие моменты

Аналогичный закон для третьего центрального момента гласит:

Для более высоких кумулянтов существует обобщение. См. закон полной кумуляции .

Смотрите также

Ссылки

  1. Нил А. Вайс, Курс теории вероятностей , Addison–Wesley, 2005, стр. 385–386.
  2. ^ Джозеф К. Блицштейн и Джессика Хван: «Введение в теорию вероятностей»
  3. ^ Малер, Ховард К.; Дин, Кертис Гэри (2001). "Глава 8: Достоверность" (PDF) . В Casualty Actuarial Society (ред.). Основы Casualty Actuarial Science (4-е изд.). Casualty Actuarial Society . стр. 525–526. ISBN 978-0-96247-622-8. Получено 25 июня 2015 г. .
  4. ^ abcde Боушер, К. Г. и П. С. Суэйн, Определение источников вариации и потока информации в биохимических сетях, PNAS 15 мая 2012 г. 109 (20) E1320-E1328.
  5. ^ Нил А. Вайс, Курс теории вероятностей , Эддисон–Уэсли, 2005, страницы 380–383.