Распределение хи-квадрат

В теории вероятностей и статистике распределение хи-квадрат (также хи-квадрат или -распределение ) со степенями свободы представляет собой распределение суммы квадратов независимых стандартных нормальных случайных величин. Распределение хи-квадрат представляет собой частный случай гамма-распределения и является одним из наиболее широко используемых распределений вероятностей в статистике вывода , особенно при проверке гипотез и построении доверительных интервалов . ^[2]^[3]^[4]^[5] Это распределение иногда называют центральным распределением хи-квадрат , что является частным случаем более общего нецентрального распределения хи-квадрат . $\чи ^{2}$ $k$ $k$

Распределение хи-квадрат используется в обычных тестах хи-квадрат для проверки соответствия наблюдаемого распределения теоретическому, независимости двух критериев классификации качественных данных , а также для определения доверительного интервала для оценки стандартного отклонения генеральной совокупности. нормального распределения из выборочного стандартного отклонения. Многие другие статистические тесты также используют это распределение, например, дисперсионный анализ Фридмана по рангам .

Определения

Если $Z 1, ..., Z k$ — независимые стандартные нормальные случайные величины, то сумма их квадратов

Q\ =\sum _{i=1}^{k}Z_{i}^{2},

распределяется согласно распределению хи-квадрат с $k$ степенями свободы. Обычно это обозначается как

Q\ \sim \ \chi ^{2}(k)\ \ {\text{or}} \ \ Q\ \sim \ \chi _{k}^{2}.

Распределение хи-квадрат имеет один параметр: целое положительное число $k$ , которое определяет количество степеней свободы (количество суммируемых случайных величин, Z _i s).

Введение

Распределение хи-квадрат используется в основном при проверке гипотез и в меньшей степени для определения доверительных интервалов дисперсии генеральной совокупности, когда основное распределение является нормальным. В отличие от более широко известных распределений, таких как нормальное распределение и экспоненциальное распределение , распределение хи-квадрат не так часто применяется при прямом моделировании природных явлений. Он возникает, среди прочего, при следующих проверках гипотез:

Критерий хи-квадрат независимости в таблицах непредвиденных обстоятельств
Критерий хи-квадрат на предмет соответствия наблюдаемых данных гипотетическим распределениям
Тест отношения правдоподобия для вложенных моделей
Логранговый тест в анализе выживаемости
Критерий Кокрана-Мантела-Хэнзеля для стратифицированных таблиц непредвиденных обстоятельств
тест Вальда
Оценка теста

Это также компонент определения t -распределения и F -распределения, используемого в t -тестах, дисперсионном анализе и регрессионном анализе.

Основной причиной, по которой распределение хи-квадрат широко используется при проверке гипотез, является его связь с нормальным распределением. Многие проверки гипотез используют тестовую статистику, например t -статистику в t -критерии. Для этих проверок гипотез по мере увеличения размера выборки $n$ выборочное распределение тестовой статистики приближается к нормальному распределению ( центральная предельная теорема ). Поскольку статистика теста (например, $t$ ) асимптотически нормально распределена, при условии, что размер выборки достаточно велик, распределение, используемое для проверки гипотез, может быть аппроксимировано нормальным распределением. Проверка гипотез с использованием нормального распределения хорошо понятна и относительно проста. Простейшим распределением хи-квадрат является квадрат стандартного нормального распределения. Таким образом, везде, где для проверки гипотезы можно использовать нормальное распределение, можно использовать распределение хи-квадрат.

Предположим, что это случайная величина, выбранная из стандартного нормального распределения, где среднее значение и дисперсия : . Теперь рассмотрим случайную величину . Распределение случайной величины является примером распределения хи-квадрат: . Индекс 1 указывает, что это конкретное распределение хи-квадрат построено только из одного стандартного нормального распределения. Говорят, что распределение хи-квадрат, построенное путем возведения в квадрат одного стандартного нормального распределения, имеет 1 степень свободы. Таким образом, по мере увеличения размера выборки для проверки гипотезы распределение статистики теста приближается к нормальному распределению. Точно так же, как экстремальные значения нормального распределения имеют низкую вероятность (и дают малые значения p), экстремальные значения распределения хи-квадрат имеют низкую вероятность. $Z$ $0$ $1$ $Z\sim N (0,1)$ $Q=Z^{2}$ $Q$ $\ Q\ \sim \ \chi _{1}^{2}$

Дополнительная причина, по которой широко используется распределение хи-квадрат, заключается в том, что оно представляет собой распределение большой выборки в обобщенных тестах отношения правдоподобия (LRT). ^[6] LRT обладают несколькими полезными свойствами; в частности, простые LRT обычно обеспечивают наивысшую способность отвергать нулевую гипотезу ( лемма Неймана-Пирсона ), и это также приводит к свойствам оптимальности обобщенных LRT. Однако нормальное приближение и приближение хи-квадрат действительны только асимптотически. По этой причине предпочтительнее использовать распределение t , а не нормальное приближение или приближение хи-квадрат для небольшого размера выборки. Аналогичным образом, при анализе таблиц сопряженности приближение хи-квадрат будет плохим для небольшого размера выборки, и предпочтительнее использовать точный критерий Фишера . Рэмси показывает, что точный биномиальный тест всегда более эффективен, чем нормальное приближение. ^[7]

Ланкастер показывает связи между биномиальным, нормальным распределениями и распределениями хи-квадрат следующим образом. ^[8] Де Муавр и Лаплас установили, что биномиальное распределение можно аппроксимировать нормальным распределением. В частности, они показали асимптотическую нормальность случайной величины.

\chi = {m-Np \over {\sqrt {Npq}}}

где – наблюдаемое число успехов в испытаниях, где вероятность успеха равна , и . $м$ $N$ ${\ displaystyle p}$ $q=1-p$

Возведение в квадрат обеих частей уравнения дает

\chi ^{2}={(m-Np)^{2} \over Npq}

Используя , , и , это уравнение можно переписать как $N=Np+N(1-p)$ $N=м+(Нм)$ $q=1-p$

\chi ^{2}={(m-Np)^{2} \over Np}+{(Nm-Nq)^{2} \over Nq}

Выражение справа имеет форму, которую Карл Пирсон обобщил бы до формы

\chi ^{2}=\sum _{i=1}^{n}{\frac {(O_{i}-E_{i})^{2}}{E_{i}}}

где

$\чи ^{2}$ = кумулятивная критерийная статистика Пирсона, которая асимптотически приближается к распределению; = количество наблюдений типа ; = ожидаемая (теоретическая) частота типа , утверждаемая нулевой гипотезой о том, что доля типа в популяции равна ; и = количество ячеек в таблице. ^[^{нужна цитата}^] $\чи ^{2}$ $O_{i}$ $я$ $E_{i}=Np_{i}$ $я$ $я$ $p_{i}$ $п$

В случае биномиального результата (подбрасывания монеты) биномиальное распределение может быть аппроксимировано нормальным распределением (при достаточно большом ). Поскольку квадрат стандартного нормального распределения представляет собой распределение хи-квадрат с одной степенью свободы, вероятность такого результата, как 1 голова в 10 испытаниях, может быть аппроксимирована либо путем непосредственного использования нормального распределения, либо распределения хи-квадрат для нормализованная квадратичная разница между наблюдаемым и ожидаемым значением. Однако многие проблемы включают в себя более двух возможных результатов бинома и вместо этого требуют 3 или более категорий, что приводит к полиномиальному распределению. Подобно тому, как де Муавр и Лаплас искали и нашли нормальное приближение к биному, Пирсон искал и нашел вырожденное многомерное нормальное приближение к полиномиальному распределению (числа в каждой категории в сумме дают общий размер выборки, который считается фиксированным). . Пирсон показал, что распределение хи-квадрат возникло в результате такого многомерного нормального приближения к полиномиальному распределению с тщательным учетом статистической зависимости (отрицательных корреляций) между количеством наблюдений в разных категориях. ^[8] $п$

Функция плотности вероятности

Функция плотности вероятности (pdf) распределения хи-квадрат равна

f(x;\,k)={\begin{cases}{\dfrac {x^{k/2-1}e^{-x/2}}{2^{k/2}\Gamma \left({\frac {k}{2}}\right)}},&x>0;\\0,&{\text{иначе}}.\end{cases}}

где обозначает гамма-функцию , которая имеет значения в замкнутой форме для целых чисел . ${\textstyle \Гамма (к/2)}$ $k$

Для получения PDF-файла в случаях одной, двух и степеней свободы см. Доказательства, связанные с распределением хи-квадрат . $k$

Кумулятивная функция распределения

Оценка Чернова для CDF и хвоста (1-CDF) случайной величины хи-квадрат с десятью степенями свободы ( ) $k=10$

Его кумулятивная функция распределения :

F(x;\,k)={\frac {\gamma ({\frac {k}{2}},\,{\frac {x}{2}})}{\Gamma ({\ frac {k}{2}})}}=P\left({\frac {k}{2}},\,{\frac {x}{2}}\right),

где – нижняя неполная гамма-функция , – регуляризованная гамма-функция . $\gamma (s,t)$ ${\ textstyle P (s, t)}$

В частном случае эта функция имеет простой вид: $k=2$

F(x;\,2)=1-e^{-x/2}

которое можно легко получить прямым интегрированием. Целочисленная рекуррентность гамма-функции позволяет легко вычислять другие небольшие значения, даже . $f(x;\,2)={\frac {1}{2}}e^{-x/2}$ $F(x;\,k)$ $k$

Таблицы кумулятивной функции распределения хи-квадрат широко доступны, и эта функция включена во многие электронные таблицы и все статистические пакеты .

Полагая , можно получить границы Чернова для нижнего и верхнего хвостов CDF. ^[9] Для случаев, когда (к которым относятся все случаи, когда этот CDF меньше половины): $z\equiv x/k$ $0<z<1$ $F(zk;\,k)\leq (ze^{1-z})^{k/2}.$

Хвост ограничен для случаев , когда аналогично $z>1$

1-F(zk;\,k)\leq (ze^{1-z})^{k/2}.

Другое приближение для CDF, смоделированного по образцу куба гауссианы, см. в разделе «Нецентральное распределение хи-квадрат» .

Характеристики

Теорема Кокрена

Если являются независимыми одинаково распределенными (iid) стандартными нормальными случайными величинами, то где $Z_{1},...,Z_{n}$ $\sum _{t=1}^{n}(Z_{t}-{\bar {Z}})^{2}\sim \chi _{n-1}^{2}$ ${\bar {Z}}={\frac {1}{n}}\sum _{t=1}^{n}Z_{t}.$

Прямое и элементарное доказательство состоит в следующем: Пусть – вектор независимых нормально распределенных случайных величин и их среднее значение. Тогда где единичная матрица и вектор всех единиц. имеет один собственный вектор с собственным значением и собственные векторы (все ортогональные ) с собственным значением , которые можно выбрать так, чтобы это была ортогональная матрица. Поскольку также имеем , что и доказывает утверждение. $Z\sim {\mathcal {N}}({\bar {0}},1\!\!1)$ $n$ ${\bar {Z}}$ $\sum _{t=1}^{n}(Z_{t}-{\bar {Z}})^{2}~=~\sum _{t=1}^{n}Z_{t}^{2}-n{\bar {Z}}^{2}~=~Z^{\top }[1\!\!1-{\textstyle {\frac {1}{n}}}{\bar {1}}{\bar {1}}^{\top }]Z~=:~Z^{\top }\!MZ$ $1\!\!1$ ${\bar {1}}$ $M$ $b_{1}:={\bar {1}}$ $0$ $n-1$ $b_{2},...,b_{n}$ $b_{1}$ $1$ $Q:=(b_{1},...,b_{n})$ $X:=Q^{\top }\!Z\sim {\mathcal {N}}({\bar {0}},Q^{\top }\!1\!\!1Q)={\mathcal {N}}({\bar {0}},1\!\!1)$ $\sum _{t=1}^{n}(Z_{t}-{\bar {Z}})^{2}~=~Z^{\top }\!MZ~=~X^{\top }\!Q^{\top }\!MQX~=~X_{2}^{2}+...+X_{n}^{2}~\sim ~\chi _{n-1}^{2},$

Аддитивность

Из определения распределения хи-квадрат следует, что сумма независимых переменных хи-квадрат также распределена по хи-квадрату. В частности, если независимые переменные хи-квадрат со степенями свободы соответственно, то хи-квадрат распределен со степенями свободы. $X_{i},i={\overline {1,n}}$ $k_{i}$ $i={\overline {1,n}}$ $Y=X_{1}+\cdots +X_{n}$ $k_{1}+\cdots +k_{n}$

Выборочное среднее

Выборочное среднее переменных степени хи-квадрат iid распределяется в соответствии с гамма-распределением с параметрами формы и масштаба : $n$ $k$ $\alpha$ $\theta$

{\overline {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}\sim \operatorname {Gamma} \left(\alpha =n\,k/2,\theta =2/n\right)\qquad {\text{where }}X_{i}\sim \chi ^{2}(k)

Асимптотически, учитывая, что для параметра масштаба, стремящегося к бесконечности, гамма-распределение сходится к нормальному распределению с математическим ожиданием и дисперсией , выборочное среднее сходится к: $\alpha$ $\mu =\alpha \cdot \theta$ $\sigma ^{2}=\alpha \,\theta ^{2}$

${\overline {X}}\xrightarrow {n\to \infty } N(\mu =k,\sigma ^{2}=2\,k/n)$

Обратите внимание, что мы получили бы тот же результат, если бы вместо этого использовали центральную предельную теорему , отметив, что для каждой переменной степени хи-квадрат математическое ожидание равно , а ее дисперсия (и, следовательно, дисперсия выборочного среднего значения равна ). $k$ $k$ $2\,k$ ${\overline {X}}$ $\sigma ^{2}={\frac {2k}{n}}$

Энтропия

Дифференциальная энтропия определяется выражением

h=\int _{0}^{\infty }f(x;\,k)\ln f(x;\,k)\,dx={\frac {k}{2}}+\ln \left[2\,\Gamma \left({\frac {k}{2}}\right)\right]+\left(1-{\frac {k}{2}}\right)\,\psi \!\left({\frac {k}{2}}\right),

где - функция Дигаммы . $\psi (x)$

Распределение хи-квадрат представляет собой распределение вероятностей максимальной энтропии для случайной величины, для которой и фиксированы. Поскольку хи-квадрат относится к семейству гамма-распределений, его можно получить, подставив соответствующие значения в ожидание логарифмического момента гамма . Для вывода из более основных принципов см. вывод в моментообразующей функции достаточной статистики . $X$ $\operatorname {E} (X)=k$ $\operatorname {E} (\ln(X))=\psi (k/2)+\ln(2)$

Нецентральные моменты

Моменты около нуля распределения хи-квадрат со степенями свободы определяются формулами ^[10]^[11] $k$

\operatorname {E} (X^{m})=k(k+2)(k+4)\cdots (k+2m-2)=2^{m}{\frac {\Gamma \left(m+{\frac {k}{2}}\right)}{\Gamma \left({\frac {k}{2}}\right)}}.

Кумулянты

Кумулянты легко получить разложением логарифма характеристической функции в степенной ряд :

\kappa _{n}=2^{n-1}(n-1)!\,k

Концентрация

Распределение хи-квадрат демонстрирует сильную концентрацию вокруг своего среднего значения. Стандартные границы Лорана-Массара ^[12] таковы:

\operatorname {P} (X-k\geq 2{\sqrt {kx}}+2x)\leq \exp(-x)

\operatorname {P} (k-X\geq 2{\sqrt {kx}})\leq \exp(-x)

Одним из последствий является то, что если – гауссов случайный вектор в , то по мере роста размерности квадрат длины вектора плотно концентрируется вокруг ширины : $v\sim N(0,1)^{n}$ $\mathbb {R} ^{n}$ $n$ $n$ $n^{1/2+\alpha }$

Pr(\|v\|^{2}\in [n-2n^{1/2+\alpha },n+2n^{1/2+\alpha }+2n^{\alpha }])\geq 1-e^{-n^{\alpha }}

\alpha

(0,1/2)

Асимптотические свойства

По центральной предельной теореме , поскольку распределение хи-квадрат представляет собой сумму независимых случайных величин с конечным средним значением и дисперсией, оно сходится к нормальному распределению при больших . Для многих практических целей распределение достаточно близко к нормальному , поэтому разницу можно игнорировать. ^[13] В частности, если , то при стремлении к бесконечности распределение стремится к стандартному нормальному распределению. Однако сходимость происходит медленно, поскольку асимметрия и избыточный эксцесс равны . $k$ $k$ $k>50$ $X\sim \chi ^{2}(k)$ $k$ $(X-k)/{\sqrt {2k}}$ ${\sqrt {8/k}}$ $12/k$

Выборочное распределение сходится к нормальному состоянию намного быстрее, чем выборочное распределение , ^[14] , поскольку логарифмическое преобразование устраняет большую часть асимметрии. ^[15] $\ln(\chi ^{2})$ $\chi ^{2}$

Другие функции распределения хи-квадрат быстрее сходятся к нормальному распределению. Некоторые примеры:

If then приблизительно нормально распределяется со средним значением и единичной дисперсией (1922, Р. А. Фишер , см. (18.23), стр. 426 Джонсона. ^[4] $X\sim \chi ^{2}(k)$ ${\sqrt {2X}}$ ${\sqrt {2k-1}}$
Если то имеет приблизительно нормальное распределение со средним значением и дисперсией ^[16] Это известно как преобразование Вильсона-Хилферти , см. (18.24), с. 426 Джонсона. ^[4] $X\sim \chi ^{2}(k)$ ${\sqrt[{3}]{X/k}}$ $1-{\frac {2}{9k}}$ ${\frac {2}{9k}}.$
- Это нормализующее преобразование приводит непосредственно к обычно используемому медианному приближению путем обратного преобразования среднего значения, которое также является медианой нормального распределения. $k{\bigg (}1-{\frac {2}{9k}}{\bigg )}^{3}\;$

Связанные дистрибутивы

Как , ( нормальное распределение ) $k\to \infty$ $(\chi _{k}^{2}-k)/{\sqrt {2k}}~{\xrightarrow {d}}\ N(0,1)\,$
$\chi _{k}^{2}\sim {\chi '}_{k}^{2}(0)$ ( нецентральное распределение хи-квадрат с параметром нецентральности ) $\lambda =0$
If then имеет распределение хи-квадрат $Y\sim \mathrm {F} (\nu _{1},\nu _{2})$ $X=\lim _{\nu _{2}\to \infty }\nu _{1}Y$ $\chi _{\nu _{1}}^{2}$

В частном случае, если то имеет распределение хи-квадрат $Y\sim \mathrm {F} (1,\nu _{2})\,$ $X=\lim _{\nu _{2}\to \infty }Y\,$ $\chi _{1}^{2}$

$\|{\boldsymbol {N}}_{i=1,\ldots ,k}(0,1)\|^{2}\sim \chi _{k}^{2}$ (Квадрат нормы k стандартных нормально распределенных переменных представляет собой распределение хи-квадрат с k степенями свободы )
Если и , то . ( гамма-распределение ) $X\sim \chi _{\nu }^{2}\,$ $c>0\,$ $cX\sim \Gamma (k=\nu /2,\theta =2c)\,$
Если тогда ( распределение ци ) $X\sim \chi _{k}^{2}$ ${\sqrt {X}}\sim \chi _{k}$
Если , то является показательным распределением . (Подробнее см. в разделе гамма-распределение .) $X\sim \chi _{2}^{2}$ $X\sim \operatorname {Exp} (1/2)$
Если , то является распределением Эрланга . $X\sim \chi _{2k}^{2}$ $X\sim \operatorname {Erlang} (k,1/2)$
Если , то $X\sim \operatorname {Erlang} (k,\lambda )$ $2\lambda X\sim \chi _{2k}^{2}$
Если ( распределение Рэлея ), то $X\sim \operatorname {Rayleigh} (1)\,$ $X^{2}\sim \chi _{2}^{2}\,$
Если ( распределение Максвелла ), то $X\sim \operatorname {Maxwell} (1)\,$ $X^{2}\sim \chi _{3}^{2}\,$
Если тогда ( Распределение обратное хи-квадрат ) $X\sim \chi _{\nu }^{2}$ ${\tfrac {1}{X}}\sim \operatorname {Inv-} \chi _{\nu }^{2}\,$
Распределение хи-квадрат является частным случаем распределения Пирсона III типа.
Если и независимы, то ( бета-распределение ) $X\sim \chi _{\nu _{1}}^{2}\,$ $Y\sim \chi _{\nu _{2}}^{2}\,$ ${\tfrac {X}{X+Y}}\sim \operatorname {Beta} ({\tfrac {\nu _{1}}{2}},{\tfrac {\nu _{2}}{2}})\,$
Если ( равномерное распределение ), то $X\sim \operatorname {U} (0,1)\,$ $-2\log(X)\sim \chi _{2}^{2}\,$
Если тогда $X_{i}\sim \operatorname {Laplace} (\mu ,\beta )\,$ $\sum _{i=1}^{n}{\frac {2|X_{i}-\mu |}{\beta }}\sim \chi _{2n}^{2}\,$
Если следовать обобщенному нормальному распределению (версия 1) с параметрами, то ^[17] $X_{i}$ $\mu ,\alpha ,\beta$ $\sum _{i=1}^{n}{\frac {2|X_{i}-\mu |^{\beta }}{\alpha }}\sim \chi _{2n/\beta }^{2}\,$
Распределение хи-квадрат представляет собой преобразование распределения Парето.
Т-распределение Стьюдента представляет собой преобразование распределения хи-квадрат.
Т-распределение Стьюдента можно получить из распределения хи-квадрат и нормального распределения.
Нецентральное бета-распределение можно получить как преобразование распределения хи-квадрат и нецентрального распределения хи-квадрат.
Нецентральное t-распределение можно получить из нормального распределения и распределения хи-квадрат.

Переменная хи-квадрат со степенями свободы определяется как сумма квадратов независимых стандартных нормальных случайных величин. $k$ $k$

Если -мерный гауссовский случайный вектор со средним вектором и ковариационной матрицей ранга , то он распределен по хи-квадрату со степенями свободы. $Y$ $k$ $\mu$ $k$ $C$ $X=(Y-\mu )^{T}C^{-1}(Y-\mu )$ $k$

Сумма квадратов статистически независимых гауссовских переменных с единичной дисперсией, которые не имеют нулевого среднего значения, дает обобщение распределения хи-квадрат, называемое нецентральным распределением хи-квадрат .

Если — вектор стандартных нормальных случайных величин iid и симметричная идемпотентная матрица с рангом , то квадратичная форма представляет собой хи-квадрат, распределенный со степенями свободы. $Y$ $k$ $A$ $k\times k$ $k-n$ $Y^{T}AY$ $k-n$

Если — положительно-полуопределенная ковариационная матрица со строго положительными диагональными элементами, то для и случайный -вектор, не зависящий от такого, что и тогда $\Sigma$ $p\times p$ $X\sim N(0,\Sigma )$ $w$ $p$ $X$ $w_{1}+\cdots +w_{p}=1$ $w_{i}\geq 0,i=1,\ldots ,p,$

{\frac {1}{\left({\frac {w_{1}}{X_{1}}},\ldots ,{\frac {w_{p}}{X_{p}}}\right)\Sigma \left({\frac {w_{1}}{X_{1}}},\ldots ,{\frac {w_{p}}{X_{p}}}\right)^{\top }}}\sim \chi _{1}^{2}.

^[15]

Распределение хи-квадрат также естественным образом связано с другими распределениями, возникающими из гауссианы. В частности,

$Y$ является F-распределенным , если , где и статистически независимы. $Y\sim F(k_{1},k_{2})$ $Y={\frac {{X_{1}}/{k_{1}}}{{X_{2}}/{k_{2}}}}$ $X_{1}\sim \chi _{k_{1}}^{2}$ $X_{2}\sim \chi _{k_{2}}^{2}$
Если и статистически независимы, то . Если и не являются независимыми, то не распределено по хи-квадрату. $X_{1}\sim \chi _{k_{1}}^{2}$ $X_{2}\sim \chi _{k_{2}}^{2}$ $X_{1}+X_{2}\sim \chi _{k_{1}+k_{2}}^{2}$ $X_{1}$ $X_{2}$ $X_{1}+X_{2}$

Обобщения

Распределение хи-квадрат получается как сумма квадратов $k$ независимых гауссовских случайных величин с нулевым средним и единичной дисперсией. Обобщения этого распределения можно получить путем суммирования квадратов других типов гауссовских случайных величин. Ниже описано несколько таких распределений.

Линейная комбинация

Если являются случайными величинами хи-квадрат и , то распределение является частным случаем обобщенного распределения хи-квадрат . Замкнутое выражение для этого распределения неизвестно. Однако его можно эффективно аппроксимировать, используя свойство характеристических функций случайных величин хи-квадрат. ^[18] $X_{1},\ldots ,X_{n}$ $a_{1},\ldots ,a_{n}\in \mathbb {R} _{>0}$ $X=\sum _{i=1}^{n}a_{i}X_{i}$

Распределения хи-квадрат

Нецентральное распределение хи-квадрат

Нецентральное распределение хи-квадрат получается из суммы квадратов независимых гауссовых случайных величин, имеющих единичную дисперсию и ненулевые средние значения.

Обобщенное распределение хи-квадрат

Обобщенное распределение хи-квадрат получается из квадратичной формы $z'Az$ , где $z$ - гауссовский вектор с нулевым средним, имеющий произвольную ковариационную матрицу, а $A$ - произвольная матрица.

Гамма, экспоненциальное и родственные распределения

Распределение хи-квадрат является особым случаем гамма-распределения , в котором используется параметризация скорости гамма-распределения (или использование масштабной параметризации гамма-распределения), где $k$ является целым числом. $X\sim \chi _{k}^{2}$ $X\sim \Gamma \left({\frac {k}{2}},{\frac {1}{2}}\right)$ $X\sim \Gamma \left({\frac {k}{2}},2\right)$

Поскольку экспоненциальное распределение также является частным случаем гамма-распределения, мы также имеем, что если , то является экспоненциальным распределением . $X\sim \chi _{2}^{2}$ $X\sim \operatorname {Exp} \left({\frac {1}{2}}\right)$

Распределение Эрланга также является частным случаем гамма-распределения, и поэтому мы также имеем, что если с четным , то распределяется Эрланга с параметром формы и параметром масштаба . $X\sim \chi _{k}^{2}$ $k$ $X$ $k/2$ $1/2$

Возникновение и применение

Распределение хи-квадрат имеет множество применений в статистике вывода , например, в тестах хи-квадрат и при оценке дисперсий . Это касается проблемы оценки среднего значения нормально распределенной совокупности и проблемы оценки наклона линии регрессии через ее роль в t-распределении Стьюдента . Он входит в любой анализ дисперсионных задач благодаря своей роли в F-распределении , которое представляет собой распределение отношения двух независимых случайных величин хи-квадрат , каждая из которых разделена на соответствующие степени свободы.

Ниже приведены некоторые из наиболее распространенных ситуаций, в которых распределение хи-квадрат возникает из выборки, распределенной по Гауссу.

если являются iid случайными величинами , то где . $X_{1},...,X_{n}$ $N(\mu ,\sigma ^{2})$ $\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}\sim \sigma ^{2}\chi _{n-1}^{2}$ ${\overline {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}$
В поле ниже показаны некоторые статистические данные , основанные на независимых случайных величинах, распределения вероятностей которых связаны с распределением хи-квадрат: $X_{i}\sim N(\mu _{i},\sigma _{i}^{2}),i=1,\ldots ,k$

Распределение хи-квадрат также часто встречается при магнитно-резонансной томографии . ^[19]

Вычислительные методы

Таблица значений χ 2 и значений p

Значение - это вероятность наблюдения тестовой статистики, по крайней мере , как экстремальной в распределении хи-квадрат. Соответственно, поскольку кумулятивная функция распределения (CDF) для соответствующих степеней свободы (df) дает вероятность получения значения, менее экстремального , чем эта точка, вычитание значения CDF из 1 дает значение p . Низкое значение p ниже выбранного уровня значимости указывает на статистическую значимость , т. е. на наличие достаточных доказательств для отклонения нулевой гипотезы. Уровень значимости 0,05 часто используется в качестве границы между значимыми и незначимыми результатами. ${\textstyle p}$

В таблице ниже указано количество значений p , соответствующих первым 10 степеням свободы. $\chi ^{2}$

Эти значения можно рассчитать, оценивая функцию квантиля (также известную как «обратный CDF» или «ICDF») распределения хи-квадрат; ^[21] например, ICDF $χ 2$ для $p = 0,05$ и $df = 7$ дает $2,1673 \approx 2,17,$ как в таблице выше, учитывая, что $1 - p$ — это значение p из таблицы.

История

Это распределение было впервые описано немецким геодезистом и статистиком Фридрихом Робертом Гельмертом в работах 1875–1876 годов, ^[22]^[23] , где он вычислил выборочное распределение выборочной дисперсии нормальной популяции. Таким образом, в немецком языке это традиционно было известно как Helmert'sche («Гельмертово») или «распределение Гельмерта».

Распределение было независимо переоткрыто английским математиком Карлом Пирсоном в контексте согласия , для чего он разработал свой критерий хи-квадрат Пирсона , опубликованный в 1900 году, с вычисленной таблицей значений, опубликованной в (Элдертон 1902), собранной в (Пирсон 1914, стр. xxxi–xxxiii, 26–28, таблица XII). Название «хи-квадрат» в конечном итоге происходит от сокращения Пирсона для показателя степени в многомерном нормальном распределении с греческой буквой Chi , обозначающей $-½χ 2$ для того, что в современных обозначениях будет выглядеть как $-½ x T Σ -1 x$ (Σ - это ковариационная матрица ). ^[24] Однако идея семейства «распределений хи-квадрат» принадлежит не Пирсону, а возникла как дальнейшее развитие Фишера в 1920-х годах. ^[22]

Смотрите также

Распределение ци
Масштабированное обратное распределение хи-квадрат
Гамма-распределение
Обобщенное распределение хи-квадрат
Нецентральное распределение хи-квадрат
Критерий хи-квадрат Пирсона
Уменьшенная статистика хи-квадрат
Лямбда-распределение Уилкса
Модифицированное полунормальное распределение ^[25] с PDF-файлом имеет вид , где обозначает пси-функцию Фокса–Райта . $(0,\infty )$ $f(x)={\frac {2\beta ^{\alpha /2}x^{\alpha -1}\exp(-\beta x^{2}+\gamma x)}{\Psi {\left({\frac {\alpha }{2}},{\frac {\gamma }{\sqrt {\beta }}}\right)}}}$ $\Psi (\alpha ,z)={}_{1}\Psi _{1}\left({\begin{matrix}\left(\alpha ,{\frac {1}{2}}\right)\\(1,0)\end{matrix}};z\right)$

дальнейшее чтение

Хальд, Андерс (1998). История математической статистики с 1750 по 1930 годы . Нью-Йорк: Уайли. ISBN 978-0-471-17912-2.
Элдертон, Уильям Пэйлин (1902). «Таблицы для проверки соответствия теории наблюдениям». Биометрика . 1 (2): 155–163. дои : 10.1093/биомет/1.2.155.
«Распределение хи-квадрат», Математическая энциклопедия , EMS Press , 2001 [1994]
Пирсон, Карл (1914). «О вероятности того, что два независимых распределения частот на самом деле являются образцами одной и той же популяции, с особым упором на недавнюю работу по идентичности штаммов трипаносом». Биометрика . 10 : 85–154. дои : 10.1093/биомет/10.1.85.

Внешние ссылки

Самое раннее использование некоторых математических слов: статья о хи-квадрате имеет краткую историю.
Конспекты курса по тестированию пригодности по критерию хи-квадрат из курса 101 по статистике Йельского университета.
Демонстрация Mathematica, показывающая выборочное распределение различных статистических данных по хи-квадрату, например Σx², для нормальной популяции.
Простой алгоритм аппроксимации cdf и обратного cdf для распределения хи-квадрат с помощью карманного калькулятора
Значения распределения Хи-квадрат