stringtranslate.com

Распределение хи-квадрат

В теории вероятностей и статистике распределение хи-квадрат (также хи-квадрат или -распределение ) со степенями свободы представляет собой распределение суммы квадратов независимых стандартных нормальных случайных величин. Распределение хи-квадрат представляет собой частный случай гамма-распределения и является одним из наиболее широко используемых распределений вероятностей в статистике вывода , особенно при проверке гипотез и построении доверительных интервалов . [2] [3] [4] [5] Это распределение иногда называют центральным распределением хи-квадрат , что является частным случаем более общего нецентрального распределения хи-квадрат .

Распределение хи-квадрат используется в обычных тестах хи-квадрат для проверки соответствия наблюдаемого распределения теоретическому, независимости двух критериев классификации качественных данных , а также для определения доверительного интервала для оценки стандартного отклонения генеральной совокупности. нормального распределения из выборочного стандартного отклонения. Многие другие статистические тесты также используют это распределение, например, дисперсионный анализ Фридмана по рангам .

Определения

Если Z 1 , ..., Z kнезависимые стандартные нормальные случайные величины, то сумма их квадратов

распределяется согласно распределению хи-квадрат с k степенями свободы. Обычно это обозначается как

Распределение хи-квадрат имеет один параметр: целое положительное число k , которое определяет количество степеней свободы (количество суммируемых случайных величин, Z i s).

Введение

Распределение хи-квадрат используется в основном при проверке гипотез и в меньшей степени для определения доверительных интервалов дисперсии генеральной совокупности, когда основное распределение является нормальным. В отличие от более широко известных распределений, таких как нормальное распределение и экспоненциальное распределение , распределение хи-квадрат не так часто применяется при прямом моделировании природных явлений. Он возникает, среди прочего, при следующих проверках гипотез:

Это также компонент определения t -распределения и F -распределения, используемого в t -тестах, дисперсионном анализе и регрессионном анализе.

Основной причиной, по которой распределение хи-квадрат широко используется при проверке гипотез, является его связь с нормальным распределением. Многие проверки гипотез используют тестовую статистику, например t -статистику в t -критерии. Для этих проверок гипотез по мере увеличения размера выборки n выборочное распределение тестовой статистики приближается к нормальному распределению ( центральная предельная теорема ). Поскольку статистика теста (например, t ) асимптотически нормально распределена, при условии, что размер выборки достаточно велик, распределение, используемое для проверки гипотез, может быть аппроксимировано нормальным распределением. Проверка гипотез с использованием нормального распределения хорошо понятна и относительно проста. Простейшим распределением хи-квадрат является квадрат стандартного нормального распределения. Таким образом, везде, где для проверки гипотезы можно использовать нормальное распределение, можно использовать распределение хи-квадрат.

Предположим, что это случайная величина, выбранная из стандартного нормального распределения, где среднее значение и дисперсия : . Теперь рассмотрим случайную величину . Распределение случайной величины является примером распределения хи-квадрат: . Индекс 1 указывает, что это конкретное распределение хи-квадрат построено только из одного стандартного нормального распределения. Говорят, что распределение хи-квадрат, построенное путем возведения в квадрат одного стандартного нормального распределения, имеет 1 степень свободы. Таким образом, по мере увеличения размера выборки для проверки гипотезы распределение статистики теста приближается к нормальному распределению. Точно так же, как экстремальные значения нормального распределения имеют низкую вероятность (и дают малые значения p), экстремальные значения распределения хи-квадрат имеют низкую вероятность.

Дополнительная причина, по которой широко используется распределение хи-квадрат, заключается в том, что оно представляет собой распределение большой выборки в обобщенных тестах отношения правдоподобия (LRT). [6] LRT обладают несколькими полезными свойствами; в частности, простые LRT обычно обеспечивают наивысшую способность отвергать нулевую гипотезу ( лемма Неймана-Пирсона ), и это также приводит к свойствам оптимальности обобщенных LRT. Однако нормальное приближение и приближение хи-квадрат действительны только асимптотически. По этой причине предпочтительнее использовать распределение t , а не нормальное приближение или приближение хи-квадрат для небольшого размера выборки. Аналогичным образом, при анализе таблиц сопряженности приближение хи-квадрат будет плохим для небольшого размера выборки, и предпочтительнее использовать точный критерий Фишера . Рэмси показывает, что точный биномиальный тест всегда более эффективен, чем нормальное приближение. [7]

Ланкастер показывает связи между биномиальным, нормальным распределениями и распределениями хи-квадрат следующим образом. [8] Де Муавр и Лаплас установили, что биномиальное распределение можно аппроксимировать нормальным распределением. В частности, они показали асимптотическую нормальность случайной величины.

где – наблюдаемое число успехов в испытаниях, где вероятность успеха равна , и .

Возведение в квадрат обеих частей уравнения дает

Используя , , и , это уравнение можно переписать как

Выражение справа имеет форму, которую Карл Пирсон обобщил бы до формы

где

= кумулятивная критерийная статистика Пирсона, которая асимптотически приближается к распределению; = количество наблюдений типа ; = ожидаемая (теоретическая) частота типа , утверждаемая нулевой гипотезой о том, что доля типа в популяции равна ; и = количество ячеек в таблице. [ нужна цитата ]

В случае биномиального результата (подбрасывания монеты) биномиальное распределение может быть аппроксимировано нормальным распределением (при достаточно большом ). Поскольку квадрат стандартного нормального распределения представляет собой распределение хи-квадрат с одной степенью свободы, вероятность такого результата, как 1 голова в 10 испытаниях, может быть аппроксимирована либо путем непосредственного использования нормального распределения, либо распределения хи-квадрат для нормализованная квадратичная разница между наблюдаемым и ожидаемым значением. Однако многие проблемы включают в себя более двух возможных результатов бинома и вместо этого требуют 3 или более категорий, что приводит к полиномиальному распределению. Подобно тому, как де Муавр и Лаплас искали и нашли нормальное приближение к биному, Пирсон искал и нашел вырожденное многомерное нормальное приближение к полиномиальному распределению (числа в каждой категории в сумме дают общий размер выборки, который считается фиксированным). . Пирсон показал, что распределение хи-квадрат возникло в результате такого многомерного нормального приближения к полиномиальному распределению с тщательным учетом статистической зависимости (отрицательных корреляций) между количеством наблюдений в разных категориях. [8]

Функция плотности вероятности

Функция плотности вероятности (pdf) распределения хи-квадрат равна

где обозначает гамма-функцию , которая имеет значения в замкнутой форме для целых чисел .

Для получения PDF-файла в случаях одной, двух и степеней свободы см. Доказательства, связанные с распределением хи-квадрат .

Кумулятивная функция распределения

Оценка Чернова для CDF и хвоста (1-CDF) случайной величины хи-квадрат с десятью степенями свободы ( )

Его кумулятивная функция распределения :

где – нижняя неполная гамма-функция , – регуляризованная гамма-функция .

В частном случае эта функция имеет простой вид:

которое можно легко получить прямым интегрированием. Целочисленная рекуррентность гамма-функции позволяет легко вычислять другие небольшие значения, даже .

Таблицы кумулятивной функции распределения хи-квадрат широко доступны, и эта функция включена во многие электронные таблицы и все статистические пакеты .

Полагая , можно получить границы Чернова для нижнего и верхнего хвостов CDF. [9] Для случаев, когда (к которым относятся все случаи, когда этот CDF меньше половины):

Хвост ограничен для случаев , когда аналогично

Другое приближение для CDF, смоделированного по образцу куба гауссианы, см. в разделе «Нецентральное распределение хи-квадрат» .

Характеристики

Теорема Кокрена

Если являются независимыми одинаково распределенными (iid) стандартными нормальными случайными величинами, то где

Прямое и элементарное доказательство состоит в следующем: Пусть – вектор независимых нормально распределенных случайных величин и их среднее значение. Тогда где единичная матрица и вектор всех единиц. имеет один собственный вектор с собственным значением и собственные векторы (все ортогональные ) с собственным значением , которые можно выбрать так, чтобы это была ортогональная матрица. Поскольку также имеем , что и доказывает утверждение.

Аддитивность

Из определения распределения хи-квадрат следует, что сумма независимых переменных хи-квадрат также распределена по хи-квадрату. В частности, если независимые переменные хи-квадрат со степенями свободы соответственно, то хи-квадрат распределен со степенями свободы.

Выборочное среднее

Выборочное среднее переменных степени хи-квадрат iid распределяется в соответствии с гамма-распределением с параметрами формы и масштаба :

Асимптотически, учитывая, что для параметра масштаба, стремящегося к бесконечности, гамма-распределение сходится к нормальному распределению с математическим ожиданием и дисперсией , выборочное среднее сходится к:

Обратите внимание, что мы получили бы тот же результат, если бы вместо этого использовали центральную предельную теорему , отметив, что для каждой переменной степени хи-квадрат математическое ожидание равно , а ее дисперсия (и, следовательно, дисперсия выборочного среднего значения равна ).

Энтропия

Дифференциальная энтропия определяется выражением

где - функция Дигаммы .

Распределение хи-квадрат представляет собой распределение вероятностей максимальной энтропии для случайной величины, для которой и фиксированы. Поскольку хи-квадрат относится к семейству гамма-распределений, его можно получить, подставив соответствующие значения в ожидание логарифмического момента гамма . Для вывода из более основных принципов см. вывод в моментообразующей функции достаточной статистики .

Нецентральные моменты

Моменты около нуля распределения хи-квадрат со степенями свободы определяются формулами [10] [11]

Кумулянты

Кумулянты легко получить разложением логарифма характеристической функции в степенной ряд :

Концентрация

Распределение хи-квадрат демонстрирует сильную концентрацию вокруг своего среднего значения. Стандартные границы Лорана-Массара [12] таковы:

Одним из последствий является то, что если – гауссов случайный вектор в , то по мере роста размерности квадрат длины вектора плотно концентрируется вокруг ширины :

Асимптотические свойства

Приблизительная формула медианы (из преобразования Вильсона – Хилферти) по сравнению с числовым квантилем (вверху); а также разница ( синий ) и относительная разница ( красный ) между числовым квантилем и приблизительной формулой (внизу). Для распределения хи-квадрат имеют смысл только положительные целые числа степеней свободы (круги).

По центральной предельной теореме , поскольку распределение хи-квадрат представляет собой сумму независимых случайных величин с конечным средним значением и дисперсией, оно сходится к нормальному распределению при больших . Для многих практических целей распределение достаточно близко к нормальному , поэтому разницу можно игнорировать. [13] В частности, если , то при стремлении к бесконечности распределение стремится к стандартному нормальному распределению. Однако сходимость происходит медленно, поскольку асимметрия и избыточный эксцесс равны .

Выборочное распределение сходится к нормальному состоянию намного быстрее, чем выборочное распределение , [14] , поскольку логарифмическое преобразование устраняет большую часть асимметрии. [15]

Другие функции распределения хи-квадрат быстрее сходятся к нормальному распределению. Некоторые примеры:


Связанные дистрибутивы

  • В частном случае, если то имеет распределение хи-квадрат

Переменная хи-квадрат со степенями свободы определяется как сумма квадратов независимых стандартных нормальных случайных величин.

Если -мерный гауссовский случайный вектор со средним вектором и ковариационной матрицей ранга , то он распределен по хи-квадрату со степенями свободы.

Сумма квадратов статистически независимых гауссовских переменных с единичной дисперсией, которые не имеют нулевого среднего значения, дает обобщение распределения хи-квадрат, называемое нецентральным распределением хи-квадрат .

Если — вектор стандартных нормальных случайных величин iid и симметричная идемпотентная матрица с рангом , то квадратичная форма представляет собой хи-квадрат, распределенный со степенями свободы.

Если — положительно-полуопределенная ковариационная матрица со строго положительными диагональными элементами, то для и случайный -вектор, не зависящий от такого, что и тогда

[15]

Распределение хи-квадрат также естественным образом связано с другими распределениями, возникающими из гауссианы. В частности,

Обобщения

Распределение хи-квадрат получается как сумма квадратов k независимых гауссовских случайных величин с нулевым средним и единичной дисперсией. Обобщения этого распределения можно получить путем суммирования квадратов других типов гауссовских случайных величин. Ниже описано несколько таких распределений.

Линейная комбинация

Если являются случайными величинами хи-квадрат и , то распределение является частным случаем обобщенного распределения хи-квадрат . Замкнутое выражение для этого распределения неизвестно. Однако его можно эффективно аппроксимировать, используя свойство характеристических функций случайных величин хи-квадрат. [18]

Распределения хи-квадрат

Нецентральное распределение хи-квадрат

Нецентральное распределение хи-квадрат получается из суммы квадратов независимых гауссовых случайных величин, имеющих единичную дисперсию и ненулевые средние значения.

Обобщенное распределение хи-квадрат

Обобщенное распределение хи-квадрат получается из квадратичной формы z'Az , где z - гауссовский вектор с нулевым средним, имеющий произвольную ковариационную матрицу, а A - произвольная матрица.

Гамма, экспоненциальное и родственные распределения

Распределение хи-квадрат является особым случаем гамма-распределения , в котором используется параметризация скорости гамма-распределения (или использование масштабной параметризации гамма-распределения), где k является целым числом.

Поскольку экспоненциальное распределение также является частным случаем гамма-распределения, мы также имеем, что если , то является экспоненциальным распределением .

Распределение Эрланга также является частным случаем гамма-распределения, и поэтому мы также имеем, что если с четным , то распределяется Эрланга с параметром формы и параметром масштаба .

Возникновение и применение

Распределение хи-квадрат имеет множество применений в статистике вывода , например, в тестах хи-квадрат и при оценке дисперсий . Это касается проблемы оценки среднего значения нормально распределенной совокупности и проблемы оценки наклона линии регрессии через ее роль в t-распределении Стьюдента . Он входит в любой анализ дисперсионных задач благодаря своей роли в F-распределении , которое представляет собой распределение отношения двух независимых случайных величин хи-квадрат , каждая из которых разделена на соответствующие степени свободы.

Ниже приведены некоторые из наиболее распространенных ситуаций, в которых распределение хи-квадрат возникает из выборки, распределенной по Гауссу.

Распределение хи-квадрат также часто встречается при магнитно-резонансной томографии . [19]

Вычислительные методы

Таблица значений χ 2 и значений p

Значение - это вероятность наблюдения тестовой статистики, по крайней мере , как экстремальной в распределении хи-квадрат. Соответственно, поскольку кумулятивная функция распределения (CDF) для соответствующих степеней свободы (df) дает вероятность получения значения, менее экстремального , чем эта точка, вычитание значения CDF из 1 дает значение p . Низкое значение p ниже выбранного уровня значимости указывает на статистическую значимость , т. е. на наличие достаточных доказательств для отклонения нулевой гипотезы. Уровень значимости 0,05 часто используется в качестве границы между значимыми и незначимыми результатами.

В таблице ниже указано количество значений p , соответствующих первым 10 степеням свободы.

Эти значения можно рассчитать, оценивая функцию квантиля (также известную как «обратный CDF» или «ICDF») распределения хи-квадрат; [21] например, ICDF χ 2 для p = 0,05 и df = 7 дает 2,1673 ≈ 2,17, как в таблице выше, учитывая, что 1 – p — это значение p из таблицы.

История

Это распределение было впервые описано немецким геодезистом и статистиком Фридрихом Робертом Гельмертом в работах 1875–1876 годов, [22] [23] , где он вычислил выборочное распределение выборочной дисперсии нормальной популяции. Таким образом, в немецком языке это традиционно было известно как Helmert'sche («Гельмертово») или «распределение Гельмерта».

Распределение было независимо переоткрыто английским математиком Карлом Пирсоном в контексте согласия , для чего он разработал свой критерий хи-квадрат Пирсона , опубликованный в 1900 году, с вычисленной таблицей значений, опубликованной в (Элдертон 1902), собранной в (Пирсон 1914, стр. xxxi–xxxiii, 26–28, таблица XII). Название «хи-квадрат» в конечном итоге происходит от сокращения Пирсона для показателя степени в многомерном нормальном распределении с греческой буквой Chi , обозначающей -½χ 2 для того, что в современных обозначениях будет выглядеть как x T Σ -1 x (Σ - это ковариационная матрица ). [24] Однако идея семейства «распределений хи-квадрат» принадлежит не Пирсону, а возникла как дальнейшее развитие Фишера в 1920-х годах. [22]

Смотрите также

Рекомендации

  1. ^ М. А. Сандерс. «Характеристическая функция центрального распределения хи-квадрат» (PDF) . Архивировано из оригинала (PDF) 15 июля 2011 г. Проверено 6 марта 2009 г.
  2. ^ Абрамовиц, Милтон ; Стегун, Ирен Энн , ред. (1983) [июнь 1964 г.]. «Глава 26». Справочник по математическим функциям с формулами, графиками и математическими таблицами . Серия «Прикладная математика». Том. 55 (Девятое переиздание с дополнительными исправлениями десятого оригинального издания с исправлениями (декабрь 1972 г.); первое изд.). Вашингтон, округ Колумбия; Нью-Йорк: Министерство торговли США, Национальное бюро стандартов; Дуврские публикации. п. 940. ИСБН 978-0-486-61272-0. LCCN  64-60036. МР  0167642. LCCN  65-12253.
  3. ^ НИСТ (2006). Справочник по инженерной статистике - Распределение хи-квадрат
  4. ^ abc Джонсон, Нидерланды; Коц, С.; Балакришнан, Н. (1994). «Распределения хи-квадрат, включая Чи и Рэлея». Непрерывные одномерные распределения . Том. 1 (Второе изд.). Джон Уайли и сыновья. стр. 415–493. ISBN 978-0-471-58495-7.
  5. ^ Настроение, Александр; Грейбилл, Франклин А.; Боес, Дуэйн К. (1974). Введение в теорию статистики (Третье изд.). МакГроу-Хилл. стр. 241–246. ISBN 978-0-07-042864-5.
  6. ^ Вестфолл, Питер Х. (2013). Понимание передовых статистических методов . Бока-Ратон, Флорида: CRC Press. ISBN 978-1-4665-1210-8.
  7. ^ Рэмси, PH (1988). «Оценка нормального приближения к биномиальному тесту». Журнал образовательной статистики . 13 (2): 173–82. дои : 10.2307/1164752. JSTOR  1164752.
  8. ^ ab Ланкастер, ХО (1969), Распределение хи-квадрат , Уайли
  9. ^ Дасгупта, Санджой Д.А.; Гупта, Анупам К. (январь 2003 г.). «Элементарное доказательство теоремы Джонсона и Линденштрауса» (PDF) . Случайные структуры и алгоритмы . 22 (1): 60–65. дои : 10.1002/rsa.10073. S2CID  10327785 . Проверено 1 мая 2012 г.
  10. ^ Распределение хи-квадрат, из MathWorld , получено 11 февраля 2009 г.
  11. ^ М. К. Саймон, Распределение вероятностей с участием гауссовских случайных величин , Нью-Йорк: Springer, 2002, ур. (2.35), ISBN 978-0-387-34657-1 
  12. ^ Лоран, Б.; Массарт, П. (1 октября 2000 г.). «Адаптивная оценка квадратичного функционала путем выбора модели». Анналы статистики . 28 (5). дои : 10.1214/aos/1015957395 . ISSN  0090-5364. S2CID  116945590.
  13. ^ Бокс, Охотник и охотник (1978). Статистика для экспериментаторов . Уайли. п. 118. ИСБН 978-0-471-09315-2.
  14. ^ Бартлетт, М.С.; Кендалл, генеральный директор (1946). «Статистический анализ дисперсионной неоднородности и логарифмического преобразования». Приложение к журналу Королевского статистического общества . 8 (1): 128–138. дои : 10.2307/2983618. JSTOR  2983618.
  15. ^ Аб Пиллаи, Натеш С. (2016). «Неожиданная встреча с Коши и Леви». Анналы статистики . 44 (5): 2089–2097. arXiv : 1505.01957 . дои : 10.1214/15-aos1407. S2CID  31582370.
  16. ^ Уилсон, Э.Б.; Хилферти, ММ (1931). «Распределение хи-квадрат». Учеб. Натл. акад. наук. США . 17 (12): 684–688. Бибкод : 1931PNAS...17..684W. дои : 10.1073/pnas.17.12.684 . ПМЦ 1076144 . ПМИД  16577411. 
  17. ^ Бэкстрем, Т.; Фишер, Дж. (январь 2018 г.). «Быстрая рандомизация для распределенного кодирования речи и аудио с низким битрейтом». Транзакции IEEE/ACM по обработке звука, речи и языка . 26 (1): 19–30. дои : 10.1109/TASLP.2017.2757601. S2CID  19777585.
  18. ^ Бауш, Дж. (2013). «Об эффективном расчете линейной комбинации случайных величин хи-квадрат с применением при подсчете строкового вакуума». Дж. Физ. А: Математика. Теор . 46 (50): 505202. arXiv : 1208.2691 . Бибкод : 2013JPhA...46X5202B. дои : 10.1088/1751-8113/46/50/505202. S2CID  119721108.
  19. ^ ден Деккер А.Дж., Сийберс Дж., (2014) «Распределение данных на магнитно-резонансных изображениях: обзор», Physica Medica , [1]
  20. ^ Тест хи-квадрат. Архивировано 18 ноября 2013 г. в Wayback Machine , таблица B.2. Доктор Жаклин С. Маклафлин из Университета штата Пенсильвания. В свою очередь, цитируя: Р. А. Фишер и Ф. Йейтс, Статистические таблицы для биологических сельскохозяйственных и медицинских исследований, 6-е изд., Таблица IV. Два значения были исправлены: 7,82 с 7,81 и 4,60 с 4,61.
  21. ^ «Распределение хи-квадрат | Учебное пособие по R» . www.r-tutor.com .
  22. ^ ab Hald 1998, стр. 633–692, 27. Выборочные распределения при нормальности.
  23. ^ FR Helmert , "Ueber die Wahrscheinlichkeit der Potenzsummen der Beobachtungsfehler und über einige damit im Zusammenhange stehende Fragen", Zeitschrift für Mathematik und Physik 21, 1876, стр. 192–219
  24. ^ Р. Л. Плакетт, Карл Пирсон и критерий хи-квадрат , International Statistical Review, 1983, 61f. См. также Джефф Миллер, «Самые ранние известные варианты использования некоторых математических слов».
  25. ^ Сунь, Цзинчао; Конг, Майинг; Пал, Субхадип (22 июня 2021 г.). «Модифицированное полунормальное распределение: свойства и эффективная схема выборки». Коммуникации в статистике - теория и методы . 52 (5): 1591–1613. дои : 10.1080/03610926.2021.1934700. ISSN  0361-0926. S2CID  237919587.

дальнейшее чтение

Внешние ссылки