Если Z 1 , ..., Z k — независимые стандартные нормальные случайные величины, то сумма их квадратов
распределяется согласно распределению хи-квадрат с k степенями свободы. Обычно это обозначается как
Распределение хи-квадрат имеет один параметр: целое положительное число k , которое определяет количество степеней свободы (количество суммируемых случайных величин, Z i s).
Введение
Распределение хи-квадрат используется в основном при проверке гипотез и в меньшей степени для определения доверительных интервалов дисперсии генеральной совокупности, когда основное распределение является нормальным. В отличие от более широко известных распределений, таких как нормальное распределение и экспоненциальное распределение , распределение хи-квадрат не так часто применяется при прямом моделировании природных явлений. Он возникает, среди прочего, при следующих проверках гипотез:
Это также компонент определения t -распределения и F -распределения, используемого в t -тестах, дисперсионном анализе и регрессионном анализе.
Основной причиной, по которой распределение хи-квадрат широко используется при проверке гипотез, является его связь с нормальным распределением. Многие проверки гипотез используют тестовую статистику, например t -статистику в t -критерии. Для этих проверок гипотез по мере увеличения размера выборки n выборочное распределение тестовой статистики приближается к нормальному распределению ( центральная предельная теорема ). Поскольку статистика теста (например, t ) асимптотически нормально распределена, при условии, что размер выборки достаточно велик, распределение, используемое для проверки гипотез, может быть аппроксимировано нормальным распределением. Проверка гипотез с использованием нормального распределения хорошо понятна и относительно проста. Простейшим распределением хи-квадрат является квадрат стандартного нормального распределения. Таким образом, везде, где для проверки гипотезы можно использовать нормальное распределение, можно использовать распределение хи-квадрат.
Предположим, что это случайная величина, выбранная из стандартного нормального распределения, где среднее значение и дисперсия : . Теперь рассмотрим случайную величину . Распределение случайной величины является примером распределения хи-квадрат: . Индекс 1 указывает, что это конкретное распределение хи-квадрат построено только из одного стандартного нормального распределения. Говорят, что распределение хи-квадрат, построенное путем возведения в квадрат одного стандартного нормального распределения, имеет 1 степень свободы. Таким образом, по мере увеличения размера выборки для проверки гипотезы распределение статистики теста приближается к нормальному распределению. Точно так же, как экстремальные значения нормального распределения имеют низкую вероятность (и дают малые значения p), экстремальные значения распределения хи-квадрат имеют низкую вероятность.
Дополнительная причина, по которой широко используется распределение хи-квадрат, заключается в том, что оно представляет собой распределение большой выборки в обобщенных тестах отношения правдоподобия (LRT). [6] LRT обладают несколькими полезными свойствами; в частности, простые LRT обычно обеспечивают наивысшую способность отвергать нулевую гипотезу ( лемма Неймана-Пирсона ), и это также приводит к свойствам оптимальности обобщенных LRT. Однако нормальное приближение и приближение хи-квадрат действительны только асимптотически. По этой причине предпочтительнее использовать распределение t , а не нормальное приближение или приближение хи-квадрат для небольшого размера выборки. Аналогичным образом, при анализе таблиц сопряженности приближение хи-квадрат будет плохим для небольшого размера выборки, и предпочтительнее использовать точный критерий Фишера . Рэмси показывает, что точный биномиальный тест всегда более эффективен, чем нормальное приближение. [7]
Ланкастер показывает связи между биномиальным, нормальным распределениями и распределениями хи-квадрат следующим образом. [8] Де Муавр и Лаплас установили, что биномиальное распределение можно аппроксимировать нормальным распределением. В частности, они показали асимптотическую нормальность случайной величины.
где – наблюдаемое число успехов в испытаниях, где вероятность успеха равна , и .
Возведение в квадрат обеих частей уравнения дает
Используя , , и , это уравнение можно переписать как
Выражение справа имеет форму, которую Карл Пирсон обобщил бы до формы
где
= кумулятивная критерийная статистика Пирсона, которая асимптотически приближается к распределению;
= количество наблюдений типа ;
= ожидаемая (теоретическая) частота типа , утверждаемая нулевой гипотезой о том, что доля типа в популяции равна ; и = количество ячеек в таблице. [ нужна цитата ]
В случае биномиального результата (подбрасывания монеты) биномиальное распределение может быть аппроксимировано нормальным распределением (при достаточно большом ). Поскольку квадрат стандартного нормального распределения представляет собой распределение хи-квадрат с одной степенью свободы, вероятность такого результата, как 1 голова в 10 испытаниях, может быть аппроксимирована либо путем непосредственного использования нормального распределения, либо распределения хи-квадрат для нормализованная квадратичная разница между наблюдаемым и ожидаемым значением. Однако многие проблемы включают в себя более двух возможных результатов бинома и вместо этого требуют 3 или более категорий, что приводит к полиномиальному распределению. Подобно тому, как де Муавр и Лаплас искали и нашли нормальное приближение к биному, Пирсон искал и нашел вырожденное многомерное нормальное приближение к полиномиальному распределению (числа в каждой категории в сумме дают общий размер выборки, который считается фиксированным). . Пирсон показал, что распределение хи-квадрат возникло в результате такого многомерного нормального приближения к полиномиальному распределению с тщательным учетом статистической зависимости (отрицательных корреляций) между количеством наблюдений в разных категориях. [8]
которое можно легко получить прямым интегрированием. Целочисленная рекуррентность гамма-функции позволяет легко вычислять другие небольшие значения, даже .
Полагая , можно получить границы Чернова для нижнего и верхнего хвостов CDF. [9] Для случаев, когда (к которым относятся все случаи, когда этот CDF меньше половины):
Прямое и элементарное доказательство состоит в следующем: Пусть – вектор независимых нормально распределенных случайных величин и их среднее значение. Тогда
где единичная матрица и вектор всех единиц.
имеет один собственный вектор с собственным значением и собственные векторы (все ортогональные ) с собственным значением , которые можно выбрать так, чтобы это была ортогональная матрица. Поскольку также имеем ,
что и доказывает утверждение.
Аддитивность
Из определения распределения хи-квадрат следует, что сумма независимых переменных хи-квадрат также распределена по хи-квадрату. В частности, если независимые переменные хи-квадрат со степенями свободы соответственно, то хи-квадрат распределен со степенями свободы.
Выборочное среднее
Выборочное среднее переменных степени хи-квадрат iid распределяется в соответствии с гамма-распределением с параметрами формы и масштаба :
Асимптотически, учитывая, что для параметра масштаба, стремящегося к бесконечности, гамма-распределение сходится к нормальному распределению с математическим ожиданием и дисперсией , выборочное среднее сходится к:
Обратите внимание, что мы получили бы тот же результат, если бы вместо этого использовали центральную предельную теорему , отметив, что для каждой переменной степени хи-квадрат математическое ожидание равно , а ее дисперсия (и, следовательно, дисперсия выборочного среднего значения равна ).
Моменты около нуля распределения хи-квадрат со степенями свободы определяются формулами [10] [11]
Кумулянты
Кумулянты легко получить разложением логарифма характеристической функции в степенной ряд :
Концентрация
Распределение хи-квадрат демонстрирует сильную концентрацию вокруг своего среднего значения. Стандартные границы Лорана-Массара [12] таковы:
Одним из последствий является то, что если – гауссов случайный вектор в , то по мере роста размерности квадрат длины вектора плотно концентрируется вокруг ширины :
Асимптотические свойства
По центральной предельной теореме , поскольку распределение хи-квадрат представляет собой сумму независимых случайных величин с конечным средним значением и дисперсией, оно сходится к нормальному распределению при больших . Для многих практических целей распределение достаточно близко к нормальному , поэтому разницу можно игнорировать. [13] В частности, если , то при стремлении к бесконечности распределение стремится к стандартному нормальному распределению. Однако сходимость происходит медленно, поскольку асимметрия и избыточный эксцесс равны .
Выборочное распределение сходится к нормальному состоянию намного быстрее, чем выборочное распределение , [14] , поскольку логарифмическое преобразование устраняет большую часть асимметрии. [15]
Другие функции распределения хи-квадрат быстрее сходятся к нормальному распределению. Некоторые примеры:
If then приблизительно нормально распределяется со средним значением и единичной дисперсией (1922, Р. А. Фишер , см. (18.23), стр. 426 Джонсона. [4]
Если то имеет приблизительно нормальное распределение со средним значением и дисперсией [16] Это известно как преобразование Вильсона-Хилферти , см. (18.24), с. 426 Джонсона. [4]
Это нормализующее преобразование приводит непосредственно к обычно используемому медианному приближению путем обратного преобразования среднего значения, которое также является медианой нормального распределения.
Если — вектор стандартных нормальных случайных величин iid и симметричная идемпотентная матрица с рангом , то квадратичная форма представляет собой хи-квадрат, распределенный со степенями свободы.
Если — положительно-полуопределенная ковариационная матрица со строго положительными диагональными элементами, то для и случайный -вектор, не зависящий от такого, что и тогда
[15]
Распределение хи-квадрат также естественным образом связано с другими распределениями, возникающими из гауссианы. В частности,
является F-распределенным , если , где и статистически независимы.
Если и статистически независимы, то . Если и не являются независимыми, то не распределено по хи-квадрату.
Обобщения
Распределение хи-квадрат получается как сумма квадратов k независимых гауссовских случайных величин с нулевым средним и единичной дисперсией. Обобщения этого распределения можно получить путем суммирования квадратов других типов гауссовских случайных величин. Ниже описано несколько таких распределений.
Линейная комбинация
Если являются случайными величинами хи-квадрат и , то распределение является частным случаем обобщенного распределения хи-квадрат . Замкнутое выражение для этого распределения неизвестно. Однако его можно эффективно аппроксимировать, используя свойство характеристических функций случайных величин хи-квадрат. [18]
Распределения хи-квадрат
Нецентральное распределение хи-квадрат
Нецентральное распределение хи-квадрат получается из суммы квадратов независимых гауссовых случайных величин, имеющих единичную дисперсию и ненулевые средние значения.
Обобщенное распределение хи-квадрат
Обобщенное распределение хи-квадрат получается из квадратичной формы z'Az , где z - гауссовский вектор с нулевым средним, имеющий произвольную ковариационную матрицу, а A - произвольная матрица.
Гамма, экспоненциальное и родственные распределения
Распределение хи-квадрат является особым случаем гамма-распределения , в котором используется параметризация скорости гамма-распределения (или использование масштабной параметризации гамма-распределения), где k является целым числом.
Распределение Эрланга также является частным случаем гамма-распределения, и поэтому мы также имеем, что если с четным , то распределяется Эрланга с параметром формы и параметром масштаба .
Возникновение и применение
Распределение хи-квадрат имеет множество применений в статистике вывода , например, в тестах хи-квадрат и при оценке дисперсий . Это касается проблемы оценки среднего значения нормально распределенной совокупности и проблемы оценки наклона линии регрессии через ее роль в t-распределении Стьюдента . Он входит в любой анализ дисперсионных задач благодаря своей роли в F-распределении , которое представляет собой распределение отношения двух независимых случайных величин хи-квадрат , каждая из которых разделена на соответствующие степени свободы.
Ниже приведены некоторые из наиболее распространенных ситуаций, в которых распределение хи-квадрат возникает из выборки, распределенной по Гауссу.
В поле ниже показаны некоторые статистические данные , основанные на независимых случайных величинах, распределения вероятностей которых связаны с распределением хи-квадрат:
Значение - это вероятность наблюдения тестовой статистики, по крайней мере , как экстремальной в распределении хи-квадрат. Соответственно, поскольку кумулятивная функция распределения (CDF) для соответствующих степеней свободы (df) дает вероятность получения значения, менее экстремального , чем эта точка, вычитание значения CDF из 1 дает значение p . Низкое значение p ниже выбранного уровня значимости указывает на статистическую значимость , т. е. на наличие достаточных доказательств для отклонения нулевой гипотезы. Уровень значимости 0,05 часто используется в качестве границы между значимыми и незначимыми результатами.
В таблице ниже указано количество значений p , соответствующих первым 10 степеням свободы.
Эти значения можно рассчитать, оценивая функцию квантиля (также известную как «обратный CDF» или «ICDF») распределения хи-квадрат; [21] например, ICDF χ 2 для p = 0,05 и df = 7 дает 2,1673 ≈ 2,17, как в таблице выше, учитывая, что 1 – p — это значение p из таблицы.
История
Это распределение было впервые описано немецким геодезистом и статистиком Фридрихом Робертом Гельмертом в работах 1875–1876 годов, [22] [23] , где он вычислил выборочное распределение выборочной дисперсии нормальной популяции. Таким образом, в немецком языке это традиционно было известно как Helmert'sche («Гельмертово») или «распределение Гельмерта».
Распределение было независимо переоткрыто английским математиком Карлом Пирсоном в контексте согласия , для чего он разработал свой критерий хи-квадрат Пирсона , опубликованный в 1900 году, с вычисленной таблицей значений, опубликованной в (Элдертон 1902), собранной в (Пирсон 1914, стр. xxxi–xxxiii, 26–28, таблица XII). Название «хи-квадрат» в конечном итоге происходит от сокращения Пирсона для показателя степени в многомерном нормальном распределении с греческой буквой Chi , обозначающей -½χ 2 для того, что в современных обозначениях будет выглядеть как -½ x T Σ -1 x (Σ - это ковариационная матрица ). [24] Однако идея семейства «распределений хи-квадрат» принадлежит не Пирсону, а возникла как дальнейшее развитие Фишера в 1920-х годах. [22]
^ М. А. Сандерс. «Характеристическая функция центрального распределения хи-квадрат» (PDF) . Архивировано из оригинала (PDF) 15 июля 2011 г. Проверено 6 марта 2009 г.
^ НИСТ (2006). Справочник по инженерной статистике - Распределение хи-квадрат
^ abc Джонсон, Нидерланды; Коц, С.; Балакришнан, Н. (1994). «Распределения хи-квадрат, включая Чи и Рэлея». Непрерывные одномерные распределения . Том. 1 (Второе изд.). Джон Уайли и сыновья. стр. 415–493. ISBN978-0-471-58495-7.
^ Настроение, Александр; Грейбилл, Франклин А.; Боес, Дуэйн К. (1974). Введение в теорию статистики (Третье изд.). МакГроу-Хилл. стр. 241–246. ISBN978-0-07-042864-5.
^ Вестфолл, Питер Х. (2013). Понимание передовых статистических методов . Бока-Ратон, Флорида: CRC Press. ISBN978-1-4665-1210-8.
^ Рэмси, PH (1988). «Оценка нормального приближения к биномиальному тесту». Журнал образовательной статистики . 13 (2): 173–82. дои : 10.2307/1164752. JSTOR 1164752.
^ ab Ланкастер, ХО (1969), Распределение хи-квадрат , Уайли
^ Дасгупта, Санджой Д.А.; Гупта, Анупам К. (январь 2003 г.). «Элементарное доказательство теоремы Джонсона и Линденштрауса» (PDF) . Случайные структуры и алгоритмы . 22 (1): 60–65. дои : 10.1002/rsa.10073. S2CID 10327785 . Проверено 1 мая 2012 г.
^ Распределение хи-квадрат, из MathWorld , получено 11 февраля 2009 г.
^ М. К. Саймон, Распределение вероятностей с участием гауссовских случайных величин , Нью-Йорк: Springer, 2002, ур. (2.35), ISBN 978-0-387-34657-1
^ Лоран, Б.; Массарт, П. (1 октября 2000 г.). «Адаптивная оценка квадратичного функционала путем выбора модели». Анналы статистики . 28 (5). дои : 10.1214/aos/1015957395 . ISSN 0090-5364. S2CID 116945590.
^ Бокс, Охотник и охотник (1978). Статистика для экспериментаторов . Уайли. п. 118. ИСБН978-0-471-09315-2.
^ Бартлетт, М.С.; Кендалл, генеральный директор (1946). «Статистический анализ дисперсионной неоднородности и логарифмического преобразования». Приложение к журналу Королевского статистического общества . 8 (1): 128–138. дои : 10.2307/2983618. JSTOR 2983618.
^ Аб Пиллаи, Натеш С. (2016). «Неожиданная встреча с Коши и Леви». Анналы статистики . 44 (5): 2089–2097. arXiv : 1505.01957 . дои : 10.1214/15-aos1407. S2CID 31582370.
^ Уилсон, Э.Б.; Хилферти, ММ (1931). «Распределение хи-квадрат». Учеб. Натл. акад. наук. США . 17 (12): 684–688. Бибкод : 1931PNAS...17..684W. дои : 10.1073/pnas.17.12.684 . ПМЦ 1076144 . ПМИД 16577411.
^ Бэкстрем, Т.; Фишер, Дж. (январь 2018 г.). «Быстрая рандомизация для распределенного кодирования речи и аудио с низким битрейтом». Транзакции IEEE/ACM по обработке звука, речи и языка . 26 (1): 19–30. дои : 10.1109/TASLP.2017.2757601. S2CID 19777585.
^ Бауш, Дж. (2013). «Об эффективном расчете линейной комбинации случайных величин хи-квадрат с применением при подсчете строкового вакуума». Дж. Физ. А: Математика. Теор . 46 (50): 505202. arXiv : 1208.2691 . Бибкод : 2013JPhA...46X5202B. дои : 10.1088/1751-8113/46/50/505202. S2CID 119721108.
^ ден Деккер А.Дж., Сийберс Дж., (2014) «Распределение данных на магнитно-резонансных изображениях: обзор», Physica Medica , [1]
^ Тест хи-квадрат. Архивировано 18 ноября 2013 г. в Wayback Machine , таблица B.2. Доктор Жаклин С. Маклафлин из Университета штата Пенсильвания. В свою очередь, цитируя: Р. А. Фишер и Ф. Йейтс, Статистические таблицы для биологических сельскохозяйственных и медицинских исследований, 6-е изд., Таблица IV. Два значения были исправлены: 7,82 с 7,81 и 4,60 с 4,61.
^ ab Hald 1998, стр. 633–692, 27. Выборочные распределения при нормальности.
^ FR Helmert , "Ueber die Wahrscheinlichkeit der Potenzsummen der Beobachtungsfehler und über einige damit im Zusammenhange stehende Fragen", Zeitschrift für Mathematik und Physik 21, 1876, стр. 192–219
^ Р. Л. Плакетт, Карл Пирсон и критерий хи-квадрат , International Statistical Review, 1983, 61f. См. также Джефф Миллер, «Самые ранние известные варианты использования некоторых математических слов».
^ Сунь, Цзинчао; Конг, Майинг; Пал, Субхадип (22 июня 2021 г.). «Модифицированное полунормальное распределение: свойства и эффективная схема выборки». Коммуникации в статистике - теория и методы . 52 (5): 1591–1613. дои : 10.1080/03610926.2021.1934700. ISSN 0361-0926. S2CID 237919587.
Пирсон, Карл (1914). «О вероятности того, что два независимых распределения частот на самом деле являются образцами одной и той же популяции, с особым упором на недавнюю работу по идентичности штаммов трипаносом». Биометрика . 10 : 85–154. дои : 10.1093/биомет/10.1.85.
Внешние ссылки
Самое раннее использование некоторых математических слов: статья о хи-квадрате имеет краткую историю.
Конспекты курса по тестированию пригодности по критерию хи-квадрат из курса 101 по статистике Йельского университета.
Демонстрация Mathematica, показывающая выборочное распределение различных статистических данных по хи-квадрату, например Σx², для нормальной популяции.
Простой алгоритм аппроксимации cdf и обратного cdf для распределения хи-квадрат с помощью карманного калькулятора