Статистика критерия хи-квадрат Пирсона определяется как . Значение p критерия вычисляется либо численно, либо путем поиска в таблице.
Если p-значение достаточно мало (обычно p < 0,05 по соглашению), то нулевая гипотеза отвергается, и мы приходим к выводу, что наблюдаемые данные не следуют мультиномиальному распределению.
Простым примером является проверка гипотезы о том, что обычная шестигранная игральная кость является «честной» (т. е. все шесть результатов имеют одинаковую вероятность выпадения). В этом случае наблюдаемые данные — это , количество раз, которое игральная кость выпадала на каждое число. Нулевая гипотеза — , и . Как подробно описано ниже, если , то честность игральной кости может быть отвергнута на уровне .
Тест на соответствие устанавливает, отличается ли наблюдаемое распределение частот от теоретического распределения.
Тест на однородность сравнивает распределение подсчетов для двух или более групп, использующих одну и ту же категориальную переменную (например, выбор деятельности — колледж, армия, работа, путешествия — выпускниками средней школы, указанный через год после выпуска, отсортированный по году выпуска, чтобы увидеть, изменилось ли число выпускников, выбирающих данную деятельность, от класса к классу или от десятилетия к десятилетию). [4]
Тест на независимость оценивает, являются ли наблюдения, состоящие из измерений двух переменных, выраженных в таблице сопряженности , независимыми друг от друга (например, опрос ответов людей разных национальностей с целью выяснить, связана ли национальность одного человека с ответом).
Для всех трех тестов вычислительная процедура включает следующие этапы:
Для проверки соответствия df = Cats − Params , где Cats — это количество категорий наблюдений, распознаваемых моделью, а Params — это количество параметров в модели, скорректированных для того, чтобы модель наилучшим образом соответствовала наблюдениям: количество категорий, уменьшенное на количество подобранных параметров в распределении.
Для проверки однородности df = (Rows − 1)×(Cols − 1) , где Rows соответствует количеству категорий (т. е. строк в связанной таблице сопряженности), а Cols соответствует количеству независимых групп (т. е. столбцов в связанной таблице сопряженности). [4]
Для проверки независимости df = (Rows − 1)×(Cols − 1) , где в этом случае Rows соответствует количеству категорий в одной переменной, а Cols соответствует количеству категорий во второй переменной. [4]
Сравните с критическим значением из распределения хи-квадрат с df степенями свободы и выбранным уровнем достоверности (односторонним, поскольку тест проводится только в одном направлении, т.е. больше ли тестовое значение критического значения?), что во многих случаях дает хорошее приближение распределения .
Подтвердите или отвергните нулевую гипотезу о том, что наблюдаемое распределение частот совпадает с теоретическим распределением, на основе того, превышает ли статистика теста критическое значение . Если статистика теста превышает критическое значение , нулевая гипотеза ( = нет разницы между распределениями) может быть отклонена, а альтернативная гипотеза ( = есть разница между распределениями) может быть принята, обе с выбранным уровнем достоверности. Если статистика теста падает ниже порогового значения, то нельзя прийти к однозначному выводу, и нулевая гипотеза поддерживается (мы не можем отвергнуть нулевую гипотезу), хотя и не обязательно принимается.
Тест на соответствие распределению
Дискретное равномерное распределение
В этом случае наблюдения делятся между ячейками. Простое применение — проверка гипотезы о том, что в общей популяции значения будут встречаться в каждой ячейке с одинаковой частотой. «Теоретическая частота» для любой ячейки (при нулевой гипотезе дискретного равномерного распределения ) таким образом вычисляется как
и уменьшение степеней свободы теоретически равно , поскольку наблюдаемые частоты ограничены суммой .
Одним из конкретных примеров его применения является применение для логрангового теста.
Другие дистрибутивы
При проверке того, являются ли наблюдения случайными величинами, распределение которых принадлежит заданному семейству распределений, «теоретические частоты» вычисляются с использованием распределения из этого семейства, подобранного некоторым стандартным образом. Сокращение степеней свободы вычисляется как , где — число параметров, используемых при подгонке распределения. Например, при проверке трехпараметрического обобщенного гамма-распределения , , а при проверке нормального распределения (где параметрами являются среднее значение и стандартное отклонение) , и при проверке распределения Пуассона (где параметром является ожидаемое значение) . Таким образом, будет степеней свободы, где — число категорий.
Степени свободы не основаны на количестве наблюдений, как в случае с распределением Стьюдента или F-распределением . Например, если тестировать честную шестигранную игральную кость , то будет пять степеней свободы, поскольку существует шесть категорий или параметров (каждое число); количество бросков игральной кости не влияет на количество степеней свободы.
Расчет тестовой статистики
Значение тестовой статистики равно
где
= Статистика кумулятивного теста Пирсона, которая асимптотически приближается к распределению .
= количество наблюдений типа i .
= общее количество наблюдений
= ожидаемое (теоретическое) количество особей типа i , утверждаемое нулевой гипотезой о том, что доля особей типа i в популяции равна
Этот результат является следствием биномиальной теоремы.
Результат о числе степеней свободы действителен, когда исходные данные являются мультиномиальными, и, следовательно, оцененные параметры эффективны для минимизации статистики хи-квадрат. Однако, в более общем случае, когда оценка максимального правдоподобия не совпадает с оценкой минимального хи-квадрат, распределение будет находиться где-то между распределением хи-квадрат с и степенями свободы (см., например, Chernoff and Lehmann, 1954).
Тест хи-квадрат указывает на статистически значимую связь между уровнем полученного образования и посещением плановых осмотров (хи-квадрат = 14,6090, p = 0,002). Пропорции показывают, что с ростом уровня образования увеличивается и доля лиц, посещающих плановые осмотры. В частности, лица, окончившие колледж или университет, посещают плановые осмотры в большей пропорции (31,52%) по сравнению с теми, кто не окончил среднюю школу (8,44%). Это открытие может означать, что более высокий уровень образования связан с большей вероятностью участия в поведении, способствующем укреплению здоровья, таком как плановые осмотры.
В этом случае «наблюдение» состоит из значений двух результатов, а нулевая гипотеза заключается в том, что возникновение этих результатов статистически независимо . Каждое наблюдение распределяется по одной ячейке двумерного массива ячеек (называемого таблицей сопряженности ) в соответствии со значениями двух результатов. Если в таблице r строк и c столбцов, «теоретическая частота» для ячейки, учитывая гипотезу независимости, равна
где — общий размер выборки (сумма всех ячеек в таблице), а
— доля наблюдений типа i, игнорирующих атрибут столбца (доля итогов по строкам), и
это доля наблюдений типа j, игнорирующих атрибут строки (доля итогов столбца). Термин « частоты » относится к абсолютным числам, а не к уже нормализованным значениям.
Значение тестовой статистики равно
Обратите внимание, что равно 0 тогда и только тогда, когда , т.е. только тогда, когда ожидаемое и истинное число наблюдений равны во всех ячейках.
Подгонка модели «независимости» уменьшает число степеней свободы на p = r + c − 1. Число степеней свободы равно числу ячеек rc за вычетом уменьшения степеней свободы p , что сводится к ( r − 1)( c − 1).
Для теста независимости, также известного как тест однородности, вероятность хи-квадрат, меньшая или равная 0,05 (или статистика хи-квадрат, равная или превышающая критическую точку 0,05), обычно интерпретируется прикладными работниками как обоснование для отклонения нулевой гипотезы о том, что переменная строки независима от переменной столбца. [6]
Альтернативная гипотеза соответствует переменным, имеющим связь или связь, где структура этой связи не указана.
Предположения
При использовании критерия хи-квадрат со стандартным приближением применимости распределения хи-квадрат используются следующие предположения: [7]
Данные выборки — это случайная выборка из фиксированного распределения или популяции, где каждая коллекция членов популяции заданного размера выборки имеет равную вероятность выбора. Были разработаны варианты теста для сложных выборок, например, когда данные взвешиваются. Могут использоваться и другие формы, например, целенаправленная выборка . [8]
Размер выборки (вся таблица)
Предполагается выборка достаточно большого размера. Если тест хи-квадрат проводится на выборке меньшего размера, то тест хи-квадрат даст неточный вывод. Исследователь, используя тест хи-квадрат на небольших выборках, может в конечном итоге совершить ошибку типа II . Для небольших выборок предпочтительнее тест Кэша. [9] [10]
Ожидаемое количество клеток
Адекватное ожидаемое количество ячеек. Некоторым требуется 5 или более, а другим — 10 или более. Общее правило — 5 или более во всех ячейках таблицы 2x2 и 5 или более в 80% ячеек в больших таблицах, но нет ячеек с нулевым ожидаемым количеством. Если это предположение не выполняется, применяется поправка Йейтса .
Независимость
Наблюдения всегда предполагаются независимыми друг от друга. Это означает, что хи-квадрат нельзя использовать для проверки коррелированных данных (например, сопоставленных пар или панельных данных). В таких случаях тест Макнемара может быть более подходящим.
Тест, который опирается на другие предположения, — это точный тест Фишера ; если его предположение о фиксированных предельных распределениях выполняется, он значительно точнее в получении уровня значимости, особенно при небольшом количестве наблюдений. В подавляющем большинстве приложений это предположение не будет выполнено, и точный тест Фишера будет слишком консервативным и не будет иметь правильного покрытия. [11]
Вывод
Вывод с использованием центральной предельной теоремы
Нулевое распределение статистики Пирсона с j строками и k столбцами аппроксимируется распределением хи-квадрат с ( k − 1)( j − 1) степенями свободы. [12]
В приведенном выше примере предполагаемая вероятность наблюдения за мужчиной составляет 0,5 при 100 образцах. Таким образом, мы ожидаем наблюдать 50 мужчин.
Если n достаточно велико, то указанное выше биномиальное распределение может быть аппроксимировано гауссовым (нормальным) распределением, и, таким образом, статистика теста Пирсона аппроксимирует распределение хи-квадрат,
Пусть O 1 — число наблюдений из выборки, которые находятся в первой ячейке. Статистика теста Пирсона может быть выражена как
что в свою очередь может быть выражено как
По нормальному приближению к биномиальному это квадрат одной стандартной нормальной случайной величины, и, следовательно, распределено как хи-квадрат с 1 степенью свободы. Обратите внимание, что знаменатель — это одно стандартное отклонение гауссовского приближения, поэтому можно записать
Таким образом, в соответствии со значением распределения хи-квадрат, мы измеряем, насколько вероятно наблюдаемое число стандартных отклонений от среднего значения при гауссовой аппроксимации (которая является хорошей аппроксимацией для больших n ).
Затем распределение хи-квадрат интегрируется справа от статистического значения для получения P-значения , которое равно вероятности получения статистики, равной или большей наблюдаемой, при условии принятия нулевой гипотезы.
В целом, подобные аргументы, как указано выше, приводят к желаемому результату, хотя детали более сложны. Можно применить ортогональную замену переменных, чтобы превратить предельные слагаемые в тестовой статистике в один квадрат меньше iid стандартных нормальных случайных величин. [13]
Теперь докажем, что распределение действительно асимптотически приближается к распределению по мере того, как число наблюдений стремится к бесконечности.
Пусть будет числом наблюдений, числом ячеек и вероятностью попадания наблюдения в i-ю ячейку, для . Обозначим через конфигурацию, где для каждого i есть наблюдения в i-й ячейке. Обратите внимание, что
Пусть будет кумулятивной критерием статистики Пирсона для такой конфигурации, и пусть будет распределением этой статистики. Мы покажем, что последняя вероятность приближается к распределению со степенями свободы, как
Для любого произвольного значения T:
Мы будем использовать процедуру, похожую на приближение в теореме Муавра–Лапласа . Вклад малых имеет порядок ниже ведущего в и, таким образом, для больших мы можем использовать формулу Стирлинга для обоих и получить следующее:
Заменяя на
мы можем аппроксимировать для больших сумму по интегралом по . Заметив, что:
мы прибываем в
Раскрывая логарифм и взяв главные члены в , получаем
Хи Пирсона, , является в точности аргументом экспоненты (за исключением -1/2; обратите внимание, что последний член в аргументе экспоненты равен ).
Этот аргумент можно записать так:
является регулярной симметричной матрицей, и, следовательно, диагонализируемой . Поэтому можно сделать линейную замену переменных в так, чтобы получить новые переменные , так что:
Эта линейная замена переменных просто умножает интеграл на постоянный якобиан , поэтому мы получаем:
Где C — константа.
Это вероятность того, что квадрат суммы независимых нормально распределенных переменных с нулевым средним значением и единичной дисперсией будет больше T, а именно, что при наличии степеней свободы больше T.
Таким образом, мы показали, что в пределе распределение хи-критерия Пирсона приближается к распределению хи-критерия со степенями свободы.
Игральная кость с шестью гранями бросается 60 раз. Количество выпадений очков 1, 2, 3, 4, 5 и 6 составляет 5, 8, 9, 8, 10 и 20 соответственно. Является ли игральная кость смещенной, согласно критерию хи-квадрат Пирсона, на уровне значимости 95% и/или 99%?
Нулевая гипотеза заключается в том, что игральная кость непредвзята, поэтому ожидается, что каждое число выпадет одинаковое количество раз, в данном случае, 60/н = 10. Результаты можно представить в виде следующей таблицы:
Затем мы обращаемся к таблице критических значений распределения хи-квадрат верхнего хвоста , табличное значение относится к сумме квадратов переменных, каждая из которых делится на ожидаемые результаты. Для настоящего примера это означает
Это экспериментальный результат, маловероятность которого (при честном броске игральной кости) мы хотим оценить.
Экспериментальная сумма 13,4 находится между критическими значениями 97,5% и 99% значимости или достоверности ( p-value ). В частности, получение 20 бросков 6, когда ожидание составляет всего 10 таких значений, маловероятно при честной кости.
Тест согласия по критерию хи-квадрат
В этом контексте частоты как теоретических, так и эмпирических распределений являются ненормализованными числами, и для теста хи-квадрат общие размеры выборки обоих этих распределений (суммы всех ячеек соответствующих таблиц сопряженности ) должны быть одинаковыми.
Например, чтобы проверить гипотезу о том, что случайная выборка из 100 человек была взята из популяции, в которой мужчины и женщины встречаются одинаково часто, наблюдаемое количество мужчин и женщин будет сравниваться с теоретическими частотами 50 мужчин и 50 женщин. Если в выборке было 44 мужчины и 56 женщин, то
Если нулевая гипотеза верна (т.е. мужчины и женщины выбраны с равной вероятностью), то тестовая статистика будет получена из распределения хи-квадрат с одной степенью свободы (поскольку если известна частота мужчин, то определяется частота женщин).
Рассмотрение распределения хи-квадрат для 1 степени свободы показывает, что вероятность наблюдения этой разницы (или более экстремальной разницы, чем эта), если мужчины и женщины одинаково многочисленны в популяции, составляет приблизительно 0,23. Эта вероятность выше обычных критериев статистической значимости (0,01 или 0,05), поэтому обычно мы не отвергаем нулевую гипотезу о том, что количество мужчин в популяции такое же, как и количество женщин (т. е. мы бы считали нашу выборку в пределах того, что мы ожидаем для соотношения мужчин и женщин 50/50).
Проблемы
Аппроксимация распределения хи-квадрат нарушается, если ожидаемые частоты слишком низкие. Обычно она приемлема, пока не более 20% событий имеют ожидаемые частоты ниже 5. При наличии только 1 степени свободы аппроксимация ненадежна, если ожидаемые частоты ниже 10. В этом случае можно получить лучшее приближение, уменьшив абсолютное значение каждой разницы между наблюдаемыми и ожидаемыми частотами на 0,5 перед возведением в квадрат; это называется поправкой Йетса для непрерывности .
В случаях, когда ожидаемое значение E оказывается малым (что указывает на малую базовую вероятность популяции и/или небольшое количество наблюдений), нормальное приближение мультиномиального распределения может потерпеть неудачу, и в таких случаях оказывается более целесообразным использовать G-тест , тестовую статистику на основе отношения правдоподобия . Когда общий размер выборки невелик, необходимо использовать соответствующий точный тест, обычно либо биномиальный тест , либо, для таблиц сопряженности , точный тест Фишера . Этот тест использует условное распределение тестовой статистики с учетом маргинальных итогов и, таким образом, предполагает, что маржинальные значения были определены до исследования; альтернативы, такие как тест Бошлоо , которые не делают этого предположения, являются однородно более мощными .
Можно показать, что тест является приближением теста низкого порядка . [14] Вышеуказанные причины вышеуказанных проблем становятся очевидными при исследовании членов более высокого порядка.
^ Пирсон, Карл (1900). «О критерии, согласно которому данная система отклонений от вероятной в случае коррелированной системы переменных такова, что можно обоснованно предположить, что она возникла из случайной выборки». Philosophical Magazine . Серия 5. 50 (302): 157–175. doi :10.1080/14786440009463897.
^ Лукас, Орестис; Чунг, Хо Рюн (2022). «Характеристика ограничений моделирования на основе энтропии». arXiv : 2206.14105 [stat.ME].
^ Лукас, Орестис; Чунг, Хо Рюн (2023). «Тотальный эмпиризм: обучение на основе данных». arXiv : 2311.08315 [math.ST].
^ abc Дэвид Э. Бок, Пол Ф. Веллеман, Ричард Д. Де Во (2007). «Статистика, моделирование мира», стр. 606-627, Pearson Addison Wesley, Бостон, ISBN 0-13-187621-X
^ "1.3.6.7.4. Критические значения распределения хи-квадрат" . Получено 14 октября 2014 г. .
^ "Критические значения распределения хи-квадрат". NIST/SEMATECH e-Handbook of Statistical Methods . Национальный институт стандартов и технологий.
^ Макхью, Мэри (15 июня 2013 г.). «Хи-квадратный тест независимости». Biochemia Medica . 23 (2): 143–149. doi :10.11613/BM.2013.018. PMC 3900058. PMID 23894860 .
^ См. Филд, Энди. Обнаружение статистики с помощью SPSS .для предположений о хи-квадрат.
^ Кэш, У. (1979). «Оценка параметров в астрономии посредством применения отношения правдоподобия». The Astrophysical Journal . 228 : 939. Bibcode : 1979ApJ...228..939C. doi : 10.1086/156922 . ISSN 0004-637X.
^ «Статистика денежных средств и прямая подгонка». hesperia.gsfc.nasa.gov . Получено 19 октября 2021 г. .
^ "Байесовская формулировка для разведочного анализа данных и проверки соответствия" (PDF) . Международный статистический обзор. стр. 375.
^ Статистика для приложений. MIT OpenCourseWare . Лекция 23. Теорема Пирсона. Получено 21 марта 2007 г.
^ Бенхамоу, Эрик; Мелот, Валентин (3 сентября 2018 г.). «Семь доказательств критерия независимости хи-квадрат Пирсона и его графическая интерпретация». стр. 5-6. arXiv : 1808.09171 [math.ST].
^ Джейнс, ET (2003). Теория вероятностей: логика науки. C. University Press. стр. 298. ISBN978-0-521-59271-0.( Ссылка на фрагментарное издание от марта 1996 г. )
Ссылки
Чернофф, Х.; Леманн, Э.Л. (1954). «Использование оценок максимального правдоподобия в тестах χ 2 {\displaystyle \chi ^{2}} для проверки соответствия». Анналы математической статистики . 25 (3): 579–586. doi : 10.1214/aoms/1177728726 .