Критерий хи-квадрат (также хи-квадрат или критерий χ 2 ) — это тест статистической гипотезы, используемый при анализе таблиц непредвиденных обстоятельств , когда размеры выборки велики. Проще говоря, этот тест в первую очередь используется для проверки того, являются ли две категориальные переменные ( два измерения таблицы сопряженности ) независимыми, влияющими на статистику теста ( значения в таблице ). [1] Тест действителен , когда статистика теста распределена по хи-квадрату в соответствии с нулевой гипотезой , в частности, критерий хи-квадрат Пирсона и его варианты. Критерий хи-квадрат Пирсона используется для определения того, существует ли статистически значимая разница между ожидаемыми частотами и наблюдаемыми частотами в одной или нескольких категориях таблицы сопряженности . Для таблиц непредвиденных обстоятельств с меньшим размером выборки вместо этого используется точный критерий Фишера .
В стандартных приложениях этого теста наблюдения классифицируются по взаимоисключающим классам. Если нулевая гипотеза об отсутствии различий между классами в популяции верна, тестовая статистика, рассчитанная на основе наблюдений, соответствует частотному распределению χ 2 . Цель теста — оценить, насколько вероятно, что наблюдаемые частоты будут предполагать, что нулевая гипотеза верна.
Тестовая статистика, которая соответствует распределению χ 2, имеет место, когда наблюдения независимы. Существуют также тесты χ 2 для проверки нулевой гипотезы независимости пары случайных величин, основанные на наблюдениях за парами.
Критерии хи-квадрат часто относятся к тестам, для которых распределение тестовой статистики асимптотически приближается к распределению χ 2 , что означает, что выборочное распределение (если нулевая гипотеза верна) тестовой статистики все более и более приближается к распределению хи-квадрат. по мере увеличения размеров выборки .
В 19 веке статистические аналитические методы в основном применялись при анализе биологических данных, и среди исследователей было принято предполагать, что наблюдения следуют нормальному распределению , например, сэр Джордж Эйри и Мэнсфилд Мерриман , чьи работы подверглись критике со стороны Карла Пирсона в его статье 1900 года. . [2]
В конце XIX века Пирсон заметил значительную асимметрию в некоторых биологических наблюдениях. Чтобы смоделировать наблюдения независимо от того, являются ли они нормальными или асимметричными, Пирсон в серии статей, опубликованных с 1893 по 1916 год, [3] [4] [5] [6] разработал распределение Пирсона , семейство непрерывных вероятностных распределений , который включает нормальное распределение и множество асимметричных распределений, и предложил метод статистического анализа, состоящий в использовании распределения Пирсона для моделирования наблюдения и выполнении теста на соответствие, чтобы определить, насколько хорошо модель действительно соответствует наблюдениям.
В 1900 году Пирсон опубликовал статью [2] о тесте χ2 , который считается одной из основ современной статистики. [7] В этой статье Пирсон исследовал критерий согласия.
Предположим, что n наблюдений в случайной выборке из совокупности разделены на k взаимоисключающие классы с соответствующими наблюдаемыми числами наблюдений x i (для i = 1,2,…, k ), а нулевая гипотеза дает вероятность p i того, что наблюдение попадает в i -й класс. Итак, у нас есть ожидаемые числа m i = np i для всех i , где
Пирсон предположил, что при условии, что нулевая гипотеза верна, при n → ∞ предельным распределением приведенной ниже величины является распределение χ2 .
Пирсон сначала рассмотрел случай, когда ожидаемые числа m i являются достаточно большими известными числами во всех ячейках, предполагая, что каждое наблюдение x i может быть принято как нормально распределенное , и пришел к выводу, что в пределе, когда n становится большим, X 2 следует распределение χ 2 с k − 1 степенями свободы.
Однако затем Пирсон рассмотрел случай, в котором ожидаемые числа зависели от параметров, которые необходимо было оценить на основе выборки, и предположил, что, если обозначить m i как истинные ожидаемые числа, а m ′ i как предполагаемые ожидаемые числа, разница
обычно будет положительным и достаточно малым, чтобы его можно было опустить. В заключение Пирсон утверждал, что если мы будем рассматривать X 2 как распределение χ 2 с k - 1 степенями свободы, ошибка в этом приближении не повлияет на практические решения. Этот вывод вызвал некоторые разногласия в практическом применении и не был урегулирован в течение 20 лет до появления статей Фишера 1922 и 1924 годов. [8] [9]
Одна тестовая статистика , которая точно соответствует распределению хи-квадрат, — это проверка того, что дисперсия нормально распределенной совокупности имеет заданное значение, основанное на выборочной дисперсии . Такие тесты на практике встречаются редко, поскольку истинная дисперсия генеральной совокупности обычно неизвестна. Однако есть несколько статистических тестов, в которых распределение хи-квадрат приблизительно справедливо:
Точный критерий независимости, используемый вместо критерия хи-квадрат 2 × 2, см. в разделе « Точный критерий Фишера» .
Точный тест, используемый вместо критерия хи-квадрат 2 × 1 на предмет согласия, см. в разделе Биномиальный тест .
Использование распределения хи-квадрат для интерпретации статистики хи-квадрат Пирсона требует предположения, что дискретная вероятность наблюдаемых биномиальных частот в таблице может быть аппроксимирована непрерывным распределением хи-квадрат . Это предположение не совсем верно и вносит некоторую погрешность.
Чтобы уменьшить ошибку аппроксимации, Фрэнк Йейтс предложил поправку на непрерывность, которая корректирует формулу теста хи-квадрат Пирсона путем вычитания 0,5 из абсолютной разницы между каждым наблюдаемым значением и его ожидаемым значением в таблице непредвиденных обстоятельств 2 × 2 . [10] Это уменьшает полученное значение хи-квадрат и, таким образом, увеличивает его p -значение .
Если выборка размера n берется из генеральной совокупности, имеющей нормальное распределение , то получается результат (см. распределение выборочной дисперсии ), который позволяет проверить, имеет ли дисперсия генеральной совокупности заранее определенное значение. Например, производственный процесс мог находиться в стабильном состоянии в течение длительного периода, что позволяло определить значение отклонения практически без ошибок. Предположим, что вариант процесса тестируется, в результате чего формируется небольшая выборка из n единиц продукции, вариация которой подлежит тестированию. Тестовая статистика T в этом случае может быть установлена как сумма квадратов выборочного среднего значения, деленная на номинальное значение дисперсии (т. е. значение, которое будет проверяться как устойчивое). Тогда T имеет распределение хи-квадрат с n − 1 степенями свободы . Например, если размер выборки равен 21, область приемлемости для T с уровнем значимости 5% находится между 9,59 и 34,17.
Предположим , есть город с населением в 1 000 000 жителей и четырьмя кварталами: A , B , C и D. Берется случайная выборка из 650 жителей города, и их род занятий фиксируется как «белые воротнички», «синие воротнички» или «без воротничков» . Нулевая гипотеза заключается в том, что район проживания каждого человека не зависит от его профессиональной принадлежности. Данные сведены в таблицу:
Давайте возьмем выборку из 150 человек, живущих в районе А , чтобы оценить , какая часть из общего числа 1 000 000 человек проживает в районе А. Аналогично мы берем349/650оценить, какую долю из 1 000 000 составляют служащие. Предполагая независимость согласно этой гипотезе, мы должны «ожидать», что число служащих в районе А будет
Тогда в этой «ячейке» таблицы мы имеем
Сумма этих величин по всем ячейкам представляет собой тестовую статистику; в этом случае, . Согласно нулевой гипотезе эта сумма имеет приблизительно распределение хи-квадрат, число степеней свободы которого равно
Если тестовая статистика невероятно велика в соответствии с этим распределением хи-квадрат, то нулевую гипотезу независимости отвергают.
Связанным с этим вопросом является проверка на однородность. Предположим, что вместо того, чтобы давать каждому жителю каждого из четырех районов равные шансы на попадание в выборку, мы заранее решаем, сколько жителей каждого района включить. Тогда у каждого жителя будут такие же шансы быть выбранными, как и у всех жителей одного и того же района, но у жителей разных районов будут разные вероятности быть выбранными, если четыре размера выборки не пропорциональны населению четырех районов. В таком случае мы будем проверять «однородность», а не «независимость». Вопрос в том, одинаковы ли пропорции «синих воротничков», «белых воротничков» и «нет воротничков» в четырех районах. Однако тест проводится таким же образом.
В криптоанализе критерий хи-квадрат используется для сравнения распределения открытого текста и (возможно) расшифрованного зашифрованного текста . Наименьшее значение теста означает, что расшифровка прошла успешно с высокой вероятностью. [11] [12] Этот метод можно обобщить для решения современных криптографических задач. [13]
В биоинформатике критерий хи-квадрат используется для сравнения распределения определенных свойств генов (например, геномного содержания, частоты мутаций, кластеризации сетей взаимодействия и т. д.), принадлежащих к различным категориям (например, гены болезней, важные гены, гены на определенная хромосома и т. д.). [14] [15]