Хи -квадрат тест (также хи-квадрат или χ2 тест ) — это статистический тест гипотез, используемый при анализе таблиц сопряженности , когда размеры выборки велики. Проще говоря, этот тест в основном используется для проверки того, являются ли две категориальные переменные ( два измерения таблицы сопряженности ) независимыми во влиянии на статистику теста ( значения в таблице ). [1] Тест действителен , когда статистика теста распределена по закону хи-квадрат при нулевой гипотезе , в частности, хи-квадрат тест Пирсона и его варианты. Хи-квадрат тест Пирсона используется для определения того, существует ли статистически значимая разница между ожидаемыми частотами и наблюдаемыми частотами в одной или нескольких категориях таблицы сопряженности . Для таблиц сопряженности с меньшими размерами выборки вместо этого используется точный тест Фишера .
В стандартных приложениях этого теста наблюдения классифицируются по взаимоисключающим классам. Если нулевая гипотеза о том, что между классами в популяции нет различий, верна, то статистика теста, вычисленная на основе наблюдений, следует распределению частот χ2 . Цель теста — оценить, насколько вероятными будут наблюдаемые частоты, если предположить, что нулевая гипотеза верна.
Тестовые статистики, которые следуют распределению χ 2 , возникают, когда наблюдения независимы. Существуют также тесты χ 2 для проверки нулевой гипотезы независимости пары случайных величин на основе наблюдений пар.
Хи-квадрат тесты часто относятся к тестам, для которых распределение тестовой статистики приближается к распределению χ2 асимптотически , что означает, что выборочное распределение (если нулевая гипотеза верна) тестовой статистики приближается к распределению хи-квадрат все больше и больше по мере увеличения размеров выборки .
В 19 веке статистические аналитические методы применялись в основном в анализе биологических данных, и исследователи обычно предполагали, что наблюдения следуют нормальному распределению , как, например, сэр Джордж Эйри и Мэнсфилд Мерриман , чьи работы подверглись критике Карла Пирсона в его статье 1900 года. [2]
В конце 19 века Пирсон заметил существование значительной асимметрии в некоторых биологических наблюдениях. Чтобы смоделировать наблюдения независимо от того, являются ли они нормальными или асимметричными, Пирсон в серии статей, опубликованных с 1893 по 1916 год, [3] [4] [5] [6] разработал распределение Пирсона , семейство непрерывных распределений вероятностей , которое включает нормальное распределение и множество асимметричных распределений, и предложил метод статистического анализа, состоящий из использования распределения Пирсона для моделирования наблюдения и выполнения теста на соответствие, чтобы определить, насколько хорошо модель действительно соответствует наблюдениям.
В 1900 году Пирсон опубликовал статью [2] о тесте χ2 , который считается одной из основ современной статистики. [7] В этой статье Пирсон исследовал тест на соответствие.
Предположим, что n наблюдений в случайной выборке из популяции классифицируются в k взаимоисключающих классов с соответствующими наблюдаемыми числами наблюдений x i (для i = 1,2,…, k ), и нулевая гипотеза дает вероятность p i того, что наблюдение попадает в i й класс. Таким образом, у нас есть ожидаемые числа m i = np i для всех i , где
Пирсон предположил, что при условии , что нулевая гипотеза верна, при n → ∞ предельным распределением приведенной ниже величины является распределение χ2 .
Пирсон сначала рассмотрел случай, в котором ожидаемые числа m i являются достаточно большими известными числами во всех ячейках, предполагая, что каждое наблюдение x i может быть принято как нормально распределенное , и пришел к результату, что в пределе, когда n становится большим, X 2 следует распределению χ 2 с k − 1 степенями свободы.
Однако затем Пирсон рассмотрел случай, в котором ожидаемые числа зависели от параметров, которые необходимо было оценить по выборке, и предположил, что, если обозначить m i как истинные ожидаемые числа, а m ′ i как предполагаемые ожидаемые числа, то разница
обычно будет положительным и достаточно малым, чтобы его можно было опустить. В заключении Пирсон утверждал, что если мы будем считать X ′ 2 также распределенным как распределение χ 2 с k − 1 степенями свободы, ошибка в этом приближении не повлияет на практические решения. Этот вывод вызвал некоторые споры в практических приложениях и не был устоявшимся в течение 20 лет до статей Фишера 1922 и 1924 годов. [8] [9]
Одной из статистических проверок , которая точно следует распределению хи-квадрат , является проверка того, что дисперсия нормально распределенной совокупности имеет заданное значение на основе выборочной дисперсии . Такие проверки на практике встречаются редко, поскольку истинная дисперсия совокупности обычно неизвестна. Однако существует несколько статистических проверок, в которых распределение хи-квадрат приблизительно справедливо:
Для точного теста, используемого вместо теста хи-квадрат 2 × 2 на независимость, см. точный тест Фишера .
Для точного теста, используемого вместо критерия хи-квадрат 2 × 1 для проверки соответствия, см. биномиальный тест .
Использование распределения хи-квадрат для интерпретации статистики хи-квадрат Пирсона требует предположения, что дискретная вероятность наблюдаемых биномиальных частот в таблице может быть аппроксимирована непрерывным распределением хи-квадрат . Это предположение не совсем верно и вносит некоторую ошибку.
Чтобы уменьшить ошибку аппроксимации, Фрэнк Йейтс предложил поправку на непрерывность, которая корректирует формулу для критерия хи-квадрат Пирсона путем вычитания 0,5 из абсолютной разницы между каждым наблюдаемым значением и его ожидаемым значением в таблице сопряженности 2 × 2. [10] Это уменьшает полученное значение хи-квадрат и, таким образом, увеличивает его p -значение .
Если выборка размером n взята из популяции, имеющей нормальное распределение , то есть результат (см. распределение дисперсии выборки ), который позволяет провести тест на то, имеет ли дисперсия популяции предопределенное значение. Например, производственный процесс может находиться в стабильном состоянии в течение длительного периода, что позволяет определить значение дисперсии по существу без ошибок. Предположим, что тестируется вариант процесса, что приводит к небольшой выборке из n единиц продукции, вариация которых должна быть протестирована. Тестовая статистика T в этом случае может быть установлена как сумма квадратов вокруг выборочного среднего, деленная на номинальное значение дисперсии (т. е. значение, которое должно быть протестировано как удерживаемое). Тогда T имеет распределение хи-квадрат с n − 1 степенями свободы . Например, если размер выборки равен 21, область принятия для T с уровнем значимости 5% находится между 9,59 и 34,17.
Предположим, что есть город с населением 1 000 000 жителей и четырьмя районами: A , B , C , и D . Берется случайная выборка из 650 жителей города, и их профессия регистрируется как «белый воротничок», «синий воротничок» или «без воротничка» . Нулевая гипотеза заключается в том, что район проживания каждого человека не зависит от профессиональной классификации человека. Данные сводятся в таблицу следующим образом:
Давайте возьмем выборку, проживающую в районе A , 150, чтобы оценить, какая доля от всех 1 000 000 проживает в районе A. Аналогично мы берем 349/650 оценить, какая доля из 1 000 000 — это служащие. При допущении независимости в рамках гипотезы мы должны «ожидать», что число служащих в районе A будет
Тогда в этой «ячейке» таблицы мы имеем
Сумма этих величин по всем ячейкам является тестовой статистикой; в этом случае . При нулевой гипотезе эта сумма имеет приблизительно распределение хи-квадрат, число степеней свободы которого равно
Если тестовая статистика невероятно велика согласно этому распределению хи-квадрат, то нулевая гипотеза независимости отвергается. Здесь у нас есть значение хи-квадрат 24,57, что довольно велико, и поэтому у нас есть некоторые доказательства, чтобы отвергнуть нулевую гипотезу (H0). Это означает, что район проживания каждого человека коррелирует с профессиональной классификацией человека.
Связанная проблема — проверка однородности. Предположим, что вместо того, чтобы давать каждому жителю каждого из четырех районов равные шансы на включение в выборку, мы заранее решаем, сколько жителей каждого района включить. Тогда у каждого жителя есть такие же шансы быть выбранным, как и у всех жителей одного района, но у жителей разных районов будут разные вероятности быть выбранными, если четыре размера выборки не пропорциональны населению четырех районов. В таком случае мы будем проверять «однородность», а не «независимость». Вопрос в том, одинаковы ли пропорции рабочих, служащих и рабочих без воротничков в четырех районах. Однако проверка проводится одинаково.
В криптоанализе тест хи-квадрат используется для сравнения распределения открытого текста и (возможно) расшифрованного шифртекста . Наименьшее значение теста означает, что расшифровка прошла успешно с высокой вероятностью. [11] [12] Этот метод можно обобщить для решения современных криптографических задач. [13]
В биоинформатике тест хи-квадрат используется для сравнения распределения определенных свойств генов (например, геномного содержимого, скорости мутаций, кластеризации сетей взаимодействия и т. д.), принадлежащих к различным категориям (например, гены болезней, основные гены, гены на определенной хромосоме и т. д.) [14] [15]