stringtranslate.com

Тест хи-квадрат

Распределение хи-квадрат , показывающее χ 2 по оси x и значение p (вероятность правого хвоста) по оси y .

Критерий хи-квадрат (также хи-квадрат или критерий χ 2 ) — это тест статистической гипотезы, используемый при анализе таблиц непредвиденных обстоятельств , когда размеры выборки велики. Проще говоря, этот тест в первую очередь используется для проверки того, являются ли две категориальные переменные ( два измерения таблицы сопряженности ) независимыми, влияющими на статистику теста ( значения в таблице ). [1] Тест действителен , когда статистика теста распределена по хи-квадрату в соответствии с нулевой гипотезой , в частности, критерий хи-квадрат Пирсона и его варианты. Критерий хи-квадрат Пирсона используется для определения того, существует ли статистически значимая разница между ожидаемыми частотами и наблюдаемыми частотами в одной или нескольких категориях таблицы сопряженности . Для таблиц непредвиденных обстоятельств с меньшим размером выборки вместо этого используется точный критерий Фишера .

В стандартных приложениях этого теста наблюдения классифицируются по взаимоисключающим классам. Если нулевая гипотеза об отсутствии различий между классами в популяции верна, тестовая статистика, рассчитанная на основе наблюдений, соответствует частотному распределению χ 2 . Цель теста — оценить, насколько вероятно, что наблюдаемые частоты будут предполагать, что нулевая гипотеза верна.

Тестовая статистика, которая соответствует распределению χ 2, имеет место, когда наблюдения независимы. Существуют также тесты χ 2 для проверки нулевой гипотезы независимости пары случайных величин, основанные на наблюдениях за парами.

Критерии хи-квадрат часто относятся к тестам, для которых распределение тестовой статистики асимптотически приближается к распределению χ 2 , что означает, что выборочное распределение (если нулевая гипотеза верна) тестовой статистики все более и более приближается к распределению хи-квадрат. по мере увеличения размеров выборки .

История

В 19 веке статистические аналитические методы в основном применялись при анализе биологических данных, и среди исследователей было принято предполагать, что наблюдения следуют нормальному распределению , например, сэр Джордж Эйри и Мэнсфилд Мерриман , чьи работы подверглись критике со стороны Карла Пирсона в его статье 1900 года. . [2]

В конце XIX века Пирсон заметил значительную асимметрию в некоторых биологических наблюдениях. Чтобы смоделировать наблюдения независимо от того, являются ли они нормальными или асимметричными, Пирсон в серии статей, опубликованных с 1893 по 1916 год, [3] [4] [5] [6] разработал распределение Пирсона , семейство непрерывных вероятностных распределений , который включает нормальное распределение и множество асимметричных распределений, и предложил метод статистического анализа, состоящий в использовании распределения Пирсона для моделирования наблюдения и выполнении теста на соответствие, чтобы определить, насколько хорошо модель действительно соответствует наблюдениям.

Критерий хи-квадрат Пирсона

В 1900 году Пирсон опубликовал статью [2] о тесте χ2 , который считается одной из основ современной статистики. [7] В этой статье Пирсон исследовал критерий согласия.

Предположим, что n наблюдений в случайной выборке из совокупности разделены на k взаимоисключающие классы с соответствующими наблюдаемыми числами наблюдений x i (для i = 1,2,…, k ), а нулевая гипотеза дает вероятность p i того, что наблюдение попадает в i -й класс. Итак, у нас есть ожидаемые числа m i = np i для всех i , где

Пирсон предположил, что при условии, что нулевая гипотеза верна, при n предельным распределением приведенной ниже величины является распределение χ2 .

Пирсон сначала рассмотрел случай, когда ожидаемые числа m i являются достаточно большими известными числами во всех ячейках, предполагая, что каждое наблюдение x i может быть принято как нормально распределенное , и пришел к выводу, что в пределе, когда n становится большим, X 2 следует распределение χ 2 с k − 1 степенями свободы.

Однако затем Пирсон рассмотрел случай, в котором ожидаемые числа зависели от параметров, которые необходимо было оценить на основе выборки, и предположил, что, если обозначить m i как истинные ожидаемые числа, а mi как предполагаемые ожидаемые числа, разница

обычно будет положительным и достаточно малым, чтобы его можно было опустить. В заключение Пирсон утверждал, что если мы будем рассматривать X 2 как распределение χ 2 с k - 1 степенями свободы, ошибка в этом приближении не повлияет на практические решения. Этот вывод вызвал некоторые разногласия в практическом применении и не был урегулирован в течение 20 лет до появления статей Фишера 1922 и 1924 годов. [8] [9]

Другие примеры тестов хи-квадрат

Одна тестовая статистика , которая точно соответствует распределению хи-квадрат, — это проверка того, что дисперсия нормально распределенной совокупности имеет заданное значение, основанное на выборочной дисперсии . Такие тесты на практике встречаются редко, поскольку истинная дисперсия генеральной совокупности обычно неизвестна. Однако есть несколько статистических тестов, в которых распределение хи-квадрат приблизительно справедливо:

Точный тест Фишера

Точный критерий независимости, используемый вместо критерия хи-квадрат 2 × 2, см. в разделе « Точный критерий Фишера» .

Биномиальный тест

Точный тест, используемый вместо критерия хи-квадрат 2 × 1 на предмет согласия, см. в разделе Биномиальный тест .

Другие тесты хи-квадрат

Поправка Йейтса на непрерывность

Использование распределения хи-квадрат для интерпретации статистики хи-квадрат Пирсона требует предположения, что дискретная вероятность наблюдаемых биномиальных частот в таблице может быть аппроксимирована непрерывным распределением хи-квадрат . Это предположение не совсем верно и вносит некоторую погрешность.

Чтобы уменьшить ошибку аппроксимации, Фрэнк Йейтс предложил поправку на непрерывность, которая корректирует формулу теста хи-квадрат Пирсона путем вычитания 0,5 из абсолютной разницы между каждым наблюдаемым значением и его ожидаемым значением в таблице непредвиденных обстоятельств 2 × 2 . [10] Это уменьшает полученное значение хи-квадрат и, таким образом, увеличивает его p -значение .

Критерий хи-квадрат для определения дисперсии в нормальной популяции

Если выборка размера n берется из генеральной совокупности, имеющей нормальное распределение , то получается результат (см. распределение выборочной дисперсии ), который позволяет проверить, имеет ли дисперсия генеральной совокупности заранее определенное значение. Например, производственный процесс мог находиться в стабильном состоянии в течение длительного периода, что позволяло определить значение отклонения практически без ошибок. Предположим, что вариант процесса тестируется, в результате чего формируется небольшая выборка из n единиц продукции, вариация которой подлежит тестированию. Тестовая статистика T в этом случае может быть установлена ​​как сумма квадратов выборочного среднего значения, деленная на номинальное значение дисперсии (т. е. значение, которое будет проверяться как устойчивое). Тогда T имеет распределение хи-квадрат с n − 1 степенями свободы . Например, если размер выборки равен 21, область приемлемости для T с уровнем значимости 5% находится между 9,59 и 34,17.

Пример теста хи-квадрат для категориальных данных

Предположим , есть город с населением в 1 000 000 жителей и четырьмя кварталами: A , B , C и D. Берется случайная выборка из 650 жителей города, и их род занятий фиксируется как «белые воротнички», «синие воротнички» или «без воротничков» . Нулевая гипотеза заключается в том, что район проживания каждого человека не зависит от его профессиональной принадлежности. Данные сведены в таблицу:

Давайте возьмем выборку из 150 человек, живущих в районе А , чтобы оценить , какая часть из общего числа 1 000 000 человек проживает в районе А. Аналогично мы берем349/650оценить, какую долю из 1 000 000 составляют служащие. Предполагая независимость согласно этой гипотезе, мы должны «ожидать», что число служащих в районе А будет

Тогда в этой «ячейке» таблицы мы имеем

Сумма этих величин по всем ячейкам представляет собой тестовую статистику; в этом случае, . Согласно нулевой гипотезе эта сумма имеет приблизительно распределение хи-квадрат, число степеней свободы которого равно

Если тестовая статистика невероятно велика в соответствии с этим распределением хи-квадрат, то нулевую гипотезу независимости отвергают.

Связанным с этим вопросом является проверка на однородность. Предположим, что вместо того, чтобы давать каждому жителю каждого из четырех районов равные шансы на попадание в выборку, мы заранее решаем, сколько жителей каждого района включить. Тогда у каждого жителя будут такие же шансы быть выбранными, как и у всех жителей одного и того же района, но у жителей разных районов будут разные вероятности быть выбранными, если четыре размера выборки не пропорциональны населению четырех районов. В таком случае мы будем проверять «однородность», а не «независимость». Вопрос в том, одинаковы ли пропорции «синих воротничков», «белых воротничков» и «нет воротничков» в четырех районах. Однако тест проводится таким же образом.

Приложения

В криптоанализе критерий хи-квадрат используется для сравнения распределения открытого текста и (возможно) расшифрованного зашифрованного текста . Наименьшее значение теста означает, что расшифровка прошла успешно с высокой вероятностью. [11] [12] Этот метод можно обобщить для решения современных криптографических задач. [13]

В биоинформатике критерий хи-квадрат используется для сравнения распределения определенных свойств генов (например, геномного содержания, частоты мутаций, кластеризации сетей взаимодействия и т. д.), принадлежащих к различным категориям (например, гены болезней, важные гены, гены на определенная хромосома и т. д.). [14] [15]

Смотрите также

Рекомендации

  1. ^ "Хи-квадрат - Социология 3112 - Факультет социологии - Университет Юты" . soc.utah.edu . Проверено 12 ноября 2022 г.
  2. ^ Аб Пирсон, Карл (1900). «О том критерии, что данная система отклонений от вероятного в случае коррелированной системы переменных такова, что можно разумно предположить, что она возникла в результате случайной выборки». Философский журнал . Серия 5. 50 (302): 157–175. дои : 10.1080/14786440009463897.
  3. ^ Пирсон, Карл (1893). «Вклад в математическую теорию эволюции [аннотация]». Труды Королевского общества . 54 : 329–333. дои : 10.1098/rspl.1893.0079 . JSTOR  115538.
  4. ^ Пирсон, Карл (1895). «Вклад в математическую теорию эволюции, II: Асимметрия в однородном материале». Философские труды Королевского общества . 186 : 343–414. Бибкод : 1895RSPTA.186..343P. дои : 10.1098/rsta.1895.0010 . JSTOR  90649.
  5. ^ Пирсон, Карл (1901). «Математический вклад в теорию эволюции, X: Дополнение к мемуарам о асимметрии». Философские труды Королевского общества А. 197 (287–299): 443–459. Бибкод : 1901RSPTA.197..443P. дои : 10.1098/rsta.1901.0023. JSTOR  90841.
  6. ^ Пирсон, Карл (1916). «Математический вклад в теорию эволюции, XIX: Второе приложение к мемуарам о асимметрии». Философские труды Королевского общества А. 216 (538–548): 429–457. Бибкод : 1916RSPTA.216..429P. дои : 10.1098/rsta.1916.0009 . JSTOR  91092.
  7. ^ Кокран, Уильям Г. (1952). «Тест хи-квадрат на пригодность». Анналы математической статистики . 23 (3): 315–345. дои : 10.1214/aoms/1177729380 . JSTOR  2236678.
  8. ^ Фишер, Рональд А. (1922). «Об интерпретации χ 2 из таблиц сопряженности и расчете P». Журнал Королевского статистического общества . 85 (1): 87–94. дои : 10.2307/2340521. JSTOR  2340521.
  9. ^ Фишер, Рональд А. (1924). «Условия, при которых χ 2 измеряет несоответствие между наблюдением и гипотезой». Журнал Королевского статистического общества . 87 (3): 442–450. JSTOR  2341149.
  10. ^ Йейтс, Фрэнк (1934). «Таблица непредвиденных обстоятельств с участием малых чисел и критерия χ 2 ». Приложение к журналу Королевского статистического общества . 1 (2): 217–235. дои : 10.2307/2983604. JSTOR  2983604.
  11. ^ "Статистика хи-квадрат" . Практическая криптография . Архивировано из оригинала 18 февраля 2015 года . Проверено 18 февраля 2015 г.
  12. ^ «Использование квадрата хи для взлома кодов» . Ресурсы IB ​​по математике . Британская международная школа Пхукета. 15 июня 2014 г.
  13. ^ Рябко, Б. Я.; Стогниенко В.С.; Шокин, Ю. И. (2004). «Новый тест на случайность и его применение к некоторым криптографическим задачам» (PDF) . Журнал статистического планирования и выводов . 123 (2): 365–376. дои : 10.1016/s0378-3758(03)00149-6 . Проверено 18 февраля 2015 г.
  14. ^ Фельдман, И.; Ржецкий А.; Виткуп, Д. (2008). «Сетевые свойства генов, несущих наследственные мутации болезней». ПНАС . 105 (11): 4323–432. Бибкод : 2008PNAS..105.4323F. дои : 10.1073/pnas.0701722105 . ПМК 2393821 . ПМИД  18326631. 
  15. ^ "Тесты хи-квадрат" (PDF) . Архивировано из оригинала (PDF) 29 июня 2018 года . Проверено 29 июня 2018 г.

дальнейшее чтение