stringtranslate.com

F-тест

PDF-файл f-теста с d1 и d2 = 10, при уровне значимости 0,05. (Область, заштрихованная красным, указывает на критическую область)

F - тест — это любой статистический тест , используемый для сравнения дисперсий двух выборок или отношения дисперсий между несколькими выборками. Тестовая статистика , случайная величина F, используется для определения того, имеют ли тестируемые данные F -распределение при истинной нулевой гипотезе и истинных обычных предположениях об ошибке (ε). [1] Чаще всего используется при сравнении статистических моделей , подогнанных к набору данных , чтобы определить модель, которая лучше всего соответствует совокупности, из которой были отобраны данные. Точные « F -тесты» в основном возникают, когда модели аппроксимируются данными с использованием метода наименьших квадратов . Название было придумано Джорджем Снедекором в честь Рональда Фишера . Первоначально Фишер разработал эту статистику как коэффициент дисперсии в 1920-х годах. [2]

Общие примеры

Распространенные примеры использования F -тестов включают изучение следующих случаев

F -критерий равенства двух дисперсий

F - тест чувствителен к отклонениям от нормальности . [3] [4] В дисперсионном анализе (ANOVA) альтернативные тесты включают тест Левена , тест Бартлетта и тест Брауна-Форсайта . Однако, когда любой из этих тестов проводится для проверки основного предположения о гомоскедастичности ( т.е. однородности дисперсии) в качестве предварительного шага к проверке средних эффектов, происходит увеличение экспериментальной частоты ошибок типа I. [5]

Формула и расчет

Большинство F -тестов возникают при рассмотрении разложения изменчивости набора данных по суммам квадратов . Статистика теста в F -тесте представляет собой соотношение двух масштабированных сумм квадратов, отражающих разные источники изменчивости. Эти суммы квадратов построены таким образом, что статистика имеет тенденцию к увеличению, когда нулевая гипотеза неверна. Чтобы статистика соответствовала F -распределению при нулевой гипотезе, суммы квадратов должны быть статистически независимыми , и каждая из них должна соответствовать масштабированному χ²-распределению . Последнее условие гарантируется, если значения данных независимы и нормально распределены с общей дисперсией .

Односторонний дисперсионный анализ

Формула для статистики одностороннего F -теста ANOVA :

или

«Объяснимая дисперсия» или «межгрупповая изменчивость»

где обозначает выборочное среднее значение в i -й группе, представляет собой количество наблюдений в i -й группе, обозначает общее среднее значение данных и обозначает количество групп.

«Необъяснимая дисперсия» или «внутригрупповая изменчивость»

где – j - е наблюдение в i из групп, а – общий размер выборки. Эта F -статистика следует F -распределению со степенями свободы и при нулевой гипотезе. Статистика будет большой, если межгрупповая изменчивость велика по сравнению с внутригрупповой изменчивостью, что маловероятно, если генеральные средние группы имеют одинаковое значение.

Таблица F: Уровень 5% Критические значения, содержащие степени свободы как для знаменателя, так и для числителя в диапазоне от 1 до 20.

Результат теста F можно определить путем сравнения расчетного значения F и критического значения F с определенным уровнем значимости (например, 5%). Таблица F служит справочным руководством, содержащим критические значения F для распределения F-статистики при предположении истинной нулевой гипотезы. Он разработан, чтобы помочь определить порог, за которым ожидается, что статистика F превысит контролируемый процент времени (например, 5%), когда нулевая гипотеза точна. Чтобы найти критическое значение F в таблице F, необходимо использовать соответствующие степени свободы. Это предполагает определение соответствующей строки и столбца в таблице F, которые соответствуют проверяемому уровню значимости (например, 5%). [6]

Как использовать критические значения F:

Если статистика F < критического значения F

Если статистика F > критического значения F

Обратите внимание, что при наличии только двух групп для одностороннего F -критерия ANOVA, где tстатистика Стьюдента .

Преимущества

Недостатки

Проблемы множественного сравнения ANOVA

F - тест в однофакторном дисперсионном анализе ( ANOVA ) используется для оценки того, отличаются ли друг от друга ожидаемые значения количественной переменной в пределах нескольких заранее определенных групп. Например, предположим, что в медицинском исследовании сравниваются четыре метода лечения. F -критерий ANOVA можно использовать для оценки того, превосходит или уступает какой-либо из методов лечения в среднем другие по сравнению с нулевой гипотезой о том, что все четыре метода лечения дают одинаковый средний ответ. Это пример «омнибусного» теста, означающего, что один тест выполняется для обнаружения любого из нескольких возможных различий. В качестве альтернативы мы могли бы провести попарные тесты среди методов лечения (например, в примере медицинского исследования с четырьмя методами лечения мы могли бы провести шесть тестов среди пар методов лечения). Преимущество F -теста ANOVA заключается в том, что нам не нужно заранее указывать, какие методы лечения следует сравнивать, и нам не нужно делать поправку для проведения множественных сравнений . Недостатком F -теста ANOVA является то, что если мы отвергнем нулевую гипотезу , мы не знаем, какие методы лечения, можно сказать, значительно отличаются от других, а также, если F -тест выполняется на уровне α, мы не можем утверждать, что что пара лечения с наибольшей средней разницей значительно отличается на уровне α.

Проблемы регрессии

Рассмотрим две модели, 1 и 2, где модель 1 «вложена» в модель 2. Модель 1 — это ограниченная модель, а модель 2 — неограниченная. То есть модель 1 имеет параметры p 1 , а модель 2 имеет параметры p 2 , где p 1  <  p 2 , и для любого выбора параметров в модели 1 одна и та же кривая регрессии может быть получена путем некоторого выбора параметров модели. 2.

Одним из распространенных контекстов в этом отношении является принятие решения о том, соответствует ли модель данным значительно лучше, чем это делает наивная модель, в которой единственным пояснительным термином является термин-перехват, так что все прогнозируемые значения для зависимой переменной устанавливаются равными значению этой переменной. выборочное среднее. Наивная модель является ограниченной моделью, поскольку коэффициенты всех потенциальных объясняющих переменных ограничены равными нулю.

Другим распространенным контекстом является принятие решения о наличии структурного разрыва в данных: здесь ограниченная модель использует все данные в одной регрессии, тогда как неограниченная модель использует отдельные регрессии для двух разных подмножеств данных. Такое использование F-теста известно как тест Чоу .

Модель с большим количеством параметров всегда сможет соответствовать данным как минимум так же, как и модель с меньшим количеством параметров. Таким образом, обычно модель 2 обеспечивает лучшее соответствие данных (т.е. меньшую ошибку), чем модель 1. Но часто хочется определить, дает ли модель 2 значительно лучшее соответствие данным. Одним из подходов к этой проблеме является использование F -теста.

Если есть n точек данных для оценки параметров обеих моделей, то можно вычислить статистику F , определяемую формулой

где RSS iостаточная сумма квадратов модели i . Если модель регрессии была рассчитана с весами, замените RSS i на χ 2 , взвешенную сумму квадратов остатков. При нулевой гипотезе, что модель 2 не обеспечивает существенно лучшего соответствия, чем модель 1, F будет иметь распределение F со степенями свободы ( p 2 - p 1n - p 2 ) . Нулевая гипотеза отклоняется, если F , рассчитанное на основе данных, превышает критическое значение F -распределения для некоторой желаемой вероятности ложного отклонения (например, 0,05). Поскольку F является монотонной функцией статистики отношения правдоподобия, F -тест является тестом отношения правдоподобия .

Смотрите также

Рекомендации

  1. ^ Аб Бергер, Пол Д.; Маурер, Роберт Э.; Челли, Джована Б. (2018). Экспериментальная дизайн. Чам: Международное издательство Springer. п. 108. дои : 10.1007/978-3-319-64583-4. ISBN 978-3-319-64582-7.
  2. ^ Ломакс, Ричард Г. (2007). Статистические концепции: второй курс . п. 10. ISBN 978-0-8058-5850-1.
  3. ^ Коробка, GEP (1953). «Ненормальность и тесты на дисперсии». Биометрика . 40 (3/4): 318–335. дои : 10.1093/biomet/40.3-4.318. JSTOR  2333350.
  4. ^ Марковски, Кэрол А; Марковски, Эдвард П. (1990). «Условия эффективности предварительного дисперсионного теста». Американский статистик . 44 (4): 322–326. дои : 10.2307/2684360. JSTOR  2684360.
  5. ^ Савиловский, С. (2002). «Ферма, Шуберт, Эйнштейн и Беренс-Фишер: вероятная разница между двумя средними значениями, когда σ12 ≠ σ22». Журнал современных прикладных статистических методов . 1 (2): 461–472. дои : 10.22237/jmasm/1036109940 . Архивировано из оригинала 3 апреля 2015 г. Проверено 30 марта 2015 г.
  6. ^ Сигел, Эндрю Ф. (01 января 2016 г.), Сигел, Эндрю Ф. (редактор), «Глава 15 - ANOVA: тестирование различий между многими выборками и многое другое», Практическая бизнес-статистика (седьмое издание) , Academic Press, стр. 469–492, doi : 10.1016/b978-0-12-804250-2.00015-8, ISBN. 978-0-12-804250-2, получено 10 декабря 2023 г.

дальнейшее чтение

Внешние ссылки