В статистике односторонний дисперсионный анализ (или однофакторный дисперсионный анализ ) — это метод сравнения того, существенно ли различаются средние значения двух или более выборок (с использованием распределения F ). Этот метод дисперсионного анализа требует числовой переменной ответа «Y» и одной объясняющей переменной «X», следовательно, «однонаправленного». [1]
ANOVA проверяет нулевую гипотезу , которая утверждает, что выборки во всех группах взяты из популяций с одинаковыми средними значениями. Для этого делаются две оценки дисперсии генеральной совокупности. Эти оценки основаны на различных предположениях (см. ниже). ANOVA дает F-статистику — отношение дисперсии, рассчитанной между средними значениями, к дисперсии внутри выборок. Если групповые средние значения взяты из совокупностей с одинаковыми средними значениями, дисперсия между групповыми средними должна быть ниже, чем дисперсия выборок, в соответствии с центральной предельной теоремой . Таким образом, более высокий коэффициент означает, что выборки были взяты из популяций с разными средними значениями. [1]
Однако обычно однофакторный дисперсионный анализ используется для проверки различий как минимум между тремя группами, поскольку случай двух групп можно охватить с помощью t-критерия (Gosset, 1908). Когда есть только два средства для сравнения, t-критерий и F-тест эквивалентны; связь между ANOVA и t определяется выражением F = t 2 . Расширением однофакторного дисперсионного анализа является двусторонний дисперсионный анализ , который исследует влияние двух разных категориальных независимых переменных на одну зависимую переменную.
Результаты однофакторного дисперсионного анализа можно считать надежными, если выполняются следующие допущения:
Если данные порядковые , следует использовать непараметрическую альтернативу этому тесту, например, однофакторный дисперсионный анализ Крускала-Уоллиса . Если известно, что дисперсии не равны, можно использовать обобщение t-критерия Уэлча для двух выборок. [2]
ANOVA — относительно надежная процедура в отношении нарушений предположения о нормальности. [3]
Односторонний дисперсионный анализ можно обобщить на факторный и многомерный макеты, а также на ковариационный анализ. [ нужны разъяснения ]
В популярной литературе часто утверждается, что ни один из этих F -тестов не является надежным , когда имеются серьезные нарушения предположения о том, что каждая совокупность следует нормальному распределению , особенно для небольших уровней альфа и несбалансированных макетов. [4] Кроме того, также утверждается, что если основное предположение о гомоскедастичности нарушается, свойства ошибок типа I ухудшаются гораздо сильнее. [5]
Однако это заблуждение, основанное на работах, проведенных в 1950-х годах и ранее. Первое всестороннее исследование этой проблемы с помощью моделирования Монте-Карло было проведено Дональдсоном (1966). [6] Он показал, что при обычных отклонениях (положительная асимметрия, неравные дисперсии) « F -тест консервативен», и поэтому менее вероятно, чем должно быть, обнаружить, что переменная значима. Однако по мере увеличения размера выборки или количества ячеек «кривые мощности, похоже, сходятся к кривым, основанным на нормальном распределении». Тику (1971) обнаружил, что «степень ненормальной теории F отличается от мощности нормальной теории поправочным членом, который резко уменьшается с увеличением размера выборки». [7] Проблема ненормальности, особенно в больших выборках, гораздо менее серьезна, чем можно предположить в популярных статьях.
В настоящее время считается, что «исследования Монте-Карло широко использовались вместе с тестами, основанными на нормальном распределении, чтобы определить, насколько они чувствительны к нарушениям предположения о нормальном распределении анализируемых переменных в популяции. Общий вывод из этих исследований состоит в том, что последствия таких нарушений менее серьезны, чем считалось ранее. Хотя эти выводы не должны полностью отговаривать кого-либо от беспокойства по поводу предположения о нормальности, они увеличили общую популярность статистических тестов, зависящих от распределения, во всех областях исследований». [8]
Чтобы узнать о непараметрических альтернативах факториальной схемы, см. Савиловский. [9] Более подробно см. ANOVA по рангам .
Нормальная линейная модель описывает группы лечения с распределениями вероятностей, которые представляют собой одинаковые колоколообразные (нормальные) кривые с разными средними значениями. Таким образом, для подбора моделей требуются только средние значения каждой группы лечения и расчет дисперсии (используется средняя дисперсия внутри групп лечения). Расчеты средних значений и дисперсии выполняются в рамках проверки гипотезы.
Обычно используемые нормальные линейные модели для полностью рандомизированного эксперимента: [10]
или
где
Индекс по экспериментальным единицам можно интерпретировать несколькими способами. В некоторых экспериментах одна и та же экспериментальная единица подвергается ряду обработок; может указывать на конкретную единицу. В других странах каждая лечебная группа имеет отдельный набор экспериментальных единиц; может быть просто индексом -го списка.
Одной из форм организации экспериментальных наблюдений являются группы в столбцах:
Сравнение модели с сводками: и . Общее среднее и большая дисперсия вычисляются на основе общих сумм, а не на основе групповых средних и дисперсий.
Учитывая сводную статистику, расчеты проверки гипотез представлены в табличной форме. Хотя для пояснительного значения показаны два столбца SS, для отображения результатов требуется только один столбец.
— оценка дисперсии, соответствующая модели.
Основной анализ ANOVA состоит из серии вычислений. Данные собираются в табличной форме. Затем
Если эксперимент сбалансирован, все члены равны, поэтому уравнения SS упрощаются.
В более сложном эксперименте, где экспериментальные единицы (или воздействие окружающей среды) неоднородны, в анализе также используется статистика строк. Модель включает члены, зависящие от . Определение дополнительных членов уменьшает количество доступных степеней свободы.
Рассмотрим эксперимент по изучению влияния трех разных уровней фактора на реакцию (например, трех уровней удобрения на рост растений). Если бы у нас было по 6 наблюдений для каждого уровня, мы могли бы записать результат эксперимента в такую таблицу, где a 1 , a 2 и a 3 — три уровня изучаемого фактора.
Нулевая гипотеза, обозначенная H 0 , для общего F -теста для этого эксперимента будет заключаться в том, что все три уровня фактора дают в среднем один и тот же ответ. Чтобы рассчитать коэффициент F :
Шаг 1. Рассчитайте среднее значение внутри каждой группы:
Шаг 2: Рассчитайте общее среднее значение:
Шаг 3: Рассчитайте «межгрупповую» сумму квадратов разностей:
где n — количество значений данных в группе.
Межгрупповые степени свободы на единицу меньше числа групп.
поэтому среднеквадратичное значение между группами равно
Шаг 4: Рассчитайте сумму квадратов «внутри группы». Начните с центрирования данных в каждой группе.
Сумма квадратов внутри группы представляет собой сумму квадратов всех 18 значений в этой таблице.
Внутригрупповые степени свободы
Таким образом, среднеквадратичное значение внутри группы равно
Шаг 5: F - коэффициент
Критическое значение — это число, которое должна превысить статистика теста, чтобы тест был отклонен. В этом случае F крит (2,15) = 3,68 при α = 0,05. Поскольку F =9,3 > 3,68, результаты значимы на уровне значимости 5%. Никто не принял бы нулевую гипотезу, заключив, что существуют убедительные доказательства того, что ожидаемые значения в трех группах различаются. Значение p для этого теста составляет 0,002.
После выполнения F -теста обычно проводится некоторый «апостериорный» анализ групповых средних. При этом средние две первых группы отличаются на 4 единицы, средние первой и третьей группы отличаются на 5 единиц, а средние второй и третьей группы отличаются всего на 1 единицу. Стандартная ошибка каждого из этих различий составляет . Таким образом, первая группа сильно отличается от других групп, поскольку разница средних значений более чем в 3 раза превышает стандартную ошибку, поэтому мы можем быть вполне уверены, что среднее значение совокупности первой группы отличается от средних значений совокупности других групп. Однако нет никаких доказательств того, что вторая и третья группы имеют разные генеральные средние значения друг от друга, поскольку их средняя разница в одну единицу сравнима со стандартной ошибкой.
Примечание. F ( x , y ) обозначает кумулятивную функцию распределения F -распределения со степенями свободы x в числителе и степенями свободы y в знаменателе.