В статистике однофакторный дисперсионный анализ (или однофакторный ANOVA ) — это метод сравнения того, являются ли средние значения двух или более выборок существенно разными (с использованием F -распределения ). Этот метод дисперсионного анализа требует числовой переменной отклика «Y» и одной объясняющей переменной «X», поэтому он «однофакторный». [1]
ANOVA проверяет нулевую гипотезу , которая гласит, что выборки во всех группах взяты из популяций с одинаковыми средними значениями. Для этого делаются две оценки дисперсии популяции. Эти оценки основаны на различных предположениях (см. ниже). ANOVA выдает F-статистику, отношение дисперсии, рассчитанной среди средних значений, к дисперсии внутри выборок. Если групповые средние взяты из популяций с одинаковыми средними значениями, то дисперсия между групповыми средними должна быть ниже дисперсии выборок, следуя центральной предельной теореме . Более высокое отношение, следовательно, подразумевает, что выборки были взяты из популяций с разными средними значениями. [1]
Однако обычно однофакторный дисперсионный анализ используется для проверки различий между по крайней мере тремя группами, поскольку случай с двумя группами может быть охвачен t-тестом (Госсет, 1908). Когда есть только два средних значения для сравнения, t-тест и F-тест эквивалентны; связь между ANOVA и t задается как F = t 2 . Расширением однофакторного дисперсионного анализа является двухфакторный дисперсионный анализ , который исследует влияние двух различных категориальных независимых переменных на одну зависимую переменную.
Результаты однофакторного дисперсионного анализа можно считать надежными, если выполняются следующие предположения:
Если данные порядковые , следует использовать непараметрическую альтернативу этому тесту, например, однофакторный дисперсионный анализ Краскела–Уоллиса . Если известно, что дисперсии не равны, можно использовать обобщение t-теста Уэлча для двух выборок. [2]
ANOVA — относительно надежная процедура в отношении нарушений предположения о нормальности. [3]
Однофакторный дисперсионный анализ можно обобщить для факторного и многомерного анализа, а также для анализа ковариации. [ необходимо разъяснение ]
В популярной литературе часто утверждается, что ни один из этих F -тестов не является надежным , когда есть серьезные нарушения предположения о том, что каждая популяция следует нормальному распределению , особенно для малых уровней альфа и несбалансированных макетов. [4] Кроме того, также утверждается, что если базовое предположение о гомоскедастичности нарушается, свойства ошибки I типа ухудшаются гораздо сильнее. [5]
Однако это заблуждение, основанное на работах, выполненных в 1950-х годах и ранее. Первое всестороннее исследование проблемы с помощью моделирования Монте-Карло было проведено Дональдсоном (1966). [6] Он показал, что при обычных отклонениях (положительный перекос, неравные дисперсии) « F -тест консервативен», и поэтому вероятность того, что переменная значима, меньше, чем следовало бы. Однако по мере увеличения размера выборки или числа ячеек «кривые мощности, по-видимому, сходятся к кривым, основанным на нормальном распределении». Тику (1971) обнаружил, что «ненормальная теоретическая мощность F отличается от нормальной теоретической мощности на поправочный член, который резко уменьшается с увеличением размера выборки». [7] Проблема ненормальности, особенно в больших выборках, гораздо менее серьезна, чем предполагают популярные статьи.
Текущая точка зрения заключается в том, что «исследования Монте-Карло широко использовались с тестами на основе нормального распределения для определения их чувствительности к нарушениям предположения о нормальном распределении анализируемых переменных в популяции. Общий вывод из этих исследований заключается в том, что последствия таких нарушений менее серьезны, чем считалось ранее. Хотя эти выводы не должны полностью отговаривать кого-либо от беспокойства о предположении о нормальности, они увеличили общую популярность статистических тестов, зависящих от распределения, во всех областях исследований». [8]
Для непараметрических альтернатив в факторной компоновке см. Sawilowsky. [9] Для более подробного обсуждения см. ANOVA по рангам .
Нормальная линейная модель описывает группы лечения с вероятностными распределениями, которые являются идентично колоколообразными (нормальными) кривыми с разными средними. Таким образом, для подгонки моделей требуются только средние значения каждой группы лечения и расчет дисперсии (используется средняя дисперсия в группах лечения). Расчеты средних значений и дисперсии выполняются как часть проверки гипотезы.
Обычно используемые нормальные линейные модели для полностью рандомизированного эксперимента: [10]
или
где
Индекс экспериментальных единиц может быть интерпретирован несколькими способами. В некоторых экспериментах одна и та же экспериментальная единица подвергается ряду обработок; может указывать на определенную единицу. В других случаях каждая группа обработки имеет отдельный набор экспериментальных единиц; может быть просто индексом в -ом списке.
Одной из форм организации экспериментальных наблюдений является группировка по столбцам:
Сравнение модели с резюме: и . Общее среднее и общая дисперсия вычисляются из общих сумм, а не из групповых средних и дисперсий.
Учитывая сводную статистику, расчеты проверки гипотезы показаны в табличной форме. В то время как два столбца SS показаны для их пояснительной ценности, для отображения результатов требуется только один столбец.
— оценка дисперсии, соответствующая модели.
Основной анализ ANOVA состоит из серии расчетов. Данные собираются в табличной форме. Затем
Если эксперимент сбалансирован, все члены равны, поэтому уравнения СС упрощаются.
В более сложном эксперименте, где экспериментальные единицы (или эффекты окружающей среды) не являются однородными, в анализе также используется статистика строк. Модель включает члены, зависящие от . Определение дополнительных членов уменьшает количество доступных степеней свободы.
Рассмотрим эксперимент по изучению влияния трех различных уровней фактора на реакцию (например, трех уровней удобрения на рост растений). Если бы у нас было 6 наблюдений для каждого уровня, мы могли бы записать результат эксперимента в таблице, например, где a 1 , a 2 и a 3 — это три уровня изучаемого фактора.
Нулевая гипотеза, обозначенная H 0 , для общего F -теста для этого эксперимента будет заключаться в том, что все три уровня фактора в среднем дают один и тот же ответ. Для расчета F -коэффициента:
Шаг 1: Рассчитайте среднее значение в каждой группе:
Шаг 2: Рассчитайте общее среднее значение:
Шаг 3: Рассчитайте «межгрупповую» сумму квадратов разностей:
где n — количество значений данных в группе.
Межгрупповое число степеней свободы на единицу меньше числа групп.
поэтому среднеквадратичное значение между группами равно
Шаг 4: Рассчитайте "внутригрупповую" сумму квадратов. Начните с центрирования данных в каждой группе
Внутригрупповая сумма квадратов — это сумма квадратов всех 18 значений в этой таблице.
Внутригрупповые степени свободы:
Таким образом, внутригрупповое среднеквадратичное значение равно
Шаг 5: Коэффициент F равен
Критическое значение — это число, которое должна превысить статистика теста, чтобы отвергнуть тест. В этом случае F крит (2,15) = 3,68 при α = 0,05. Поскольку F =9,3 > 3,68, результаты значимы на уровне значимости 5%. Можно было бы не принимать нулевую гипотезу, делая вывод о том, что имеются веские доказательства того, что ожидаемые значения в трех группах различаются. Значение p для этого теста равно 0,002.
После выполнения F -теста обычно проводят некоторый "post-hoc" анализ средних значений группы. В этом случае средние значения первых двух групп различаются на 4 единицы, средние значения первой и третьей групп различаются на 5 единиц, а средние значения второй и третьей групп различаются всего на 1 единицу. Стандартная ошибка каждого из этих различий составляет . Таким образом, первая группа сильно отличается от других групп, так как средняя разница более чем в 3 раза превышает стандартную ошибку, поэтому мы можем быть уверены в том, что среднее значение совокупности первой группы отличается от средних значений совокупности других групп. Однако нет никаких доказательств того, что средние значения совокупности второй и третьей групп различаются друг от друга, так как их средняя разница в одну единицу сопоставима со стандартной ошибкой.
Примечание. F ( x , y ) обозначает кумулятивную функцию распределения F -распределения с x степенями свободы в числителе и y степенями свободы в знаменателе.