В статистике двухфакторный дисперсионный анализ ( ANOVA ) является расширением однофакторного ANOVA , который изучает влияние двух различных категориальных независимых переменных на одну непрерывную зависимую переменную . Двухфакторный ANOVA направлен не только на оценку основного эффекта каждой независимой переменной, но и на то, есть ли между ними какое-либо взаимодействие .
В 1925 году Рональд Фишер упоминает двухфакторный ANOVA в своей знаменитой книге «Статистические методы для научных работников» (главы 7 и 8). В 1934 году Фрэнк Йейтс опубликовал процедуры для несбалансированного случая. [1] С тех пор была создана обширная литература. Тема была рассмотрена в 1993 году Ясунори Фудзикоши. [2] В 2005 году Эндрю Гельман предложил другой подход ANOVA, рассматриваемый как многоуровневая модель . [3]
Давайте представим набор данных , для которого зависимая переменная может находиться под влиянием двух факторов , которые являются потенциальными источниками вариации. Первый фактор имеет уровни ( ) , а второй имеет уровни ( ) . Каждая комбинация определяет обработку , для общего количества обработок. Мы представляем число повторов для обработки как , и пусть будет индексом повтора в этой обработке ( ) .
По этим данным можно построить таблицу сопряженности , где и , а общее количество повторений равно .
Экспериментальный план сбалансирован , если каждое лечение имеет одинаковое количество повторений, . В таком случае план также называется ортогональным , что позволяет полностью различать эффекты обоих факторов. Следовательно, мы можем записать , и .
При наблюдении вариации среди всех точек данных, например, с помощью гистограммы , « вероятность может быть использована для описания такой вариации». [4] Давайте, следовательно, обозначим случайную величину , наблюдаемое значение которой является -й мерой для обработки . Двухфакторный ANOVA моделирует все эти переменные как изменяющиеся независимо и нормально вокруг среднего значения, , с постоянной дисперсией, ( гомоскедастичность ):
.
В частности, среднее значение переменной отклика моделируется как линейная комбинация объясняющих переменных:
,
где — общее среднее, — аддитивный главный эффект уровня от первого фактора ( i -я строка в таблице сопряженности), — аддитивный главный эффект уровня от второго фактора ( j -й столбец в таблице сопряженности) и — неаддитивный эффект взаимодействия обработки для образцов от обоих факторов (ячейка в строке i и столбце j в таблице сопряженности).
Другой эквивалентный способ описания двухфакторного ANOVA — это упоминание того, что помимо вариации, объясняемой факторами, остается некоторый статистический шум . Это количество необъяснимой вариации обрабатывается путем введения одной случайной величины на точку данных, называемой ошибкой . Эти случайные величины рассматриваются как отклонения от средних значений и считаются независимыми и нормально распределенными:
.
Согласно Гельману и Хиллу , предположения дисперсионного анализа и, в более общем плане, общей линейной модели , следующие (в порядке убывания важности): [5]
Для обеспечения идентифицируемости параметров можно добавить следующие ограничения «суммы с нулем»:
В классическом подходе проверка нулевых гипотез (о том, что факторы не оказывают никакого влияния) достигается посредством их значимости , что требует вычисления сумм квадратов .
Проверка значимости члена взаимодействия может быть затруднена из-за потенциально большого числа степеней свободы . [6]
В следующем гипотетическом примере показана урожайность 15 растений, подвергавшихся воздействию двух различных условий окружающей среды и трех различных удобрений.
Рассчитывается пять сумм квадратов:
Наконец, можно рассчитать суммы квадратов отклонений, необходимые для дисперсионного анализа .