stringtranslate.com

Двусторонний дисперсионный анализ

В статистике двухфакторный дисперсионный анализ ( ANOVA ) является расширением однофакторного ANOVA , который изучает влияние двух различных категориальных независимых переменных на одну непрерывную зависимую переменную . Двухфакторный ANOVA направлен не только на оценку основного эффекта каждой независимой переменной, но и на то, есть ли между ними какое-либо взаимодействие .

История

В 1925 году Рональд Фишер упоминает двухфакторный ANOVA в своей знаменитой книге «Статистические методы для научных работников» (главы 7 и 8). В 1934 году Фрэнк Йейтс опубликовал процедуры для несбалансированного случая. [1] С тех пор была создана обширная литература. Тема была рассмотрена в 1993 году Ясунори Фудзикоши. [2] В 2005 году Эндрю Гельман предложил другой подход ANOVA, рассматриваемый как многоуровневая модель . [3]

Набор данных

Давайте представим набор данных , для которого зависимая переменная может находиться под влиянием двух факторов , которые являются потенциальными источниками вариации. Первый фактор имеет уровни ( ) , а второй имеет уровни ( ) . Каждая комбинация определяет обработку , для общего количества обработок. Мы представляем число повторов для обработки как , и пусть будет индексом повтора в этой обработке ( ) .

По этим данным можно построить таблицу сопряженности , где и , а общее количество повторений равно .

Экспериментальный план сбалансирован , если каждое лечение имеет одинаковое количество повторений, . В таком случае план также называется ортогональным , что позволяет полностью различать эффекты обоих факторов. Следовательно, мы можем записать , и .

Модель

При наблюдении вариации среди всех точек данных, например, с помощью гистограммы , « вероятность может быть использована для описания такой вариации». [4] Давайте, следовательно, обозначим случайную величину , наблюдаемое значение которой является -й мерой для обработки . Двухфакторный ANOVA моделирует все эти переменные как изменяющиеся независимо и нормально вокруг среднего значения, , с постоянной дисперсией, ( гомоскедастичность ):

.

В частности, среднее значение переменной отклика моделируется как линейная комбинация объясняющих переменных:

,

где — общее среднее, — аддитивный главный эффект уровня от первого фактора ( i -я строка в таблице сопряженности), — аддитивный главный эффект уровня от второго фактора ( j -й столбец в таблице сопряженности) и — неаддитивный эффект взаимодействия обработки для образцов от обоих факторов (ячейка в строке i и столбце j в таблице сопряженности).

Другой эквивалентный способ описания двухфакторного ANOVA — это упоминание того, что помимо вариации, объясняемой факторами, остается некоторый статистический шум . Это количество необъяснимой вариации обрабатывается путем введения одной случайной величины на точку данных, называемой ошибкой . Эти случайные величины рассматриваются как отклонения от средних значений и считаются независимыми и нормально распределенными:

.

Предположения

Согласно Гельману и Хиллу , предположения дисперсионного анализа и, в более общем плане, общей линейной модели , следующие (в порядке убывания важности): [5]

  1. точки данных имеют отношение к исследуемому научному вопросу;
  2. среднее значение переменной отклика аддитивно (если не через член взаимодействия) и линейно зависит от факторов;
  3. ошибки независимы;
  4. ошибки имеют одинаковую дисперсию;
  5. Ошибки распределены нормально.

Оценка параметров

Для обеспечения идентифицируемости параметров можно добавить следующие ограничения «суммы с нулем»:

Проверка гипотез

В классическом подходе проверка нулевых гипотез (о том, что факторы не оказывают никакого влияния) достигается посредством их значимости , что требует вычисления сумм квадратов .

Проверка значимости члена взаимодействия может быть затруднена из-за потенциально большого числа степеней свободы . [6]

Пример

В следующем гипотетическом примере показана урожайность 15 растений, подвергавшихся воздействию двух различных условий окружающей среды и трех различных удобрений.

Рассчитывается пять сумм квадратов:

Наконец, можно рассчитать суммы квадратов отклонений, необходимые для дисперсионного анализа .

Смотрите также

Примечания

  1. ^ Йейтс, Фрэнк (март 1934 г.). «Анализ множественных классификаций с неравными числами в разных классах». Журнал Американской статистической ассоциации . 29 (185): 51–66. doi :10.1080/01621459.1934.10502686. JSTOR  2278459.
  2. ^ Фудзикоши, Ясунори (1993). «Двухфакторные модели ANOVA с несбалансированными данными». Дискретная математика . 116 (1): 315–334. doi : 10.1016/0012-365X(93)90410-U .
  3. ^ Гельман, Эндрю (февраль 2005 г.). «Дисперсионный анализ? почему он важнее, чем когда-либо». Анналы статистики . 33 (1): 1–53. arXiv : math/0504499 . doi :10.1214/009053604000001048. S2CID  125025956.
  4. ^ Касс, Роберт Э. (1 февраля 2011 г.). «Статистический вывод: общая картина». Статистическая наука . 26 (1): 1–9. arXiv : 1106.2895 . doi : 10.1214/10-sts337. PMC 3153074. PMID  21841892. 
  5. ^ Гельман, Эндрю; Хилл, Дженнифер (18 декабря 2006 г.). Анализ данных с использованием регрессии и многоуровневых/иерархических моделей. Cambridge University Press . стр. 45–46. ISBN 978-0521867061.
  6. ^ Yi-An Ko; et al. (сентябрь 2013 г.). «Новые тесты отношения правдоподобия для скрининга взаимодействий ген-ген и ген-окружающая среда с несбалансированными данными повторных измерений». Genetic Epidemiology . 37 (6): 581–591. doi :10.1002/gepi.21744. PMC 4009698 . PMID  23798480. 

Ссылки