Односторонний дисперсионный анализ

В статистике односторонний дисперсионный анализ (или однофакторный дисперсионный анализ ) — это метод сравнения того, существенно ли различаются средние значения двух или более выборок (с использованием распределения F ). Этот метод дисперсионного анализа требует числовой переменной ответа «Y» и одной объясняющей переменной «X», следовательно, «однонаправленного». ^[1]

ANOVA проверяет нулевую гипотезу , которая утверждает, что выборки во всех группах взяты из популяций с одинаковыми средними значениями. Для этого делаются две оценки дисперсии генеральной совокупности. Эти оценки основаны на различных предположениях (см. ниже). ANOVA дает F-статистику — отношение дисперсии, рассчитанной между средними значениями, к дисперсии внутри выборок. Если групповые средние значения взяты из совокупностей с одинаковыми средними значениями, дисперсия между групповыми средними должна быть ниже, чем дисперсия выборок, в соответствии с центральной предельной теоремой . Таким образом, более высокий коэффициент означает, что выборки были взяты из популяций с разными средними значениями. ^[1]

Однако обычно однофакторный дисперсионный анализ используется для проверки различий как минимум между тремя группами, поскольку случай двух групп можно охватить с помощью t-критерия (Gosset, 1908). Когда есть только два средства для сравнения, t-критерий и F-тест эквивалентны; связь между ANOVA и t определяется выражением F = t ² . Расширением однофакторного дисперсионного анализа является двусторонний дисперсионный анализ , который исследует влияние двух разных категориальных независимых переменных на одну зависимую переменную.

Предположения

Результаты однофакторного дисперсионного анализа можно считать надежными, если выполняются следующие допущения:

Остатки переменных отклика имеют нормальное распределение (или приблизительно нормальное распределение).
Дисперсии популяций равны.
Ответы для данной группы являются независимыми и одинаково распределенными нормальными случайными величинами (а не простой случайной выборкой (SRS)).

Если данные порядковые , следует использовать непараметрическую альтернативу этому тесту, например, однофакторный дисперсионный анализ Крускала-Уоллиса . Если известно, что дисперсии не равны, можно использовать обобщение t-критерия Уэлча для двух выборок. ^[2]

Отклонения от нормального состояния населения

ANOVA — относительно надежная процедура в отношении нарушений предположения о нормальности. ^[3]

Односторонний дисперсионный анализ можно обобщить на факторный и многомерный макеты, а также на ковариационный анализ. ^{[ нужны разъяснения ]}

В популярной литературе часто утверждается, что ни один из этих F -тестов не является надежным , когда имеются серьезные нарушения предположения о том, что каждая совокупность следует нормальному распределению , особенно для небольших уровней альфа и несбалансированных макетов. ^[4] Кроме того, также утверждается, что если основное предположение о гомоскедастичности нарушается, свойства ошибок типа I ухудшаются гораздо сильнее. ^[5]

Однако это заблуждение, основанное на работах, проведенных в 1950-х годах и ранее. Первое всестороннее исследование этой проблемы с помощью моделирования Монте-Карло было проведено Дональдсоном (1966). ^[6] Он показал, что при обычных отклонениях (положительная асимметрия, неравные дисперсии) « F -тест консервативен», и поэтому менее вероятно, чем должно быть, обнаружить, что переменная значима. Однако по мере увеличения размера выборки или количества ячеек «кривые мощности, похоже, сходятся к кривым, основанным на нормальном распределении». Тику (1971) обнаружил, что «степень ненормальной теории F отличается от мощности нормальной теории поправочным членом, который резко уменьшается с увеличением размера выборки». ^[7] Проблема ненормальности, особенно в больших выборках, гораздо менее серьезна, чем можно предположить в популярных статьях.

В настоящее время считается, что «исследования Монте-Карло широко использовались вместе с тестами, основанными на нормальном распределении, чтобы определить, насколько они чувствительны к нарушениям предположения о нормальном распределении анализируемых переменных в популяции. Общий вывод из этих исследований состоит в том, что последствия таких нарушений менее серьезны, чем считалось ранее. Хотя эти выводы не должны полностью отговаривать кого-либо от беспокойства по поводу предположения о нормальности, они увеличили общую популярность статистических тестов, зависящих от распределения, во всех областях исследований». ^[8]

Чтобы узнать о непараметрических альтернативах факториальной схемы, см. Савиловский. ^[9] Более подробно см. ANOVA по рангам .

Случай фиксированных эффектов, полностью рандомизированный эксперимент, несбалансированные данные.

Модель

Нормальная линейная модель описывает группы лечения с распределениями вероятностей, которые представляют собой одинаковые колоколообразные (нормальные) кривые с разными средними значениями. Таким образом, для подбора моделей требуются только средние значения каждой группы лечения и расчет дисперсии (используется средняя дисперсия внутри групп лечения). Расчеты средних значений и дисперсии выполняются в рамках проверки гипотезы.

Обычно используемые нормальные линейные модели для полностью рандомизированного эксперимента: ^[10]

y_{i,j}=\mu _{j}+\varepsilon _{i,j}

(модель средств)

или

y_{i,j}=\mu +\tau _{j}+\varepsilon _{i,j}

(модель эффектов)

где

я = 1,\dotsc,I

это индекс экспериментальных единиц

j=1,\dotsc,J

это индекс по группам лечения

I_{j}

количество экспериментальных единиц в j-й группе лечения

I=\sum _{j}I_{j}

общее количество экспериментальных единиц

y_{i,j}

это наблюдения

\mu _{j}

среднее значение наблюдений для j-й группы лечения

\mu

это среднее значение наблюдений

\tau _{j}

— j-й эффект лечения, отклонение от общего среднего значения

\sum \tau _{j}=0

\mu _{j} = \mu +\tau _{j}

\varepsilon \thicksim N(0,\sigma ^{2})

, представляют собой нормально распределенные случайные ошибки с нулевым средним значением.

\varepsilon _ {i,j}

Индекс по экспериментальным единицам можно интерпретировать несколькими способами. В некоторых экспериментах одна и та же экспериментальная единица подвергается ряду обработок; может указывать на конкретную единицу. В других странах каждая лечебная группа имеет отдельный набор экспериментальных единиц; может быть просто индексом -го списка. $я$ $я$ $я$ $j$

Данные и статистические сводки данных

Одной из форм организации экспериментальных наблюдений являются группы в столбцах: $y_{ij}$

Сравнение модели с сводками: и . Общее среднее и большая дисперсия вычисляются на основе общих сумм, а не на основе групповых средних и дисперсий. $\mu =m$ $\mu _{j}=m_{j}$

Проверка гипотезы

Учитывая сводную статистику, расчеты проверки гипотез представлены в табличной форме. Хотя для пояснительного значения показаны два столбца SS, для отображения результатов требуется только один столбец.

$MS_{Ошибка}$ — оценка дисперсии, соответствующая модели. $\sigma ^{2}$

Сводка анализа

Основной анализ ANOVA состоит из серии вычислений. Данные собираются в табличной форме. Затем

Каждая группа лечения суммируется по количеству экспериментальных единиц, двум суммам, среднему значению и дисперсии. Сводные данные по группам лечения объединяются для получения итоговых значений количества единиц и сумм. Общее среднее значение и большая дисперсия вычисляются на основе больших сумм. В модели используются лечение и основные средства.
Три DF и SS рассчитываются на основе сводок. Затем рассчитываются MS, и соотношение определяет F.
Компьютер обычно определяет значение p по F, которое определяет, дают ли методы лечения существенно отличающиеся результаты. Если результат значителен, то модель условно имеет валидность.

Если эксперимент сбалансирован, все члены равны, поэтому уравнения SS упрощаются. $I_{j}$

В более сложном эксперименте, где экспериментальные единицы (или воздействие окружающей среды) неоднородны, в анализе также используется статистика строк. Модель включает члены, зависящие от . Определение дополнительных членов уменьшает количество доступных степеней свободы. $я$

Пример

Рассмотрим эксперимент по изучению влияния трех разных уровней фактора на реакцию (например, трех уровней удобрения на рост растений). Если бы у нас было по 6 наблюдений для каждого уровня, мы могли бы записать результат эксперимента в такую таблицу, где a ₁ , a ₂ и a ₃ — три уровня изучаемого фактора.

Нулевая гипотеза, обозначенная H ₀ , для общего F -теста для этого эксперимента будет заключаться в том, что все три уровня фактора дают в среднем один и тот же ответ. Чтобы рассчитать коэффициент F :

Шаг 1. Рассчитайте среднее значение внутри каждой группы:

{\begin{aligned}{\overline {Y}}_{1}&={\frac {1}{6}}\sum Y_{1i}={\frac {6+8+4+5 +3+4}{6}}=5\\{\overline {Y}}_{2}&={\frac {1}{6}}\sum Y_{2i}={\frac {8+12 +9+11+6+8}{6}}=9\\{\overline {Y}}_{3}&={\frac {1}{6}}\sum Y_{3i}={\frac {13+9+11+8+7+12}{6}}=10\end{выровнено}}

Шаг 2: Рассчитайте общее среднее значение:

{\overline {Y}}={\frac {\sum _{i}{\overline {Y}}_{i}}{a}}={\frac {{\overline {Y}}_{1}+{\overline {Y}}_{2}+{\overline {Y}}_{3}}{a}}={\frac {5+9+10}{3}}=8

где а — количество групп.

Шаг 3: Рассчитайте «межгрупповую» сумму квадратов разностей:

{\begin{aligned}S_{B}&=n({\overline {Y}}_{1}-{\overline {Y}})^{2}+n({\overline {Y}}_{2}-{\overline {Y}})^{2}+n({\overline {Y}}_{3}-{\overline {Y}})^{2}\\[8pt]&=6(5-8)^{2}+6(9-8)^{2}+6(10-8)^{2}=84\end{aligned}}

где n — количество значений данных в группе.

Межгрупповые степени свободы на единицу меньше числа групп.

f_{b}=3-1=2

поэтому среднеквадратичное значение между группами равно

MS_{B}=84/2=42

Шаг 4: Рассчитайте сумму квадратов «внутри группы». Начните с центрирования данных в каждой группе.

Сумма квадратов внутри группы представляет собой сумму квадратов всех 18 значений в этой таблице.

{\begin{aligned}S_{W}=&(1)^{2}+(3)^{2}+(-1)^{2}+(0)^{2}+(-2)^{2}+(-1)^{2}+\\&(-1)^{2}+(3)^{2}+(0)^{2}+(2)^{2}+(-3)^{2}+(-1)^{2}+\\&(3)^{2}+(-1)^{2}+(1)^{2}+(-2)^{2}+(-3)^{2}+(2)^{2}\\=&\ 1+9+1+0+4+1+1+9+0+4+9+1+9+1+1+4+9+4\\=&\ 68\\\end{aligned}}

Внутригрупповые степени свободы

f_{W}=a(n-1)=3(6-1)=15

Таким образом, среднеквадратичное значение внутри группы равно

MS_{W}=S_{W}/f_{W}=68/15\approx 4.5

Шаг 5: F - коэффициент

F={\frac {MS_{B}}{MS_{W}}}\approx 42/4.5\approx 9.3

Критическое значение — это число, которое должна превысить статистика теста, чтобы тест был отклонен. В этом случае F _крит (2,15) = 3,68 при α = 0,05. Поскольку F =9,3 > 3,68, результаты значимы на уровне значимости 5%. Никто не принял бы нулевую гипотезу, заключив, что существуют убедительные доказательства того, что ожидаемые значения в трех группах различаются. Значение p для этого теста составляет 0,002.

После выполнения F -теста обычно проводится некоторый «апостериорный» анализ групповых средних. При этом средние две первых группы отличаются на 4 единицы, средние первой и третьей группы отличаются на 5 единиц, а средние второй и третьей группы отличаются всего на 1 единицу. Стандартная ошибка каждого из этих различий составляет . Таким образом, первая группа сильно отличается от других групп, поскольку разница средних значений более чем в 3 раза превышает стандартную ошибку, поэтому мы можем быть вполне уверены, что среднее значение совокупности первой группы отличается от средних значений совокупности других групп. Однако нет никаких доказательств того, что вторая и третья группы имеют разные генеральные средние значения друг от друга, поскольку их средняя разница в одну единицу сравнима со стандартной ошибкой. ${\sqrt {4.5/6+4.5/6}}=1.2$

Примечание. F ( x , y ) обозначает кумулятивную функцию распределения F -распределения со степенями свободы x в числителе и степенями свободы y в знаменателе.

Смотрите также

Дисперсионный анализ
F-тест ( включает пример однофакторного дисперсионного анализа )
Смешанная модель
Многомерный дисперсионный анализ (MANOVA)
Повторные измерения ANOVA
Двусторонний дисперсионный анализ
t-критерий Уэлча

Примечания

^ Аб Хауэлл, Дэвид (2002). Статистические методы психологии. Даксбери. стр. 324–325. ISBN 0-534-37770-Х.
^ Уэлч, Б.Л. (1951). «О сравнении нескольких средних значений: альтернативный подход». Биометрика . 38 (3/4): 330–336. дои : 10.2307/2332579. JSTOR 2332579.
^ Кирк, RE (1995). Экспериментальный дизайн: процедуры для поведенческих наук (3-е изд.). Пасифик Гроув, Калифорния, США: Брукс/Коул.
^ Блэр, RC (1981). «Реакция на «Последствия невыполнения предположений, лежащих в основе анализа дисперсии и ковариации с фиксированными эффектами».«. Обзор исследований в области образования . 51 (4): 499–507. doi : 10.3102/00346543051004499.
^ Рэндольф, Э.А.; Барчиковски, Р.С. (1989). «Коэффициент ошибок типа I, когда реальные значения исследования используются в качестве параметров популяции в исследовании Монте-Карло». Документ, представленный на 11-м ежегодном собрании Ассоциации исследований в области образования Среднего Запада, Чикаго .
^ Дональдсон, Теодор С. (1966). «Сила F-теста для ненормальных распределений и неравных дисперсий ошибок». Документ подготовлен для проекта RAND ВВС США .
^ Тику, ML (1971). «Степневая функция F- теста в ненормальных ситуациях». Журнал Американской статистической ассоциации . 66 (336): 913–916. дои : 10.1080/01621459.1971.10482371.
^ «Начало работы с концепциями статистики». Архивировано из оригинала 4 декабря 2018 г. Проверено 22 сентября 2016 г.
^ Савиловский, С. (1990). «Непараметрические тесты взаимодействия при планировании эксперимента». Обзор образовательных исследований . 60 (1): 91–126. дои : 10.3102/00346543060001091.
^ Монтгомери, Дуглас К. (2001). Планирование и анализ экспериментов (5-е изд.). Нью-Йорк: Уайли. п. Раздел 3–2. ISBN 9780471316497.
^ Мур, Дэвид С.; Маккейб, Джордж П. (2003). Введение в практику статистики (4-е изд.). WH Freeman & Co. с. 764. ИСБН 0716796570.
^ Винклер, Роберт Л.; Хейс, Уильям Л. (1975). Статистика: вероятность, вывод и решение (2-е изд.). Нью-Йорк: Холт, Райнхарт и Уинстон. п. 761.

дальнейшее чтение

Джордж Казелла (18 апреля 2008 г.). Статистический дизайн. Спрингер . ISBN 978-0-387-75965-4.