stringtranslate.com

Однофакторный дисперсионный анализ

В статистике однофакторный дисперсионный анализ (или однофакторный ANOVA ) — это метод сравнения того, являются ли средние значения двух или более выборок существенно разными (с использованием F -распределения ). Этот метод дисперсионного анализа требует числовой переменной отклика «Y» и одной объясняющей переменной «X», поэтому он «однофакторный». [1]

ANOVA проверяет нулевую гипотезу , которая гласит, что выборки во всех группах взяты из популяций с одинаковыми средними значениями. Для этого делаются две оценки дисперсии популяции. Эти оценки основаны на различных предположениях (см. ниже). ANOVA выдает F-статистику, отношение дисперсии, рассчитанной среди средних значений, к дисперсии внутри выборок. Если групповые средние взяты из популяций с одинаковыми средними значениями, то дисперсия между групповыми средними должна быть ниже дисперсии выборок, следуя центральной предельной теореме . Более высокое отношение, следовательно, подразумевает, что выборки были взяты из популяций с разными средними значениями. [1]

Однако обычно однофакторный дисперсионный анализ используется для проверки различий между по крайней мере тремя группами, поскольку случай с двумя группами может быть охвачен t-тестом (Госсет, 1908). Когда есть только два средних значения для сравнения, t-тест и F-тест эквивалентны; связь между ANOVA и t задается как F  =  t 2 . Расширением однофакторного дисперсионного анализа является двухфакторный дисперсионный анализ , который исследует влияние двух различных категориальных независимых переменных на одну зависимую переменную.

Предположения

Результаты однофакторного дисперсионного анализа можно считать надежными, если выполняются следующие предположения:

Если данные порядковые , следует использовать непараметрическую альтернативу этому тесту, например, однофакторный дисперсионный анализ Краскела–Уоллиса . Если известно, что дисперсии не равны, можно использовать обобщение t-теста Уэлча для двух выборок. [2]

Отклонения от нормальности популяции

ANOVA — относительно надежная процедура в отношении нарушений предположения о нормальности. [3]

Однофакторный дисперсионный анализ можно обобщить для факторного и многомерного анализа, а также для анализа ковариации. [ необходимо разъяснение ]

В популярной литературе часто утверждается, что ни один из этих F -тестов не является надежным , когда есть серьезные нарушения предположения о том, что каждая популяция следует нормальному распределению , особенно для малых уровней альфа и несбалансированных макетов. [4] Кроме того, также утверждается, что если базовое предположение о гомоскедастичности нарушается, свойства ошибки I типа ухудшаются гораздо сильнее. [5]

Однако это заблуждение, основанное на работах, выполненных в 1950-х годах и ранее. Первое всестороннее исследование проблемы с помощью моделирования Монте-Карло было проведено Дональдсоном (1966). [6] Он показал, что при обычных отклонениях (положительный перекос, неравные дисперсии) « F -тест консервативен», и поэтому вероятность того, что переменная значима, меньше, чем следовало бы. Однако по мере увеличения размера выборки или числа ячеек «кривые мощности, по-видимому, сходятся к кривым, основанным на нормальном распределении». Тику (1971) обнаружил, что «ненормальная теоретическая мощность F отличается от нормальной теоретической мощности на поправочный член, который резко уменьшается с увеличением размера выборки». [7] Проблема ненормальности, особенно в больших выборках, гораздо менее серьезна, чем предполагают популярные статьи.

Текущая точка зрения заключается в том, что «исследования Монте-Карло широко использовались с тестами на основе нормального распределения для определения их чувствительности к нарушениям предположения о нормальном распределении анализируемых переменных в популяции. Общий вывод из этих исследований заключается в том, что последствия таких нарушений менее серьезны, чем считалось ранее. Хотя эти выводы не должны полностью отговаривать кого-либо от беспокойства о предположении о нормальности, они увеличили общую популярность статистических тестов, зависящих от распределения, во всех областях исследований». [8]

Для непараметрических альтернатив в факторной компоновке см. Sawilowsky. [9] Для более подробного обсуждения см. ANOVA по рангам .

Случай фиксированных эффектов, полностью рандомизированный эксперимент, несбалансированные данные

Модель

Нормальная линейная модель описывает группы лечения с вероятностными распределениями, которые являются идентично колоколообразными (нормальными) кривыми с разными средними. Таким образом, для подгонки моделей требуются только средние значения каждой группы лечения и расчет дисперсии (используется средняя дисперсия в группах лечения). Расчеты средних значений и дисперсии выполняются как часть проверки гипотезы.

Обычно используемые нормальные линейные модели для полностью рандомизированного эксперимента: [10]

(модель средств)

или

(модель эффектов)

где

это индекс по экспериментальным единицам
это индекс по группам лечения
количество экспериментальных единиц в j-й группе лечения
общее количество экспериментальных единиц
являются наблюдениями
это среднее значение наблюдений для j-й группы лечения
это общее среднее значение наблюдений
j-й эффект лечения, отклонение от общего среднего
, являются нормально распределенными случайными ошибками с нулевым средним.

Индекс экспериментальных единиц может быть интерпретирован несколькими способами. В некоторых экспериментах одна и та же экспериментальная единица подвергается ряду обработок; может указывать на определенную единицу. В других случаях каждая группа обработки имеет отдельный набор экспериментальных единиц; может быть просто индексом в -ом списке.

Данные и статистические сводки данных

Одной из форм организации экспериментальных наблюдений является группировка по столбцам:

Сравнение модели с резюме: и . Общее среднее и общая дисперсия вычисляются из общих сумм, а не из групповых средних и дисперсий.

Проверка гипотезы

Учитывая сводную статистику, расчеты проверки гипотезы показаны в табличной форме. В то время как два столбца SS показаны для их пояснительной ценности, для отображения результатов требуется только один столбец.

— оценка дисперсии, соответствующая модели.

Резюме анализа

Основной анализ ANOVA состоит из серии расчетов. Данные собираются в табличной форме. Затем

Если эксперимент сбалансирован, все члены равны, поэтому уравнения СС упрощаются.

В более сложном эксперименте, где экспериментальные единицы (или эффекты окружающей среды) не являются однородными, в анализе также используется статистика строк. Модель включает члены, зависящие от . Определение дополнительных членов уменьшает количество доступных степеней свободы.

Пример

Рассмотрим эксперимент по изучению влияния трех различных уровней фактора на реакцию (например, трех уровней удобрения на рост растений). Если бы у нас было 6 наблюдений для каждого уровня, мы могли бы записать результат эксперимента в таблице, например, где a 1 , a 2 и a 3 — это три уровня изучаемого фактора.

Нулевая гипотеза, обозначенная H 0 , для общего F -теста для этого эксперимента будет заключаться в том, что все три уровня фактора в среднем дают один и тот же ответ. Для расчета F -коэффициента:

Шаг 1: Рассчитайте среднее значение в каждой группе:

Шаг 2: Рассчитайте общее среднее значение:

где а — количество групп.

Шаг 3: Рассчитайте «межгрупповую» сумму квадратов разностей:

где n — количество значений данных в группе.

Межгрупповое число степеней свободы на единицу меньше числа групп.

поэтому среднеквадратичное значение между группами равно

Шаг 4: Рассчитайте "внутригрупповую" сумму квадратов. Начните с центрирования данных в каждой группе

Внутригрупповая сумма квадратов — это сумма квадратов всех 18 значений в этой таблице.

Внутригрупповые степени свободы:

Таким образом, внутригрупповое среднеквадратичное значение равно

Шаг 5: Коэффициент F равен

Критическое значение — это число, которое должна превысить статистика теста, чтобы отвергнуть тест. В этом случае F крит (2,15) = 3,68 при α = 0,05. Поскольку F =9,3 > 3,68, результаты значимы на уровне значимости 5%. Можно было бы не принимать нулевую гипотезу, делая вывод о том, что имеются веские доказательства того, что ожидаемые значения в трех группах различаются. Значение p для этого теста равно 0,002.

После выполнения F -теста обычно проводят некоторый "post-hoc" анализ средних значений группы. В этом случае средние значения первых двух групп различаются на 4 единицы, средние значения первой и третьей групп различаются на 5 единиц, а средние значения второй и третьей групп различаются всего на 1 единицу. Стандартная ошибка каждого из этих различий составляет . Таким образом, первая группа сильно отличается от других групп, так как средняя разница более чем в 3 раза превышает стандартную ошибку, поэтому мы можем быть уверены в том, что среднее значение совокупности первой группы отличается от средних значений совокупности других групп. Однако нет никаких доказательств того, что средние значения совокупности второй и третьей групп различаются друг от друга, так как их средняя разница в одну единицу сопоставима со стандартной ошибкой.

Примечание. F ( xy ) обозначает кумулятивную функцию распределения F -распределения с x степенями свободы в числителе и y степенями свободы в знаменателе.

Смотрите также

Примечания

  1. ^ ab Howell, David (2002). Статистические методы в психологии. Duxbury. стр. 324–325. ISBN 0-534-37770-X.
  2. ^ Уэлч, Б. Л. (1951). «О сравнении нескольких средних значений: альтернативный подход». Biometrika . 38 (3/4): 330–336. doi :10.2307/2332579. JSTOR  2332579.
  3. ^ Кирк, Р. Э. (1995). Экспериментальный дизайн: процедуры для поведенческих наук (3-е изд.). Пасифик-Гроув, Калифорния, США: Brooks/Cole.
  4. ^ Блэр, RC (1981). «Реакция на «Последствия невыполнения предположений, лежащих в основе дисперсионного и ковариационного анализа с фиксированными эффектами».". Обзор исследований в области образования . 51 (4): 499–507. doi :10.3102/00346543051004499.
  5. ^ Рэндольф, EA; Барчиковски, RS (1989). "Частота ошибок типа I при использовании реальных значений исследования в качестве параметров популяции в исследовании Монте-Карло". Доклад, представленный на 11-м ежегодном собрании Ассоциации исследований в области образования Среднего Запада, Чикаго .
  6. ^ Дональдсон, Теодор С. (1966). «Мощность F-теста для ненормальных распределений и неравных дисперсий ошибок». Документ, подготовленный для проекта ВВС США RAND .
  7. ^ Тику, М. Л. (1971). «Функция мощности F -теста в ненормальных ситуациях». Журнал Американской статистической ассоциации . 66 (336): 913–916. doi :10.1080/01621459.1971.10482371.
  8. ^ "Начало работы с концепциями статистики". Архивировано из оригинала 2018-12-04 . Получено 2016-09-22 .
  9. ^ Sawilowsky, S. (1990). «Непараметрические тесты взаимодействия в экспериментальном дизайне». Review of Educational Research . 60 (1): 91–126. doi :10.3102/00346543060001091.
  10. ^ Монтгомери, Дуглас С. (2001). Планирование и анализ экспериментов (5-е изд.). Нью-Йорк: Wiley. стр. Раздел 3–2. ISBN 9780471316497.
  11. ^ Мур, Дэвид С.; МакКейб, Джордж П. (2003). Введение в практику статистики (4-е изд.). WH Freeman & Co. стр. 764. ISBN 0716796570.
  12. ^ Винклер, Роберт Л.; Хейс, Уильям Л. (1975). Статистика: вероятность, вывод и решение (2-е изд.). Нью-Йорк: Холт, Райнхарт и Уинстон. стр. 761.

Дальнейшее чтение