Дисперсионный анализ ( ANOVA ) представляет собой набор статистических моделей и связанных с ними процедур оценки (таких как «вариация» между группами), используемых для анализа различий между средними значениями. ANOVA был разработан статистиком Рональдом Фишером . ANOVA основан на законе общей дисперсии , согласно которому наблюдаемая дисперсия конкретной переменной разбивается на компоненты, относящиеся к различным источникам вариации. В своей простейшей форме ANOVA обеспечивает статистическую проверку равенства двух или более средних значений совокупности и, следовательно, обобщает t -критерий за пределы двух средних. Другими словами, ANOVA используется для проверки разницы между двумя или более средними значениями.
Хотя дисперсионный анализ достиг успеха в 20-м веке, согласно Стиглеру , предшественники уходят в прошлое . [1] К ним относятся проверка гипотез, разделение сумм квадратов, экспериментальные методы и аддитивная модель. Лаплас проводил проверку гипотез в 1770-х годах. [2] Около 1800 года Лаплас и Гаусс разработали метод наименьших квадратов для объединения наблюдений, который усовершенствовал методы, использовавшиеся тогда в астрономии и геодезии . Он также положил начало тщательному изучению вкладов в суммы квадратов. Лаплас знал, как оценить дисперсию по остаточной (а не общей) сумме квадратов. [3] К 1827 году Лаплас использовал методы наименьших квадратов для решения задач ANOVA, связанных с измерениями атмосферных приливов. [4] До 1800 года астрономы выделяли ошибки наблюдений, возникающие из-за времени реакции (« личное уравнение »), и разрабатывали методы уменьшения ошибок. [5] Экспериментальные методы, используемые при изучении личного уравнения, позже были приняты развивающейся областью психологии [6] , которая разработала сильные (полные факториальные) экспериментальные методы, к которым вскоре были добавлены рандомизация и ослепление. [7] Красноречивое нематематическое объяснение модели аддитивных эффектов было доступно в 1885 году. [8]
Рональд Фишер ввел термин « дисперсия» и предложил его формальный анализ в статье 1918 года по теоретической популяционной генетике « Корреляция между родственниками на основании предположения о менделевском наследовании ». [9] Его первое применение дисперсионного анализа к анализу данных было опубликовано в 1921 году в книге « Исследования вариаций сельскохозяйственных культур I» . [10] Это разделило вариацию временного ряда на компоненты, представляющие ежегодные причины и медленное ухудшение. В следующей статье Фишера «Исследования вариаций культур II» , написанной совместно с Уинифред Маккензи и опубликованной в 1923 году, изучались различия в урожайности на участках, засеянных разными сортами и подвергнутых различным обработкам удобрениями. [11] Дисперсионный анализ стал широко известен после того, как был включен в книгу Фишера « Статистические методы для научных работников» 1925 года .
Модели рандомизации были разработаны несколькими исследователями. Первая была опубликована на польском языке Ежи Нейманом в 1923 году. [12]
Дисперсионный анализ можно использовать для описания сложных отношений между переменными. Яркий пример – выставка собак. Выставка собак не является случайной выборкой породы: обычно она ограничивается взрослыми, чистопородными и образцовыми собаками. Гистограмма веса собак на выставке, вероятно, может быть довольно сложной, как желто-оранжевое распределение, показанное на иллюстрациях. Предположим, мы хотели предсказать вес собаки на основе определенного набора характеристик каждой собаки. Один из способов сделать это — объяснить распределение весов, разделив популяцию собак на группы на основе этих характеристик. Успешная группировка разделит собак так, что (а) каждая группа имеет низкую дисперсию веса собак (это означает, что группа относительно однородна) и (б) среднее значение каждой группы различно (если две группы имеют одинаковое среднее значение, то неразумно делать вывод, что эти группы фактически разделены каким-либо значимым образом).
На иллюстрациях справа группы обозначены как X 1 , X 2 и т. д. На первой иллюстрации собаки разделены в соответствии с произведением (взаимодействием) двух бинарных групп: молодые против старых и короткошерстные против длинных. -шерстные (например, 1 группа – молодые короткошерстные собаки, 2 группа – молодые длинношерстные собаки и т. д.). Поскольку распределение веса собак внутри каждой группы (показано синим цветом) имеет относительно большую дисперсию и поскольку средние значения очень схожи в разных группах, группирование собак по этим характеристикам не дает эффективного способа объяснить различия в весе собак. : знание того, в какой группе находится собака, не позволяет нам предсказать ее вес намного лучше, чем просто знание того, что собака участвует в выставке. Таким образом, эта группировка не может объяснить изменение общего распределения (желто-оранжевое).
Попытка объяснить распределение веса, сгруппировав собак на домашние и рабочие породы и на менее спортивную и более спортивную породу , вероятно, была бы несколько более успешной (удовлетворительное соответствие). Самые тяжелые выставочные собаки, скорее всего, будут большими, сильными и рабочими породами, тогда как породы, содержащиеся в качестве домашних питомцев, как правило, меньше по размеру и, следовательно, легче. Как показывает вторая иллюстрация, распределения имеют дисперсии значительно меньшие, чем в первом случае, а средние более различимы. Однако значительное перекрытие распределений, например, означает, что мы не можем надежно различить X 1 и X 2 . Группировка собак по принципу подбрасывания монеты может привести к схожему распределению.
Попытка объяснить вес породой, скорее всего, приведет к очень хорошему совпадению. Все чихуахуа легкие, а все сенбернары тяжелые. Разница в весе сеттеров и пойнтеров не является основанием для разделения пород. Дисперсионный анализ предоставляет формальные инструменты для обоснования этих интуитивных суждений. Обычно метод используется для анализа экспериментальных данных или разработки моделей. Этот метод имеет некоторые преимущества перед корреляцией: не все данные должны быть числовыми, и одним из результатов метода является суждение о достоверности объяснительной связи.
Существует три класса моделей, используемых в дисперсионном анализе, и они описаны здесь.
Модель дисперсионного анализа с фиксированными эффектами (класс I) применяется к ситуациям, в которых экспериментатор применяет одно или несколько методов лечения к испытуемым эксперимента, чтобы увидеть, изменяются ли значения переменных ответа . Это позволяет экспериментатору оценить диапазоны значений переменных ответа, которые лечение будет генерировать в популяции в целом.
Модель случайных эффектов (класс II) используется, когда методы лечения не фиксированы. Это происходит, когда различные уровни факторов выбираются из более крупной совокупности. Поскольку уровни сами по себе являются случайными величинами , некоторые предположения и метод сопоставления методов лечения (многопараметрическое обобщение простых различий) отличаются от модели с фиксированными эффектами. [13]
Модель смешанных эффектов (класс III) содержит экспериментальные факторы как с фиксированными, так и со случайными эффектами, с соответственно разными интерпретациями и анализом для двух типов.
Учебные эксперименты могут проводиться факультетом колледжа или университета, чтобы найти хороший вводный учебник, при этом каждый текст рассматривается как лечение. Модель с фиксированными эффектами будет сравнивать список текстов-кандидатов. Модель случайных эффектов позволит определить, существуют ли важные различия между списком случайно выбранных текстов. Модель смешанных эффектов будет сравнивать (фиксированные) действующие тексты со случайно выбранными альтернативами.
Определить фиксированные и случайные эффекты оказалось непросто, поскольку существует множество конкурирующих определений. [14]
Дисперсионный анализ изучался с использованием нескольких подходов, наиболее распространенный из которых использует линейную модель , которая связывает реакцию на лечение и блокировку. Обратите внимание, что модель линейна по параметрам, но может быть нелинейной по уровням факторов. Интерпретация проста, когда данные сбалансированы по факторам, но для несбалансированных данных требуется более глубокое понимание.
Дисперсионный анализ может быть представлен в виде линейной модели , которая делает следующие предположения о вероятностном распределении ответов: [15] [16] [17] [18]
Отдельные предположения модели учебника подразумевают, что ошибки независимы, одинаково и нормально распределены для моделей с фиксированными эффектами, то есть, что ошибки ( ) независимы и
В рандомизированном контролируемом эксперименте методы лечения случайным образом распределяются по экспериментальным единицам в соответствии с протоколом эксперимента. Эта рандомизация является объективной и объявляется до проведения эксперимента. Объективное случайное присвоение используется для проверки значимости нулевой гипотезы , следуя идеям К.С. Пирса и Рональда Фишера . Этот основанный на дизайне анализ обсуждался и разрабатывался Фрэнсисом Дж. Анскомбом на экспериментальной станции в Ротамстеде и Оскаром Кемпторном из Университета штата Айова . [19] Кемпторн и его ученики делают предположение об аддитивности единичного лечения , которое обсуждается в книгах Кемпторна и Дэвида Р. Кокса . [20] [21]
В своей простейшей форме предположение об аддитивности единицы лечения [nb 1] утверждает, что наблюдаемая реакция экспериментальной единицы при получении лечения может быть записана как сумма реакции единицы и эффекта лечения , то есть [22] [ 23 ] ] [24]
По мнению Кокса и Кемпторна, предположение об аддитивности единичного лечения обычно не может быть напрямую опровергнуто . Однако многие последствия аддитивности лечебных единиц можно сфальсифицировать. Для рандомизированного эксперимента предположение об аддитивности единичного лечения подразумевает , что дисперсия постоянна для всех методов лечения. Следовательно, в противоположность этому , необходимым условием аддитивности единичного лечения является постоянство дисперсии.
Использование аддитивности и рандомизации единичного лечения аналогично умозаключению на основе дизайна, которое является стандартным для выборки при обследовании конечной совокупности .
Кемпторн использует рандомизированное распределение и предположение об аддитивности единичного лечения для создания производной линейной модели , очень похожей на модель из учебника, обсуждавшуюся ранее. [25] Статистика испытаний этой производной линейной модели близко аппроксимируется статистикой испытаний соответствующей нормальной линейной модели согласно теоремам аппроксимации и исследованиям моделирования. [26] Однако есть и различия. Например, анализ на основе рандомизации приводит к небольшой, но (строго) отрицательной корреляции между наблюдениями. [27] [28] В анализе, основанном на рандомизации, не делается никаких предположений о нормальном распределении и, тем более , о независимости . Наоборот, наблюдения зависимы !
Анализ, основанный на рандомизации, имеет тот недостаток, что его изложение требует утомительной алгебры и требует много времени. Поскольку анализ на основе рандомизации сложен и близко приближен к подходу с использованием нормальной линейной модели, большинство учителей делают упор на подход обычной линейной модели. Лишь немногие статистики возражают против модельного анализа сбалансированных рандомизированных экспериментов.
Однако применительно к данным нерандомизированных экспериментов или обсервационных исследований анализ на основе моделей не требует рандомизации. [29] Для данных наблюдений при определении доверительных интервалов необходимо использовать субъективные модели, как подчеркивают Рональд Фишер и его последователи. На практике оценки эффектов лечения, полученные в ходе обсервационных исследований, как правило, часто противоречивы. На практике «статистические модели» и данные наблюдений полезны для выдвижения гипотез, к которым общественность должна относиться очень осторожно. [30]
Анализ ANOVA на основе нормальной модели предполагает независимость, нормальность и однородность дисперсий остатков. Анализ на основе рандомизации предполагает только однородность дисперсий остатков (как следствие аддитивности единичного лечения) и использует процедуру рандомизации эксперимента. Оба этих анализа требуют гомоскедастичности как предположения для анализа нормальной модели и как следствие рандомизации и аддитивности для анализа на основе рандомизации.
Однако исследования процессов, которые меняют дисперсию, а не средние значения (так называемые эффекты дисперсии), были успешно проведены с использованием ANOVA. [31] Для дисперсионного анализа в его полной общности нет необходимых предположений, но F - критерий, используемый для проверки гипотез дисперсионного анализа, имеет предположения и практические ограничения, которые представляют постоянный интерес.
Проблемы, которые не удовлетворяют предположениям ANOVA, часто можно преобразовать, чтобы удовлетворить этим предположениям. Свойство аддитивности единичного лечения не является инвариантным при «изменении масштаба», поэтому статистики часто используют преобразования для достижения аддитивности единичного лечения. Если ожидается, что переменная ответа будет следовать параметрическому семейству вероятностных распределений, то статистик может указать (в протоколе эксперимента или наблюдательного исследования), что ответы должны быть преобразованы для стабилизации дисперсии. [32] Кроме того, статистик может указать, что логарифмические преобразования применяются к ответам, которые, как предполагается, соответствуют мультипликативной модели. [23] [33] Согласно теореме Коши о функциональном уравнении , логарифм является единственным непрерывным преобразованием, которое преобразует действительное умножение в сложение. [ нужна цитата ]
ANOVA используется при анализе сравнительных экспериментов, в которых интерес представляет только разница в результатах. Статистическая значимость эксперимента определяется соотношением двух дисперсий. Это соотношение не зависит от нескольких возможных изменений экспериментальных наблюдений: добавление константы ко всем наблюдениям не меняет значимости. Умножение всех наблюдений на константу не меняет значения. Таким образом, результат статистической значимости ANOVA не зависит от постоянной систематической ошибки и ошибок масштабирования, а также от единиц, используемых при выражении наблюдений. В эпоху механических вычислений было обычным вычитать константу из всех наблюдений (что эквивалентно отбрасыванию первых цифр), чтобы упростить ввод данных. [34] [35] Это пример кодирования данных .
Расчеты ANOVA можно охарактеризовать как вычисление ряда средних и дисперсий, деление двух дисперсий и сравнение отношения со справочным значением для определения статистической значимости. В этом случае расчет эффекта лечения тривиален: «эффект любого лечения оценивается путем определения разницы между средним значением наблюдений, которые получают лечение, и общим средним значением». [36]
ANOVA использует традиционную стандартизированную терминологию. Уравнение выборочной дисперсии имеет вид , где делитель называется степенями свободы (DF), суммирование называется суммой квадратов (SS), результат называется средним квадратом (MS), а члены в квадрате представляют собой отклонения от выборочное среднее. ANOVA оценивает три выборочные дисперсии: общую дисперсию, основанную на всех отклонениях наблюдения от общего среднего значения, дисперсию ошибок, основанную на всех отклонениях наблюдения от соответствующих средних значений лечения, и дисперсию лечения. Дисперсия лечения основана на отклонениях средних значений лечения от общего среднего, при этом результат умножается на количество наблюдений в каждом лечении, чтобы учесть разницу между дисперсией наблюдений и дисперсией средних значений.
Фундаментальным методом является разбиение общей суммы квадратов SS на компоненты, связанные с эффектами, используемыми в модели. Например, модель упрощенного дисперсионного анализа с одним типом обработки на разных уровнях.
Число степеней свободы DF можно разделить аналогичным образом: один из этих компонентов (то есть для ошибки) определяет распределение хи-квадрат , которое описывает соответствующую сумму квадратов, в то время как то же самое верно для «обработок», если существует никакого лечебного эффекта.
F - тест используется для сравнения коэффициентов общего отклонения. Например, в однофакторном или однофакторном дисперсионном анализе статистическая значимость проверяется путем сравнения статистики F-критерия.
где MS – среднеквадратичное значение, – количество процедур и – общее количество случаев.
к F -распределению , где степени свободы в числителе и степени свободы в знаменателе. Использование F -распределения является естественным кандидатом, поскольку тестовая статистика представляет собой соотношение двух масштабированных сумм квадратов, каждая из которых соответствует масштабированному распределению хи-квадрат .
Ожидаемое значение F равно (где размер выборки лечения), равное 1 при отсутствии эффекта лечения. По мере того, как значения F превышают 1, доказательства становятся все более несовместимыми с нулевой гипотезой. Два очевидных экспериментальных метода увеличения F — это увеличение размера выборки и уменьшение дисперсии ошибок за счет жесткого экспериментального контроля.
Существует два метода завершения проверки гипотезы ANOVA, оба из которых дают один и тот же результат:
Известно, что F -тест ANOVA почти оптимален в смысле минимизации ложноотрицательных ошибок при фиксированной частоте ложноположительных ошибок (т.е. максимизации мощности при фиксированном уровне значимости). Например, чтобы проверить гипотезу о том, что различные методы лечения имеют одинаковый эффект, значения p F -теста близко приближаются к значениям p перестановочного теста : аппроксимация особенно близка, когда план сбалансирован. [26] [37] Такие тесты перестановок характеризуют тесты с максимальной мощностью против всех альтернативных гипотез , как заметил Розенбаум . [nb 2] F -тест ANOVA (нулевая гипотеза о том, что все методы лечения имеют одинаковый эффект) рекомендуется в качестве практического теста из-за его устойчивости ко многим альтернативным распределениям. [38] [номер 3]
ANOVA состоит из отдельных частей; Разделение источников дисперсии и проверка гипотез могут использоваться индивидуально. ANOVA используется для поддержки других статистических инструментов. Регрессия сначала используется для сопоставления более сложных моделей с данными, затем используется ANOVA для сравнения моделей с целью выбора простых моделей, которые адекватно описывают данные. «Такие модели могут быть подобраны без какой-либо ссылки на ANOVA, но затем инструменты ANOVA можно использовать, чтобы придать некоторый смысл подобранным моделям и проверить гипотезы о группах коэффициентов». [39] «[Мы] думаем об дисперсионном анализе как о способе понимания и структурирования многоуровневых моделей — не как об альтернативе регрессии, а как об инструменте для обобщения сложных многомерных выводов…» [39 ]
Самый простой эксперимент, подходящий для анализа ANOVA, — это полностью рандомизированный эксперимент с одним фактором. Более сложные эксперименты с одним фактором предполагают ограничения на рандомизацию и включают полностью рандомизированные блоки и латинские квадраты (и варианты: греко-латинские квадраты и т. д.). Более сложные эксперименты разделяют многие сложности множества факторов. Доступно относительно полное обсуждение анализа (модели, сводки данных, таблица ANOVA) полностью рандомизированного эксперимента .
Существуют некоторые альтернативы традиционному одностороннему дисперсионному анализу, например: гетероскедастический F-критерий Уэлча, гетероскедастический F-критерий Уэлча с усеченными средними и дисперсиями Винзора, тест Брауна-Форсайта, тест Александера-Говерна, тест второго порядка Джеймса и тест Крускала-Уоллиса. , доступно в onewaytests R
Полезно представлять каждую точку данных в следующей форме, называемой статистической моделью:
То есть мы представляем себе аддитивную модель, которая утверждает, что каждая точка данных может быть представлена путем суммирования трех величин: истинного среднего значения, усредненного по всем исследуемым уровням факторов, плюс приростной компонент, связанный с конкретным столбцом (уровень фактора), плюс окончательный результат. компонент, связанный со всем остальным, влияющим на это конкретное значение данных.
ANOVA обобщает изучение воздействия множества факторов. Когда эксперимент включает наблюдения на всех комбинациях уровней каждого фактора, его называют факториалом . Факторные эксперименты более эффективны, чем серия однофакторных экспериментов, и эффективность растет с увеличением числа факторов. [40] Следовательно, факторные планы широко используются.
Использование ANOVA для изучения влияния множества факторов имеет сложности. В трехфакторном дисперсионном анализе с факторами x, y и z модель ANOVA включает члены для основных эффектов (x, y, z) и условия для взаимодействий (xy, xz, yz, xyz). Все термины требуют проверки гипотез. Увеличение количества терминов взаимодействия увеличивает риск того, что некоторые проверки гипотез случайно дадут ложноположительный результат. К счастью, опыт показывает, что взаимодействия высокого порядка встречаются редко. [41] [ требуется проверка ] Способность обнаруживать взаимодействия является основным преимуществом многофакторного дисперсионного анализа. Проверка одного фактора за раз скрывает взаимодействия, но дает явно противоречивые экспериментальные результаты. [40]
При взаимодействии следует соблюдать осторожность; Сначала проверьте условия взаимодействия и расширьте анализ за пределы ANOVA, если взаимодействия обнаружены. Тексты различаются рекомендациями относительно продолжения процедуры ANOVA после обнаружения взаимодействия. Взаимодействия усложняют интерпретацию экспериментальных данных. Ни расчеты значимости, ни предполагаемые эффекты лечения не могут приниматься за чистую монету. «Значительное взаимодействие часто маскирует значимость основных эффектов». [42] Для улучшения понимания рекомендуется использовать графические методы. Регрессия часто бывает полезна. Подробное обсуждение взаимодействий доступно у Кокса (1958). [43] Некоторые взаимодействия можно удалить (путем преобразований), а другие — нет.
Для снижения затрат используются различные методы с многофакторным дисперсионным анализом. Одним из методов, используемых в факторных планах, является минимизация репликации (возможно, отсутствие репликации при поддержке аналитических ухищрений ) и объединение групп, когда эффекты оказываются статистически (или практически) незначительными. Эксперимент со многими незначительными факторами может развалиться в эксперимент с несколькими факторами, поддерживаемыми множеством повторений. [44]
Некоторый анализ необходим для поддержки плана эксперимента , в то время как другой анализ проводится после того, как формально установлено, что изменения факторов приводят к статистически значимым изменениям в ответах. Поскольку экспериментирование является итеративным, результаты одного эксперимента меняют планы последующих экспериментов.
При планировании эксперимента количество экспериментальных единиц планируется удовлетворить целям эксперимента. Эксперименты часто носят последовательный характер.
Ранние эксперименты часто предназначены для получения несмещенных к среднему оценок эффектов лечения и экспериментальных ошибок. Более поздние эксперименты часто предназначены для проверки гипотезы о том, что эффект лечения имеет важную величину; в этом случае количество экспериментальных единиц выбирается таким образом, чтобы эксперимент, помимо прочего, соответствовал бюджету и имел достаточную мощность.
В психологии обычно требуется отчет об анализе размера выборки. «Предоставьте информацию о размере выборки и процессе, который привел к принятию решений о размере выборки». [45] Анализ, который записывается в протокол эксперимента до его проведения, рассматривается в заявках на гранты и в административных наблюдательных комиссиях.
Помимо анализа мощности, существуют менее формальные методы выбора количества экспериментальных единиц. К ним относятся графические методы, основанные на ограничении вероятности ложноотрицательных ошибок, графические методы, основанные на ожидаемом увеличении вариации (выше остатков) и методы, основанные на достижении желаемого доверительного интервала. [46]
Анализ мощности часто применяется в контексте ANOVA, чтобы оценить вероятность успешного отклонения нулевой гипотезы, если мы предполагаем определенный дизайн ANOVA, размер эффекта в популяции, размер выборки и уровень значимости. Анализ мощности может помочь в планировании исследования, определяя, какой размер выборки потребуется, чтобы иметь разумную вероятность отклонения нулевой гипотезы, когда альтернативная гипотеза верна. [47] [48] [49] [50]
Для ANOVA было предложено несколько стандартизированных показателей эффекта, чтобы суммировать силу связи между предиктором(ами) и зависимой переменной или общую стандартизированную разницу полной модели. Стандартизированные оценки размера эффекта облегчают сравнение результатов исследований и дисциплин. Однако, хотя стандартизированные размеры эффекта обычно используются в большей части профессиональной литературы, для целей отчетности может быть предпочтительнее нестандартизированная мера размера эффекта, которая имеет непосредственно «значимые» единицы. [51]
Иногда проводятся тесты, чтобы определить, нарушены ли предположения ANOVA. Остатки исследуются или анализируются для подтверждения гомоскедастичности и общей нормальности. [52] Остатки должны иметь вид шума (нормальное нулевое среднее распределение), когда они отображаются как функция от чего-либо, включая время и значения смоделированных данных. Тенденции намекают на взаимодействие между факторами или наблюдениями.
Статистически значимый эффект в ANOVA часто сопровождается дополнительными тестами. Это можно сделать для того, чтобы оценить, какие группы отличаются от других групп, или проверить различные другие целенаправленные гипотезы. Последующие тесты часто различают по тому, являются ли они «плановыми» ( априори ) или «постфактум ». Плановые тесты определяются до просмотра данных, а апостериорные тесты задуманы только после просмотра данных (хотя термин «апостериорный» используется непоследовательно).
Последующие тесты могут представлять собой «простые» попарные сравнения средних значений отдельных групп или могут быть «составными» сравнениями (например, сравнение объединенных средних значений групп A, B и C со средним значением группы D). При сравнении можно также использовать критерии тренда, такие как линейные и квадратичные зависимости, когда независимая переменная включает упорядоченные уровни. Часто последующие тесты включают метод корректировки проблемы множественных сравнений .
Последующие тесты для определения того, какие конкретные группы, переменные или факторы имеют статистически разные средние значения, включают тест диапазона Тьюки и новый тест множественных диапазонов Дункана . В свою очередь, эти тесты часто сопровождаются методологией компактного буквенного отображения (CLD), чтобы сделать результаты упомянутых тестов более прозрачными для нестатистической аудитории.
Существует несколько типов ANOVA. Многие статистики основывают ANOVA на плане эксперимента [53] , особенно на протоколе, который определяет случайное назначение лечения испытуемым; Описание механизма назначения в протоколе должно включать спецификацию структуры обработки и любой блокировки . Также принято применять ANOVA к данным наблюдений с использованием соответствующей статистической модели. [54]
В некоторых популярных проектах используются следующие типы дисперсионного анализа:
Сбалансированные эксперименты (с одинаковым размером выборки для каждого варианта лечения) относительно легко интерпретировать; несбалансированные эксперименты более сложны. Для однофакторного (одностороннего) ANOVA корректировка несбалансированных данных проста, но несбалансированному анализу не хватает как надежности, так и мощности. [57] В более сложных конструкциях отсутствие баланса приводит к дальнейшим осложнениям. «Свойство ортогональности основных эффектов и взаимодействий, присутствующее в сбалансированных данных, не переносится на несбалансированный случай. Это означает, что обычные методы дисперсионного анализа не применимы. Следовательно, анализ несбалансированных факториалов гораздо сложнее, чем анализ сбалансированных. конструкции». [58] В общем случае: «Дисперсионный анализ может быть применен и к несбалансированным данным, но тогда суммы квадратов, средние квадраты и F -отношения будут зависеть от порядка, в котором рассматриваются источники вариации». [39]
ANOVA (частично) является тестом статистической значимости. Американская психологическая ассоциация (и многие другие организации) придерживается мнения, что простого сообщения о статистической значимости недостаточно и что предпочтительнее сообщать о доверительных границах. [51]
ANOVA считается частным случаем линейной регрессии [59] [60], которая, в свою очередь, является частным случаем общей линейной модели . [61] Все считают, что наблюдения представляют собой сумму модели (подгонки) и невязки (ошибки), которую необходимо минимизировать.
Критерий Краскала -Уоллиса и критерий Фридмана являются непараметрическими тестами, которые не полагаются на предположение о нормальности. [62] [63]
Ниже мы поясним связь между многофакторным дисперсионным анализом и линейной регрессией.
Линейно переупорядочите данные так, чтобы -е наблюдение было связано с ответом и факторами , где обозначает различные факторы и представляет собой общее количество факторов. В однофакторном дисперсионном анализе и в двустороннем дисперсионном анализе . Кроме того, мы предполагаем, что -й фактор имеет уровни, а именно . Теперь мы можем оперативно закодировать факторы в размерный вектор .
Функция горячего кодирования определена так, что -я запись равна
Имея эти обозначения, мы теперь имеем точную связь с линейной регрессией. Мы просто регрессируем реакцию против вектора . Однако есть опасения по поводу идентифицируемости . Чтобы преодолеть такие проблемы, мы предполагаем, что сумма параметров внутри каждого набора взаимодействий равна нулю. Отсюда можно использовать F -статистику или другие методы для определения значимости отдельных факторов.
Мы можем рассмотреть пример двустороннего взаимодействия, где мы предполагаем, что первый фактор имеет 2 уровня, а второй фактор — 3 уровня.
Определите if и if , т.е. является горячим кодированием первого фактора и является горячим кодированием второго фактора.
При этом,