stringtranslate.com

Дисперсионный анализ

Дисперсионный анализ ( ANOVA ) представляет собой набор статистических моделей и связанных с ними процедур оценки (таких как «вариация» между группами), используемых для анализа различий между средними значениями. ANOVA был разработан статистиком Рональдом Фишером . ANOVA основан на законе общей дисперсии , согласно которому наблюдаемая дисперсия конкретной переменной разбивается на компоненты, относящиеся к различным источникам вариации. В своей простейшей форме ANOVA обеспечивает статистическую проверку равенства двух или более средних значений совокупности и, следовательно, обобщает t -критерий за пределы двух средних. Другими словами, ANOVA используется для проверки разницы между двумя или более средними значениями.

История

Хотя дисперсионный анализ достиг успеха в 20-м веке, согласно Стиглеру , предшественники уходят в прошлое . [1] К ним относятся проверка гипотез, разделение сумм квадратов, экспериментальные методы и аддитивная модель. Лаплас проводил проверку гипотез в 1770-х годах. [2] Около 1800 года Лаплас и Гаусс разработали метод наименьших квадратов для объединения наблюдений, который усовершенствовал методы, использовавшиеся тогда в астрономии и геодезии . Он также положил начало тщательному изучению вкладов в суммы квадратов. Лаплас знал, как оценить дисперсию по остаточной (а не общей) сумме квадратов. [3] К 1827 году Лаплас использовал методы наименьших квадратов для решения задач ANOVA, связанных с измерениями атмосферных приливов. [4] До 1800 года астрономы выделяли ошибки наблюдений, возникающие из-за времени реакции (« личное уравнение »), и разрабатывали методы уменьшения ошибок. [5] Экспериментальные методы, используемые при изучении личного уравнения, позже были приняты развивающейся областью психологии [6] , которая разработала сильные (полные факториальные) экспериментальные методы, к которым вскоре были добавлены рандомизация и ослепление. [7] Красноречивое нематематическое объяснение модели аддитивных эффектов было доступно в 1885 году. [8]

Рональд Фишер ввел термин « дисперсия» и предложил его формальный анализ в статье 1918 года по теоретической популяционной генетике « Корреляция между родственниками на основании предположения о менделевском наследовании ». [9] Его первое применение дисперсионного анализа к анализу данных было опубликовано в 1921 году в книге « Исследования вариаций сельскохозяйственных культур I» . [10] Это разделило вариацию временного ряда на компоненты, представляющие ежегодные причины и медленное ухудшение. В следующей статье Фишера «Исследования вариаций культур II» , написанной совместно с Уинифред Маккензи и опубликованной в 1923 году, изучались различия в урожайности на участках, засеянных разными сортами и подвергнутых различным обработкам удобрениями. [11] Дисперсионный анализ стал широко известен после того, как был включен в книгу Фишера « Статистические методы для научных работников» 1925 года .

Модели рандомизации были разработаны несколькими исследователями. Первая была опубликована на польском языке Ежи Нейманом в 1923 году. [12]

Пример

Не подходит: молодые против старых, короткошерстные против длинношерстных.
Достаточное соответствие: домашние животные против рабочих пород, менее спортивные против более спортивных.
Очень хорошо подходит: вес в зависимости от породы.

Дисперсионный анализ можно использовать для описания сложных отношений между переменными. Яркий пример – выставка собак. Выставка собак не является случайной выборкой породы: обычно она ограничивается взрослыми, чистопородными и образцовыми собаками. Гистограмма веса собак на выставке, вероятно, может быть довольно сложной, как желто-оранжевое распределение, показанное на иллюстрациях. Предположим, мы хотели предсказать вес собаки на основе определенного набора характеристик каждой собаки. Один из способов сделать это — объяснить распределение весов, разделив популяцию собак на группы на основе этих характеристик. Успешная группировка разделит собак так, что (а) каждая группа имеет низкую дисперсию веса собак (это означает, что группа относительно однородна) и (б) среднее значение каждой группы различно (если две группы имеют одинаковое среднее значение, то неразумно делать вывод, что эти группы фактически разделены каким-либо значимым образом).

На иллюстрациях справа группы обозначены как X 1 , X 2 и т. д. На первой иллюстрации собаки разделены в соответствии с произведением (взаимодействием) двух бинарных групп: молодые против старых и короткошерстные против длинных. -шерстные (например, 1 группа – молодые короткошерстные собаки, 2 группа – молодые длинношерстные собаки и т. д.). Поскольку распределение веса собак внутри каждой группы (показано синим цветом) имеет относительно большую дисперсию и поскольку средние значения очень схожи в разных группах, группирование собак по этим характеристикам не дает эффективного способа объяснить различия в весе собак. : знание того, в какой группе находится собака, не позволяет нам предсказать ее вес намного лучше, чем просто знание того, что собака участвует в выставке. Таким образом, эта группировка не может объяснить изменение общего распределения (желто-оранжевое).

Попытка объяснить распределение веса, сгруппировав собак на домашние и рабочие породы и на менее спортивную и более спортивную породу , вероятно, была бы несколько более успешной (удовлетворительное соответствие). Самые тяжелые выставочные собаки, скорее всего, будут большими, сильными и рабочими породами, тогда как породы, содержащиеся в качестве домашних питомцев, как правило, меньше по размеру и, следовательно, легче. Как показывает вторая иллюстрация, распределения имеют дисперсии значительно меньшие, чем в первом случае, а средние более различимы. Однако значительное перекрытие распределений, например, означает, что мы не можем надежно различить X 1 и X 2 . Группировка собак по принципу подбрасывания монеты может привести к схожему распределению.

Попытка объяснить вес породой, скорее всего, приведет к очень хорошему совпадению. Все чихуахуа легкие, а все сенбернары тяжелые. Разница в весе сеттеров и пойнтеров не является основанием для разделения пород. Дисперсионный анализ предоставляет формальные инструменты для обоснования этих интуитивных суждений. Обычно метод используется для анализа экспериментальных данных или разработки моделей. Этот метод имеет некоторые преимущества перед корреляцией: не все данные должны быть числовыми, и одним из результатов метода является суждение о достоверности объяснительной связи.

Классы моделей

Существует три класса моделей, используемых в дисперсионном анализе, и они описаны здесь.

Модели с фиксированными эффектами

Модель дисперсионного анализа с фиксированными эффектами (класс I) применяется к ситуациям, в которых экспериментатор применяет одно или несколько методов лечения к испытуемым эксперимента, чтобы увидеть, изменяются ли значения переменных ответа . Это позволяет экспериментатору оценить диапазоны значений переменных ответа, которые лечение будет генерировать в популяции в целом.

Фиксированные эффекты против случайных эффектов

Модели случайных эффектов

Модель случайных эффектов (класс II) используется, когда методы лечения не фиксированы. Это происходит, когда различные уровни факторов выбираются из более крупной совокупности. Поскольку уровни сами по себе являются случайными величинами , некоторые предположения и метод сопоставления методов лечения (многопараметрическое обобщение простых различий) отличаются от модели с фиксированными эффектами. [13]

Модели со смешанными эффектами

Модель смешанных эффектов (класс III) содержит экспериментальные факторы как с фиксированными, так и со случайными эффектами, с соответственно разными интерпретациями и анализом для двух типов.

Пример

Учебные эксперименты могут проводиться факультетом колледжа или университета, чтобы найти хороший вводный учебник, при этом каждый текст рассматривается как лечение. Модель с фиксированными эффектами будет сравнивать список текстов-кандидатов. Модель случайных эффектов позволит определить, существуют ли важные различия между списком случайно выбранных текстов. Модель смешанных эффектов будет сравнивать (фиксированные) действующие тексты со случайно выбранными альтернативами.

Определить фиксированные и случайные эффекты оказалось непросто, поскольку существует множество конкурирующих определений. [14]

Предположения

Дисперсионный анализ изучался с использованием нескольких подходов, наиболее распространенный из которых использует линейную модель , которая связывает реакцию на лечение и блокировку. Обратите внимание, что модель линейна по параметрам, но может быть нелинейной по уровням факторов. Интерпретация проста, когда данные сбалансированы по факторам, но для несбалансированных данных требуется более глубокое понимание.

Анализ учебника с использованием нормального распределения

Дисперсионный анализ может быть представлен в виде линейной модели , которая делает следующие предположения о вероятностном распределении ответов: [15] [16] [17] [18]

Отдельные предположения модели учебника подразумевают, что ошибки независимы, одинаково и нормально распределены для моделей с фиксированными эффектами, то есть, что ошибки ( ) независимы и

Анализ на основе рандомизации

В рандомизированном контролируемом эксперименте методы лечения случайным образом распределяются по экспериментальным единицам в соответствии с протоколом эксперимента. Эта рандомизация является объективной и объявляется до проведения эксперимента. Объективное случайное присвоение используется для проверки значимости нулевой гипотезы , следуя идеям К.С. Пирса и Рональда Фишера . Этот основанный на дизайне анализ обсуждался и разрабатывался Фрэнсисом Дж. Анскомбом на экспериментальной станции в Ротамстеде и Оскаром Кемпторном из Университета штата Айова . [19] Кемпторн и его ученики делают предположение об аддитивности единичного лечения , которое обсуждается в книгах Кемпторна и Дэвида Р. Кокса . [20] [21]

Аддитивность единицы лечения

В своей простейшей форме предположение об аддитивности единицы лечения [nb 1] утверждает, что наблюдаемая реакция экспериментальной единицы при получении лечения может быть записана как сумма реакции единицы и эффекта лечения , то есть [22] [ 23 ] ] [24]

По мнению Кокса и Кемпторна, предположение об аддитивности единичного лечения обычно не может быть напрямую опровергнуто . Однако многие последствия аддитивности лечебных единиц можно сфальсифицировать. Для рандомизированного эксперимента предположение об аддитивности единичного лечения подразумевает , что дисперсия постоянна для всех методов лечения. Следовательно, в противоположность этому , необходимым условием аддитивности единичного лечения является постоянство дисперсии.

Использование аддитивности и рандомизации единичного лечения аналогично умозаключению на основе дизайна, которое является стандартным для выборки при обследовании конечной совокупности .

Производная линейная модель

Кемпторн использует рандомизированное распределение и предположение об аддитивности единичного лечения для создания производной линейной модели , очень похожей на модель из учебника, обсуждавшуюся ранее. [25] Статистика испытаний этой производной линейной модели близко аппроксимируется статистикой испытаний соответствующей нормальной линейной модели согласно теоремам аппроксимации и исследованиям моделирования. [26] Однако есть и различия. Например, анализ на основе рандомизации приводит к небольшой, но (строго) отрицательной корреляции между наблюдениями. [27] [28] В анализе, основанном на рандомизации, не делается никаких предположений о нормальном распределении и, тем более , о независимости . Наоборот, наблюдения зависимы !

Анализ, основанный на рандомизации, имеет тот недостаток, что его изложение требует утомительной алгебры и требует много времени. Поскольку анализ на основе рандомизации сложен и близко приближен к подходу с использованием нормальной линейной модели, большинство учителей делают упор на подход обычной линейной модели. Лишь немногие статистики возражают против модельного анализа сбалансированных рандомизированных экспериментов.

Статистические модели для данных наблюдений

Однако применительно к данным нерандомизированных экспериментов или обсервационных исследований анализ на основе моделей не требует рандомизации. [29] Для данных наблюдений при определении доверительных интервалов необходимо использовать субъективные модели, как подчеркивают Рональд Фишер и его последователи. На практике оценки эффектов лечения, полученные в ходе обсервационных исследований, как правило, часто противоречивы. На практике «статистические модели» и данные наблюдений полезны для выдвижения гипотез, к которым общественность должна относиться очень осторожно. [30]

Краткое изложение предположений

Анализ ANOVA на основе нормальной модели предполагает независимость, нормальность и однородность дисперсий остатков. Анализ на основе рандомизации предполагает только однородность дисперсий остатков (как следствие аддитивности единичного лечения) и использует процедуру рандомизации эксперимента. Оба этих анализа требуют гомоскедастичности как предположения для анализа нормальной модели и как следствие рандомизации и аддитивности для анализа на основе рандомизации.

Однако исследования процессов, которые меняют дисперсию, а не средние значения (так называемые эффекты дисперсии), были успешно проведены с использованием ANOVA. [31] Для дисперсионного анализа в его полной общности нет необходимых предположений, но F - критерий, используемый для проверки гипотез дисперсионного анализа, имеет предположения и практические ограничения, которые представляют постоянный интерес.

Проблемы, которые не удовлетворяют предположениям ANOVA, часто можно преобразовать, чтобы удовлетворить этим предположениям. Свойство аддитивности единичного лечения не является инвариантным при «изменении масштаба», поэтому статистики часто используют преобразования для достижения аддитивности единичного лечения. Если ожидается, что переменная ответа будет следовать параметрическому семейству вероятностных распределений, то статистик может указать (в протоколе эксперимента или наблюдательного исследования), что ответы должны быть преобразованы для стабилизации дисперсии. [32] Кроме того, статистик может указать, что логарифмические преобразования применяются к ответам, которые, как предполагается, соответствуют мультипликативной модели. [23] [33] Согласно теореме Коши о функциональном уравнении , логарифм является единственным непрерывным преобразованием, которое преобразует действительное умножение в сложение. [ нужна цитата ]

Характеристики

ANOVA используется при анализе сравнительных экспериментов, в которых интерес представляет только разница в результатах. Статистическая значимость эксперимента определяется соотношением двух дисперсий. Это соотношение не зависит от нескольких возможных изменений экспериментальных наблюдений: добавление константы ко всем наблюдениям не меняет значимости. Умножение всех наблюдений на константу не меняет значения. Таким образом, результат статистической значимости ANOVA не зависит от постоянной систематической ошибки и ошибок масштабирования, а также от единиц, используемых при выражении наблюдений. В эпоху механических вычислений было обычным вычитать константу из всех наблюдений (что эквивалентно отбрасыванию первых цифр), чтобы упростить ввод данных. [34] [35] Это пример кодирования данных .

Алгоритм

Расчеты ANOVA можно охарактеризовать как вычисление ряда средних и дисперсий, деление двух дисперсий и сравнение отношения со справочным значением для определения статистической значимости. В этом случае расчет эффекта лечения тривиален: «эффект любого лечения оценивается путем определения разницы между средним значением наблюдений, которые получают лечение, и общим средним значением». [36]

текстовая середина
текстовая середина

Разделение суммы квадратов

Таблица однофакторного дисперсионного анализа, показывающая пример выходных данных

ANOVA использует традиционную стандартизированную терминологию. Уравнение выборочной дисперсии имеет вид , где делитель называется степенями свободы (DF), суммирование называется суммой квадратов (SS), результат называется средним квадратом (MS), а члены в квадрате представляют собой отклонения от выборочное среднее. ANOVA оценивает три выборочные дисперсии: общую дисперсию, основанную на всех отклонениях наблюдения от общего среднего значения, дисперсию ошибок, основанную на всех отклонениях наблюдения от соответствующих средних значений лечения, и дисперсию лечения. Дисперсия лечения основана на отклонениях средних значений лечения от общего среднего, при этом результат умножается на количество наблюдений в каждом лечении, чтобы учесть разницу между дисперсией наблюдений и дисперсией средних значений.

Фундаментальным методом является разбиение общей суммы квадратов SS на компоненты, связанные с эффектами, используемыми в модели. Например, модель упрощенного дисперсионного анализа с одним типом обработки на разных уровнях.

Число степеней свободы DF можно разделить аналогичным образом: один из этих компонентов (то есть для ошибки) определяет распределение хи-квадрат , которое описывает соответствующую сумму квадратов, в то время как то же самое верно для «обработок», если существует никакого лечебного эффекта.

F - тест

Чтобы проверить статистическую значимость одностороннего дисперсионного анализа, мы сверяемся с таблицей F-вероятности, используя степени свободы на уровне альфа 0,05 . После вычисления F-статистики мы сравниваем значение на пересечении каждой степени свободы, также известное как критическое значение. Если F-статистика по величине превышает их критическое значение, мы можем сказать, что статистическая значимость существует на уровне альфа 0,05 .

F - тест используется для сравнения коэффициентов общего отклонения. Например, в однофакторном или однофакторном дисперсионном анализе статистическая значимость проверяется путем сравнения статистики F-критерия.

где MS – среднеквадратичное значение, – количество процедур и – общее количество случаев.

к F -распределению , где степени свободы в числителе и степени свободы в знаменателе. Использование F -распределения является естественным кандидатом, поскольку тестовая статистика представляет собой соотношение двух масштабированных сумм квадратов, каждая из которых соответствует масштабированному распределению хи-квадрат .

Ожидаемое значение F равно (где размер выборки лечения), равное 1 при отсутствии эффекта лечения. По мере того, как значения F превышают 1, доказательства становятся все более несовместимыми с нулевой гипотезой. Два очевидных экспериментальных метода увеличения F — это увеличение размера выборки и уменьшение дисперсии ошибок за счет жесткого экспериментального контроля.

Существует два метода завершения проверки гипотезы ANOVA, оба из которых дают один и тот же результат:

Известно, что F -тест ANOVA почти оптимален в смысле минимизации ложноотрицательных ошибок при фиксированной частоте ложноположительных ошибок (т.е. максимизации мощности при фиксированном уровне значимости). Например, чтобы проверить гипотезу о том, что различные методы лечения имеют одинаковый эффект, значения p F -теста близко приближаются к значениям p перестановочного теста : аппроксимация особенно близка, когда план сбалансирован. [26] [37] Такие тесты перестановок характеризуют тесты с максимальной мощностью против всех альтернативных гипотез , как заметил Розенбаум . [nb 2] F -тест ANOVA (нулевая гипотеза о том, что все методы лечения имеют одинаковый эффект) рекомендуется в качестве практического теста из-за его устойчивости ко многим альтернативным распределениям. [38] [номер 3]

Расширенный алгоритм

ANOVA состоит из отдельных частей; Разделение источников дисперсии и проверка гипотез могут использоваться индивидуально. ANOVA используется для поддержки других статистических инструментов. Регрессия сначала используется для сопоставления более сложных моделей с данными, затем используется ANOVA для сравнения моделей с целью выбора простых моделей, которые адекватно описывают данные. «Такие модели могут быть подобраны без какой-либо ссылки на ANOVA, но затем инструменты ANOVA можно использовать, чтобы придать некоторый смысл подобранным моделям и проверить гипотезы о группах коэффициентов». [39] «[Мы] думаем об дисперсионном анализе как о способе понимания и структурирования многоуровневых моделей — не как об альтернативе регрессии, а как об инструменте для обобщения сложных многомерных выводов…» [39 ]

Для одного фактора

Самый простой эксперимент, подходящий для анализа ANOVA, — это полностью рандомизированный эксперимент с одним фактором. Более сложные эксперименты с одним фактором предполагают ограничения на рандомизацию и включают полностью рандомизированные блоки и латинские квадраты (и варианты: греко-латинские квадраты и т. д.). Более сложные эксперименты разделяют многие сложности множества факторов. Доступно относительно полное обсуждение анализа (модели, сводки данных, таблица ANOVA) полностью рандомизированного эксперимента .

Существуют некоторые альтернативы традиционному одностороннему дисперсионному анализу, например: гетероскедастический F-критерий Уэлча, гетероскедастический F-критерий Уэлча с усеченными средними и дисперсиями Винзора, тест Брауна-Форсайта, тест Александера-Говерна, тест второго порядка Джеймса и тест Крускала-Уоллиса. , доступно в onewaytests R

Полезно представлять каждую точку данных в следующей форме, называемой статистической моделью:

То есть мы представляем себе аддитивную модель, которая утверждает, что каждая точка данных может быть представлена ​​путем суммирования трех величин: истинного среднего значения, усредненного по всем исследуемым уровням факторов, плюс приростной компонент, связанный с конкретным столбцом (уровень фактора), плюс окончательный результат. компонент, связанный со всем остальным, влияющим на это конкретное значение данных.

По нескольким факторам

ANOVA обобщает изучение воздействия множества факторов. Когда эксперимент включает наблюдения на всех комбинациях уровней каждого фактора, его называют факториалом . Факторные эксперименты более эффективны, чем серия однофакторных экспериментов, и эффективность растет с увеличением числа факторов. [40] Следовательно, факторные планы широко используются.

Использование ANOVA для изучения влияния множества факторов имеет сложности. В трехфакторном дисперсионном анализе с факторами x, y и z модель ANOVA включает члены для основных эффектов (x, y, z) и условия для взаимодействий (xy, xz, yz, xyz). Все термины требуют проверки гипотез. Увеличение количества терминов взаимодействия увеличивает риск того, что некоторые проверки гипотез случайно дадут ложноположительный результат. К счастью, опыт показывает, что взаимодействия высокого порядка встречаются редко. [41] [ требуется проверка ] Способность обнаруживать взаимодействия является основным преимуществом многофакторного дисперсионного анализа. Проверка одного фактора за раз скрывает взаимодействия, но дает явно противоречивые экспериментальные результаты. [40]

При взаимодействии следует соблюдать осторожность; Сначала проверьте условия взаимодействия и расширьте анализ за пределы ANOVA, если взаимодействия обнаружены. Тексты различаются рекомендациями относительно продолжения процедуры ANOVA после обнаружения взаимодействия. Взаимодействия усложняют интерпретацию экспериментальных данных. Ни расчеты значимости, ни предполагаемые эффекты лечения не могут приниматься за чистую монету. «Значительное взаимодействие часто маскирует значимость основных эффектов». [42] Для улучшения понимания рекомендуется использовать графические методы. Регрессия часто бывает полезна. Подробное обсуждение взаимодействий доступно у Кокса (1958). [43] Некоторые взаимодействия можно удалить (путем преобразований), а другие — нет.

Для снижения затрат используются различные методы с многофакторным дисперсионным анализом. Одним из методов, используемых в факторных планах, является минимизация репликации (возможно, отсутствие репликации при поддержке аналитических ухищрений ) и объединение групп, когда эффекты оказываются статистически (или практически) незначительными. Эксперимент со многими незначительными факторами может развалиться в эксперимент с несколькими факторами, поддерживаемыми множеством повторений. [44]

Сопутствующий анализ

Некоторый анализ необходим для поддержки плана эксперимента , в то время как другой анализ проводится после того, как формально установлено, что изменения факторов приводят к статистически значимым изменениям в ответах. Поскольку экспериментирование является итеративным, результаты одного эксперимента меняют планы последующих экспериментов.

Подготовительный анализ

Количество экспериментальных единиц

При планировании эксперимента количество экспериментальных единиц планируется удовлетворить целям эксперимента. Эксперименты часто носят последовательный характер.

Ранние эксперименты часто предназначены для получения несмещенных к среднему оценок эффектов лечения и экспериментальных ошибок. Более поздние эксперименты часто предназначены для проверки гипотезы о том, что эффект лечения имеет важную величину; в этом случае количество экспериментальных единиц выбирается таким образом, чтобы эксперимент, помимо прочего, соответствовал бюджету и имел достаточную мощность.

В психологии обычно требуется отчет об анализе размера выборки. «Предоставьте информацию о размере выборки и процессе, который привел к принятию решений о размере выборки». [45] Анализ, который записывается в протокол эксперимента до его проведения, рассматривается в заявках на гранты и в административных наблюдательных комиссиях.

Помимо анализа мощности, существуют менее формальные методы выбора количества экспериментальных единиц. К ним относятся графические методы, основанные на ограничении вероятности ложноотрицательных ошибок, графические методы, основанные на ожидаемом увеличении вариации (выше остатков) и методы, основанные на достижении желаемого доверительного интервала. [46]

Анализ мощности

Анализ мощности часто применяется в контексте ANOVA, чтобы оценить вероятность успешного отклонения нулевой гипотезы, если мы предполагаем определенный дизайн ANOVA, размер эффекта в популяции, размер выборки и уровень значимости. Анализ мощности может помочь в планировании исследования, определяя, какой размер выборки потребуется, чтобы иметь разумную вероятность отклонения нулевой гипотезы, когда альтернативная гипотеза верна. [47] [48] [49] [50]

Размер эффекта

Размер эффекта

Для ANOVA было предложено несколько стандартизированных показателей эффекта, чтобы суммировать силу связи между предиктором(ами) и зависимой переменной или общую стандартизированную разницу полной модели. Стандартизированные оценки размера эффекта облегчают сравнение результатов исследований и дисциплин. Однако, хотя стандартизированные размеры эффекта обычно используются в большей части профессиональной литературы, для целей отчетности может быть предпочтительнее нестандартизированная мера размера эффекта, которая имеет непосредственно «значимые» единицы. [51]

Подтверждение модели

Иногда проводятся тесты, чтобы определить, нарушены ли предположения ANOVA. Остатки исследуются или анализируются для подтверждения гомоскедастичности и общей нормальности. [52] Остатки должны иметь вид шума (нормальное нулевое среднее распределение), когда они отображаются как функция от чего-либо, включая время и значения смоделированных данных. Тенденции намекают на взаимодействие между факторами или наблюдениями.

Последующие тесты

Статистически значимый эффект в ANOVA часто сопровождается дополнительными тестами. Это можно сделать для того, чтобы оценить, какие группы отличаются от других групп, или проверить различные другие целенаправленные гипотезы. Последующие тесты часто различают по тому, являются ли они «плановыми» ( априори ) или «постфактум ». Плановые тесты определяются до просмотра данных, а апостериорные тесты задуманы только после просмотра данных (хотя термин «апостериорный» используется непоследовательно).

Последующие тесты могут представлять собой «простые» попарные сравнения средних значений отдельных групп или могут быть «составными» сравнениями (например, сравнение объединенных средних значений групп A, B и C со средним значением группы D). При сравнении можно также использовать критерии тренда, такие как линейные и квадратичные зависимости, когда независимая переменная включает упорядоченные уровни. Часто последующие тесты включают метод корректировки проблемы множественных сравнений .

Последующие тесты для определения того, какие конкретные группы, переменные или факторы имеют статистически разные средние значения, включают тест диапазона Тьюки и новый тест множественных диапазонов Дункана . В свою очередь, эти тесты часто сопровождаются методологией компактного буквенного отображения (CLD), чтобы сделать результаты упомянутых тестов более прозрачными для нестатистической аудитории.

Дизайн исследования

Существует несколько типов ANOVA. Многие статистики основывают ANOVA на плане эксперимента [53] , особенно на протоколе, который определяет случайное назначение лечения испытуемым; Описание механизма назначения в протоколе должно включать спецификацию структуры обработки и любой блокировки . Также принято применять ANOVA к данным наблюдений с использованием соответствующей статистической модели. [54]

В некоторых популярных проектах используются следующие типы дисперсионного анализа:

Предостережения

Сбалансированные эксперименты (с одинаковым размером выборки для каждого варианта лечения) относительно легко интерпретировать; несбалансированные эксперименты более сложны. Для однофакторного (одностороннего) ANOVA корректировка несбалансированных данных проста, но несбалансированному анализу не хватает как надежности, так и мощности. [57] В более сложных конструкциях отсутствие баланса приводит к дальнейшим осложнениям. «Свойство ортогональности основных эффектов и взаимодействий, присутствующее в сбалансированных данных, не переносится на несбалансированный случай. Это означает, что обычные методы дисперсионного анализа не применимы. Следовательно, анализ несбалансированных факториалов гораздо сложнее, чем анализ сбалансированных. конструкции». [58] В общем случае: «Дисперсионный анализ может быть применен и к несбалансированным данным, но тогда суммы квадратов, средние квадраты и F -отношения будут зависеть от порядка, в котором рассматриваются источники вариации». [39]

ANOVA (частично) является тестом статистической значимости. Американская психологическая ассоциация (и многие другие организации) придерживается мнения, что простого сообщения о статистической значимости недостаточно и что предпочтительнее сообщать о доверительных границах. [51]

Обобщения

ANOVA считается частным случаем линейной регрессии [59] [60], которая, в свою очередь, является частным случаем общей линейной модели . [61] Все считают, что наблюдения представляют собой сумму модели (подгонки) и невязки (ошибки), которую необходимо минимизировать.

Критерий Краскала -Уоллиса и критерий Фридмана являются непараметрическими тестами, которые не полагаются на предположение о нормальности. [62] [63]

Связь с линейной регрессией

Ниже мы поясним связь между многофакторным дисперсионным анализом и линейной регрессией.

Линейно переупорядочите данные так, чтобы -е наблюдение было связано с ответом и факторами , где обозначает различные факторы и представляет собой общее количество факторов. В однофакторном дисперсионном анализе и в двустороннем дисперсионном анализе . Кроме того, мы предполагаем, что -й фактор имеет уровни, а именно . Теперь мы можем оперативно закодировать факторы в размерный вектор .

Функция горячего кодирования определена так, что -я запись равна

Имея эти обозначения, мы теперь имеем точную связь с линейной регрессией. Мы просто регрессируем реакцию против вектора . Однако есть опасения по поводу идентифицируемости . Чтобы преодолеть такие проблемы, мы предполагаем, что сумма параметров внутри каждого набора взаимодействий равна нулю. Отсюда можно использовать F -статистику или другие методы для определения значимости отдельных факторов.

Пример

Мы можем рассмотреть пример двустороннего взаимодействия, где мы предполагаем, что первый фактор имеет 2 уровня, а второй фактор — 3 уровня.

Определите if и if , т.е. является горячим кодированием первого фактора и является горячим кодированием второго фактора.

При этом,

Смотрите также

Сноски

  1. ^ Аддитивность единичного лечения в большинстве текстов называется просто аддитивностью. Хинкельманн и Кемпторн добавляют прилагательные и различают аддитивность в строгом и широком смысле. Это позволяет подробно рассмотреть несколько источников ошибок (обработка, состояние, выбор, измерение и выборка) на стр. 161.
  2. ^ Розенбаум (2002, стр. 40) цитирует раздел 5.7 (Тест перестановок), теорему 2.3 (фактически теорему 3, стр. 184) из книги Лемана « Проверка статистических гипотез» (1959).
  3. ^ F - тест для сравнения дисперсий имеет неоднозначную репутацию. Не рекомендуется в качестве проверки гипотезы определять, имеют ли две разные выборки одинаковую дисперсию. Рекомендуется для ANOVA, когда сравниваются две оценки дисперсии одной и той же выборки. Хотя F -тест обычно не является устойчивым к отклонениям от нормальности, было обнаружено, что он устойчив в особом случае ANOVA. Цитаты из Moore & McCabe (2003): «Дисперсионный анализ использует статистику F, но это не то же самое, что статистика F для сравнения двух стандартных отклонений генеральной совокупности». (стр. 554) «F-тест и другие процедуры вывода о дисперсиях настолько ненадежны, что от них мало пользы на практике». (стр. 556) «[ F -критерий ANOVA ] относительно нечувствителен к умеренным отклонениям от нормальности и неравным дисперсиям, особенно когда размеры выборки схожи». (стр. 763) ANOVA предполагает гомоскедастичность, но она устойчива. Статистический тест гомоскедастичности ( F -тест) не является надежным. Мур и Маккейб рекомендуют эмпирическое правило.

Примечания

  1. ^ Стиглер (1986)
  2. ^ Стиглер (1986, стр. 134)
  3. ^ Стиглер (1986, стр. 153)
  4. ^ Стиглер (1986, стр. 154–155)
  5. ^ Стиглер (1986, стр. 240–242)
  6. ^ Стиглер (1986, Глава 7 - Психофизика как контрапункт)
  7. ^ Стиглер (1986, стр. 253)
  8. ^ Стиглер (1986, стр. 314–315)
  9. ^ Корреляция между родственниками на основании предположения о менделевском наследовании . Рональд А. Фишер. Философские труды Королевского общества Эдинбурга . 1918 г. (том 52, стр. 399–433).
  10. ^ Фишер, Рональд А. (1921). «) Исследования вариаций сельскохозяйственных культур. I. Исследование урожайности протравленного зерна из Бродбалка». Журнал сельскохозяйственных наук . 11 (2): 107–135. дои : 10.1017/S0021859600003750. HDL : 2440/15170 . S2CID  86029217.
  11. ^ Фишер, Рональд А. (1923). «) Исследования вариаций сельскохозяйственных культур. II. Реакция различных сортов картофеля на навоз». Журнал сельскохозяйственных наук . 13 (3): 311–320. дои : 10.1017/S0021859600003592. hdl : 2440/15179 . S2CID  85985907.
  12. ^ Шеффе (1959, стр. 291, «Модели рандомизации были впервые сформулированы Нейманом (1923) для полностью рандомизированного плана, Нейманом (1935) для рандомизированных блоков, Уэлчем (1937) и Питманом (1937) для латинского квадрата под определенную нулевую гипотезу, а также Кемпторна (1952, 1955) и Уилка (1955) для многих других планов».)
  13. ^ Монтгомери (2001, Глава 12: Эксперименты со случайными факторами)
  14. ^ Гельман (2005, стр. 20–21)
  15. ^ Снедекор, Джордж В.; Кокран, Уильям Г. (1967). Статистические методы (6-е изд.). п. 321.
  16. ^ Кокран и Кокс (1992, стр. 48)
  17. ^ Хауэлл (2002, стр. 323)
  18. ^ Андерсон, Дэвид Р.; Суини, Деннис Дж.; Уильямс, Томас А. (1996). Статистика для бизнеса и экономики (6-е изд.). Миннеаполис/Сент. Пол: Вест Паб. Ко, стр. 452–453. ISBN 978-0-314-06378-6.
  19. ^ Анскомб (1948)
  20. ^ Хинкельманн, Клаус; Кемпторн, Оскар (2005). Планирование и анализ экспериментов, Том 2: Расширенный план эксперимента. Джон Уайли. п. 213. ИСБН 978-0-471-70993-0.
  21. ^ Кокс, ДР (1992). Планирование экспериментов . Уайли. ISBN 978-0-471-57429-3.
  22. ^ Кемпторн (1979, стр. 30)
  23. ^ Аб Кокс (1958, Глава 2: Некоторые ключевые предположения)
  24. ^ Хинкельманн и Кемпторн (2008, Том 1, повсюду. Представлено в разделе 2.3.3: Принципы планирования эксперимента; Линейная модель; Краткое описание модели)
  25. ^ Хинкельманн и Кемпторн (2008, Том 1, Раздел 6.3: Полностью рандомизированный дизайн; Производная линейная модель)
  26. ^ ab Хинкельманн и Кемпторн (2008, Том 1, Раздел 6.6: Полностью рандомизированный дизайн; Приближение теста рандомизации)
  27. ^ Бэйли (2008, глава 2.14 «Более общая модель» в Бейли, стр. 38–40)
  28. ^ Хинкельманн и Кемпторн (2008, том 1, глава 7: Сравнение методов лечения)
  29. ^ Кемпторн (1979, стр. 125–126, «Экспериментатор должен решить, какие из различных причин, которые, по его мнению, будут вызывать изменения в его результатах, должны контролироваться экспериментально. Те причины, которые он не контролирует экспериментально, потому что он о них не знает». , он должен контролировать с помощью устройства рандомизации». «[Только] когда методы лечения в эксперименте применяются экспериментатором с использованием процедуры полной рандомизации, возникает цепочка индуктивного вывода звука. Только при этих обстоятельствах экспериментатор может любые эффекты, которые он наблюдает, он приписывает лечению и только лечению. В таких обстоятельствах его выводы надежны в статистическом смысле».)
  30. ^ Фридман [ нужна полная цитата ]
  31. ^ Монтгомери (2001, Раздел 3.8: Обнаружение эффектов дисперсии)
  32. ^ Хинкельманн и Кемпторн (2008, Том 1, Раздел 6.10: Полностью рандомизированный дизайн; Преобразования)
  33. ^ Бэйли (2008)
  34. ^ Монтгомери (2001, Раздел 3-3: Эксперименты с одним фактором: дисперсионный анализ; Анализ модели с фиксированными эффектами)
  35. ^ Кокран и Кокс (1992, пример, стр. 2)
  36. ^ Кокран и Кокс (1992, стр. 49)
  37. ^ Хинкельманн и Кемпторн (2008, Том 1, Раздел 6.7: Полностью рандомизированный дизайн; CRD с неодинаковым количеством повторений)
  38. ^ Мур и Маккейб (2003, стр. 763)
  39. ^ abc Гельман (2008)
  40. ^ ab Монтгомери (2001, Раздел 5-2: Введение в факторные планы; преимущества факториалов)
  41. ^ Belle (2008, раздел 8.4: Взаимодействия высокого порядка происходят редко)
  42. ^ Монтгомери (2001, Раздел 5-1: Введение в факторный план; Основные определения и принципы)
  43. ^ Кокс (1958, Глава 6: Основные идеи факторных экспериментов)
  44. ^ Монтгомери (2001, Раздел 5-3.7: Введение в факторный план; Двухфакторный факторный план; Одно наблюдение на ячейку)
  45. ^ Уилкинсон (1999, стр. 596)
  46. ^ Монтгомери (2001, Раздел 3-7: Определение размера выборки)
  47. ^ Хауэлл (2002, Глава 8: Власть)
  48. ^ Хауэлл (2002, раздел 11.12: Мощность (в ANOVA))
  49. ^ Хауэлл (2002, раздел 13.7: Анализ мощности факторных экспериментов)
  50. ^ Мур и Маккейб (2003, стр. 778–780)
  51. ^ Аб Уилкинсон (1999, стр. 599)
  52. ^ Монтгомери (2001, Раздел 3-4: Проверка адекватности модели)
  53. ^ Cochran & Cox (1957, стр. 9, «Общее правило [состоит] в том, что способ проведения эксперимента определяет не только возможность сделать выводы, но и расчеты, необходимые для их выполнения».)
  54. ^ "АНОВА Дизайн". bluebox.creighton.edu . Проверено 23 января 2023 г.
  55. ^ «Односторонний/однофакторный дисперсионный анализ». Архивировано из оригинала 7 ноября 2014 года.
  56. ^ «Вероятная ошибка среднего» (PDF) . Биометрика . 6 :1–25. 1908. дои : 10.1093/biomet/6.1.1. hdl :10338.dmlcz/143545.
  57. ^ Монтгомери (2001, раздел 3-3.4: Несбалансированные данные)
  58. ^ Монтгомери (2001, Раздел 14-2: Несбалансированные данные в факторном дизайне)
  59. ^ Гельман (2005, стр.1) (с уточнениями в более позднем тексте)
  60. ^ Монтгомери (2001, раздел 3.9: Регрессионный подход к дисперсионному анализу)
  61. ^ Хауэлл (2002, стр. 604)
  62. ^ Хауэлл (2002, Глава 18: Повторная выборка и непараметрические подходы к данным)
  63. ^ Монтгомери (2001, Раздел 3-10: Непараметрические методы дисперсионного анализа)

Рекомендации

дальнейшее чтение

Внешние ссылки