Размер эффекта

В статистике размер эффекта — это величина, измеряющая силу связи между двумя переменными в совокупности, или оценка этой величины на основе выборки. Оно может относиться к значению статистики, рассчитанному на основе выборки данных , значению параметра для гипотетической совокупности или к уравнению, которое определяет, как статистика или параметры приводят к значению размера эффекта. ^[1] Примеры величины эффекта включают корреляцию между двумя переменными, ^[2]коэффициент регрессии в регрессии, среднюю разницу или риск возникновения определенного события (например, сердечного приступа). Размеры эффекта дополняют проверку статистических гипотез и играют важную роль в анализе мощности , планировании размера выборки и в метаанализе . Группа методов анализа данных, касающихся величины эффекта, называется оценочной статистикой .

Размер эффекта является важным компонентом при оценке убедительности статистического утверждения и является первым элементом (величиной) критериев MAGIC . Стандартное отклонение размера эффекта имеет решающее значение, поскольку оно указывает, насколько неопределенность включена в измерение. Слишком большое стандартное отклонение сделает измерение практически бессмысленным. В метаанализе, целью которого является объединение нескольких величин эффекта, неопределенность в величине эффекта используется для взвешивания размеров эффекта, поэтому крупные исследования считаются более важными, чем небольшие исследования. Неопределенность размера эффекта рассчитывается по-разному для каждого типа размера эффекта, но обычно требуется знать только размер выборки исследования ( N ) или количество наблюдений ( n ) в каждой группе.

Сообщение о размерах эффекта или его оценках (оценка эффекта [EE], оценка эффекта) считается хорошей практикой при представлении результатов эмпирических исследований во многих областях. ^[3]^[4] Сообщение о величине эффекта облегчает интерпретацию важности результата исследования, в отличие от его статистической значимости . ^[5] Размеры эффекта особенно важны в социальных науках и медицинских исследованиях (где важен размер эффекта лечения ).

Величина эффекта может измеряться в относительном или абсолютном выражении. По относительной величине эффекта две группы напрямую сравниваются друг с другом, например, по отношению шансов и относительным рискам . Для абсолютных размеров эффекта большее абсолютное значение всегда указывает на более сильный эффект. Многие типы измерений могут быть выражены как абсолютные или относительные, и их можно использовать вместе, поскольку они передают разную информацию. Видная рабочая группа в исследовательском сообществе психологов дала следующую рекомендацию:

Всегда указывайте величину эффекта для основных исходов... Если единицы измерения имеют смысл на практическом уровне (например, количество выкуриваемых сигарет в день), то мы обычно предпочитаем нестандартизированную меру (коэффициент регрессии или среднюю разницу) стандартизированной мере. ( р или д ). ^[3]

Обзор

Размеры эффекта совокупности и выборки

Как и в статистической оценке , истинный размер эффекта отличается от наблюдаемого размера эффекта, например, для измерения риска заболевания в популяции (размер эффекта популяции) можно измерить риск внутри выборки этой популяции (размер эффекта выборки). . Соглашения для описания истинных и наблюдаемых размеров эффекта следуют стандартной статистической практике: один из распространенных подходов заключается в использовании греческих букв, таких как ρ [rho], для обозначения параметров популяции и латинских букв, таких как r , для обозначения соответствующей статистики. Альтернативно, над параметром совокупности можно поместить «шляпу» для обозначения статистики, например, в качестве оценки параметра . ${\hat {\rho }}$ $\rho$

Как и в любой статистической ситуации, размеры эффекта оцениваются с ошибкой выборки и могут быть смещены, если используемый оценщик размера эффекта не соответствует способу отбора данных и способу проведения измерений. Примером этого является предвзятость публикации , которая возникает, когда ученые сообщают о результатах только тогда, когда предполагаемые размеры эффекта велики или статистически значимы. В результате, если многие исследователи проводят исследования с низкой статистической мощностью, сообщаемые размеры эффекта будут иметь тенденцию превышать истинные (популяционные) эффекты, если таковые имеются. ^[6] Другой пример, когда размеры эффекта могут быть искажены, - это эксперимент с несколькими испытаниями, где расчет размера эффекта основан на усредненном или агрегированном ответе по всем испытаниям. ^[7]

Исследования меньшего размера иногда показывают другие, часто более крупные, размеры эффекта, чем более крупные исследования. Это явление известно как эффект небольшого исследования, который может сигнализировать о предвзятости публикации. ^[8]

Связь со статистикой тестирования

Размеры эффекта на основе выборки отличаются от тестовой статистики , используемой при проверке гипотез, тем, что они оценивают силу (величину), например, очевидной взаимосвязи, а не назначают уровень значимости , отражающий, может ли величина наблюдаемой взаимосвязи быть обусловлена на случайность. Размер эффекта не определяет напрямую уровень значимости, и наоборот. При достаточно большом размере выборки ненулевое статистическое сравнение всегда будет показывать статистически значимый результат, если только размер эффекта совокупности не равен точно нулю (и даже там оно будет демонстрировать статистическую значимость с частотой используемой ошибки типа I). Например, выборочный коэффициент корреляции Пирсона , равный 0,01, является статистически значимым, если размер выборки равен 1000. Сообщение только о значимом значении p из этого анализа может ввести в заблуждение, если корреляция 0,01 слишком мала, чтобы представлять интерес для конкретного приложения.

Стандартизированные и нестандартизированные размеры эффекта

Термин «размер эффекта» может относиться к стандартизированной мере эффекта (например, r , d Коэна или отношение шансов ) или к нестандартизированной мере (например, разнице между групповыми средними значениями или нестандартизированными коэффициентами регрессии). Стандартизированные меры размера эффекта обычно используются, когда:

метрики изучаемых переменных не имеют внутреннего значения (например, балл в личностном тесте по произвольной шкале),
результаты нескольких исследований объединяются,
некоторые или все исследования используют разные шкалы, или
желательно передать величину эффекта относительно изменчивости популяции.

В метаанализе стандартизированные размеры эффекта используются в качестве общей меры, которую можно рассчитать для разных исследований, а затем объединить в общую сводку.

Интерпретация

Следует ли интерпретировать величину эффекта как малую, среднюю или большую, зависит от ее основного контекста и ее практического определения. Традиционные критерии Коэна «малый », «средний » и «большой ^{» [9]} почти повсеместно распространены во многих областях, хотя Коэн ^[9] предупреждал:

«Термины «малый», «средний» и «большой» относительны не только друг к другу, но и к области поведенческой науки или, более конкретно, к конкретному содержанию и методу исследования, используемому в любом конкретном исследовании. ...Перед лицом этой относительности существует определенный риск, присущий предложению традиционных рабочих определений этих терминов для использования в анализе власти в такой разнообразной области исследований, как наука о поведении. получить, чем потерять, путем предоставления общей общепринятой системы отсчета, которую рекомендуется использовать только тогда, когда нет лучшей основы для оценки индекса ES». (стр. 25)

В двух примерах Савиловский ^[10] пришел к выводу: «Основываясь на текущих результатах исследований в прикладной литературе, кажется целесообразным пересмотреть эмпирические правила для размеров эффекта», принимая во внимание предостережения Коэна, и расширил описания, включив в них очень небольшие , очень большой и огромный . Те же стандарты де-факто могут быть разработаны и для других планировок.

Лент ^[11] отметил «среднюю» величину эффекта: «Вы выберете одно и то же n независимо от точности или надежности вашего инструмента, а также от узости или разнообразия ваших объектов. Очевидно, что здесь игнорируются важные соображения. Исследователи должны интерпретировать существенное значение их результатов, обосновывая их значимым контекстом или количественно оценивая их вклад в знание, а описания величины эффекта Коэна могут быть полезны в качестве отправной точки». ^[5] Аналогичным образом, в отчете, спонсируемом Министерством образования США, говорится: «Широко распространенное неизбирательное использование общих значений малого, среднего и большого размера эффекта Коэна для характеристики размера эффекта в областях, к которым его нормативные значения не применимы, таким образом, также неуместно и вводит в заблуждение». ." ^[12]

Они предположили, что «подходящими нормами являются нормы, основанные на распределении размеров эффекта для сопоставимых показателей результатов от сопоставимых вмешательств, нацеленных на сопоставимые выборки». Таким образом, если исследование в области, где большинство вмешательств являются незначительными, дало небольшой эффект (по критериям Коэна), эти новые критерии назвали бы его «большим». По теме см. парадокс Абельсона и парадокс Савиловского. ^[13]^[14]^[15]

Типы

Известно от 50 до 100 различных мер величины эффекта. Многие величины эффекта разных типов могут быть преобразованы в другие типы, поскольку многие из них оценивают разделение двух распределений, поэтому они математически связаны. Например, коэффициент корреляции можно преобразовать в d Коэна и наоборот.

Семейство корреляций: размеры эффекта на основе «объяснения дисперсии».

Эти величины эффекта оценивают величину дисперсии внутри эксперимента, которая «объясняется» или «учитывается» моделью эксперимента ( Объясненная вариация ).

Пирсона r или коэффициент корреляции

Корреляция Пирсона , часто обозначаемая r и введенная Карлом Пирсоном , широко используется в качестве величины эффекта , когда доступны парные количественные данные; например, если бы кто-то изучал взаимосвязь между массой тела при рождении и продолжительностью жизни. Коэффициент корреляции также можно использовать, когда данные являются двоичными. Величина r Пирсона может варьироваться от -1 до 1, где -1 указывает на идеальную отрицательную линейную связь, 1 указывает на идеальную положительную линейную связь, а 0 указывает на отсутствие линейной связи между двумя переменными. Коэн дает следующие рекомендации для социальных наук: ^[9]^[16]

Коэффициент детерминации ( r ² или R ² )

Соответствующая величина эффекта равна r ² , коэффициенту детерминации (также называемому R ² или « r -квадрат»), рассчитываемому как квадрат корреляции Пирсона r . В случае парных данных это мера доли дисперсии, общей для двух переменных, которая варьируется от 0 до 1. Например, при r 0,21 коэффициент детерминации равен 0,0441, что означает, что 4,4% дисперсия любой переменной используется совместно с другой переменной. R ^{2 всегда}положителен , поэтому не передает направление корреляции между двумя переменными.

Эта-квадрат ( η ² )

Эта-квадрат описывает соотношение дисперсии, объясняемое в зависимой переменной предиктором при контроле других предикторов, что делает его аналогом r ² . Эта-квадрат — это смещенная оценка дисперсии, объясняемой моделью в совокупности (он оценивает только размер эффекта в выборке). Эта оценка имеет тот же недостаток, что и r ² , заключающийся в том, что каждая дополнительная переменная автоматически увеличивает значение η ² . Кроме того, он измеряет объясненную дисперсию выборки, а не генеральной совокупности, а это означает, что он всегда будет переоценивать размер эффекта, хотя смещение становится меньше по мере увеличения выборки.

\eta ^{2}={\frac {SS_{\text{Treatment}}}{SS_{\text{Total}}}}.

Омега-квадрат ( ω ² )

Менее смещенная оценка дисперсии, объясняемой в совокупности, равна ω ²^[17]

\omega ^{2}={\frac {{\text{SS}}_{\text{treatment}}-df_{\text{treatment}}\cdot {\text{MS}}_{\ text{error}}}{{\text{SS}}_{\text{total}}+{\text{MS}}_{\text{error}}}}.

Эта форма формулы ограничена анализом между субъектами с одинаковыми размерами выборки во всех ячейках. ^[17] Поскольку оно менее смещено (хотя и не несмещено ), ω ² предпочтительнее η ² ; однако расчеты для комплексного анализа могут быть более неудобными. Обобщенная форма оценки была опубликована для межсубъектного и внутрисубъектного анализа, повторных измерений, экспериментов со смешанным дизайном и рандомизированным блочным дизайном. ^[18] Кроме того, были опубликованы методы расчета частичного ω ² для отдельных факторов и комбинированных факторов в планах, содержащих до трех независимых переменных. ^[18]

Коэна f ²

Коэн f ² — это одна из нескольких мер величины эффекта, которые можно использовать в контексте F-теста для ANOVA или множественной регрессии . Величина смещения (переоценка размера эффекта для ANOVA) зависит от смещения основного измерения объясняемой дисперсии (например, R ² , η ² , ω ² ).

Показатель величины эффекта f ² для множественной регрессии определяется как:

f^{2}={R^{2} \over 1-R^{2}}

R ²квадрат множественной корреляции

Аналогично, f ² можно определить как:

f^{2}={\eta ^{2} \over 1-\eta ^{2}}

f^{2}={\omega ^{2} \over 1-\omega ^{2}}

^[19]

Мера размера эффекта для последовательной множественной регрессии, а также общая для моделирования PLS ^[20] определяется как: $f^{2}$

f^{2}={R_{AB}^{2}-R_{A}^{2} \over 1-R_{AB}^{2}}

R ²_AAR ²_ABAB. f ²малымисреднимибольшими^[9]

0.1^{2}

0.25^{2}

0.4^{2}

Коэна также можно найти для факторного дисперсионного анализа (ANOVA), работающего в обратном направлении, используя: ${\hat {f}}$

{\hat {f}}_{\text{effect}}={\sqrt {(F_{\text{effect}}df_{\text{effect}}/N)}}.

В сбалансированном дизайне (эквивалентные размеры выборки в группах) дисперсионного анализа соответствующий параметр совокупности равен $f^{2}$

{SS(\mu _{1},\mu _{2},\dots ,\mu _{K})} \over {K\times \sigma ^{2}},

μ _jj ^-йKσ —SSсумма квадратов

вопрос Коэна

Другая мера, которая используется с корреляционными различиями, — это q Коэна. Это разница между двумя коэффициентами регрессии Пирсона, преобразованными Фишером. В символах это

q={\frac {1}{2}}\log {\frac {1+r_{1}}{1-r_{1}}}-{\frac {1}{2}}\log {\frac {1+r_{2}}{1-r_{2}}}

где r ₁ и r ₂ — сравниваемые регрессии. Ожидаемое значение q равно нулю, а его дисперсия равна

\operatorname {var} (q)={\frac {1}{N_{1}-3}}+{\frac {1}{N_{2}-3}}

N ₁N ₂

Семейство различий: размеры эффекта, основанные на различиях между средними значениями.

Исходный размер эффекта, относящийся к сравнению двух групп, по своей сути рассчитывается как разница между двумя средними значениями. Однако для облегчения интерпретации принято стандартизировать величину эффекта; Различные соглашения по статистической стандартизации представлены ниже.

Стандартизированная средняя разница

Размер эффекта (популяции) θ , основанный на средних значениях, обычно учитывает стандартизированную среднюю разницу (SMD) между двумя популяциями ^[21]^{: 78}

\theta ={\frac {\mu _{1}-\mu _{2}}{\sigma }},

1 _—2 _—стандартное отклонение,

В практических условиях значения совокупности обычно неизвестны и должны быть оценены на основе выборочной статистики. Несколько версий размеров эффекта, основанных на средних значениях, различаются в зависимости от того, какая статистика используется.

Эта форма для размера эффекта напоминает вычисление статистики t -критерия с той важной разницей, что статистика t -критерия включает коэффициент . Это означает, что для данного размера эффекта уровень значимости увеличивается с размером выборки. В отличие от статистики t -теста, размер эффекта направлен на оценку параметра совокупности и не зависит от размера выборки. ${\sqrt {n}}$

Значения SMD от 0,2 до 0,5 считаются малыми, от 0,5 до 0,8 — средними, а более 0,8 — большими. ^[22]

Коэн д

d Коэна определяется как разница между двумя средними значениями, деленная на стандартное отклонение данных, т.е.

d={\frac {{\bar {x}}_{1}-{\bar {x}}_{2}}{s}}.

Джейкоб Коэн определил s , объединенное стандартное отклонение , как (для двух независимых выборок): ^[9]^{: 67}

s={\sqrt {\frac {(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}}{n_{1}+n_{2}-2}}}

s_{1}^{2}={\frac {1}{n_{1}-1}}\sum _{i=1}^{n_{1}}(x_{1,i}-{\bar {x}}_{1})^{2},

В таблице ниже содержатся дескрипторы для величин от d = 0,01 до 2,0, первоначально предложенные Коэном и расширенные Савиловским. ^[10]

Другие авторы выбирают несколько иной расчет стандартного отклонения, ссылаясь на « d Коэна », где знаменатель без «-2» ^[23]^[24]^{: 14}

s={\sqrt {\frac {(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}}{n_{1}+n_{2}}}}

Это определение « dмаксимального правдоподобия ^[21]g

Используя две парные выборки, мы смотрим на распределение разностных оценок. В этом случае s — это стандартное отклонение этого распределения разностных оценок. Это создает следующую связь между t-статистикой для проверки разницы в средних значениях двух групп и d Коэна :

t={\frac {{\bar {X}}_{1}-{\bar {X}}_{2}}{\text{SE}}}={\frac {{\bar {X}}_{1}-{\bar {X}}_{2}}{\frac {\text{SD}}{\sqrt {N}}}}={\frac {{\sqrt {N}}({\bar {X}}_{1}-{\bar {X}}_{2})}{SD}}

d={\frac {{\bar {X}}_{1}-{\bar {X}}_{2}}{\text{SD}}}={\frac {t}{\sqrt {N}}}

Коэн d часто используется при оценке размера выборки для статистического тестирования. Меньшее значение d Коэна указывает на необходимость увеличения размера выборки, и наоборот, что впоследствии может быть определено вместе с дополнительными параметрами желаемого уровня значимости и статистической мощности . ^[25]

Для парных выборок Коэн предполагает, что рассчитанное d на самом деле равно d', что не дает правильного ответа для определения мощности теста, и что прежде чем искать значения в предоставленных таблицах, его следует скорректировать на r, как в следующую формулу: ^[26]

d={\frac {d'}{\sqrt {1-r}}}.

Стекло' Δ

В 1976 году Джин В. Гласс предложил оценку размера эффекта, которая использует только стандартное отклонение второй группы ^[21]^{: 78.}

\Delta ={\frac {{\bar {x}}_{1}-{\bar {x}}_{2}}{s_{2}}}

Вторую группу можно рассматривать как контрольную группу, и Гласс утверждал, что если бы несколько курсов лечения сравнивались с контрольной группой, было бы лучше использовать только стандартное отклонение, вычисленное на основе контрольной группы, чтобы размеры эффекта не различались при равных средних значениях. и разные вариации.

При правильном предположении о равных дисперсиях генеральной совокупности объединенная оценка σ является более точной.

Хеджес г

G Хеджеса , предложенный Ларри Хеджесом в 1981 году ^[27], аналогичен другим мерам, основанным на стандартизированной разнице ^[21]^{: 79}

g={\frac {{\bar {x}}_{1}-{\bar {x}}_{2}}{s^{*}}}

s^{*}

s^{*}={\sqrt {\frac {(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}}{n_{1}+n_{2}-2}}}.

Однако в качестве оценки размера эффекта популяции θ он является смещенным . Тем не менее, это смещение можно приблизительно исправить умножением на коэффициент

g^{*}=J(n_{1}+n_{2}-2)\,\,g\,\approx \,\left(1-{\frac {3}{4(n_{1}+n_{2})-9}}\right)\,\,g

Хеджес и Олкин^{[21] , но это не то же самое, что}dJгамма-функцию ^[21]^{: 104}

g^{*}

J(a)={\frac {\Gamma (a/2)}{{\sqrt {a/2\,}}\,\Gamma ((a-1)/2)}}.

^[28]

Ψ, среднеквадратичный стандартизованный эффект

Аналогичным оценщиком размера эффекта для множественных сравнений (например, ANOVA ) является стандартизированный среднеквадратический эффект Ψ: ^[19]

\Psi ={\sqrt {{\frac {1}{k-1}}\cdot \sum _{j=1}^{k}\left({\frac {\mu _{j}-\mu }{\sigma }}\right)^{2}}}

По сути, это представляет собой комплексную разницу всей модели, скорректированную по среднеквадратичному значению, аналогично d или g .

Кроме того, было представлено обобщение для многофакторных планов. ^[19]

Распределение размеров эффекта по средствам

При условии, что данные распределены по Гауссу , масштабированное Хеджеса g , следует нецентральному t -распределению с параметром нецентральности и $($ $n$ $1$ $+$ $n$ $2$ $- 2)$ степенями свободы. Аналогично, масштабированная Δ Гласса распределяется с $n$ $2$ $- 1$ степенями свободы. ${\textstyle {\sqrt {n_{1}n_{2}/(n_{1}+n_{2})}}\,g}$ ${\textstyle {\sqrt {n_{1}n_{2}/(n_{1}+n_{2})}}\theta }$

Из распределения можно вычислить математическое ожидание и дисперсию размеров эффекта.

В некоторых случаях используются аппроксимации дисперсии на больших выборках. Одно из предположений относительно дисперсии несмещенной оценки Хеджеса: ^[21] ^{: 86.}

{\hat {\sigma }}^{2}(g^{*})={\frac {n_{1}+n_{2}}{n_{1}n_{2}}}+{\frac {(g^{*})^{2}}{2(n_{1}+n_{2})}}.

Другие показатели

Расстояние Махаланобиса (D) представляет собой многомерное обобщение d Коэна, которое учитывает взаимосвязи между переменными. ^[29]

Категориальное семейство: размеры эффекта для ассоциаций между категориальными переменными.

Обычно используемыми мерами связи для теста хи-квадрат являются коэффициент Фи и V Крамера ( иногда называемый фи Крамера и обозначаемый как φ c ₎ . Phi связана с коэффициентом точечной бисериальной корреляции и d Коэна и оценивает степень связи между двумя переменными (2 × 2). ^[30] V Крамера может использоваться с переменными, имеющими более двух уровней.

Фи можно вычислить, найдя квадратный корень из статистики хи-квадрат, разделенный на размер выборки.

Аналогичным образом, V Крамера вычисляется путем извлечения квадратного корня из статистики хи-квадрат, разделенной на размер выборки и длину минимального измерения ( k — меньшее из числа строк r или столбцов c ).

φ _c представляет собой взаимную корреляцию двух дискретных переменных ^[31] и может быть вычислен для любого значения r или c . Однако, поскольку значения хи-квадрат имеют тенденцию увеличиваться с увеличением количества ячеек, чем больше разница между r и c , тем более вероятно, что V будет стремиться к 1 без убедительных доказательств значимой корреляции.

Омега Коэна ( ω )

Другой мерой величины эффекта, используемой в тестах хи-квадрат, является омега Коэна ( ). Это определяется как $\omega$

\omega ={\sqrt {\sum _{i=1}^{m}{\frac {(p_{1i}-p_{0i})^{2}}{p_{0i}}}}}

p _{0 i}i- ^йH ₀p _{1 i}i- ^йH ₁m

В «Статистическом анализе мощности для поведенческих наук» (1988, стр. 224–225) Коэн дает следующее общее руководство по интерпретации омеги (см. таблицу ниже), но предостерегает от ее «возможной неуместности в любом данном существенном контексте» и советует использовать вместо этого контекстно-зависимое суждение.

Коэффициент шансов

Отношение шансов (OR) — еще один полезный размер эффекта. Это уместно, когда исследовательский вопрос фокусируется на степени связи между двумя двоичными переменными . Например, рассмотрим исследование правописания. В контрольной группе два ученика сдают урок на каждого, кто не сдал экзамен, поэтому шансы на успешную сдачу составляют два к одному (или 2/1 = 2). В экспериментальной группе на каждого не сдавшего экзамен шесть студентов сдают экзамен, поэтому шансы на успешную сдачу составляют шесть к одному (или 6/1 = 6). Величину эффекта можно рассчитать, заметив, что шансы на успех в экспериментальной группе в три раза выше, чем в контрольной группе (поскольку 6, разделенное на 2, равно 3). Следовательно, отношение шансов равно 3. Статистика отношения шансов находится в другом масштабе, чем d Коэна , поэтому эта цифра «3» не сравнима с d Коэна, равным 3.

Относительный риск

Относительный риск (RR), также называемый коэффициентом риска, представляет собой просто риск (вероятность) события относительно некоторой независимой переменной. Эта мера размера эффекта отличается от отношения шансов тем, что она сравнивает вероятности вместо шансов , но асимптотически приближается к последнему для малых вероятностей. Используя приведенный выше пример, вероятность прохождения теста для участников контрольной группы и группы лечения составляет 2/3 (или 0,67) и 6/7 (или 0,86) соответственно. Размер эффекта можно рассчитать так же, как указано выше, но вместо этого использовать вероятности. Следовательно, относительный риск равен 1,28. Поскольку использовались довольно большие вероятности успешного исхода, существует большая разница между относительным риском и отношением шансов. Если бы в качестве события (а не прохождения ) использовалась неудача (меньшая вероятность ), разница между двумя показателями размера эффекта не была бы такой большой.

Хотя обе меры полезны, они имеют разное статистическое применение. В медицинских исследованиях отношение шансов обычно используется для исследований «случай-контроль» , поскольку обычно оцениваются шансы, а не вероятности. ^[32] Относительный риск обычно используется в рандомизированных контролируемых исследованиях и когортных исследованиях , но относительный риск способствует переоценке эффективности вмешательств. ^[33]

Разница рисков

Разница риска (RD), иногда называемая абсолютным снижением риска, представляет собой просто разницу в риске (вероятности) события между двумя группами. Это полезная мера в экспериментальных исследованиях, поскольку РД показывает, в какой степени экспериментальное вмешательство меняет вероятность события или результата. Используя приведенный выше пример, вероятность прохождения теста для участников контрольной группы и группы лечения составляет 2/3 (или 0,67) и 6/7 (или 0,86) соответственно, и поэтому величина эффекта RD составляет 0,86 − 0,67 = 0,19 (или 0,19). 19%). RD является лучшим показателем для оценки эффективности вмешательств. ^[33]

Коэн ч

Одной из мер, используемых в анализе мощности при сравнении двух независимых пропорций, является h Коэна . Это определяется следующим образом

h=2(\arcsin {\sqrt {p_{1}}}-\arcsin {\sqrt {p_{2}}})

p ₁p ₂

Размер эффекта общего языка

Чтобы легче объяснить значение размера эффекта людям, не связанным со статистикой, размер эффекта на общем языке, как следует из названия, был разработан для передачи его на простом английском языке. Он используется для описания различий между двумя группами и был предложен, а также назван Кеннетом МакГроу и С.П. Вонгом в 1992 году. ^[34] Они использовали следующий пример (о росте мужчин и женщин): «в любой случайной паре среди молодых взрослых мужчин и женщин вероятность того, что мужчина будет выше женщины, равна 0,92, или, проще говоря, в 92 из 100 свиданий вслепую среди молодых людей мужчина будет выше женщины» [ ^{34 ]} при описании популяционной ценности размера эффекта общего языка.

Значение популяции для размера эффекта общего языка часто выражается следующим образом: в терминах пар, случайно выбранных из совокупности. Керби (2014) отмечает, что пара , определяемая как балл в одной группе в сочетании с баллом в другой группе, является основной концепцией размера общего языкового эффекта. ^[35]

В качестве другого примера рассмотрим научное исследование (возможно, лечения какого-либо хронического заболевания, например артрита) с участием десяти человек в лечебной группе и десяти человек в контрольной группе. Если всех участников экспериментальной группы сравнить со всеми участниками контрольной группы, то получится (10×10=) 100 пар. В конце исследования результат оценивается в баллах для каждого человека (например, по шкале подвижности и боли, в случае исследования артрита), а затем все баллы сравниваются между парами. Результат, выраженный в процентах пар, которые поддерживают гипотезу, представляет собой величину эффекта общего языка. В примере исследования это может быть (скажем) 0,80, если 80 из 100 пар сравнения показывают лучший результат для группы лечения, чем для контрольной группы, и отчет может выглядеть следующим образом: «Когда пациент в группе лечения группа сравнивалась с пациентом из контрольной группы, в 80 из 100 пар пролеченный пациент показал лучший результат лечения». Значение выборки, например, в таком исследовании, является объективной оценкой значения совокупности. ^[36]

Варга и Делани обобщили величину эффекта общего языка (Варга-Делани A ), чтобы охватить данные порядкового уровня. ^[37]

Ранг-бисериальная корреляция

Размер эффекта, связанный с размером эффекта общего языка, представляет собой ранг-бисериальную корреляцию. Эта мера была введена Кюртоном как величина эффекта для U- критерия Манна-Уитни . ^[38] То есть есть две группы, и баллы по группам конвертированы в ранги. Формула простой разности Керби вычисляет ранг-бисериальную корреляцию на основе размера эффекта общего языка. ^[35] Если f — это доля пар, благоприятных для гипотезы (величина общего языкового эффекта), а u — это доля пар, которые не благоприятны для гипотезы, то бисериальный ряд r представляет собой простую разницу между двумя пропорциями: r = f - ты . Другими словами, корреляция — это разница между величиной общего языкового эффекта и его дополнением. Например, если размер эффекта общего языка составляет 60%, то двухрядный номер r равен 60% минус 40%, или r = 0,20. Формула Керби является направленной: положительные значения указывают на то, что результаты подтверждают гипотезу.

Ненаправленная формула для ранговой бисериальной корреляции была предоставлена Вендтом, так что корреляция всегда положительна. ^[39] Преимущество формулы Вендта состоит в том, что ее можно вычислить на основе информации, которая легко доступна в опубликованных статьях. В формуле используется только тестовое значение U из U-критерия Манна-Уитни и размеры выборок двух групп: r = 1 – (2 U )/( n ₁ n ₂ ). Обратите внимание, что U определяется здесь в соответствии с классическим определением как меньшее из двух значений U , которые можно вычислить на основе данных. Это гарантирует, что 2 U < n 1 _n2 _, поскольку n ₁n ₂ является максимальным значением статистики U.

Пример может проиллюстрировать использование двух формул. Рассмотрим исследование здоровья двадцати пожилых людей: десять из экспериментальной группы и десять из контрольной группы; следовательно, существует десять раз десять или 100 пар. Программа здравоохранения использует диету, физические упражнения и добавки для улучшения памяти, а память измеряется с помощью стандартизированного теста. U -тест Манна-Уитни показывает, что взрослый в экспериментальной группе имел лучшую память в 70 из 100 пар и худшую память в 30 парах. U Манна-Уитни меньше 70 и 30, поэтому U = 30. Корреляция между памятью и эффективностью лечения по формуле простой разности Керби составляет r = (70/100) − (30/100) = 0,40. Корреляция по формуле Вендта r = 1 − (2·30)/(10·10) = 0,40.

Размер эффекта для порядковых данных

Дельта Клиффа или , первоначально разработанная Норманом Клиффом для использования с порядковыми данными, ^[40] является мерой того, насколько часто значения в одном распределении превышают значения во втором распределении. Важно отметить, что он не требует каких-либо предположений о форме или распространении двух распределений. $d$

Примерная смета определяется следующим образом: $d$

d={\frac {\sum _{i,j}[x_{i}>x_{j}]-[x_{i}<x_{j}]}{mn}}

скобкой Айверсона

n

m

x_{i}

x_{j}

[\cdot ]

$d$ линейно связана со статистикой Манна – Уитни U ; однако он фиксирует направление разницы в своем знаке. Учитывая Манн-Уитни , это: $U$ $d$

d={\frac {2U}{mn}}-1

Доверительные интервалы с помощью параметров нецентральности

Доверительные интервалы стандартизированных величин эффекта, особенно Коэна и , основаны на расчете доверительных интервалов параметров нецентральности ( ncp ). Общий подход к построению доверительного интервала ncp состоит в том, чтобы найти критические значения ncp , соответствующие наблюдаемой статистике хвостовым квантилям α /2 и (1 − α /2). Пакет SAS и R MBESS предоставляет функции для поиска критических значений ncp . ${d}$ $f^{2}$

t - тест на разницу средних значений одной группы или двух родственных групп

Для одной группы M обозначает среднее значение выборки, μ — среднее значение генеральной совокупности, SD — стандартное отклонение выборки, σ — стандартное отклонение генеральной совокупности, а n — размер выборки группы. Значение t используется для проверки гипотезы о разнице между средним значением и базовым уровнем μ _baseline . Обычно _{базовая линия}μ равна нулю. В случае двух родственных групп одна группа создается на основе различий в паре выборок, а SD и σ обозначают стандартные отклонения выборки и популяции, а не внутри исходных двух групп.

t:={\frac {M-\mu _{\text{baseline}}}{\text{SE}}}={\frac {M-\mu _{\text{baseline}}}{{\text{SD}}/{\sqrt {n}}}}={\frac {{\sqrt {n}}\left({\frac {M-\mu }{\sigma }}\right)+{\sqrt {n}}\left({\frac {\mu -\mu _{\text{baseline}}}{\sigma }}\right)}{\frac {\text{SD}}{\sigma }}}

ncp={\sqrt {n}}\left({\frac {\mu -\mu _{\text{baseline}}}{\sigma }}\right)

d:={\frac {M-\mu _{\text{baseline}}}{\text{SD}}}

это точечная оценка

{\frac {\mu -\mu _{\text{baseline}}}{\sigma }}.

Так,

{\tilde {d}}={\frac {ncp}{\sqrt {n}}}.

t - тест на разницу средних значений между двумя независимыми группами

n ₁ или n ₂ — соответствующие размеры выборки.

t:={\frac {M_{1}-M_{2}}{{\text{SD}}_{\text{within}}/{\sqrt {\frac {2*n_{1}n_{2}}{n_{1}+n_{2}}}}}},

в которой

{\text{SD}}_{\text{within}}:={\sqrt {\frac {{\text{SS}}_{\text{within}}}{{\text{df}}_{\text{within}}}}}={\sqrt {\frac {(n_{1}-1){\text{SD}}_{1}^{2}+(n_{2}-1){\text{SD}}_{2}^{2}}{n_{1}+n_{2}-2}}}.

ncp={\sqrt {\frac {n_{1}n_{2}}{n_{1}+n_{2}}}}{\frac {\mu _{1}-\mu _{2}}{\sigma }}

и Коэна

d:={\frac {M_{1}-M_{2}}{SD_{\text{within}}}}

{\frac {\mu _{1}-\mu _{2}}{\sigma }}.

Так,

{\tilde {d}}={\frac {ncp}{\sqrt {\frac {n_{1}n_{2}}{n_{1}+n_{2}}}}}.

Односторонний тест ANOVA для определения разницы средних между несколькими независимыми группами

Односторонний тест ANOVA применяет нецентральное F-распределение . В то время как для данного стандартного отклонения генеральной совокупности тот же тестовый вопрос применяет нецентральное распределение хи-квадрат . $\sigma$

F:={\frac {{\frac {{\text{SS}}_{\text{between}}}{\sigma ^{2}}}/{\text{df}}_{\text{between}}}{{\frac {{\text{SS}}_{\text{within}}}{\sigma ^{2}}}/{\text{df}}_{\text{within}}}}

Для каждого j -го образца внутри i -й группы X _{i , j} обозначим

M_{i}(X_{i,j}):={\frac {\sum _{w=1}^{n_{i}}X_{i,w}}{n_{i}}};\;\mu _{i}(X_{i,j}):=\mu _{i}.

Пока,

{\begin{aligned}{\text{SS}}_{\text{between}}/\sigma ^{2}&={\frac {{\text{SS}}\left(M_{i}(X_{i,j});i=1,2,\dots ,K,\;j=1,2,\dots ,n_{i}\right)}{\sigma ^{2}}}\\&={\text{SS}}\left({\frac {M_{i}(X_{i,j}-\mu _{i})}{\sigma }}+{\frac {\mu _{i}}{\sigma }};i=1,2,\dots ,K,\;j=1,2,\dots ,n_{i}\right)\\&\sim \chi ^{2}\left({\text{df}}=K-1,\;ncp=SS\left({\frac {\mu _{i}(X_{i,j})}{\sigma }};i=1,2,\dots ,K,\;j=1,2,\dots ,n_{i}\right)\right)\end{aligned}}

Итак, оба ncp ( s ) из F и равны $\chi ^{2}$

{\text{SS}}\left(\mu _{i}(X_{i,j})/\sigma ;i=1,2,\dots ,K,\;j=1,2,\dots ,n_{i}\right).

В случае K независимых групп одинакового размера общий размер выборки равен N := n · K . $n:=n_{1}=n_{2}=\cdots =n_{K}$

{\text{Cohens }}{\tilde {f}}^{2}:={\frac {{\text{SS}}(\mu _{1},\mu _{2},\dots ,\mu _{K})}{K\cdot \sigma ^{2}}}={\frac {{\text{SS}}\left(\mu _{i}(X_{i,j})/\sigma ;i=1,2,\dots ,K,\;j=1,2,\dots ,n_{i}\right)}{n\cdot K}}={\frac {ncp}{n\cdot K}}={\frac {ncp}{N}}.

t - критерий для пары независимых групп является частным случаем одностороннего дисперсионного анализа. Обратите внимание , что параметр нецентральности F не сравним с параметром нецентральности соответствующего t . На самом деле, , и . $ncp_{F}$ $ncp_{t}$ $ncp_{F}=ncp_{t}^{2}$ ${\tilde {f}}=\left|{\frac {\tilde {d}}{2}}\right|$

Смотрите также

Статистика оценки
Статистическая значимость
Z-фактор , альтернативная мера размера эффекта

дальнейшее чтение

Аарон Б., Кромри Дж. Д. и Феррон Дж. М. (ноябрь 1998 г.). Приравнивание индексов величины эффекта на основе r и d: проблемы с общепринятой формулой. Доклад, представленный на ежегодном собрании Флоридской ассоциации исследований в области образования, Орландо, Флорида. (Служба воспроизведения документов ERIC № ED433353)
Бонетт, генеральный директор (2008). «Доверительные интервалы для стандартизированных линейных контрастов средних». Психологические методы . 13 (2): 99–109. дои : 10.1037/1082-989x.13.2.99. ПМИД 18557680.
Бонетт, генеральный директор (2009). «Оценка стандартизированных линейных контрастов средних с желаемой точностью». Психологические методы . 14 (1): 1–5. дои : 10.1037/a0014270. ПМИД 19271844.
Брукс, Мэн; Далал, Дания; Нолан, КП (2013). «Легче ли понять размеры эффекта общего языка, чем традиционные размеры эффекта?». Журнал прикладной психологии . 99 (2): 332–340. дои : 10.1037/a0034745. ПМИД 24188393.
Камминг, Г.; Финч, С. (2001). «Букварь по пониманию, использованию и расчету доверительных интервалов, основанных на центральном и нецентральном распределениях». Образовательные и психологические измерения . 61 (4): 530–572. дои : 10.1177/0013164401614002. S2CID 120672914.
Келли, К. (2007). «Доверительные интервалы для стандартизированной величины эффекта: теория, применение и реализация». Журнал статистического программного обеспечения . 20 (8): 1–24. дои : 10.18637/jss.v020.i08 .
Липси, М.В., и Уилсон, Д.Б. (2001). Практический метаанализ . Сейдж: Таузенд-Оукс, Калифорния.

Внешние ссылки

В Викиверситете есть учебные ресурсы о размере эффекта.

Дальнейшие пояснения

Размер эффекта (ES)
EffectSizeFAQ.com
Веб-приложение EstimationStats.com для создания графиков размера эффекта.
Измерение размера эффекта
Вычисление и интерпретация показателей размера эффекта с помощью ViSta
пакет effsize для проекта R для статистических вычислений