Размер эффекта

В статистике размер эффекта — это значение, измеряющее силу связи между двумя переменными в популяции или выборочную оценку этой величины. Он может относиться к значению статистики, рассчитанному по выборке данных , значению параметра для гипотетической популяции или уравнению, которое операционализирует, как статистика или параметры приводят к значению размера эффекта. ^[1] Примерами размеров эффекта являются корреляция между двумя переменными, ^[2] коэффициент регрессии в регрессии, средняя разница или риск возникновения определенного события (например, сердечного приступа). Размеры эффекта являются дополнительным инструментом для проверки статистических гипотез и играют важную роль в анализе мощности для оценки размера выборки, необходимого для новых экспериментов. ^[3] Размеры эффекта имеют основополагающее значение в метаанализах , которые направлены на предоставление объединенного размера эффекта на основе данных из нескольких исследований. Кластер методов анализа данных, касающихся размеров эффекта, называется оценочной статистикой .

Размер эффекта является важным компонентом при оценке силы статистического утверждения, и это первый элемент (величина) в критериях MAGIC . Стандартное отклонение размера эффекта имеет решающее значение, поскольку оно указывает, какая неопределенность включена в измерение. Слишком большое стандартное отклонение сделает измерение практически бессмысленным. В метаанализе, где целью является объединение нескольких размеров эффекта, неопределенность размера эффекта используется для взвешивания размеров эффекта, так что большие исследования считаются более важными, чем маленькие исследования. Неопределенность размера эффекта рассчитывается по-разному для каждого типа размера эффекта, но, как правило, требует только знания размера выборки исследования ( N ) или количества наблюдений ( n ) в каждой группе.

Сообщение о размерах эффекта или их оценках (оценка эффекта [EE], оценка эффекта) считается хорошей практикой при представлении результатов эмпирических исследований во многих областях. ^[4]^[5] Сообщение о размерах эффекта облегчает интерпретацию важности результата исследования, в отличие от его статистической значимости . ^[6] Размеры эффекта особенно заметны в социальных науках и в медицинских исследованиях (где важна величина эффекта лечения ).

Размеры эффекта могут быть измерены в относительных или абсолютных величинах. В относительных размерах эффекта две группы напрямую сравниваются друг с другом, как в отношениях шансов и относительных рисках . Для абсолютных размеров эффекта большее абсолютное значение всегда указывает на более сильный эффект. Многие типы измерений могут быть выражены как абсолютные или относительные, и их можно использовать вместе, поскольку они передают разную информацию. Известная целевая группа в сообществе исследователей психологии дала следующую рекомендацию:

Всегда указывайте размеры эффекта для первичных результатов... Если единицы измерения имеют практическое значение (например, количество выкуриваемых сигарет в день), то мы обычно предпочитаем нестандартизированную меру (коэффициент регрессии или среднюю разницу) стандартизированной мере ( r или d ). ^[4]

Обзор

Размеры эффекта популяции и выборки

Как и в статистической оценке , истинный размер эффекта отличается от наблюдаемого размера эффекта. Например, чтобы измерить риск заболевания в популяции (размер эффекта популяции), можно измерить риск в пределах выборки этой популяции (размер эффекта выборки). Соглашения для описания истинных и наблюдаемых размеров эффекта следуют стандартным статистическим практикам — один из распространенных подходов заключается в использовании греческих букв, таких как ρ [rho], для обозначения параметров популяции и латинских букв, таких как r, для обозначения соответствующей статистики. В качестве альтернативы, «шляпа» может быть помещена над параметром популяции для обозначения статистики, например, с оценкой параметра . ${\hat {\rho }}$ $\ро$

Как и в любой статистической обстановке, размеры эффекта оцениваются с помощью ошибки выборки и могут быть смещены, если только используемый оценщик размера эффекта не подходит для способа, которым были отобраны данные , и способа, которым были выполнены измерения. Примером этого является смещение публикации , которое происходит, когда ученые сообщают результаты только тогда, когда предполагаемые размеры эффекта велики или статистически значимы. В результате, если многие исследователи проводят исследования с низкой статистической мощностью, сообщаемые размеры эффекта будут иметь тенденцию быть больше, чем истинные (популяционные) эффекты, если таковые имеются. ^[7] Другим примером, где размеры эффекта могут быть искажены, является эксперимент с несколькими испытаниями, где расчет размера эффекта основан на усредненном или агрегированном ответе по испытаниям. ^[8]

Меньшие исследования иногда показывают разные, часто большие, размеры эффекта, чем более крупные исследования. Это явление известно как эффект малого исследования, который может сигнализировать о предвзятости публикации. ^[9]

Связь со статистикой испытаний

Размеры эффекта на основе выборки отличаются от тестовых статистик , используемых при проверке гипотез, тем, что они оценивают силу (величину), например, кажущейся связи, а не присваивают уровень значимости , отражающий, может ли величина наблюдаемой связи быть следствием случайности. Размер эффекта не определяет напрямую уровень значимости, и наоборот. При достаточно большом размере выборки ненулевое статистическое сравнение всегда будет показывать статистически значимый результат, если только размер эффекта популяции не равен нулю (и даже там оно покажет статистическую значимость на уровне используемой ошибки типа I). Например, выборочный коэффициент корреляции Пирсона 0,01 является статистически значимым, если размер выборки равен 1000. Сообщение только о значимом значении p из этого анализа может ввести в заблуждение, если корреляция 0,01 слишком мала, чтобы представлять интерес в конкретном приложении.

Стандартизированные и нестандартизированные размеры эффекта

Термин «размер эффекта» может относиться к стандартизированной мере эффекта (например, r , d Коэна или отношение шансов ), или к нестандартизированной мере (например, разнице между средними значениями группы или нестандартизированными коэффициентами регрессии). Стандартизированные меры размера эффекта обычно используются, когда:

метрики изучаемых переменных не имеют внутреннего смысла (например, балл по личностному тесту по произвольной шкале),
Результаты нескольких исследований объединяются,
некоторые или все исследования используют разные шкалы, или
желательно передать размер эффекта относительно изменчивости в популяции.

В метаанализах стандартизированные размеры эффекта используются в качестве общей меры, которую можно рассчитать для разных исследований, а затем объединить в общее резюме.

Интерпретация

То, следует ли интерпретировать размер эффекта как малый, средний или большой, зависит от его содержательного контекста и его операционального определения. Обычные критерии Коэна « малый» , «средний» или «большой» ^[10] практически повсеместны во многих областях, хотя Коэн ^[10] предостерегает:

«Термины «маленький», «средний» и «большой» относительны не только друг к другу, но и к области поведенческой науки или, что еще более важно, к конкретному содержанию и методу исследования, используемому в любом данном исследовании... Перед лицом этой относительности существует определенный риск, присущий предложению обычных рабочих определений для этих терминов для использования в анализе мощности в такой разнообразной области исследования, как поведенческая наука. Тем не менее, этот риск принимается в убеждении, что больше можно выиграть, чем потерять, предоставляя общую условную систему отсчета, которая рекомендуется для использования только тогда, когда нет лучшей основы для оценки индекса ES». (стр. 25)

В двух примерах макета Савиловски ^[11] пришел к выводу: «Основываясь на текущих результатах исследований в прикладной литературе, представляется целесообразным пересмотреть практические правила для размеров эффекта», принимая во внимание предостережения Коэна, и расширил описания, включив очень маленький , очень большой и огромный . Те же фактические стандарты могут быть разработаны для других макетов.

Лент ^[12] отметил для «среднего» размера эффекта, «вы выберете тот же n независимо от точности или надежности вашего инструмента или узости или разнообразия ваших субъектов. Очевидно, что здесь игнорируются важные соображения. Исследователи должны интерпретировать существенную значимость своих результатов, основывая их на значимом контексте или количественно оценивая их вклад в знания, и описания размера эффекта Коэна могут быть полезны в качестве отправной точки». ^[6] Аналогичным образом, в спонсируемом Министерством образования США отчете говорилось: «Широкое неизбирательное использование общих значений малого, среднего и большого размера эффекта Коэна для характеристики размеров эффекта в областях, к которым его нормативные значения не применяются, таким образом, также неуместно и вводит в заблуждение». ^[13]

Они предположили, что «соответствующие нормы — это те, которые основаны на распределениях размеров эффекта для сопоставимых показателей результатов от сопоставимых вмешательств, нацеленных на сопоставимые выборки». Таким образом, если исследование в области, где большинство вмешательств крошечные, дало небольшой эффект (по критериям Коэна), эти новые критерии назвали бы его «большим». В связанной теме см. парадокс Абельсона и парадокс Савиловски. ^[14]^[15]^[16]

Типы

Известно около 50–100 различных мер размера эффекта. Многие размеры эффекта разных типов можно преобразовать в другие типы, поскольку многие оценивают разделение двух распределений, поэтому они математически связаны. Например, коэффициент корреляции можно преобразовать в d Коэна и наоборот.

Семейство корреляций: размеры эффекта на основе «объясненной дисперсии»

Эти величины эффекта оценивают величину дисперсии в рамках эксперимента, которая «объясняется» или «учтена» моделью эксперимента ( объясненная вариация ).

Пирсонгили коэффициент корреляции

Корреляция Пирсона , часто обозначаемая r и введенная Карлом Пирсоном , широко используется в качестве размера эффекта , когда доступны парные количественные данные; например, если изучается связь между весом при рождении и продолжительностью жизни. Коэффициент корреляции также может использоваться, когда данные являются бинарными. R Пирсона может варьироваться по величине от −1 до 1, где −1 указывает на идеальную отрицательную линейную связь, 1 указывает на идеальную положительную линейную связь, а 0 указывает на отсутствие линейной связи между двумя переменными. Коэн дает следующие рекомендации для социальных наук: ^[10]^[17]

Коэффициент детерминации (г²илиР²)

Связанный размер эффекта — r ² , коэффициент детерминации (также называемый R ² или « r -квадрат»), рассчитываемый как квадрат корреляции Пирсона r . В случае парных данных это мера доли дисперсии, разделяемой двумя переменными, и варьируется от 0 до 1. Например, при r 0,21 коэффициент детерминации равен 0,0441, что означает, что 4,4% дисперсии любой переменной делится с другой переменной. r ² всегда положителен, поэтому не передает направление корреляции между двумя переменными.

Эта-квадрат (η²)

Эта-квадрат описывает отношение дисперсии, объясненной в зависимой переменной предиктором при контроле других предикторов, что делает его аналогичным r ² . Эта-квадрат является смещенной оценкой дисперсии, объясненной моделью в популяции (она оценивает только размер эффекта в выборке). Эта оценка разделяет слабость с r ² , заключающуюся в том, что каждая дополнительная переменная автоматически увеличивает значение η ² . Кроме того, она измеряет дисперсию, объясненную для выборки, а не для популяции, что означает, что она всегда будет переоценивать размер эффекта, хотя смещение становится меньше по мере увеличения выборки. $\eta ^{2}={\frac {SS_{\text{Лечение}}}{SS_{\text{Всего}}}}.$

Омега-квадрат (ω²)

Менее смещенная оценка дисперсии, объясненной в популяции, — это ω ²^[18] $\omega ^{2}={\frac {{\text{SS}}_{\text{обработка}}-df_{\text{обработка}}\cdot {\text{MS}}_{\text{ошибка}}}{{\text{SS}}_{\text{всего}}+{\text{MS}}_{\text{ошибка}}}}.$

Эта форма формулы ограничена межсубъектным анализом с равными размерами выборки во всех ячейках. ^[18] Поскольку она менее смещена (хотя и не несмещена ), ω ² предпочтительнее η ² ; однако, ее может быть сложнее вычислять для сложных анализов. Обобщенная форма оценщика была опубликована для межсубъектного и внутрисубъектного анализа, экспериментов с повторными измерениями, смешанным дизайном и рандомизированным блочным дизайном. ^[19] Кроме того, были опубликованы методы расчета частичного ω ² для отдельных факторов и комбинированных факторов в дизайнах с тремя независимыми переменными. ^[19]

Коэнаф²

Коэффициент Коэна f ² является одним из нескольких показателей размера эффекта, используемых в контексте F-теста для ANOVA или множественной регрессии . Его величина смещения (переоценка размера эффекта для ANOVA) зависит от смещения его базового измерения объясняемой дисперсии (например, R ² , η ² , ω ² ).

Мера размера эффекта f ² для множественной регрессии определяется как: где R ² — квадрат множественной корреляции . $f^{2}={R^{2} \over 1-R^{2}}$

Аналогично, f ² можно определить как: или для моделей, описываемых этими мерами размера эффекта. ^[20] $f^{2}={\eta ^{2} \over 1-\eta ^{2}}$ $f^{2}={\omega ^{2} \over 1-\omega ^{2}}$

Мера размера эффекта для последовательной множественной регрессии, а также общая для моделирования PLS ^[21] , определяется как: где R ²_A — дисперсия, учитываемая набором одной или нескольких независимых переменных A , а R ²_AB — объединенная дисперсия, учитываемая A и другим набором одной или нескольких независимых переменных, представляющих интерес B. По соглашению, размеры эффекта f ² для , и называются малыми , средними и большими соответственно. ^[10] $f^{2}$ $f^{2}={R_{AB}^{2}-R_{A}^{2} \over 1-R_{AB}^{2}}$ $0.1^{2}$ $0.25^{2}$ $0.4^{2}$

Критерий Коэна также можно найти с помощью факторного дисперсионного анализа (ANOVA), работая в обратном направлении, используя: ${\hat {f}}$ ${\hat {f}}_{\text{effect}}={\sqrt {(F_{\text{effect}}df_{\text{effect}}/N)}}.$

В сбалансированном дизайне (эквивалентные размеры выборки по группам) ANOVA соответствующий параметр популяции равен , где μ _j обозначает среднее значение популяции в j ^-й группе из общего числа групп K , а σ — эквивалентные стандартные отклонения популяции в каждой группе. SS — сумма квадратов в ANOVA. $f^{2}$ ${SS(\mu _{1},\mu _{2},\dots ,\mu _{K})} \over {K\times \sigma ^{2}},$

Коэнад

Другая мера, которая используется с корреляционными различиями, — это q Коэна. Это разница между двумя коэффициентами регрессии Пирсона, преобразованными Фишером. В символах это $q={\frac {1}{2}}\log {\frac {1+r_{1}}{1-r_{1}}}-{\frac {1}{2}}\log {\frac {1+r_{2}}{1-r_{2}}}$

где r ₁ и r ₂ — сравниваемые регрессии. Ожидаемое значение q равно нулю, а его дисперсия равна где N ₁ и N ₂ — количество точек данных в первой и второй регрессии соответственно. $\operatorname {var} (q)={\frac {1}{N_{1}-3}}+{\frac {1}{N_{2}-3}}$

Семейство различий: размеры эффекта, основанные на различиях между средними значениями

Размер эффекта, относящийся к сравнению двух групп, по сути рассчитывается как разница между двумя средними. Однако для облегчения интерпретации принято стандартизировать размер эффекта; различные соглашения по статистической стандартизации представлены ниже.

Стандартизированная средняя разница

Размер эффекта (популяции) θ , основанный на средних значениях, обычно учитывает стандартизированную разницу средних (SMD) между двумя популяциями ^[22]^{: 78} , где μ ₁ — среднее значение для одной популяции, μ ₂ — среднее значение для другой популяции, а σ — стандартное отклонение, основанное на одной или обеих популяциях. $\theta ={\frac {\mu _{1}-\mu _{2}}{\sigma }},$

В практической обстановке значения популяции обычно неизвестны и должны быть оценены на основе выборочной статистики. Несколько версий размеров эффекта, основанных на средних значениях, различаются в зависимости от того, какая статистика используется.

Эта форма для размера эффекта напоминает вычисление для статистики t -теста , с той критической разницей, что статистика t -теста включает фактор . Это означает, что для заданного размера эффекта уровень значимости увеличивается с размером выборки. В отличие от статистики t -теста, размер эффекта направлен на оценку параметра популяции и не зависит от размера выборки. ${\sqrt {n}}$

Значения SMD от 0,2 до 0,5 считаются малыми, от 0,5 до 0,8 считаются средними, а значения более 0,8 считаются большими. ^[23]

Коэнаг

Коэффициент Коэна d определяется как разница между двумя средними значениями, деленная на стандартное отклонение данных, т.е. $d={\frac {{\bar {x}}_{1}-{\bar {x}}_{2}}{s}}.$

Якоб Коэн определил s , объединенное стандартное отклонение , как (для двух независимых выборок): ^[10]^{: 67} , где дисперсия для одной из групп определяется как и аналогично для другой группы. $s={\sqrt {\frac {(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}}{n_{1}+n_{2}-2}}}$ $s_{1}^{2}={\frac {1}{n_{1}-1}}\sum _{i=1}^{n_{1}}(x_{1,i}-{\bar {x}}_{1})^{2},$

В таблице ниже содержатся дескрипторы для величин d = 0,01–2,0, как первоначально предлагал Коэн (который предостерегал от того, чтобы значения становились фактическими стандартами, призывая к гибкости интерпретации) и расширенные Савиловским. ^[11]

Другие авторы выбирают несколько иной способ вычисления стандартного отклонения, когда ссылаются на « d Коэна », где знаменатель не содержит «-2» ^[24]^[25]^{: 14} Это определение « d Коэна » называется оценкой максимального правдоподобия Хеджесом и Олкиным ^[22] , и оно связано с g Хеджеса с помощью масштабного коэффициента (см. ниже). $s={\sqrt {\frac {(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}}{n_{1}+n_{2}}}}$

С двумя парными выборками мы смотрим на распределение оценок разницы. В этом случае s — это стандартное отклонение этого распределения оценок разницы. Это создает следующую связь между t-статистикой для проверки разницы в средних значениях двух групп и d Коэна : и $t={\frac {{\bar {X}}_{1}-{\bar {X}}_{2}}{\text{SE}}}={\frac {{\bar {X}}_{1}-{\bar {X}}_{2}}{\frac {\text{SD}}{\sqrt {N}}}}={\frac {{\sqrt {N}}({\bar {X}}_{1}-{\bar {X}}_{2})}{SD}}$ $d={\frac {{\bar {X}}_{1}-{\bar {X}}_{2}}{\text{SD}}}={\frac {t}{\sqrt {N}}}$

Коэна d часто используется при оценке размеров выборки для статистического тестирования. Более низкое значение Коэна d указывает на необходимость больших размеров выборки, и наоборот, что впоследствии может быть определено вместе с дополнительными параметрами желаемого уровня значимости и статистической мощности . ^[26]

Для парных выборок Коэн предполагает, что вычисленное значение d на самом деле равно d', что не дает правильного ответа для получения мощности теста, и что перед поиском значений в предоставленных таблицах его следует скорректировать с учетом r, как в следующей формуле: ^[27] $d={\frac {d'}{\sqrt {1-r}}}.$

Стекло Δ

В 1976 году Джин В. Гласс предложил оценку размера эффекта, которая использует только стандартное отклонение второй группы ^[22]^{: 78} $\Delta ={\frac {{\bar {x}}_{1}-{\bar {x}}_{2}}{s_{2}}}$

Вторую группу можно рассматривать как контрольную, и Гласс утверждал, что если сравнивать несколько видов лечения с контрольной группой, то лучше использовать только стандартное отклонение, рассчитанное для контрольной группы, чтобы размеры эффекта не различались при равных средних значениях и разных дисперсиях.

При правильном предположении о равных дисперсиях совокупности объединенная оценка σ является более точной.

Хеджес'г

Коэффициент g Хеджеса , предложенный Ларри Хеджесом в 1981 году ^[28], похож на другие показатели, основанные на стандартизированной разнице ^[22]^{: 79} , где объединенное стандартное отклонение вычисляется как: $g={\frac {{\bar {x}}_{1}-{\bar {x}}_{2}}{s^{*}}}$ $s^{*}$ $s^{*}={\sqrt {\frac {(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}}{n_{1}+n_{2}-2}}}.$

Однако в качестве оценки размера эффекта популяции θ она смещена . Тем не менее, это смещение можно приблизительно скорректировать путем умножения на коэффициент Хеджес и Олкин называют эту менее смещенную оценку d , ^[22] но это не то же самое, что d Коэна . Точная форма для поправочного коэффициента J () включает гамма-функцию ^[22]^{: 104} Существуют также многоуровневые варианты g Хеджеса, например, для использования в кластерных рандомизированных контролируемых испытаниях (CRT). [ ^29] CRT включают рандомизацию кластеров, таких как школы или классы, в различные условия и часто используются в исследованиях в области образования. $g^{*}=J(n_{1}+n_{2}-2)\,\,g\,\approx \,\left(1-{\frac {3}{4(n_{1}+n_{2})-9}}\right)\,\,g$ $g^{*}$ $J(a)={\frac {\Gamma (a/2)}{{\sqrt {a/2\,}}\,\Gamma ((a-1)/2)}}.$

Ψ, среднеквадратический стандартизованный эффект

Аналогичная оценка размера эффекта для множественных сравнений (например, ANOVA ) — это среднеквадратический стандартизированный эффект Ψ: ^[20] где k — количество групп в сравнениях. $\Psi ={\sqrt {{\frac {1}{k-1}}\cdot \sum _{j=1}^{k}\left({\frac {\mu _{j}-\mu }{\sigma }}\right)^{2}}}$

По сути, это представляет собой общую разность всей модели, скорректированную с помощью среднеквадратичного значения, аналогичного d или g .

Кроме того, было предоставлено обобщение для многофакторных проектов. ^[20]

Распределение размеров эффекта на основе средних значений

При условии, что данные распределены по Гауссу, масштабированный Хеджес' g , следует нецентральному t -распределению с параметром нецентральности и $($ $n$ $1$ $+$ $n$ $2$ $- 2)$ степенями свободы. Аналогично, масштабированный Гласс' Δ распределен с $n$ $2$ $- 1$ степенями свободы. ${\textstyle {\sqrt {n_{1}n_{2}/(n_{1}+n_{2})}}\,g}$ ${\textstyle {\sqrt {n_{1}n_{2}/(n_{1}+n_{2})}}\theta }$

Из распределения можно вычислить ожидание и дисперсию размеров эффекта.

В некоторых случаях используются приближения большой выборки для дисперсии. Одно из предложений для дисперсии несмещенной оценки Хеджеса ^[22] ^{: 86} ${\hat {\sigma }}^{2}(g^{*})={\frac {n_{1}+n_{2}}{n_{1}n_{2}}}+{\frac {(g^{*})^{2}}{2(n_{1}+n_{2})}}.$

Другие показатели

Расстояние Махаланобиса (D) представляет собой многомерное обобщение расстояния Коэна, которое учитывает взаимосвязи между переменными. ^[30]

Категориальное семейство: размеры эффектов для ассоциаций между категориальными переменными

Обычно используемыми мерами ассоциации для теста хи-квадрат являются коэффициент Фи и V Крамера (иногда называемый фи Крамера и обозначаемый как φ _c ). Фи связан с точечно-бисериальным коэффициентом корреляции и d Коэна и оценивает степень связи между двумя переменными (2 × 2). [ ^31] V Крамера может использоваться с переменными, имеющими более двух уровней.

Фи можно вычислить, найдя квадратный корень из статистики хи-квадрат, деленной на размер выборки.

Аналогично, V Крамера вычисляется путем взятия квадратного корня из статистики хи-квадрат, деленной на размер выборки и длину минимального измерения ( k — меньшее из чисел строк r или столбцов c ).

φ _c — это взаимокорреляция двух дискретных переменных ^[32] , которая может быть вычислена для любого значения r или c . Однако, поскольку значения хи-квадрат имеют тенденцию увеличиваться с числом ячеек, чем больше разница между r и c , тем больше вероятность того, что V будет стремиться к 1 без убедительных доказательств значимой корреляции.

Омега Коэна (ω)

Другой мерой размера эффекта, используемой для хи-квадрат тестов, является омега Коэна ( ). Она определяется как, где p ₀_i — доля i- ^й ячейки под H ₀ , p ₁_i — доля i- ^й ячейки под H ₁ , а m — количество ячеек. $\omega$ $\omega ={\sqrt {\sum _{i=1}^{m}{\frac {(p_{1i}-p_{0i})^{2}}{p_{0i}}}}}$

В работе «Статистический анализ мощности для поведенческих наук» (1988, стр. 224-225) Коэн дает следующие общие рекомендации по интерпретации омеги (см. таблицу ниже), но предостерегает от ее «возможной несоответствия любому данному существенному контексту» и советует вместо этого использовать суждения, релевантные контексту.

Отношение шансов

Отношение шансов (OR) — еще один полезный размер эффекта. Он уместен, когда исследовательский вопрос фокусируется на степени связи между двумя бинарными переменными . Например, рассмотрим исследование способности к правописанию. В контрольной группе два ученика сдают экзамен на каждого не сдавшего, поэтому шансы сдать экзамен составляют два к одному (или 2/1 = 2). В экспериментальной группе шесть учеников сдают экзамен на каждого не сдавшего, поэтому шансы сдать экзамен составляют шесть к одному (или 6/1 = 6). Размер эффекта можно вычислить, отметив, что шансы сдать экзамен в экспериментальной группе в три раза выше, чем в контрольной группе (потому что 6, деленное на 2, равно 3). Следовательно, отношение шансов равно 3. Статистика отношения шансов находится в другой шкале, чем d Коэна , поэтому эта «3» несопоставима с d Коэна , равным 3.

Относительный риск

Относительный риск ( RR), также называемый отношением рисков , — это просто риск (вероятность) события относительно некоторой независимой переменной. Эта мера размера эффекта отличается от отношения шансов тем, что сравнивает вероятности вместо шансов , но асимптотически приближается к последнему для малых вероятностей. Используя приведенный выше пример, вероятности прохождения для тех, кто находится в контрольной группе и группе лечения, составляют 2/3 (или 0,67) и 6/7 (или 0,86) соответственно. Размер эффекта можно вычислить так же, как и выше, но вместо этого используя вероятности. Следовательно, относительный риск составляет 1,28. Поскольку использовались довольно большие вероятности прохождения, существует большая разница между относительным риском и отношением шансов. Если бы неудача (меньшая вероятность) использовалась в качестве события (а не прохождения ), разница между двумя мерами размера эффекта была бы не такой большой.

Хотя обе меры полезны, они имеют различное статистическое применение. В медицинских исследованиях отношение шансов обычно используется для исследований случай-контроль , поскольку обычно оцениваются шансы, а не вероятности. ^[33] Относительный риск обычно используется в рандомизированных контролируемых испытаниях и когортных исследованиях , но относительный риск способствует переоценке эффективности вмешательств. ^[34]

Разница в риске

Разница рисков (RD), иногда называемая абсолютным снижением риска, — это просто разница в риске (вероятности) события между двумя группами. Это полезная мера в экспериментальных исследованиях, поскольку RD показывает, в какой степени экспериментальное вмешательство изменяет вероятность события или результата. Используя приведенный выше пример, вероятности прохождения для тех, кто находится в контрольной группе и группе лечения, составляют 2/3 (или 0,67) и 6/7 (или 0,86) соответственно, и поэтому размер эффекта RD составляет 0,86 − 0,67 = 0,19 (или 19%). RD — это превосходная мера для оценки эффективности вмешательств. ^[34]

Коэначас

Одной из мер, используемых в анализе мощности при сравнении двух независимых пропорций, является h Коэна . Он определяется следующим образом , где p ₁ и p ₂ — пропорции двух сравниваемых выборок, а arcsin — преобразование арксинуса. $h=2(\arcsin {\sqrt {p_{1}}}-\arcsin {\sqrt {p_{2}}})$

Вероятность превосходства

Чтобы легче описать значение размера эффекта для людей, не имеющих отношения к статистике, размер эффекта общего языка, как следует из названия, был разработан для того, чтобы сообщать его на простом английском языке. Он используется для описания разницы между двумя группами и был предложен, а также назван Кеннетом Макгроу и С. П. Вонгом в 1992 году. ^[35] Они использовали следующий пример (о росте мужчин и женщин): «в любой случайной паре молодых взрослых мужчин и женщин вероятность того, что мужчина будет выше женщины, составляет 0,92, или, говоря проще, в 92 из 100 свиданий вслепую среди молодых взрослых мужчин и женщин мужчина будет выше женщины», ^[35] при описании популяционного значения размера эффекта общего языка.

Величина эффекта для порядковых данных

Дельта Клиффа или , изначально разработанная Норманом Клиффом для использования с порядковыми данными, ^[36]^[^dubious^–^discussion^] является мерой того, как часто значения в одном распределении больше значений во втором распределении. Важно то, что она не требует никаких предположений о форме или разбросе двух распределений. $d$

Оценка выборки определяется по формуле: где два распределения имеют размер и с элементами и , соответственно, а — скобка Айверсона , которая равна 1, когда содержимое истинно, и 0, когда ложно. $d$ $d={\frac {\sum _{i,j}[x_{i}>x_{j}]-[x_{i}<x_{j}]}{mn}}$ $n$ $m$ $x_{i}$ $x_{j}$ $[\cdot ]$

$d$ линейно связана со статистикой Манна–Уитни U ; однако, она фиксирует направление разницы в ее знаке. Учитывая Манн–Уитни , это: $U$ $d$ $d={\frac {2U}{mn}}-1$

Доверительные интервалы с помощью параметров нецентральности

Доверительные интервалы стандартизированных размеров эффекта, особенно Коэна и , основаны на расчете доверительных интервалов параметров нецентральности ( ncp ). Обычный подход к построению доверительного интервала ncp заключается в поиске критических значений ncp для соответствия наблюдаемой статистике хвостовым квантилям α /2 и (1 − α /2). SAS и R-пакет MBESS предоставляют функции для поиска критических значений ncp . ${d}$ $f^{2}$

т-тест на разницу средних значений одной группы или двух связанных групп

Для одной группы M обозначает выборочное среднее, μ — популяционное среднее, SD — стандартное отклонение выборки, σ — стандартное отклонение популяции, а n — размер выборки группы. Значение t используется для проверки гипотезы о разнице между средним и базовым значением μ _baseline . Обычно μ _baseline равно нулю. В случае двух связанных групп одна группа формируется на основе разностей в паре выборок, тогда как SD и σ обозначают стандартные отклонения разностей выборки и популяции, а не внутри исходных двух групп. и Коэна $t:={\frac {M-\mu _{\text{baseline}}}{\text{SE}}}={\frac {M-\mu _{\text{baseline}}}{{\text{SD}}/{\sqrt {n}}}}={\frac {{\sqrt {n}}\left({\frac {M-\mu }{\sigma }}\right)+{\sqrt {n}}\left({\frac {\mu -\mu _{\text{baseline}}}{\sigma }}\right)}{\frac {\text{SD}}{\sigma }}}$ $ncp={\sqrt {n}}\left({\frac {\mu -\mu _{\text{baseline}}}{\sigma }}\right)$ $d:={\frac {M-\mu _{\text{baseline}}}{\text{SD}}}$

это точечная оценка ${\frac {\mu -\mu _{\text{baseline}}}{\sigma }}.$

Так,

{\tilde {d}}={\frac {ncp}{\sqrt {n}}}.

т-тест на среднюю разницу между двумя независимыми группами

n ₁ или n ₂ — соответствующие размеры выборки. $t:={\frac {M_{1}-M_{2}}{{\text{SD}}_{\text{within}}/{\sqrt {\frac {2*n_{1}n_{2}}{n_{1}+n_{2}}}}}},$

где ${\text{SD}}_{\text{within}}:={\sqrt {\frac {{\text{SS}}_{\text{within}}}{{\text{df}}_{\text{within}}}}}={\sqrt {\frac {(n_{1}-1){\text{SD}}_{1}^{2}+(n_{2}-1){\text{SD}}_{2}^{2}}{n_{1}+n_{2}-2}}}.$ $ncp={\sqrt {\frac {n_{1}n_{2}}{n_{1}+n_{2}}}}{\frac {\mu _{1}-\mu _{2}}{\sigma }}$

и Коэн - это точечная оценка $d:={\frac {M_{1}-M_{2}}{SD_{\text{within}}}}$ ${\frac {\mu _{1}-\mu _{2}}{\sigma }}.$

Так, ${\tilde {d}}={\frac {ncp}{\sqrt {\frac {n_{1}n_{2}}{n_{1}+n_{2}}}}}.$

Однофакторный дисперсионный анализ (ANOVA) для определения разницы средних значений в нескольких независимых группах

Тест одностороннего ANOVA применяет нецентральное распределение F. В то время как при заданном стандартном отклонении популяции тот же самый тестовый вопрос применяет нецентральное распределение хи-квадрат . $\sigma$ $F:={\frac {{\frac {{\text{SS}}_{\text{between}}}{\sigma ^{2}}}/{\text{df}}_{\text{between}}}{{\frac {{\text{SS}}_{\text{within}}}{\sigma ^{2}}}/{\text{df}}_{\text{within}}}}$

Для каждого j -го образца в пределах i- й группы X _{i , j} , обозначим $M_{i}(X_{i,j}):={\frac {\sum _{w=1}^{n_{i}}X_{i,w}}{n_{i}}};\;\mu _{i}(X_{i,j}):=\mu _{i}.$

Пока, ${\begin{aligned}{\text{SS}}_{\text{between}}/\sigma ^{2}&={\frac {{\text{SS}}\left(M_{i}(X_{i,j});i=1,2,\dots ,K,\;j=1,2,\dots ,n_{i}\right)}{\sigma ^{2}}}\\&={\text{SS}}\left({\frac {M_{i}(X_{i,j}-\mu _{i})}{\sigma }}+{\frac {\mu _{i}}{\sigma }};i=1,2,\dots ,K,\;j=1,2,\dots ,n_{i}\right)\\&\sim \chi ^{2}\left({\text{df}}=K-1,\;ncp=SS\left({\frac {\mu _{i}(X_{i,j})}{\sigma }};i=1,2,\dots ,K,\;j=1,2,\dots ,n_{i}\right)\right)\end{aligned}}$

Итак, оба ncp ( s ) из F и приравниваются $\chi ^{2}$ ${\text{SS}}\left(\mu _{i}(X_{i,j})/\sigma ;i=1,2,\dots ,K,\;j=1,2,\dots ,n_{i}\right).$

В случае K независимых групп одинакового размера общий размер выборки составляет N := n · K . $n:=n_{1}=n_{2}=\cdots =n_{K}$ ${\text{Cohens }}{\tilde {f}}^{2}:={\frac {{\text{SS}}(\mu _{1},\mu _{2},\dots ,\mu _{K})}{K\cdot \sigma ^{2}}}={\frac {{\text{SS}}\left(\mu _{i}(X_{i,j})/\sigma ;i=1,2,\dots ,K,\;j=1,2,\dots ,n_{i}\right)}{n\cdot K}}={\frac {ncp}{n\cdot K}}={\frac {ncp}{N}}.$

T - тест для пары независимых групп является частным случаем однофакторного дисперсионного анализа. Обратите внимание, что параметр нецентральности F не сопоставим с параметром нецентральности соответствующего t . На самом деле, , и . $ncp_{F}$ $ncp_{t}$ $ncp_{F}=ncp_{t}^{2}$ ${\tilde {f}}=\left|{\frac {\tilde {d}}{2}}\right|$

Смотрите также

Статистика оценок
Статистическая значимость
Z-фактор , альтернативная мера размера эффекта

Ссылки

^ Келли, Кен; Преачер, Кристофер Дж. (2012). «О размере эффекта». Психологические методы . 17 (2): 137–152. doi :10.1037/a0028086. PMID 22545595. S2CID 34152884.
^ Розенталь, Роберт, Х. Купер и Л. Хеджес. «Параметрические меры размера эффекта». Справочник по исследовательскому синтезу 621 (1994): 231–244. ISBN 978-0871541635
^ Коэн, Дж. (2016). «Мощный праймер». В AE Kazdin (ред.). Методологические вопросы и стратегии в клинических исследованиях (4-е изд.). Американская психологическая ассоциация. стр. 279–284. doi :10.1037/14805-018. ISBN 978-1-4338-2091-5.
^ ab Wilkinson, Leland (1999). «Статистические методы в журналах по психологии: Руководящие принципы и пояснения». American Psychologist . 54 (8): 594–604. doi :10.1037/0003-066X.54.8.594. S2CID 428023.
^ Накагава, Шиничи; Катхилл, Иннес С. (2007). «Размер эффекта, доверительный интервал и статистическая значимость: практическое руководство для биологов». Биологические обзоры Кембриджского философского общества . 82 (4): 591–605. doi :10.1111/j.1469-185X.2007.00027.x. PMID 17944619. S2CID 615371.
^ ab Ellis, Paul D. (2010). Основное руководство по размерам эффектов: статистическая мощность, метаанализ и интерпретация результатов исследований. Cambridge University Press. ISBN 978-0-521-14246-5.^{[ нужна страница ]}
^ Brand A, Bradley MT, Best LA, Stoica G (2008). «Точность оценок размера эффекта из опубликованных психологических исследований» (PDF) . Perceptual and Motor Skills . 106 (2): 645–649. doi :10.2466/PMS.106.2.645-649. PMID 18556917. S2CID 14340449. Архивировано из оригинала (PDF) 2008-12-17 . Получено 2008-10-31 .
^ Brand A, Bradley MT, Best LA, Stoica G (2011). «Множественные испытания могут давать преувеличенные оценки размера эффекта» (PDF) . Журнал общей психологии . 138 (1): 1–11. doi :10.1080/00221309.2010.520360. PMID 21404946. S2CID 932324.
^ Sterne, Jonathan AC; Gavaghan, David; Egger, Matthias (2000-11-01). «Публикация и связанное с ней смещение в метаанализе: сила статистических тестов и распространенность в литературе». Journal of Clinical Epidemiology . 53 (11): 1119–1129. doi :10.1016/S0895-4356(00)00242-0. ISSN 0895-4356. PMID 11106885.
^ abcdefgh Коэн, Джейкоб (1988). Статистический анализ мощности для поведенческих наук. Routledge. ISBN 978-1-134-74270-7.
^ abcde Sawilowsky, S (2009). «Новые правила размера эффекта». Журнал современных прикладных статистических методов . 8 (2): 467–474. doi : 10.22237/jmasm/1257035100 .http://digitalcommons.wayne.edu/jmasm/vol8/iss2/26/
^ Рассел В. Лент. "Java-апплеты для мощности и размера выборки". Отделение математических наук, Колледж свободных искусств или Университет Айовы . Получено 2008-10-08 .
^ Липси, М. В. и др. (2012). Перевод статистического представления эффектов образовательных вмешательств в более легко интерпретируемые формы (PDF) . Соединенные Штаты: Министерство образования США, Национальный центр исследований специального образования, Институт педагогических наук, NCSER 2013–3000.
^ Sawilowsky, SS (2005). «Парадокс Абельсона и эксперимент Майкельсона-Морли». Журнал современных прикладных статистических методов . 4 (1): 352. doi : 10.22237/jmasm/1114907520 .
^ Sawilowsky, S.; Sawilowsky, J.; Grissom, RJ (2010). «Размер эффекта». В Lovric, M. (ред.). Международная энциклопедия статистической науки . Springer.
^ Sawilowsky, S. (2003). «Деконструкция аргументов против проверки гипотез». Журнал современных прикладных статистических методов . 2 (2): 467–474. doi : 10.22237/jmasm/1067645940 .
^ Коэн, Дж. (1992). «Праймер силы». Психологический вестник . 112 (1): 155–159. doi :10.1037/0033-2909.112.1.155. PMID 19565683.
^ ab Tabachnick, BG & Fidell, LS (2007). Глава 4: «Очищение вашего акта. Отбор данных перед анализом», стр. 55 в BG Tabachnick & LS Fidell (ред.), Использование многомерной статистики , пятое издание. Бостон: Pearson Education, Inc. / Allyn and Bacon.
^ ab Olejnik, S.; Algina, J. (2003). "Обобщенные статистики эта и омега в квадрате: меры размера эффекта для некоторых распространенных исследовательских дизайнов" (PDF) . Psychological Methods . 8 (4): 434–447. doi :10.1037/1082-989x.8.4.434. PMID 14664681. S2CID 6931663. Архивировано из оригинала (PDF) 2010-06-10 . Получено 2011-10-24 .
^ abc Steiger, JH (2004). "За пределами F-теста: доверительные интервалы размера эффекта и тесты близкого соответствия в дисперсионном и контрастном анализе" (PDF) . Психологические методы . 9 (2): 164–182. doi :10.1037/1082-989x.9.2.164. PMID 15137887.
^ Хэйр, Дж.; Халт, ТМ; Рингл, КМ и Сарстедт, М. (2014) Учебник по структурному моделированию с использованием метода наименьших квадратов (PLS-SEM) , Sage, стр. 177–178. ISBN 1452217440
^ abcdefg Ларри В. Хеджес и Ингрэм Олкин (1985). Статистические методы метаанализа . Орландо: Academic Press . ISBN 978-0-12-336380-0.
^ Андраде, Читтаранджан (22 сентября 2020 г.). «Средняя разница, стандартизированная средняя разница (SMD) и их использование в метаанализе». Журнал клинической психиатрии . 81 (5). doi : 10.4088/JCP.20f13681 . eISSN 1555-2101. PMID 32965803. S2CID 221865130. Значения SMD 0,2–0,5 считаются малыми, значения 0,5–0,8 считаются средними, а значения > 0,8 считаются большими. В психофармакологических исследованиях, сравнивающих независимые группы, статистически значимые SMD почти всегда находятся в диапазоне от малого до среднего. Большие SMD получаются редко.
^ Роберт Э. МакГрат; Грегори Дж. Мейер (2006). «Когда размеры эффекта не совпадают: случай r и d» (PDF) . Психологические методы . 11 (4): 386–401. CiteSeerX 10.1.1.503.754 . doi :10.1037/1082-989x.11.4.386. PMID 17154753. Архивировано из оригинала (PDF) 2013-10-08 . Получено 2014-07-30 .
^ Хартунг, Иоахим; Кнапп, Гвидо; Синха, Бимал К. (2008). Статистический метаанализ с приложениями. John Wiley & Sons. ISBN 978-1-118-21096-3.
^ Кенни, Дэвид А. (1987). "Глава 13" (PDF) . Статистика для социальных и поведенческих наук. Литтл, Браун. ISBN 978-0-316-48915-7.
^ Коэн 1988, стр. 49.
^ Ларри В. Хеджес (1981). «Теория распределения для оценки размера эффекта Гласса и связанных с ней оценок». Журнал образовательной статистики . 6 (2): 107–128. doi :10.3102/10769986006002107. S2CID 121719955.
^ Хеджес, Л. В. (2011). Размеры эффекта в трехуровневых кластерно-рандомизированных экспериментах. Журнал образовательной и поведенческой статистики, 36(3), 346-380.
^ Del Giudice, Marco (2013-07-18). «Многомерные опасения: является ли D допустимой мерой групповых и половых различий?». Эволюционная психология . 11 (5): 147470491301100. doi : 10.1177/147470491301100511 . PMC 10434404 .
^ Аарон, Б., Кромри, Дж. Д. и Феррон, Дж. М. (1998, ноябрь). Уравнивание индексов размера эффекта на основе r и d: проблемы с общепринятой рекомендуемой формулой. Доклад, представленный на ежегодном собрании Ассоциации образовательных исследований Флориды, Орландо, Флорида. (ERIC Document Reproduction Service No. ED433353)
^ Шескин, Дэвид Дж. (2003). Справочник по параметрическим и непараметрическим статистическим процедурам (третье изд.). CRC Press. ISBN 978-1-4200-3626-8.
^ Deeks J (1998). «Когда отношение шансов может ввести в заблуждение? : отношение шансов следует использовать только в исследованиях случай-контроль и логистическом регрессионном анализе». BMJ . 317 (7166): 1155–6. doi :10.1136/bmj.317.7166.1155a. PMC 1114127 . PMID 9784470.
^ ab Stegenga, J. (2015). «Измерение эффективности». Исследования по истории и философии биологических и биомедицинских наук . 54 : 62–71. doi :10.1016/j.shpsc.2015.06.003. PMID 26199055.
^ ab McGraw KO, Wong SP (1992). «Статистика размера эффекта общего языка». Psychological Bulletin . 111 (2): 361–365. doi :10.1037/0033-2909.111.2.361.
^ Клифф, Норман (1993). «Статистика доминирования: порядковый анализ для ответа на порядковые вопросы». Psychological Bulletin . 114 (3): 494–509. doi :10.1037/0033-2909.114.3.494.

Дальнейшее чтение

Aaron, B., Kromrey, JD, & Ferron, JM (1998, ноябрь). Уравнивание индексов размера эффекта на основе r и d: проблемы с общепринятой рекомендуемой формулой. Доклад, представленный на ежегодном собрании Ассоциации образовательных исследований Флориды, Орландо, Флорида. (ERIC Document Reproduction Service No. ED433353)
Бонетт, Д.Г. (2008). «Доверительные интервалы для стандартизированных линейных контрастов средних значений». Психологические методы . 13 (2): 99–109. doi :10.1037/1082-989x.13.2.99. PMID 18557680.
Бонетт, Д.Г. (2009). «Оценка стандартизированных линейных контрастов средних значений с желаемой точностью». Психологические методы . 14 (1): 1–5. doi :10.1037/a0014270. PMID 19271844.
Брукс, ME; Далал, DK; Нолан, KP (2013). «Являются ли размеры эффекта общепринятого языка более легкими для понимания, чем традиционные размеры эффекта?». Журнал прикладной психологии . 99 (2): 332–340. doi :10.1037/a0034745. PMID 24188393.
Камминг, Г.; Финч, С. (2001). «Учебник по пониманию, использованию и расчету доверительных интервалов, основанных на центральных и нецентральных распределениях». Образовательные и психологические измерения . 61 (4): 530–572. doi :10.1177/0013164401614002. S2CID 120672914.
Келли, К (2007). «Доверительные интервалы для стандартизированных размеров эффекта: теория, применение и реализация». Журнал статистического программного обеспечения . 20 (8): 1–24. doi : 10.18637/jss.v020.i08 .
Липси, М. В. и Уилсон, Д. Б. (2001). Практический метаанализ . Sage: Thousand Oaks, CA.

Внешние ссылки

Викиверситет имеет обучающие ресурсы по теме «Размер эффекта»

Дополнительные пояснения

Размер эффекта (ES)
EffectSizeFAQ.com
Веб-приложение EstimationStats.com для создания графиков размера эффекта.
Измерение размера эффекта
Вычисление и интерпретация показателей размера эффекта с помощью ViSta Архивировано 27.12.2014 на Wayback Machine
Пакет effsize для проекта R по статистическим вычислениям