stringtranslate.com

Мощность (статистика)

В частотной статистике мощность — это мера способности экспериментального дизайна и настройки проверки гипотез обнаруживать определенный эффект, если он действительно присутствует. В типичном использовании это функция используемого теста (включая желаемый уровень статистической значимости ), предполагаемого распределения теста (например, степень изменчивости и размер выборки ) и интересующего размера эффекта . Высокая статистическая мощность связана с низкой изменчивостью, большими размерами выборки, большими искомыми эффектами и менее строгими требованиями к статистической значимости.

Более формально, в случае простого теста гипотез с двумя гипотезами, мощность теста — это вероятность того, что тест правильно отвергает нулевую гипотезу ( ), когда альтернативная гипотеза ( ) верна. Обычно это обозначается как , где — вероятность совершения ошибки II типа ( ложноотрицательного результата ) при условии наличия истинного эффекта или ассоциации.

Фон

Статистическое тестирование использует данные из выборок для оценки или вывода выводов о статистической популяции . Например, мы можем измерить урожайность выборок двух сортов сельскохозяйственной культуры и использовать двухвыборочный тест для оценки того, различаются ли средние значения этой урожайности между сортами.

В рамках частотной проверки гипотез это делается путем вычисления тестовой статистики (например, t-статистики ) для набора данных, которая имеет известное теоретическое распределение вероятностей , если нет разницы (так называемая нулевая гипотеза). Если фактическое значение, рассчитанное на выборке, достаточно маловероятно для возникновения при нулевой гипотезе, мы говорим, что мы выявили статистически значимый эффект.

Порог значимости можно установить небольшим, чтобы гарантировать, что вероятность ложного обнаружения несуществующего эффекта мала. Однако неспособность определить значимый эффект не означает, что его не было. Если мы настаиваем на осторожности, чтобы избежать ложных положительных результатов, мы можем вместо этого создать ложные отрицательные результаты. Может быть, просто слишком много ожидать, что мы сможем найти удовлетворительно сильные доказательства очень тонкого различия, даже если оно существует. Статистическая мощность — это попытка количественно оценить эту проблему.

В случае сравнения двух сортов сельскохозяйственных культур это позволяет нам ответить на такие вопросы, как:

Описание

Иллюстрация мощности статистического теста для двустороннего теста через распределение вероятностей статистики теста при нулевой и альтернативной гипотезах. α показана как синяя область , вероятность отклонения при нулевой гипотезе, в то время как красная область показывает мощность, 1 − β , вероятность правильного отклонения при альтернативе.

Предположим, мы проводим проверку гипотезы. Мы определяем две гипотезы: нулевую гипотезу и альтернативную гипотезу. Если мы разработаем тест таким образом, что α будет уровнем значимости, то есть вероятностью отклонения, когда на самом деле является истинным, то мощность теста будет равна 1 - β , где β — вероятность не отклонения, когда альтернатива истинна.

Чтобы сделать это более конкретным, типичный статистический тест будет основан на тестовой статистике t, вычисленной из выборочных данных, которая имеет определенное распределение вероятностей при . Желаемый уровень значимости α затем определит соответствующую «область отвержения» (ограниченную определенными «критическими значениями»), набор значений, которые t вряд ли примет, если был правильным. Если мы отклоним в пользу только тогда, когда выборка t принимает эти значения, мы сможем сохранить вероятность ложного отклонения в пределах нашего желаемого уровня значимости. В то же время, если определяет свое собственное распределение вероятностей для t (разница между двумя распределениями является функцией размера эффекта), мощность теста будет вероятностью, при , того, что выборка t попадет в нашу определенную область отвержения и приведет к правильному отклонению.

Статистическая мощность равна единице минус вероятность ошибки типа II, а также является чувствительностью процедуры проверки гипотезы для обнаружения истинного эффекта. Обычно существует компромисс между требованием более строгих тестов (и, следовательно, меньших областей отклонения) и попыткой иметь высокую вероятность отклонения нулевой гипотезы в рамках альтернативной гипотезы. Статистическая мощность также может быть распространена на случай, когда на основе эксперимента или опроса проверяются несколько гипотез . Таким образом, также принято ссылаться на мощность исследования , оценивая научный проект с точки зрения его способности отвечать на исследовательские вопросы, на которые они стремятся ответить.

Приложения

Основное применение статистической мощности — «анализ мощности», расчет мощности, обычно выполняемый до проведения эксперимента с использованием данных пилотных исследований или обзора литературы. Анализ мощности может использоваться для расчета минимального размера выборки, необходимого для того, чтобы можно было с достаточной вероятностью обнаружить эффект заданного размера (другими словами, создавая приемлемый уровень мощности). Например: «Сколько раз мне нужно подбросить монету, чтобы сделать вывод, что она подтасована на определенную сумму?» [1] Если ресурсы и, следовательно, размеры выборки фиксированы, анализ мощности также может использоваться для расчета минимального размера эффекта, который, скорее всего, будет обнаружен.

Финансирующие агентства, этические советы и исследовательские обзорные комиссии часто просят исследователей провести анализ мощности. Недостаточно мощное исследование, скорее всего, будет неубедительным, не позволяя выбирать между гипотезами на желаемом уровне значимости, в то время как чрезмерно мощное исследование потратит большие средства на то, чтобы иметь возможность сообщать о значительных эффектах, даже если они незначительны и поэтому практически бессмысленны. Если проведено большое количество недостаточно мощных исследований и опубликованы статистически значимые результаты , опубликованные результаты, скорее всего, будут ложноположительными, чем истинными, что способствует кризису репликации . Однако чрезмерные требования к мощности могут быть связаны с напрасной тратой ресурсов и этическими проблемами, например, с использованием большого количества подопытных животных, когда было бы достаточно меньшего количества. Это также может побудить исследователей, пытающихся найти финансирование, завышать свои ожидаемые размеры эффекта или избегать поиска более тонких эффектов взаимодействия, которые не могут быть легко обнаружены. [2]

Анализ мощности — это в первую очередь частотный статистический инструмент. В байесовской статистике проверка гипотез того типа, который используется в классическом анализе мощности, не производится. В байесовской структуре человек обновляет свои предыдущие убеждения, используя данные, полученные в данном исследовании. В принципе, исследование, которое сочли бы недостаточно мощным с точки зрения проверки гипотез, все равно можно использовать в таком процессе обновления. Однако мощность остается полезной мерой того, насколько данный размер эксперимента может уточнить чьи-либо убеждения. Исследование с низкой мощностью вряд ли приведет к большому изменению убеждений.

Кроме того, концепция мощности используется для сравнения различных статистических процедур тестирования: например, параметрического и непараметрического теста одной и той же гипотезы. Тесты могут иметь одинаковый размер , а значит, и одинаковые показатели ложноположительных результатов, но разную способность обнаруживать истинные эффекты. Рассмотрение их теоретических свойств мощности является ключевой причиной общего использования тестов отношения правдоподобия .

Правило большого пальца для t-теста

Правило Лера [3] [4] (грубое) гласит, что размер выборки (для каждой группы) для общего случая двухстороннего двухвыборочного t-теста с мощностью 80% ( ) и уровнем значимости должен быть: где — оценка дисперсии популяции и подлежащая обнаружению разница в средних значениях обеих выборок. Это выражение можно переформулировать, подразумевая, например, что мощность 80% получается при поиске разницы в средних значениях, которая превышает примерно в 4 раза групповую стандартную ошибку среднего .

Для одновыборочного t-теста 16 следует заменить на 8. Другие значения обеспечивают соответствующее приближение, когда желаемая мощность или уровень значимости отличаются. [5]

Однако для подтверждения и уточнения этой оценки всегда следует проводить полный анализ мощности.

Факторы, влияющие на мощность

Пример того, как размер выборки влияет на уровни мощности

Статистическая мощность может зависеть от ряда факторов. Некоторые факторы могут быть специфичны для конкретной ситуации тестирования, но при нормальном использовании мощность зависит от следующих трех аспектов, которые потенциально может контролировать практикующий специалист:

Для данного теста критерий значимости определяет желаемую степень строгости, указывая, насколько маловероятно, что нулевая гипотеза об отсутствии эффекта будет отклонена, если она на самом деле верна. Наиболее часто используемым порогом является вероятность отклонения 0,05, хотя иногда используются и меньшие значения, такие как 0,01 или 0,001. Этот порог затем подразумевает, что наблюдение должно быть по крайней мере настолько маловероятным (возможно, предполагая достаточно большую оценку разницы), чтобы считаться достаточно сильным доказательством против нулевой гипотезы. Выбор меньшего значения для ужесточения порога, чтобы уменьшить вероятность ложноположительного результата, также уменьшит мощность, увеличит вероятность ложноотрицательного результата. Некоторые статистические тесты изначально дадут лучшую мощность , хотя часто за счет необходимости более сильных предположений.

Величина интересующего эффекта определяет, что ищет тест. Это может быть ожидаемый размер эффекта , если он существует, как научная гипотеза , к которой пришел исследователь и хочет ее проверить. В качестве альтернативы, в более практическом контексте он может быть определен размером, который должен быть эффектом, чтобы быть полезным, например, который требуется, чтобы быть клинически значимым . Размер эффекта может быть прямым значением интересующей величины (например, разница в среднем определенного размера), или это может быть стандартизированная мера, которая также учитывает изменчивость в популяции (например, разница в средних, выраженная как кратное стандартного отклонения). Если исследователь ищет больший эффект, то его должно быть легче найти с заданной экспериментальной или аналитической установкой, и поэтому мощность выше.

Характер выборки лежит в основе информации, используемой в тесте. Обычно это касается размера выборки и ее изменчивости, если это не подразумевается в определении размера эффекта. В более широком смысле, точность, с которой измеряются данные, также может быть важным фактором (например, статистическая надежность ), а также дизайн эксперимента или наблюдательного исследования. В конечном итоге эти факторы приводят к ожидаемому количеству ошибки выборки . Меньшая ошибка выборки может быть получена за счет больших размеров выборки из популяции с меньшей изменчивостью, более точных измерений или более эффективных экспериментальных дизайнов (например, с соответствующим использованием блокировки ) , и такие меньшие ошибки приведут к повышению мощности, хотя обычно и за счет ресурсов. То, как увеличенный размер выборки преобразуется в более высокую мощность, является мерой эффективности теста — например, размера выборки, необходимого для заданной мощности. [6]

Обсуждение

Статистическая мощность проверки гипотезы влияет на интерпретацию ее результатов. Отсутствие результата в более мощном исследовании является более сильным доказательством против существующего эффекта, чем тот же результат в менее мощном исследовании. Однако это не является полностью окончательным. Эффект может существовать, но быть меньше, чем тот, который искали, что означает, что исследование на самом деле недостаточно мощное, и, таким образом, выборка не может отличить его от случайной случайности. [7] Многие клинические испытания , например, имеют низкую статистическую мощность для обнаружения различий в неблагоприятных эффектах лечения, поскольку такие эффекты могут влиять только на нескольких пациентов, даже если это различие может быть важным . [8] Выводы о вероятности фактического наличия эффекта также должны учитывать больше факторов, чем один тест, тем более, что реальная мощность редко близка к 1.

Действительно, хотя формальных стандартов мощности нет, многие исследователи и финансирующие организации оценивают мощность, используя 0,80 (или 80%) в качестве стандарта адекватности. Эта конвенция подразумевает компромисс четыре к одному между β -риском и α -риском, поскольку вероятность ошибки типа II β устанавливается как 1 - 0,8 = 0,2, в то время как α, вероятность ошибки типа I, обычно устанавливается на уровне 0,05. Некоторые приложения требуют гораздо более высоких уровней мощности. Медицинские тесты могут быть разработаны для минимизации количества ложноотрицательных результатов (ошибок типа II), полученных путем ослабления порога значимости, что повышает риск получения ложноположительного результата (ошибки типа I). Обоснование заключается в том, что лучше сказать здоровому пациенту «мы, возможно, что-то нашли — давайте проверим дальше», чем сказать больному пациенту «все хорошо». [9]

Анализ мощности фокусируется на правильном отклонении нулевой гипотезы. Однако альтернативные соображения могут мотивировать эксперимент и, таким образом, приводить к различным потребностям в размере выборки. Во многих контекстах проблема заключается не столько в выборе между гипотезами, сколько в получении оценки размера эффекта популяции с достаточной точностью. Например, тщательный анализ мощности может сказать вам, что 55 пар нормально распределенных выборок с корреляцией 0,5 будет достаточно, чтобы предоставить 80% мощности при отклонении нулевой гипотезы, что корреляция не превышает 0,2 (используя односторонний тест, α  = 0,05). Но типичный 95% доверительный интервал с этой выборкой будет около [0,27, 0,67]. Альтернативный, хотя и связанный анализ потребуется, если мы хотим иметь возможность измерить корреляцию с точностью +/- 0,1, что подразумевает другой (в данном случае больший) размер выборки. В качестве альтернативы, несколько недостаточно мощных исследований все еще могут быть полезны, если их соответствующим образом объединить с помощью метаанализа .

Многие статистические анализы включают оценку нескольких неизвестных величин. В простых случаях все эти величины, кроме одной, являются мешающими параметрами . В этой обстановке единственная соответствующая мощность относится к единственной величине, которая будет подвергаться формальному статистическому выводу. В некоторых условиях, особенно если цели более «исследовательские», в анализе может быть несколько величин, представляющих интерес. Например, в множественном регрессионном анализе мы можем включить несколько ковариатов, представляющих потенциальный интерес. В таких ситуациях, как эта, когда рассматривается несколько гипотез, обычно мощности, связанные с различными гипотезами, различаются. Например, в множественном регрессионном анализе мощность для обнаружения эффекта заданного размера связана с дисперсией ковариата. Поскольку разные ковариаты будут иметь разные дисперсии, их мощности также будут различаться.

Дополнительные осложнения возникают, когда мы рассматриваем эти множественные гипотезы вместе. Например, если мы считаем, что ложный положительный результат делает ошибочное нулевое отклонение по любой из этих гипотез, наша вероятность этой «семейной ошибки» будет завышена, если не будут приняты соответствующие меры. Такие меры обычно включают применение более высокого порога строгости для отклонения гипотезы (например, с методом Бонферрони ), и поэтому уменьшают мощность. В качестве альтернативы могут быть разные понятия мощности, связанные с тем, как рассматриваются различные гипотезы. «Полная мощность» требует, чтобы все истинные эффекты были обнаружены во всех гипотезах, что является гораздо более сильным требованием, чем «минимальная мощность», заключающаяся в возможности найти по крайней мере один истинный эффект, тип мощности, который может увеличиваться с увеличением числа гипотез. [10]

Априорипротив.постфактуманализ

Анализ мощности может быть выполнен либо до ( априорный или перспективный анализ мощности), либо после ( апостериорный или ретроспективный анализ мощности) сбора данных. Априорный анализ мощности проводится до исследования и обычно используется для оценки достаточных размеров выборки для достижения адекватной мощности. Апостериорный анализ «наблюдаемой мощности» проводится после завершения исследования и использует полученный размер выборки и размер эффекта для определения того, какой была мощность в исследовании, предполагая, что размер эффекта в выборке равен размеру эффекта в популяции. В то время как полезность перспективного анализа мощности в экспериментальном дизайне общепризнанна, апостериорный анализ мощности в корне ошибочен. [11] [12] Поддавшись искушению использовать статистический анализ собранных данных для оценки мощности, можно получить неинформативные и вводящие в заблуждение значения. В частности, было показано, что апостериорная «наблюдаемая мощность» является однозначной функцией достигнутого p -значения . [11] Это было расширено, чтобы показать, что все постфактумные анализы мощности страдают от так называемого «парадокса подхода мощности» (PAP), в котором исследование с нулевым результатом, как полагают, демонстрирует больше доказательств того, что нулевая гипотеза на самом деле верна, когда p -значение меньше, поскольку кажущаяся мощность для обнаружения фактического эффекта будет выше. [11] Фактически, меньшее p -значение правильно понимается как то, что делает нулевую гипотезу относительно менее вероятной для того, чтобы быть верной. [ необходима ссылка ]

Пример

Ниже приведен пример, показывающий, как вычислить мощность для рандомизированного эксперимента: Предположим, что целью эксперимента является изучение влияния лечения на некоторую величину, и поэтому мы будем сравнивать субъектов исследования, измеряя величину до и после лечения, анализируя данные с помощью одностороннего парного t-теста с порогом уровня значимости 0,05. Мы заинтересованы в возможности обнаружения положительного изменения размера .

Сначала мы ставим задачу в соответствии с нашим тестом. Пусть и обозначают предварительные и послелечебные меры субъекта соответственно. Возможный эффект лечения должен быть виден в различиях , которые предполагаются независимыми и одинаково нормальными по распределению, с неизвестным средним значением и дисперсией .

Здесь естественно выбрать в качестве нашей нулевой гипотезы, что ожидаемая средняя разница равна нулю, т.е. для нашего одностороннего теста альтернативной гипотезой будет наличие положительного эффекта, соответствующего Тестовая статистика в этом случае определяется как:

где — среднее значение под нулем, поэтому мы подставляем 0, n — размер выборки (количество субъектов), — выборочное среднее значение разницы

и — выборочное стандартное отклонение разницы.

Аналитическое решение

Мы можем действовать в соответствии с нашими знаниями статистической теории, хотя на практике для такого стандартного случая, как этот, будет существовать программное обеспечение, позволяющее вычислять более точные ответы.

Благодаря теории t-теста мы знаем, что эта тестовая статистика при нулевой гипотезе следует распределению Стьюдента со степенями свободы. Если мы хотим отклонить нулевую гипотезу на уровне значимости , мы должны найти критическое значение , такое, чтобы вероятность при нулевой гипотезе была равна . Если n велико, t-распределение сходится к стандартному нормальному распределению (таким образом, больше не включая n ), и поэтому посредством использования соответствующей функции квантиля мы получаем, что нулевую гипотезу следует отклонить, если

Теперь предположим, что альтернативная гипотеза верна, поэтому . Затем, записывая мощность как функцию размера эффекта, , мы находим вероятность оказаться выше под .

снова следует распределению Стьюдента-t при , сходящемуся к стандартному нормальному распределению для больших n . Оцененное значение также будет сходиться к своему значению в популяции Таким образом, мощность может быть аппроксимирована как

Согласно этой формуле, мощность увеличивается с ростом величины эффекта и размера выборки n и уменьшается с ростом изменчивости . В тривиальном случае нулевого размера эффекта мощность минимальна ( инфимум ) и равна уровню значимости теста в этом примере 0,05. Для конечных размеров выборки и ненулевой изменчивости, как это типично, мощность не может быть сделана равной 1, за исключением тривиального случая, когда нуль всегда отклоняется.

Мы можем выполнить инвертирование , чтобы получить требуемые размеры выборки:

Предположим , и мы считаем, что составляет около 2, скажем, тогда нам требуется для степени размер выборки

Решение для моделирования

В качестве альтернативы мы можем использовать метод моделирования Монте-Карло , который работает более широко. [13] И снова мы возвращаемся к предположению о распределении и определению . Предположим, что у нас есть фиксированные значения размера выборки, изменчивости и размера эффекта, и мы хотим вычислить мощность. Мы можем принять этот процесс:

1. Сгенерировать большое количество наборов согласно нулевой гипотезе,

2. Вычислите результирующую тестовую статистику для каждого набора.

3. Вычислите -й квантиль смоделированного значения и используйте его в качестве оценки .

4. Теперь сгенерируйте большое количество наборов согласно альтернативной гипотезе, и снова вычислите соответствующую тестовую статистику.

5. Посмотрите на долю этих смоделированных альтернатив , которые выше рассчитанных на шаге 3 и поэтому отвергаются. Это мощность.

Это можно сделать с помощью различных программных пакетов. Используя эту методологию с предыдущими значениями, установив размер выборки на 25, мы получим расчетную мощность около 0,78. Небольшое расхождение с предыдущим разделом в основном обусловлено неточностями с нормальным приближением.

Расширение

Байесовская сила

В частотном подходе предполагается, что параметры имеют определенное значение, которое вряд ли будет истинным. Эту проблему можно решить, предположив, что параметр имеет распределение. Полученную мощность иногда называют байесовской мощностью, которая обычно используется в дизайне клинических испытаний .

Предсказуемая вероятность успеха

Как частотная, так и байесовская мощность используют статистическую значимость в качестве критерия успеха. Однако статистической значимости часто недостаточно для определения успеха. Чтобы решить эту проблему, концепцию мощности можно расширить до концепции предсказательной вероятности успеха (PPOS). Критерий успеха для PPOS не ограничивается статистической значимостью и обычно используется в клинических исследованиях .

Программное обеспечение для расчета мощности и размера выборки

Для выполнения расчетов мощности и размера выборки доступно множество бесплатных и/или открытых программ. К ним относятся

Смотрите также

Ссылки

  1. ^ «Статистическая мощность и недостаточная мощность статистики — Статистика сделана неправильно». www.statisticsdonewrong.com . Получено 30 сентября 2019 г. .
  2. ^ Накагава, Шиничи; Лагиш, Малгожата; Ян, Йефенг; Дробняк, Шимон М. (2024). «Поиск правильного баланса мощности: лучший дизайн исследования и сотрудничество могут уменьшить зависимость от статистической мощности». PLOS Biology . 22 (1): e3002423. doi : 10.1371/journal.pbio.3002423 . PMC 10773938 . PMID  38190355. 
  3. ^ Роберт Лер (1992), «Шестнадцать S-квадрат над D-квадрат: отношение для грубых оценок размера выборки», Статистика в медицине (на немецком языке), т. 11, № 8, стр. 1099–1102, doi : 10.1002/sim.4780110811, ISSN  0277-6715, PMID  1496197
  4. ^ Ван Белль, Джеральд (2008-08-18). Статистические правила большого пальца, второе издание. Wiley Series in Probability and Statistics. Хобокен, Нью-Джерси, США: John Wiley & Sons, Inc. doi : 10.1002/9780470377963. ISBN 978-0-470-37796-3.
  5. ^ Оценка размера выборки в клинических исследованиях от рандомизированных контролируемых испытаний до наблюдательных исследований, 2020, doi: 10.1016/j.chest.2020.03.010, Сяофэн Ван, доктор философии; и Синге Цзи, магистр наук pdf
  6. ^ Эверитт, Брайан С. (2002). Кембриджский словарь статистики . Cambridge University Press. стр. 321. ISBN 0-521-81099-X.
  7. ^ Эллис, Пол (2010). Основное руководство по размерам эффектов: статистическая мощность, метаанализ и интерпретация результатов исследований . Cambridge University Press. стр. 52. ISBN 978-0521142465.
  8. ^ Цанг, Р.; Колли, Л.; Линд, Л.Д. (2009). «Недостаточная статистическая мощность для обнаружения клинически значимых различий в показателях неблагоприятных событий в рандомизированных контролируемых исследованиях». Журнал клинической эпидемиологии . 62 (6): 609–616. doi :10.1016/j.jclinepi.2008.08.005. PMID  19013761.
  9. ^ Эллис, Пол Д. (2010). Основное руководство по размерам эффектов: введение в статистическую мощность, метаанализ и интерпретацию результатов исследований . Великобритания: Cambridge University Press. стр. 56.
  10. ^ «Оценка статистической мощности при использовании множественных процедур тестирования». mdrc.org . Ноябрь 2017 г.
  11. ^ abc Hoenig; Heisey (2001). «Злоупотребление властью». The American Statistician . 55 (1): 19–24. doi :10.1198/000313001300339897.
  12. ^ Томас, Л. (1997). "Ретроспективный анализ мощности" (PDF) . Conservation Biology . 11 (1): 276–280. Bibcode : 1997ConBi..11..276T. doi : 10.1046/j.1523-1739.1997.96102.x. hdl : 10023/679.
  13. ^ Грэбнер, Роберт В. (1999). Дизайн исследования с SAS: Оценка мощности с помощью методов Монте-Карло (PDF) . SUGI 24.

Источники

Внешние ссылки