Статистическая значимость

При проверке статистических гипотез ^[1]^[2] результат имеет статистическую значимость , когда результат, по крайней мере, как «экстремальный», был бы очень редким, если бы нулевая гипотеза была верной. ^{[3] Точнее, определенный}уровень значимости исследования , обозначаемый , представляет собой вероятность того, что исследование отвергнет нулевую гипотезу при условии, что нулевая гипотеза верна; ^[4] и p -значение результата — это вероятность получения результата, по крайней мере, столь же экстремального, при условии, что нулевая гипотеза верна. ^[5] Результат является статистически значимым по стандартам исследования, когда . ^[6]^[7]^[8]^[9]^[10]^[11]^[12] Уровень значимости для исследования выбирается до сбора данных и обычно устанавливается на уровне 5% ^[13] или намного ниже — в зависимости от область исследования. ^[14] $\альфа$ ${\ displaystyle p}$ $p\leq \альфа$

В любом эксперименте или наблюдении , предполагающем взятие выборки из популяции , всегда существует вероятность того, что наблюдаемый эффект возник бы только из-за ошибки выборки . ^[15]^[16] Но если p -значение наблюдаемого эффекта меньше (или равно) уровню значимости, исследователь может заключить, что эффект отражает характеристики всей популяции, ^[1] тем самым отвергая нулевое значение. гипотеза. ^[17]

Этот метод проверки статистической значимости результатов был разработан в начале 20 века. Термин «значимость» здесь не подразумевает важности, а термин « статистическая значимость» — это не то же самое, что исследовательская значимость, теоретическая значимость или практическая значимость. ^[1]^[2]^[18]^[19] Например, термин «клиническая значимость» относится к практической значимости эффекта лечения. ^[20]

История

Статистическая значимость восходит к 18 веку, в работе Джона Арбетнота и Пьера-Симона Лапласа , которые вычислили значение p для соотношения полов человека при рождении, приняв нулевую гипотезу о равной вероятности рождения мальчиков и девочек; подробности см. в разделе p -value § История . ^[21]^[22]^[23]^[24]^[25]^[26]^[27]

В 1925 году Рональд Фишер выдвинул идею проверки статистических гипотез, которую он назвал «тестами значимости», в своей публикации « Статистические методы для научных работников ». ^[28]^[29]^[30] Фишер предложил вероятность один из двадцати (0,05) в качестве удобного порогового уровня для отклонения нулевой гипотезы. ^[31] В статье 1933 года Ежи Нейман и Эгон Пирсон назвали это пороговое значение уровнем значимости , который они назвали «уровнем значимости ». Они рекомендовали установить это заранее, до начала любого сбора данных. ^[31]^[32] $\альфа$ $\альфа$

Несмотря на первоначальное предложение 0,05 в качестве уровня значимости, Фишер не собирался фиксировать это пороговое значение. В своей публикации 1956 года «Статистические методы и научные выводы» он рекомендовал устанавливать уровни значимости в соответствии с конкретными обстоятельствами. ^[31]

Связанные понятия

Уровень значимости — это порог , ниже которого нулевая гипотеза отвергается, даже если по предположению она верна, и происходит что-то еще. Это означает, что это также вероятность ошибочного отклонения нулевой гипотезы, если нулевая гипотеза верна. ^[4] Это также называется ложным срабатыванием и ошибкой I типа . $\альфа$ ${\ displaystyle p}$ $\альфа$

Иногда вместо этого исследователи говорят об уровне достоверности $γ = (1 - α)$ . Это вероятность не отвергнуть нулевую гипотезу при условии, что она верна. ^[33]^[34] Доверительные уровни и доверительные интервалы были введены Нейманом в 1937 году. ^[35]

Роль в проверке статистических гипотез

В двустороннем тесте область отклонения для уровня значимости $α = 0,05$ разделена на оба конца выборочного распределения и составляет 5% площади под кривой (белые области).

Статистическая значимость играет ключевую роль в проверке статистических гипотез. Он используется для определения того, следует ли отклонить или сохранить нулевую гипотезу . Нулевая гипотеза – это гипотеза о том, что в изучаемом явлении не существует никакого эффекта. ^[36] Для отклонения нулевой гипотезы наблюдаемый результат должен быть статистически значимым, т.е. наблюдаемое значение p меньше заранее заданного уровня значимости . $\альфа$

Чтобы определить, является ли результат статистически значимым, исследователь рассчитывает значение p , которое представляет собой вероятность наблюдения эффекта той же величины или более экстремального при условии, что нулевая гипотеза верна. ^[5]^[12] Нулевая гипотеза отклоняется, если значение p меньше (или равно) заранее определенного уровня, . также называется уровнем значимости и представляет собой вероятность отклонения нулевой гипотезы при условии, что она верна ( ошибка I рода ). Обычно он устанавливается на уровне 5% или ниже. $\альфа$ $\альфа$

Например, когда установлено значение 5%, условная вероятность ошибки типа I при условии, что нулевая гипотеза верна , составляет 5%, ^[37] и статистически значимым результатом является тот, в котором наблюдаемое значение p меньше (или равно) 5%. ^[38] При извлечении данных из выборки это означает, что область отклонения составляет 5% распределения выборки . ^[39] Эти 5% могут быть распределены по одной стороне выборочного распределения, как в одностороннем тесте , или разделены на обе стороны распределения, как в двустороннем тесте , с каждым хвостом (или областью отклонения) содержащий 2,5% распределения. $\альфа$

Использование одностороннего теста зависит от того, указывает ли исследовательский вопрос или альтернативная гипотеза направление, например, тяжелее ли группа объектов или лучше успевают учащиеся при оценке . ^[3] Двусторонний тест по-прежнему можно использовать, но он будет менее эффективным , чем односторонний тест, поскольку область отклонения для одностороннего теста сосредоточена на одном конце нулевого распределения и в два раза больше ( 5% против 2,5%) каждой области отклонения для двустороннего теста. В результате нулевая гипотеза может быть отклонена с менее экстремальным результатом, если использовался односторонний критерий. ^[40] Односторонний критерий более эффективен, чем двусторонний тест, только если указанное направление альтернативной гипотезы верно. Однако если оно неверно, то односторонний тест не имеет силы.

Пороги значимости в конкретных областях

В конкретных областях, таких как физика элементарных частиц и производство , статистическая значимость часто выражается в кратных стандартном отклонении или сигме ( σ ) нормального распределения , при этом пороговые значения значимости устанавливаются на гораздо более строгом уровне (например, 5 σ ). ^[41]^[42] Например, уверенность в существовании бозона Хиггса основывалась на критерии 5 σ , который соответствует значению p примерно 1 на 3,5 миллиона. ^[42]^[43]

В других областях научных исследований, таких как полногеномные исследования ассоциаций , уровни значимости столь же низки, как5 × 10-8 не являются редкостью ^[44]^{[45] —}^{поскольку} количество проводимых тестов чрезвычайно велико.

Ограничения

Исследователи, сосредоточенные исключительно на том, являются ли их результаты статистически значимыми, могут сообщать о результатах, которые не являются существенными ^[46] и не могут быть воспроизведены. ^[47]^[48] Существует также разница между статистической значимостью и практической значимостью. Исследование, которое признано статистически значимым, не обязательно может быть практически значимым. ^[49]^[19]

Размер эффекта

Размер эффекта является мерой практической значимости исследования. ^[49] Статистически значимый результат может иметь слабый эффект. Чтобы оценить исследовательскую значимость своего результата, исследователям рекомендуется всегда сообщать о величине эффекта вместе с p -значениями. Мера размера эффекта количественно определяет силу эффекта, например, расстояние между двумя средними значениями в единицах стандартного отклонения (см. d Коэна ), коэффициент корреляции между двумя переменными или его квадрат и другие меры. ^[50]

Воспроизводимость

Статистически значимый результат может быть нелегко воспроизвести. ^[48] В частности, некоторые статистически значимые результаты на самом деле будут ложноположительными. Каждая неудачная попытка воспроизвести результат увеличивает вероятность того, что результат окажется ложноположительным. ^[51]

Проблемы

Чрезмерное использование в некоторых журналах

Начиная с 2010-х годов некоторые журналы начали задаваться вопросом , не слишком ли сильно полагаются на тестирование значимости, особенно на использование порога $α$ ^{= 5%, как на основной критерий достоверности гипотезы. [52]} Некоторые журналы призывали авторов проводить более детальный анализ, чем просто тест статистической значимости. В области социальной психологии журнал « Базовая и прикладная социальная психология» вообще запретил использование тестирования значимости в опубликованных им статьях ^[53] , требуя от авторов использовать другие меры для оценки гипотез и их воздействия. ^[54]^[55]

Другие редакторы, комментируя этот запрет, отметили: «Запрет сообщения о p -значениях, как это недавно сделала «Базовая и прикладная социальная психология», не решит проблему, поскольку он просто лечит симптом проблемы. В этом нет ничего плохого. с проверкой гипотез и p -значениями как таковыми, если авторы, рецензенты и редакторы действий используют их правильно». ^[56] Некоторые статистики предпочитают использовать альтернативные меры доказательства, такие как отношения правдоподобия или факторы Байеса . ^[57] Использование байесовской статистики позволяет избежать уровней достоверности, но также требует принятия дополнительных предположений, ^[57] и не обязательно может улучшить практику статистического тестирования. ^[58]

Широко распространенное злоупотребление статистической значимостью представляет собой важную тему исследований в области метанауки . ^[59]

Переосмысление значения

В 2016 году Американская статистическая ассоциация (ASA) опубликовала заявление о значениях p , в котором говорится, что «широко распространенное использование «статистической значимости» (обычно интерпретируемой как « p ≤ 0,05») в качестве лицензии на утверждение научных результатов (или подразумеваемая истина) приводит к значительному искажению научного процесса». ^[57] В 2017 году группа из 72 авторов предложила улучшить воспроизводимость, изменив порог статистической значимости значения p с 0,05 на 0,005. ^[60] Другие исследователи ответили, что введение более строгого порога значимости усугубит такие проблемы, как сбор данных ; альтернативные предложения, таким образом, заключаются в том, чтобы выбрать и обосновать гибкие пороговые значения p -значения перед сбором данных ^[61] или интерпретировать p -значения как непрерывные индексы, тем самым отбрасывая пороговые значения и статистическую значимость. ^[62] Кроме того, изменение значения на 0,005 увеличит вероятность ложноотрицательных результатов, в результате чего изучаемый эффект реален, но тест не может его показать. ^[63]

В 2019 году более 800 статистиков и ученых подписали обращение с призывом отказаться от термина «статистическая значимость» в науке ^[64] , а ASA опубликовало еще одно официальное заявление ^[65] , в котором заявило (стр. 2):

На основе нашего обзора статей в этом специальном выпуске и более широкой литературы мы пришли к выводу, что пришло время полностью прекратить использование термина «статистически значимый». Также не должны сохраняться такие варианты, как «значительно отличаются», « » и «незначительно», независимо от того, выражены ли они словами, звездочками в таблице или каким-либо другим способом. $p\leq 0,05$

Смотрите также

A/B тестирование , ABX тест
Статистика оценки
Метод Фишера для объединения независимых критериев значимости
Эффект поиска в другом месте
Проблема множественных сравнений
Размер образца
Ошибка техасского снайпера (приводятся примеры тестов, в которых уровень значимости был установлен слишком высоко)

дальнейшее чтение

Лидия Денворт, «Значительная проблема: стандартные научные методы подвергаются критике. Изменится ли что-нибудь?», Scientific American , vol. 321, нет. 4 (октябрь 2019 г.), стр. 62–67. «Использование значений p в течение почти столетия [с 1925 года] для определения статистической значимости экспериментальных результатов способствовало возникновению иллюзии уверенности и [к] кризисам воспроизводимости во многих научных областях . Растет решимость реформировать статистический анализ... Некоторые [исследователи] предлагают изменить статистические методы, тогда как другие готовы отказаться от порога для определения «значимых» результатов». (стр. 63.)
Зилиак, Стивен и Дейдра Макклоски (2008), Культ статистической значимости: как стандартная ошибка стоит нам рабочих мест, правосудия и жизней . Анн-Арбор, Мичиганский университет Press , 2009. ISBN 978-0-472-07007-7 . Отзывы и прием: (составлено Зилиаком)
Томпсон, Брюс (2004). «Кризис «значения» в психологии и образовании». Журнал социально-экономики . 33 (5): 607–613. doi :10.1016/j.socec.2004.09.034.
Чоу, Сиу Л. (1996). Статистическая значимость: обоснование, достоверность и полезность. Архивировано 3 декабря 2013 г. в Wayback Machine , том 1 серии «Введение в статистические методы», Sage Publications Ltd, ISBN 978-0-7619-5205-3 - утверждает, что статистическая значимость полезна в определенных случаях. обстоятельства.
Клайн, Рекс (2004). Помимо тестирования значимости: реформирование методов анализа данных в поведенческих исследованиях Вашингтон, округ Колумбия: Американская психологическая ассоциация.
Нуццо, Регина (2014). Научный метод: Статистические ошибки. Природа Том. 506, с. 150-152 (открытый доступ). Выявляет распространенные заблуждения относительно значения p.
Коэн, Джозеф (1994). [1] Архивировано 13 июля 2017 г. в Wayback Machine . Земля круглая (p<0,05). Американский психолог. Том 49, с. 997-1003. Рассматривает проблемы статистического тестирования нулевой гипотезы.
Амрайн, Валентин; Гренландия, Сандер; МакШейн, Блейк (20 марта 2019 г.). «Ученые восстают против статистической значимости». Природа . 567 (7748): 305–307. Бибкод : 2019Natur.567..305A. дои : 10.1038/d41586-019-00857-9 . ПМИД 30894741.

Внешние ссылки

В Викиверситете есть учебные ресурсы по статистической значимости.

Статья «Самые ранние известные варианты использования некоторых математических слов (S)» содержит статью «Значение», в которой содержится некоторая историческая информация.
«Концепция тестирования статистической значимости» (февраль 1994 г.): статья Брюса Томпона, размещенная Информационным центром ERIC по оценке и оценке, Вашингтон, округ Колумбия.
«Что означает, что результат является «статистически значимым»?» (без даты): статья Службы статистической оценки Университета Джорджа Мейсона, Вашингтон, округ Колумбия.