Статистическая значимость

При статистической проверке гипотез [ ^1]^[2] результат имеет статистическую значимость , когда результат, по крайней мере, такой же «экстремальный», был бы очень редким, если бы нулевая гипотеза была верна. ^{[3] Точнее, определенный}уровень значимости исследования , обозначаемый как , представляет собой вероятность того, что исследование отвергнет нулевую гипотезу, при условии, что нулевая гипотеза верна; ^[4] а p -значение результата, , представляет собой вероятность получения результата, по крайней мере, такого же экстремального, при условии, что нулевая гипотеза верна. ^[5] Результат является статистически значимым по стандартам исследования, когда . ^[6]^[7]^[8]^[9]^[10]^[11]^[12] Уровень значимости для исследования выбирается до сбора данных и обычно устанавливается на уровне 5% ^[13] или намного ниже — в зависимости от области исследования. ^[14] $\альфа$ $p$ $p\leq \альфа$

В любом эксперименте или наблюдении , включающем взятие выборки из популяции , всегда существует вероятность того, что наблюдаемый эффект мог возникнуть только из-за ошибки выборки . ^[15]^[16] Но если p -значение наблюдаемого эффекта меньше (или равно) уровню значимости, исследователь может сделать вывод, что эффект отражает характеристики всей популяции, ^[1] тем самым отвергая нулевую гипотезу. ^[17]

Этот метод проверки статистической значимости результатов был разработан в начале 20 века. Термин значимость здесь не подразумевает важность, а термин статистическая значимость не то же самое, что исследовательская значимость, теоретическая значимость или практическая значимость. ^[1]^[2]^[18]^[19] Например, термин клиническая значимость относится к практической значимости эффекта лечения. ^[20]

История

Статистическая значимость восходит к XVIII веку, к работе Джона Арбетнота и Пьера-Симона Лапласа , которые вычислили p -значение для соотношения полов у людей при рождении, предполагая нулевую гипотезу о равной вероятности рождения мальчиков и девочек; подробности см. в p -значении § История . ^[21]^[22]^[23]^[24]^[25]^[26]^[27]

В 1925 году Рональд Фишер выдвинул идею статистической проверки гипотез, которую он назвал «тестами значимости», в своей публикации «Статистические методы для научных работников» . ^[28]^[29]^[30] Фишер предложил вероятность один из двадцати (0,05) в качестве удобного уровня отсечения для отклонения нулевой гипотезы. ^[31] В статье 1933 года Ежи Нейман и Эгон Пирсон назвали этот уровень отсечения уровнем значимости , который они назвали . Они рекомендовали устанавливать его заранее, до любого сбора данных. ^[31]^[32] $\альфа$ $\альфа$

Несмотря на его первоначальное предложение 0,05 как уровня значимости, Фишер не намеревался фиксировать это пороговое значение. В своей публикации 1956 года «Статистические методы и научный вывод» он рекомендовал устанавливать уровни значимости в соответствии с конкретными обстоятельствами. ^[31]

Связанные концепции

Уровень значимости — это порог, ниже которого нулевая гипотеза отвергается, даже если по предположению она верна, и происходит что-то еще. Это означает, что также существует вероятность ошибочного отклонения нулевой гипотезы, если нулевая гипотеза верна. ^[4] Это также называется ложноположительной ошибкой и ошибкой типа I. $\альфа$ $p$ $\альфа$

Иногда исследователи говорят об уровне достоверности $γ = (1 - α)$ . Это вероятность не отвергнуть нулевую гипотезу, если она верна. ^[33]^[34] Уровни достоверности и доверительные интервалы были введены Нейманом в 1937 году. ^[35]

Роль в статистической проверке гипотез

В двустороннем тесте область отклонения для уровня значимости $α = 0,05$ делится на оба конца выборочного распределения и составляет 5% площади под кривой (белые области).

Статистическая значимость играет ключевую роль в статистической проверке гипотез. Она используется для определения того, следует ли отвергнуть или сохранить нулевую гипотезу . Нулевая гипотеза — это гипотеза о том, что в изучаемом явлении не существует никакого эффекта. ^[36] Для того, чтобы нулевая гипотеза была отвергнута, наблюдаемый результат должен быть статистически значимым, т. е. наблюдаемое p -значение должно быть меньше заранее указанного уровня значимости . $\альфа$

Чтобы определить, является ли результат статистически значимым, исследователь вычисляет p -значение, которое представляет собой вероятность наблюдения эффекта той же величины или более экстремального при условии, что нулевая гипотеза верна. ^[5]^[12] Нулевая гипотеза отклоняется, если p -значение меньше (или равно) заранее заданному уровню, . также называется уровнем значимости и представляет собой вероятность отклонения нулевой гипотезы при условии, что она верна ( ошибка первого рода ). Обычно оно устанавливается на уровне 5% или ниже. $\альфа$ $\альфа$

Например, когда установлено на 5%, условная вероятность ошибки I типа , при условии, что нулевая гипотеза верна , составляет 5%, ^[37] а статистически значимый результат — это тот, где наблюдаемое p -значение меньше (или равно) 5%. ^[38] При извлечении данных из выборки это означает, что область отклонения составляет 5% распределения выборки . ^[39] Эти 5% могут быть отнесены к одной стороне распределения выборки, как в одностороннем тесте , или разделены на обе стороны распределения, как в двустороннем тесте , при этом каждый хвост (или область отклонения) содержит 2,5% распределения. $\альфа$

Использование одностороннего теста зависит от того, указывает ли исследовательский вопрос или альтернативная гипотеза направление, например, является ли группа объектов тяжелее или результаты учащихся на оценке лучше . ^[3] Двусторонний тест все еще может использоваться, но он будет менее мощным, чем односторонний тест, потому что область отклонения для одностороннего теста сосредоточена на одном конце нулевого распределения и в два раза больше (5% против 2,5%) каждой области отклонения для двустороннего теста. В результате нулевая гипотеза может быть отклонена с менее экстремальным результатом, если использовался односторонний тест. ^[40] Односторонний тест более мощный, чем двусторонний тест, только если указанное направление альтернативной гипотезы верно. Однако, если оно неверно, то односторонний тест не имеет мощности.

Пороги значимости в определенных областях

В таких областях, как физика элементарных частиц и производство , статистическая значимость часто выражается в кратных значениях стандартного отклонения или сигмы ( σ ) нормального распределения , при этом пороги значимости устанавливаются на гораздо более строгом уровне (например, 5 σ ). ^{[41] [}^42] Например, уверенность в существовании частицы бозона Хиггса основывалась на критерии 5 σ , что соответствует p -значению около 1 из 3,5 миллионов. ^[42]^[43]

В других областях научных исследований, таких как исследования ассоциаций на уровне всего генома , уровни значимости могут быть такими низкими, как5 × 10−8 не являются редкостью ^[44]^[45]^, поскольку количество проведенных тестов чрезвычайно велико.

Ограничения

Исследователи, сосредоточенные исключительно на том, являются ли их результаты статистически значимыми, могут сообщать о результатах, которые не являются существенными ^[46] и не воспроизводимыми. ^[47]^[48] Существует также разница между статистической значимостью и практической значимостью. Исследование, которое признано статистически значимым, не обязательно может быть практически значимым. ^[49]^[19]

Размер эффекта

Размер эффекта является мерой практической значимости исследования. ^[49] Статистически значимый результат может иметь слабый эффект. Чтобы оценить исследовательскую значимость своего результата, исследователи должны всегда сообщать размер эффекта вместе с p -значениями. Мера размера эффекта количественно определяет силу эффекта, например, расстояние между двумя средними в единицах стандартного отклонения (ср. d Коэна ), коэффициент корреляции между двумя переменными или его квадрат и другие меры. ^[50]

Воспроизводимость

Статистически значимый результат может быть нелегко воспроизвести. ^[48] В частности, некоторые статистически значимые результаты на самом деле будут ложноположительными. Каждая неудачная попытка воспроизвести результат увеличивает вероятность того, что результат был ложноположительным. ^[51]

Вызовы

Чрезмерное использование в некоторых журналах

Начиная с 2010-х годов некоторые журналы начали задаваться вопросом, не слишком ли сильно полагаются на тестирование значимости, и в частности на использование порога $α$ ^{= 5%, как на основную меру обоснованности гипотезы. [52]} Некоторые журналы поощряли авторов проводить более подробный анализ, чем просто статистический тест значимости. В социальной психологии журнал Basic and Applied Social Psychology вообще запретил использование тестирования значимости в опубликованных им работах, ^[53] требуя от авторов использовать другие меры для оценки гипотез и воздействия. ^[54]^[55]

Другие редакторы, комментируя этот запрет, отметили: «Запрет на сообщение p -значений, как это недавно сделала Basic and Applied Social Psychology, не решит проблему, потому что это всего лишь лечение симптома проблемы. Нет ничего плохого в проверке гипотез и p -значениях как таковых, пока авторы, рецензенты и редакторы действий используют их правильно». ^[56] Некоторые статистики предпочитают использовать альтернативные меры доказательств, такие как отношения правдоподобия или байесовские факторы . ^[57] Использование байесовской статистики может избежать уровней достоверности, но также требует принятия дополнительных предположений, ^[57] и не обязательно может улучшить практику в отношении статистического тестирования. ^[58]

Широко распространенное злоупотребление статистической значимостью представляет собой важную тему исследований в области метанауки . ^[59]

Переосмысление значимости

В 2016 году Американская статистическая ассоциация (ASA) опубликовала заявление о p -значениях, в котором говорилось, что «широко распространенное использование «статистической значимости» (обычно интерпретируемой как « p ≤ 0,05») в качестве лицензии на утверждение о научном открытии (или подразумеваемой истинности) приводит к значительному искажению научного процесса». ^[57] В 2017 году группа из 72 авторов предложила повысить воспроизводимость, изменив пороговое значение p для статистической значимости с 0,05 до 0,005. ^[60] Другие исследователи ответили, что введение более строгого порогового значения значимости усугубит такие проблемы, как выемка данных ; альтернативные предложения, таким образом, заключаются в выборе и обосновании гибких пороговых значений p перед сбором данных ^[61] или в интерпретации p -значений как непрерывных индексов, тем самым отбрасывая пороговые значения и статистическую значимость. ^[62] Кроме того, изменение до 0,005 увеличит вероятность ложноотрицательных результатов, когда изучаемый эффект реален, но тест не может его показать. ^[63]

В 2019 году более 800 статистиков и ученых подписали сообщение, призывающее отказаться от термина «статистическая значимость» в науке ^[64] , а ASA опубликовала дополнительное официальное заявление ^[65], в котором говорилось (стр. 2):

На основе обзора статей в этом специальном выпуске и более широкой литературы мы приходим к выводу, что пришло время полностью прекратить использование термина «статистически значимый». Не должны выживать и такие варианты, как «значительно отличающийся», « ,» и «незначимый», выраженные словами, звездочками в таблице или каким-либо другим способом. $p\leq 0.05$

Смотрите также

A/B-тестирование , ABX-тестирование
Статистика оценок
Метод Фишера для объединения независимых тестов значимости
Эффект взгляда в другом месте
Проблема множественных сравнений
Размер выборки
Ошибка техасского снайпера (приводит примеры тестов, в которых уровень значимости был установлен слишком высоким)

Ссылки

^ abc Sirkin, R. Mark (2005). "T-тесты для двух выборок". Статистика для социальных наук (3-е изд.). Thousand Oaks, CA: SAGE Publications, Inc. стр. 271–316. ISBN 978-1-4129-0546-6.
^ ab Borror, Connie M. (2009). «Статистическое принятие решений». Справочник сертифицированного инженера по качеству (3-е изд.). Милуоки, Висконсин: ASQ Quality Press. С. 418–472. ISBN 978-0-87389-745-7.
^ ab Myers, Jerome L.; Well, Arnold D.; Lorch, Robert F. Jr. (2010). «Разработка основ проверки гипотез с использованием биномиального распределения». Research design and statistics analysis (3rd ed.). New York, NY: Routledge. pp. 65–90. ISBN 978-0-8058-6431-1.
^ ab Dalgaard, Peter (2008). "Мощность и вычисление размера выборки". Введение в статистику с R. Статистика и вычисления. Нью-Йорк: Springer. С. 155–56. doi :10.1007/978-0-387-79054-1_9. ISBN 978-0-387-79053-4.
^ ab "Статистическая проверка гипотез". www.dartmouth.edu . Архивировано из оригинала 2020-08-02 . Получено 2019-11-11 .
^ Джонсон, Вейлен Э. (9 октября 2013 г.). «Пересмотренные стандарты статистических доказательств». Труды Национальной академии наук . 110 (48): 19313–19317. Bibcode : 2013PNAS..11019313J. doi : 10.1073/pnas.1313476110 . PMC 3845140. PMID 24218581 .
^ Редмонд, Кэрол; Колтон, Теодор (2001). «Клиническая значимость против статистической значимости». Биостатистика в клинических испытаниях . Справочная серия Wiley по биостатистике (3-е изд.). Западный Сассекс, Соединенное Королевство: John Wiley & Sons Ltd. стр. 35–36. ISBN 978-0-471-82211-0.
^ Камминг, Джефф (2012). Понимание новой статистики: размеры эффекта, доверительные интервалы и метаанализ . Нью-Йорк, США: Routledge. С. 27–28.
^ Крживинский, Мартин; Альтман, Наоми (30 октября 2013 г.). «Точки значимости: значимость, значения P и t-тесты». Nature Methods . 10 (11): 1041–1042. doi : 10.1038/nmeth.2698 . PMID 24344377.
^ Шам, Пак К.; Перселл, Шон М. (17 апреля 2014 г.). «Статистическая мощность и значимость тестирования в крупномасштабных генетических исследованиях». Nature Reviews Genetics . 15 (5): 335–346. doi :10.1038/nrg3706. PMID 24739678. S2CID 10961123.
^ Альтман, Дуглас Г. (1999). Практическая статистика для медицинских исследований . Нью-Йорк, США: Chapman & Hall/CRC. С. 167. ISBN 978-0-412-27630-9.
^ ab Devore, Jay L. (2011). Вероятность и статистика для инженерии и наук (8-е изд.). Бостон, Массачусетс: Cengage Learning. стр. 300–344. ISBN 978-0-538-73352-6.
^ Craparo, Robert M. (2007). «Уровень значимости». В Salkind, Neil J. (ред.). Encyclopedia of Measurement and Statistics . Том 3. Thousand Oaks, CA: SAGE Publications. стр. 889–891. ISBN 978-1-4129-1611-0.
^ Sproull, Natalie L. (2002). «Проверка гипотез». Справочник по методам исследования: руководство для практиков и студентов социальных наук (2-е изд.). Lanham, MD: Scarecrow Press, Inc. стр. 49–64. ISBN 978-0-8108-4486-5.
^ Бабби, Эрл Р. (2013). «Логика выборки». Практика социальных исследований (13-е изд.). Белмонт, Калифорния: Cengage Learning. стр. 185–226. ISBN 978-1-133-04979-1.
^ Faherty, Vincent (2008). «Вероятность и статистическая значимость». Compassionate Statistics: Applied Quantitative Analysis for Social Services (С упражнениями и инструкциями в SPSS) (1-е изд.). Thousand Oaks, CA: SAGE Publications, Inc. стр. 127–138. ISBN 978-1-4129-3982-9.
^ Маккиллуп, Стив (2006). «Вероятность помогает вам принять решение о ваших результатах» . Statistics Explained: An Introductory Guide for Life Scientists (1-е изд.). Кембридж, Великобритания: Cambridge University Press. стр. 44–56. ISBN 978-0-521-54316-3.
^ Майерс, Джером Л.; Уэлл, Арнольд Д.; Лорч, Роберт Ф. младший (2010). «Распределение t и его приложения». Research Design and Statistical Analysis (3-е изд.). Нью-Йорк, Нью-Йорк: Routledge. С. 124–153. ISBN 978-0-8058-6431-1.
^ ab Хупер, Питер. "Что такое P-value?" (PDF) . Университет Альберты, Департамент математических и статистических наук . Архивировано из оригинала (PDF) 31 марта 2020 г. . Получено 10 ноября 2019 г. .
^ Leung, W.-C. (2001-03-01). «Баланс статистической и клинической значимости при оценке эффектов лечения». Postgraduate Medical Journal . 77 (905): 201–204. doi :10.1136/pmj.77.905.201. ISSN 0032-5473. PMC 1741942. PMID 11222834 .
^ Брайан, Эрик; Джейссон, Мари (2007). «Физико-теология и математика (1710–1794)». Происхождение соотношения полов у людей при рождении . Springer Science & Business Media. стр. 1–25. ISBN 978-1-4020-6036-6.
↑ Джон Арбетнот (1710). «Аргумент в пользу Божественного Провидения, взятый из постоянной регулярности, наблюдаемой в рождении обоих полов» (PDF) . Philosophical Transactions of the Royal Society of London . 27 (325–336): 186–190. doi : 10.1098/rstl.1710.0011 .
^ Conover, WJ (1999), «Глава 3.4: Тест знаков», Practical Nonparametric Statistics (Третье изд.), Wiley, стр. 157–176, ISBN 978-0-471-16068-7
^ Спрент, П. (1989), Прикладные непараметрические статистические методы (второе издание), Chapman & Hall, ISBN 978-0-412-44980-2
^ Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 года . Издательство Гарвардского университета. С. 225–226. ISBN 978-0-674-40341-3.
^ Беллхаус, Дэвид (2001), «Джон Арбутнот», в CC Heyde ; E. Seneta (ред.), в Statisticians of the Centuries , Springer, стр. 39–42, ISBN 978-0-387-95329-8
^ Хальд, Андерс (1998), «Глава 4. Случайность или замысел: тесты значимости», История математической статистики с 1750 по 1930 год , Wiley, стр. 65
^ Камминг, Джефф (2011). «От значимости нулевой гипотезы к проверке размеров эффекта». Понимание новой статистики: размеры эффекта, доверительные интервалы и метаанализ . Серия многомерных приложений. Восточный Сассекс, Соединенное Королевство: Routledge. С. 21–52. ISBN 978-0-415-87968-2.
^ Фишер, Рональд А. (1925). Статистические методы для научных работников. Эдинбург, Великобритания: Oliver and Boyd. С. 43. ISBN 978-0-05-002170-5.
^ Poletiek, Fenna H. (2001). «Формальные теории тестирования». Поведение при проверке гипотез . Очерки по когнитивной психологии (1-е изд.). Восточный Сассекс, Соединенное Королевство: Psychology Press. С. 29–48. ISBN 978-1-84169-159-6.
^ abc Куинн, Джеффри Р.; Кио, Майкл Дж. (2002). Экспериментальный дизайн и анализ данных для биологов (1-е изд.). Кембридж, Великобритания: Cambridge University Press. стр. 46–69. ISBN 978-0-521-00976-8.
^ Нейман, Дж.; Пирсон, Э.С. (1933). «Проверка статистических гипотез в отношении вероятностей априори». Математические труды Кембриджского философского общества . 29 (4): 492–510. Bibcode :1933PCPS...29..492N. doi :10.1017/S030500410001152X. S2CID 119855116.
^ "Выводы о статистической значимости возможны с помощью доверительного интервала. Если доверительный интервал не включает значение нулевого эффекта, можно предположить, что есть статистически значимый результат". Prel, Jean-Baptist du; Hommel, Gerhard; Röhrig, Bernd; Blettner, Maria (2009). "Confidence Interval or P-Value?". Deutsches Ärzteblatt Online . 106 (19): 335–9. doi :10.3238/arztebl.2009.0335. PMC 2689604. PMID 19547734 .
^ StatNews #73: Перекрывающиеся доверительные интервалы и статистическая значимость
^ Нейман, Дж. (1937). «Очерк теории статистической оценки, основанной на классической теории вероятностей». Philosophical Transactions of the Royal Society A. 236 ( 767): 333–380. Bibcode : 1937RSPTA.236..333N. doi : 10.1098/rsta.1937.0005. JSTOR 91337. S2CID 19584450.
^ Мейер, Кеннет Дж.; Брудни, Джеффри Л.; Бохте, Джон (2011). Прикладная статистика для государственного и некоммерческого управления (3-е изд.). Бостон, Массачусетс: Cengage Learning. стр. 189–209. ISBN 978-1-111-34280-7.
^ Хили, Джозеф Ф. (2009). Основы статистики: инструмент для социальных исследований (2-е изд.). Белмонт, Калифорния: Cengage Learning. стр. 177–205. ISBN 978-0-495-60143-2.
^ Маккиллуп, Стив (2006). Статистика, объясненная: Вводное руководство для ученых-биологов (1-е изд.). Кембридж, Великобритания: Cambridge University Press. стр. 32–38. ISBN 978-0-521-54316-3.
^ Здоровье, Дэвид (1995). Введение в экспериментальный дизайн и статистику в биологии (1-е изд.). Бостон, Массачусетс: CRC press. стр. 123–154. ISBN 978-1-85728-132-3.
^ Хинтон, Перри Р. (2010). «Значимость, ошибка и сила». Статистика объяснена (3-е изд.). Нью-Йорк, Нью-Йорк: Routledge. С. 79–90. ISBN 978-1-84872-312-2.
^ Vaughan, Simon (2013). Научный вывод: обучение на основе данных (1-е изд.). Кембридж, Великобритания: Cambridge University Press. С. 146–152. ISBN 978-1-107-02482-3.
^ ab Bracken, Michael B. (2013). Риск, шанс и причинность: исследование происхождения и лечения заболеваний (1-е изд.). Нью-Хейвен, Коннектикут: Yale University Press. стр. 260–276. ISBN 978-0-300-18884-4.
^ Франклин, Аллан (2013). «Пролог: Подъем сигм». Shifting Standards: Experiments in Particle Physics in the Twentieth Century (1-е изд.). Питтсбург, Пенсильвания: University of Pittsburgh Press. стр. Ii–Iii. ISBN 978-0-8229-4430-0.
^ Кларк, GM; Андерсон, CA; Петтерссон, FH; Кардон, LR; Моррис, AP; Зондерван, KT (6 февраля 2011 г.). «Базовый статистический анализ в генетических исследованиях случай-контроль». Nature Protocols . 6 (2): 121–33. doi :10.1038/nprot.2010.182. PMC 3154648 . PMID 21293453.
^ Barsh, GS; Copenhaver, GP; Gibson, G; Williams, SM (5 июля 2012 г.). «Руководство по полногеномным ассоциативным исследованиям». PLOS Genetics . 8 (7): e1002812. doi : 10.1371/journal.pgen.1002812 . PMC 3390399. PMID 22792080 .
^ Карвер, Рональд П. (1978). «Дело против проверки статистической значимости». Harvard Educational Review . 48 (3): 378–399. doi :10.17763/haer.48.3.t490261645281841. S2CID 16355113.
^ Иоаннидис, Джон ПА (2005). «Почему большинство опубликованных результатов исследований ложны». PLOS Medicine . 2 (8): e124. doi : 10.1371/journal.pmed.0020124 . PMC 1182327. PMID 16060722 .
^ ab Amrhein, Valentin; Korner-Nievergelt, Fränzi; Roth, Tobias (2017). «Земля плоская (p > 0,05): пороги значимости и кризис невоспроизводимых исследований». PeerJ . 5 : e3544. doi : 10.7717/peerj.3544 . PMC 5502092 . PMID 28698825.
^ ab Hojat, Mohammadreza; Xu, Gang (2004). «Путеводитель по размерам эффектов». Advances in Health Sciences Education . 9 (3): 241–9. doi :10.1023/B:AHSE.0000038173.00909.f6. PMID 15316274. S2CID 8045624.
^ Педхазур, Элазар Дж.; Шмелькин, Лиора П. (1991). Измерение, проектирование и анализ: комплексный подход (Студенческое изд.). Нью-Йорк, Нью-Йорк: Psychology Press. С. 180–210. ISBN 978-0-8058-1063-9.
^ Stahel, Werner (2016). «Статистическая проблема воспроизводимости». Принципы, проблемы, практика и перспективы Воспроизводимость: принципы, проблемы, практика и перспективы : 87–114. doi :10.1002/9781118865064.ch5. ISBN 978-1-118-86497-5.
^ "Серия семинаров CSSME: спор о p-значениях и парадигме проверки значимости нулевой гипотезы (NHST)". www.education.leeds.ac.uk . Школа образования, Университет Лидса . Получено 01.12.2016 .
^ Новелла, Стивен (25 февраля 2015 г.). «Журнал психологии запрещает тестирование значимости». Научная медицина.
^ Вулстон, Крис (2015-03-05). "Журнал психологии запрещает значения P". Nature . 519 (7541): 9. Bibcode :2015Natur.519....9W. doi : 10.1038/519009f .
^ Зигфрид, Том (2015-03-17). «Запрет значения P: маленький шаг для журнала, гигантский скачок для науки». Science News . Получено 2016-12-01 .
^ Антонакис, Джон (февраль 2017 г.). «О том, как делать науку лучше: от волнения открытия до политических последствий» (PDF) . The Leadership Quarterly . 28 (1): 5–21. doi :10.1016/j.leaqua.2017.01.006.
^ abc Вассерштейн, Рональд Л.; Лазар, Николь А. (2016-04-02). «Заявление ASA о p-значениях: контекст, процесс и цель». The American Statistician . 70 (2): 129–133. doi : 10.1080/00031305.2016.1154108 .
^ Гарсия-Перес, Мигель А. (2016-10-05). «Не давай ложного свидетельства против проверки значимости нулевой гипотезы». Образовательные и психологические измерения . 77 (4): 631–662. doi :10.1177/0013164416668232. ISSN 0013-1644. PMC 5991793. PMID 30034024 .
^ Иоаннидис, Джон ПА; Уэр, Дженнифер Дж.; Вагенмейкерс, Эрик-Джан; Симонсон, Ури; Чемберс, Кристофер Д.; Баттон, Кэтрин С.; Бишоп, Дороти В.М.; Носек, Брайан А.; Мунафо, Маркус Р. (январь 2017 г.). «Манифест воспроизводимой науки». Nature Human Behaviour . 1 (1): 0021. doi : 10.1038/s41562-016-0021 . PMC 7610724 . PMID 33954258.
^ Бенджамин, Дэниел и др. (2018). «Переопределите статистическую значимость». Nature Human Behaviour . 1 (1): 6–10. doi : 10.1038/s41562-017-0189-z . hdl : 10281/184094 . PMID 30980045.
^ Чавла, Далмит (2017). «Порог „один размер подходит всем“ для значений P под обстрелом». Nature . doi :10.1038/nature.2017.22625.
^ Амрайн, Валентин; Гринланд, Сандер (2017). «Удаляйте, а не переопределяйте статистическую значимость». Nature Human Behaviour . 2 (1): 0224. doi :10.1038/s41562-017-0224-0. PMID 30980046. S2CID 46814177.
^ Вайс, Стюарт (ноябрь 2017 г.). «Перемещение статистических ворот науки». csicop.org . CSI . Получено 10 июля 2018 г. .
^ МакШейн, Блейк; Гринланд, Сандер; Амрхейн, Валентин (март 2019 г.). «Ученые восстают против статистической значимости». Nature . 567 (7748): 305–307. Bibcode :2019Natur.567..305A. doi : 10.1038/d41586-019-00857-9 . PMID 30894741.
^ Вассерштейн, Рональд Л.; Ширм, Аллен Л.; Лазар, Николь А. (2019-03-20). «Переход в мир за пределами "p < 0,05"». Американский статистик . 73 (sup1): 1–19. doi : 10.1080/00031305.2019.1583913 .

Дальнейшее чтение

Лидия Денворт, «Значительная проблема: Стандартные научные методы подвергаются критике. Изменится ли что-нибудь?», Scientific American , т. 321, № 4 (октябрь 2019 г.), стр. 62–67. «Использование значений p в течение почти столетия [с 1925 г.] для определения статистической значимости экспериментальных результатов способствовало возникновению иллюзии определенности и [кризису] воспроизводимости во многих научных областях . Растет решимость реформировать статистический анализ... Некоторые [исследователи] предлагают изменить статистические методы, тогда как другие отказались бы от порогового значения для определения «значимых» результатов». (стр. 63.)
Зилиак, Стивен и Дейрдре Макклоски (2008), Культ статистической значимости: как стандартная ошибка обходится нам в рабочие места, правосудие и жизни Архивировано 08.06.2010 в Wayback Machine . Энн-Арбор, Издательство Мичиганского университета , 2009. ISBN 978-0-472-07007-7 . Обзоры и прием: (составлено Зилиаком)
Томпсон, Брюс (2004). «Кризис «значимости» в психологии и образовании». Журнал социально-экономической науки . 33 (5): 607–613. doi :10.1016/j.socec.2004.09.034.
Chow, Siu L., (1996). Статистическая значимость: обоснование, валидность и полезность. Архивировано 03.12.2013 в Wayback Machine , том 1 серии «Введение в статистические методы», Sage Publications Ltd, ISBN 978-0-7619-5205-3 . В статье утверждается, что статистическая значимость полезна при определенных обстоятельствах.
Клайн, Рекс (2004). За пределами значимого тестирования: реформирование методов анализа данных в поведенческих исследованиях Вашингтон, округ Колумбия: Американская психологическая ассоциация.
Nuzzo, Regina (2014). Научный метод: Статистические ошибки. Nature Vol. 506, стр. 150-152 (открытый доступ). Выделяет распространенные заблуждения относительно значения p.
Коэн, Джозеф (1994). [1] Архивировано 13 июля 2017 г. в Wayback Machine . Земля круглая (p<.05). Американский психолог. Том 49, стр. 997-1003. Рассматривает проблемы со статистической проверкой нулевой гипотезы.
Амрайн, Валентин; Гринланд, Сандер; МакШейн, Блейк (2019-03-20). «Ученые восстают против статистической значимости». Nature . 567 (7748): 305–307. Bibcode :2019Natur.567..305A. doi : 10.1038/d41586-019-00857-9 . PMID 30894741.

Внешние ссылки

Викиверситет имеет обучающие ресурсы по теме Статистическая значимость

Статья «Самые ранние известные случаи использования некоторых слов из области математики (S)» содержит запись о значении, которая предоставляет некоторую историческую информацию.
«Концепция проверки статистической значимости, архив 2022-09-07 в Wayback Machine » (февраль 1994 г.): статья Брюса Томпона, размещенная в ERIC Clearinghouse on Assessment and Evaluation, Вашингтон, округ Колумбия
«Что означает, что результат «статистически значим»?» (без даты): статья из Службы статистической оценки Университета Джорджа Мейсона, Вашингтон, округ Колумбия