stringtranslate.com

p-значение

При проверке значимости нулевой гипотезы значение p [примечание 1] представляет собой вероятность получения результатов теста, по крайней мере, столь же экстремальных, как фактически наблюдаемый результат , при условии, что нулевая гипотеза верна. [2] [3] Очень маленькое значение p означает, что такой экстремальный наблюдаемый результат был бы очень маловероятен при нулевой гипотезе. Несмотря на то, что сообщение о p -значениях статистических тестов является обычной практикой в ​​академических публикациях во многих количественных областях, неверная интерпретация и неправильное использование p-значений широко распространены и являются основной темой в математике и метанауке . [4] [5] В 2016 году Американская статистическая ассоциация (ASA) сделала официальное заявление о том, что « p -значения не измеряют вероятность того, что изучаемая гипотеза верна, или вероятность того, что данные были получены исключительно случайным образом» и что « значение p или статистическая значимость не измеряет размер эффекта или важность результата» или «доказательства относительно модели или гипотезы». [6] Тем не менее, в 2019 году целевая группа ASA опубликовала заявление о статистической значимости и воспроизводимости, в котором заключила: « p -значения и тесты значимости при правильном применении и интерпретации повышают строгость выводов, сделанных на основе данных». [7]

Базовые концепты

В статистике каждая гипотеза относительно неизвестного распределения вероятностей набора случайных величин, представляющих наблюдаемые данные в каком-либо исследовании, называется статистической гипотезой . Если мы формулируем только одну гипотезу и цель статистической проверки состоит в том, чтобы увидеть, является ли эта гипотеза обоснованной, но не исследовать другие конкретные гипотезы, то такая проверка называется проверкой нулевой гипотезы .

Поскольку наша статистическая гипотеза по определению утверждает какое-то свойство распределения, нулевая гипотеза — это гипотеза по умолчанию, при которой это свойство не существует. Нулевая гипотеза обычно заключается в том, что какой-то параметр (например, корреляция или разница между средними значениями) в интересующих популяциях равен нулю. Наша гипотеза может точно указать распределение вероятностей или только указать, что оно принадлежит к некоторому классу распределений. Часто мы сводим данные к одной числовой статистике, например, чье предельное распределение вероятностей тесно связано с основным вопросом, представляющим интерес в исследовании.

Значение p используется в контексте проверки нулевой гипотезы для количественной оценки статистической значимости результата, причем результат представляет собой наблюдаемое значение выбранной статистики . [примечание 2] Чем ниже значение p , тем ниже вероятность получения этого результата, если нулевая гипотеза верна. Результат считается статистически значимым , если он позволяет отвергнуть нулевую гипотезу. При прочих равных условиях меньшие значения p считаются более сильным доказательством против нулевой гипотезы.

Грубо говоря, отказ от нулевой гипотезы подразумевает наличие достаточных доказательств против нее.

В качестве конкретного примера, если нулевая гипотеза утверждает, что определенная суммарная статистика соответствует стандартному нормальному распределению N(0,1), то отказ от этой нулевой гипотезы может означать, что (i) среднее значение не равно 0, или (ii ) дисперсия не равна 1 или (iii) не имеет нормального распределения. Различные тесты одной и той же нулевой гипотезы будут более или менее чувствительны к различным альтернативам. Однако даже если нам удастся отвергнуть нулевую гипотезу для всех трех альтернатив и даже если мы знаем, что распределение нормальное, а дисперсия равна 1, проверка нулевой гипотезы не скажет нам, какие ненулевые значения среднего значения сейчас наиболее эффективны. правдоподобно. Чем больше независимых наблюдений из одного и того же распределения вероятностей, тем точнее будет тест и тем выше точность, с которой можно будет определить среднее значение и показать, что оно не равно нулю; но это также повысит важность оценки реальной или научной значимости этого отклонения.

Определение и интерпретация

Определение

Значение p — это вероятность при нулевой гипотезе получить действительную тестовую статистику, по крайней мере столь же экстремальную, как и полученная. Рассмотрим наблюдаемую тестовую статистику из неизвестного распределения . Тогда значение p — это то, какой была бы априорная вероятность наблюдения значения тестовой статистики, по крайней мере, как «экстремального», как если бы нулевая гипотеза была верной. То есть:

Интерпретации

Ошибка, которую практикующий статистик счел бы более важным избегать (что является субъективным суждением), называется ошибкой первого рода. Первое требование математической теории состоит в том, чтобы вывести такие критерии проверки, которые гарантировали бы, что вероятность совершения ошибки первого рода будет равна (или приблизительно равна или не превысит) заданному числу α, например α = 0,05 или 0,01. и т. д. Это число называется уровнем значимости.

-  Ежи Нейман, «Появление математической статистики» [8]

При проверке значимости нулевая гипотеза отклоняется, если значение p меньше или равно заранее определенному пороговому значению , которое называется альфа-уровнем или уровнем значимости . не выводится из данных, а скорее устанавливается исследователем перед изучением данных. обычно устанавливается равным 0,05, хотя иногда используются более низкие уровни альфа. В 2018 году группа статистиков под руководством Дэниела Бенджамина предложила принять значение 0,005 в качестве стандартного значения статистической значимости во всем мире. [9]

Различные значения p , основанные на независимых наборах данных, можно комбинировать, например, используя комбинированный тест вероятности Фишера .

Распределение

Значение p является функцией выбранной тестовой статистики и, следовательно, является случайной величиной . Если нулевая гипотеза точно фиксирует распределение вероятностей ( например , где находится единственный параметр) и если это распределение является непрерывным, то, когда нулевая гипотеза верна, значение p равномерно распределяется между 0 и 1. Независимо от истинности из них значение p не фиксировано; если один и тот же тест повторяется независимо со свежими данными, обычно на каждой итерации будет получено другое значение p .

Обычно наблюдается только одно значение p , относящееся к гипотезе, поэтому значение p интерпретируется с помощью теста значимости, и не предпринимается никаких усилий для оценки распределения, на основе которого оно было получено. Когда доступен набор p -значений ( например , при рассмотрении группы исследований по одному и тому же предмету), распределение p -значений иногда называют p -кривой. [10] P - кривую можно использовать для оценки надежности научной литературы, например, путем выявления предвзятости публикации или p -хакинга . [10] [11]

Распределение сложной гипотезы

В задачах проверки параметрических гипотез простая или точечная гипотеза относится к гипотезе, в которой предполагается, что значение параметра представляет собой одно число. Напротив, в составной гипотезе значение параметра задается набором чисел. Когда нулевая гипотеза является составной (или распределение статистики дискретно), тогда, когда нулевая гипотеза верна, вероятность получения значения p , меньшего или равного любому числу от 0 до 1, по-прежнему меньше или равен этому числу. Другими словами, остается тот случай, когда очень маленькие значения относительно маловероятны, если нулевая гипотеза верна, и что критерий значимости на уровне получается путем отклонения нулевой гипотезы, если значение p меньше или равно . [12] [13]

Например, при проверке нулевой гипотезы о том, что распределение является нормальным со средним значением, меньшим или равным нулю, в сравнении с альтернативой, что среднее значение больше нуля ( , дисперсия известна), нулевая гипотеза не определяет точное распределение вероятностей соответствующую тестовую статистику. В данном примере это будет Z -статистика , принадлежащая одностороннему одновыборочному Z -тесту. Для каждого возможного значения теоретического среднего статистика Z -теста имеет различное распределение вероятностей. В этих обстоятельствах значение p определяется путем выбора наименее благоприятного случая нулевой гипотезы, который обычно находится на границе между нулевой и альтернативной гипотезой. Это определение обеспечивает взаимодополняемость значений p и альфа-уровней: означает, что нулевую гипотезу отклоняют только в том случае, если значение p меньше или равно , и проверка гипотезы действительно будет иметь максимальную частоту ошибок типа 1, равную .

Применение

Значение p широко используется при проверке статистических гипотез , особенно при проверке значимости нулевой гипотезы. В этом методе перед проведением исследования сначала выбирают модель ( нулевая гипотеза ) и уровень альфа α (чаще всего 0,05). Если после анализа данных значение p меньше α , это означает, что наблюдаемые данные достаточно несовместимы с нулевой гипотезой , чтобы нулевая гипотеза была отклонена. Однако это не доказывает, что нулевая гипотеза ложна. Значение p само по себе не устанавливает вероятности гипотез. Скорее, это инструмент для принятия решения о том, следует ли отвергать нулевую гипотезу. [14]

Неправильное использование

По данным ASA , широко распространено мнение, что значения p часто неправильно используются и неверно интерпретируются. [3] Одной из практик, которая подвергалась особой критике, является принятие альтернативной гипотезы для любого значения p , номинально меньшего, чем 0,05, без других подтверждающих доказательств. Хотя значения p полезны при оценке того, насколько данные несовместимы с определенной статистической моделью, необходимо также учитывать контекстуальные факторы, такие как «план исследования, качество измерений, внешние доказательства изучаемого явления, и обоснованность предположений, лежащих в основе анализа данных». [3] Другая проблема заключается в том, что значение p часто неправильно понимается как вероятность того, что нулевая гипотеза верна. [3] [15]

Некоторые статистики предложили отказаться от p -значений и сосредоточиться больше на других статистических выводах, [3] таких как доверительные интервалы , [16] [17] отношения правдоподобия , [18] [19] или факторы Байеса , [20] [21] [ 22] , но ведутся жаркие споры о целесообразности этих альтернатив. [23] [24] Другие предложили удалить фиксированные пороги значимости и интерпретировать значения p как непрерывные показатели силы доказательств против нулевой гипотезы. [25] [26] Третьи предлагали сообщать наряду с p-значениями априорную вероятность реального эффекта, который потребуется для получения ложноположительного риска (т. е. вероятности отсутствия реального эффекта) ниже заранее определенного порога ( например 5%). [27]

Тем не менее, в 2019 году рабочая группа ASA собралась для рассмотрения использования статистических методов в научных исследованиях, в частности, проверки гипотез и р-значений, а также их связи с воспроизводимостью. [7] В нем говорится, что «Различные меры неопределенности могут дополнять друг друга; ни одна мера не служит всем целям», ссылаясь на p-значение как на одну из этих мер. Они также подчеркивают, что значения p могут предоставить ценную информацию при рассмотрении конкретного значения, а также при сравнении с некоторым пороговым значением. В целом в нем подчеркивается, что «p-значения и тесты значимости при правильном применении и интерпретации повышают строгость выводов, сделанных на основе данных».

Расчет

Обычно это тестовая статистика . Тестовая статистика — это результат скалярной функции всех наблюдений. Эта статистика представляет собой одно число, например t-статистику или F-статистику. Таким образом, статистика теста следует распределению, определяемому функцией, используемой для определения этой статистики теста, и распределением входных данных наблюдений.

Для важного случая, когда предполагается, что данные представляют собой случайную выборку из нормального распределения, в зависимости от характера тестовой статистики и интересующих гипотез о ее распределении были разработаны различные тесты нулевой гипотезы. Некоторые из таких тестов - это z-тест для гипотез относительно среднего нормального распределения с известной дисперсией, t-критерий , основанный на t-распределении Стьюдента подходящей статистики для гипотез относительно среднего нормального распределения, когда дисперсия неизвестна, F -тест , основанный на F-распределении еще одной статистики для гипотез, касающихся дисперсии. Для данных другой природы, например категориальных (дискретных) данных, можно построить тестовые статистики, распределение нулевых гипотез которых основано на нормальных аппроксимациях соответствующих статистических данных, полученных путем применения центральной предельной теоремы для больших выборок, как в случае с хи-фактором Пирсона. квадратный тест .

Таким образом, для вычисления значения p требуется нулевая гипотеза, статистика теста (вместе с решением, выполняет ли исследователь односторонний или двусторонний тест ) и данные. Несмотря на то, что вычисление тестовой статистики по заданным данным может быть простым, вычисление выборочного распределения при нулевой гипотезе, а затем вычисление его кумулятивной функции распределения (CDF) часто является сложной проблемой. Сегодня эти вычисления выполняются с использованием статистического программного обеспечения, часто с помощью числовых методов (а не точных формул), но в начале и середине 20-го века вместо этого это делалось с помощью таблиц значений и интерполированных или экстраполированных p-значений из этих дискретные значения . _ _ Вместо того, чтобы использовать таблицу p -значений, Фишер инвертировал CDF, опубликовав список значений тестовой статистики для заданных фиксированных p -значений; это соответствует вычислению функции квантиля (обратного CDF).

Пример

Проверка честности монеты

В качестве примера статистического теста проводится эксперимент, чтобы определить, является ли подбрасывание монеты справедливым (равная вероятность выпадения орла или решки) или несправедливо предвзятым (один результат более вероятен, чем другой).

Предположим, что результаты эксперимента показывают, что монета выпала орлом в 14 случаях из 20 подбрасываний. Полные данные будут представлять собой последовательность из двадцати символов «H» или «T». Статистикой, на которой можно сосредоточиться, может быть общее количество голов. Нулевая гипотеза состоит в том, что монета честная и подбрасывания монеты не зависят друг от друга. Если рассматривать правосторонний тест, что было бы в том случае, если кто-то действительно заинтересован в возможности того, что монета смещена в сторону падения орла, то p - значение этого результата - это вероятность того, что честная монета упадет орлом в точке минимум 14 раз из 20 бросков. Эту вероятность можно вычислить из биномиальных коэффициентов как

Эта вероятность представляет собой значение p , учитывающее только экстремальные результаты, благоприятствующие выпадению орла. Это называется односторонним тестом . Однако кого-то могут заинтересовать отклонения в любом направлении, в пользу орла или решки. Вместо этого можно рассчитать двустороннее значение p , которое учитывает отклонения в пользу орла или решки. Поскольку биномиальное распределение симметрично для честной монеты, двустороннее значение p просто в два раза превышает рассчитанное выше одностороннее значение p : двустороннее значение p равно 0,115.

В приведенном выше примере:

Пр (количество голов < 14 голов) = 1 - Пр (количество голов ≥ 14 голов) + Пр (количество голов = 14) = 1 - 0,058 + 0,036 = 0,978; однако симметрия этого биномиального распределения делает ненужными вычисления для определения меньшей из двух вероятностей. Здесь рассчитанное значение p превышает 0,05, что означает, что данные попадают в диапазон того, что произошло бы в 95% случаев, если бы монета была честной. Следовательно, нулевая гипотеза не отвергается на уровне 0,05.

Однако если бы была получена еще одна голова, результирующее значение p (двустороннее) составило бы 0,0414 (4,14%), и в этом случае нулевая гипотеза была бы отклонена на уровне 0,05.

План многоэтапного эксперимента

Разница между двумя значениями слова «крайний» проявляется, когда мы рассматриваем многоэтапный эксперимент по проверке честности монеты. Предположим, мы спланировали эксперимент следующим образом:

Этот эксперимент имеет 7 типов исходов: 2 орла, 2 решки, 5 орлов, 1 решка..., 1 орел, 5 решек. Теперь мы рассчитаем p-значение результата «3 орла 3 решки».

Если мы используем тестовую статистику , то при нулевой гипотезе она равна ровно 1 для двустороннего значения p, точно для одностороннего левого значения p и то же самое для одностороннего правого значения p.

Если мы рассмотрим каждый исход, вероятность которого равна или ниже вероятности «3 орла 3 решки», как «по меньшей мере столь же экстремальный», то значение p будет равно .

Однако предположим, что мы запланировали просто подбросить монету 6 раз, что бы ни случилось, тогда второе определение значения p будет означать, что значение p для «3 орла 3 решки» равно ровно 1.

Таким образом, «по крайней мере столь же экстремальное» определение значения p глубоко контекстуально и зависит от того, что экспериментатор планировал делать даже в ситуациях, которые не произошли.

История

Нарисованный на груди портрет мужчины в коричневой мантии и головном уборе.
Джон Арбутнот
Пьер-Симон Лаплас
Мужчина сидит за столом и смотрит в камеру
Карл Пирсон
Фотография молодого человека в тонах сепии в костюме, медали и очках в проволочной оправе.
Рональд Фишер

Вычисления P -значения относятся к 1700-м годам, когда они рассчитывались для соотношения полов человека при рождении и использовались для расчета статистической значимости по сравнению с нулевой гипотезой о равной вероятности рождения мальчиков и девочек. [28] Джон Арбутнот изучал этот вопрос в 1710 году, [29] [30] [31] [32] и исследовал записи о рождении в Лондоне за каждый из 82 лет с 1629 по 1710 год. Лондон превысил число женщин. Если принять во внимание равновероятность рождения большего количества мальчиков и девочек, то вероятность наблюдаемого исхода составляет 1/282 , или примерно 1 на 4 836 000 000 000 000 000 000 000; говоря современным языком, p -значение. Это исчезающе мало, что приводит Арбетнота к выводу, что это произошло не по воле случая, а по божественному провидению: «Отсюда следует, что правит Искусство, а не Случай». Говоря современным языком, он отверг нулевую гипотезу о равной вероятности рождения мальчиков и девочек на уровне значимости p  = 1/282 . Эта и другие работы Арбутнота считаются «… первым использованием тестов значимости…» [33], первым примером рассуждений о статистической значимости, [34] и «… возможно, первым опубликованным отчетом о непараметрическом тесте …», [ 30] в частности тест на знак ; подробности см. в разделе «История жестового теста» .

К этому же вопросу позже обратился Пьер-Симон Лаплас , который вместо этого использовал параметрический тест, моделируя количество рождений мужского пола с биномиальным распределением : [35]

В 1770-е годы Лаплас рассматривал статистику почти полумиллиона рождений. Статистика показала преобладание мальчиков над девочками. Путем расчета значения p он пришел к выводу , что превышение было реальным, но необъяснимым эффектом.

Значение p было впервые формально введено Карлом Пирсоном в его тесте хи-квадрат Пирсона [36] с использованием распределения хи-квадрат и обозначено заглавной буквой P. [36] Значения p для распределения хи-квадрат (для различные значения χ 2 и степени свободы), теперь обозначаемые как P, были рассчитаны в (Elderton 1902), собраны в (Pearson 1914, стр. xxxi–xxxiii, 26–28, таблица XII) .

Использование p -значения в статистике было популяризировано Рональдом Фишером [37] [ нужна полная ссылка ] , и оно играет центральную роль в его подходе к предмету. [38] В своей влиятельной книге «Статистические методы для научных работников» (1925) Фишер предложил уровень p = 0,05, или вероятность случайного превышения 1 из 20, в качестве предела статистической значимости , и применил его к нормальному распределению. (как двусторонний критерий), что дает правило двух стандартных отклонений (при нормальном распределении) для статистической значимости (см. правило 68–95–99,7 ). [39] [примечание 3] [40]

Затем он вычислил таблицу значений, аналогичную Элдертону, но, что важно, поменял роли χ 2 и p. То есть вместо того, чтобы вычислять p для разных значений χ 2 (и степеней свободы n ), он вычислил значения χ 2 , которые дают заданные значения p , а именно 0,99, 0,98, 0,95, 0,90, 0,80, 0,70, 0,50. , 0,30, 0,20, 0,10, 0,05, 0,02 и 0,01. [41] Это позволяло сравнивать вычисленные значения χ 2 с пороговыми значениями и поощряло использование значений p (особенно 0,05, 0,02 и 0,01) в качестве пороговых значений вместо вычисления и сообщения самих значений p . Затем таблицы того же типа были составлены (Fisher & Yates 1938), что закрепило этот подход. [40]

В качестве иллюстрации применения p -значений для планирования и интерпретации экспериментов в своей следующей книге « План экспериментов» (1935) Фишер представил эксперимент с дамой, дегустирующей чай , [42] который является архетипическим примером p -значений. ценить.

Чтобы оценить утверждение дамы о том, что она ( Мюриэл Бристоль ) могла на вкус отличить, как готовится чай (сначала добавляя в чашку молоко, затем чай или сначала чай, затем молоко), ей последовательно преподнесли 8 чашек: 4 приготовленных. в одну сторону 4 приготовили другую и попросили определить готовность каждой чашки (зная, что каждой чашки было по 4). Если _ _ _ _ _ все были классифицированы правильно. (В реальном эксперименте Бристоль правильно классифицировал все 8 чашек.)

Фишер подтвердил порог p = 0,05 и объяснил его обоснование, заявив: [43]

Для экспериментаторов обычно и удобно принимать 5 процентов в качестве стандартного уровня значимости в том смысле, что они готовы игнорировать все результаты, которые не достигают этого стандарта, и таким образом исключить из дальнейшего обсуждения больший уровень значимости. часть флуктуаций, которые случайные причины внесли в их экспериментальные результаты.

Он также применяет этот порог к планированию экспериментов, отмечая, что если бы было предъявлено только 6 чашек (по 3 каждой), идеальная классификация дала бы только значение p, которое не соответствовало бы этому уровню значимости. [43] Фишер также подчеркнул интерпретацию p как долгосрочной доли значений, по крайней мере столь же экстремальных, как и данные, при условии, что нулевая гипотеза верна.

В более поздних изданиях Фишер явно противопоставил использование p -значения для статистических выводов в науке методу Неймана-Пирсона, который он называет «процедурами принятия». [44] Фишер подчеркивает, что, хотя фиксированные уровни, такие как 5%, 2% и 1%, удобны, можно использовать точное значение p , а сила доказательств может и будет пересматриваться в ходе дальнейших экспериментов. Напротив, процедуры принятия решений требуют четкого решения, приводящего к необратимым действиям, и эта процедура основана на цене ошибки, которая, как он утверждает, неприменима к научным исследованиям.

Связанные индексы

Значение E может относиться к двум концепциям, оба из которых связаны со значением p и оба играют роль в множественном тестировании . Во-первых, оно соответствует общей, более надежной альтернативе значению p , которая может учитывать необязательное продолжение экспериментов. Во-вторых, оно также используется для сокращения «ожидаемого значения», которое представляет собой ожидаемое количество раз, когда ожидается получение тестовой статистики, по крайней мере, такой же экстремальной, как та, которая фактически наблюдалась, если предположить, что нулевая гипотеза верна. [45] Это ожидаемое значение является произведением количества тестов и p -значения.

Значение q является аналогом значения p в отношении положительного уровня ложных открытий . [46] Он используется при проверке нескольких гипотез для поддержания статистической мощности и минимизации количества ложноположительных результатов . [47]

Вероятность направления ( pd ) — это байесовский числовой эквивалент p -значения. [48] ​​Это соответствует доле апостериорного распределения , которая имеет знак медианы, обычно варьируется от 50% до 100% и представляет собой уверенность, с которой эффект является положительным или отрицательным.

P-значения второго поколения расширяют концепцию p-значений, не считая чрезвычайно малые, практически нерелевантные величины эффекта значимыми. [49]

Смотрите также

Примечания

  1. ^ Курсив, заглавные буквы и расстановка переносов термина различаются. Например, стиль AMA использует « значение P », стиль APA использует « значение p », а Американская статистическая ассоциация использует « значение p ». Во всех случаях «p» означает вероятность. [1]
  2. ^ Статистическая значимость результата не означает, что результат также имеет практическое значение. Например, лекарство может иметь статистически значимый эффект, который слишком мал, чтобы представлять интерес.
  3. ^ Чтобы быть более конкретным, p = 0,05 соответствует примерно 1,96 стандартным отклонениям для нормального распределения (двусторонний тест), а 2 стандартных отклонения соответствуют вероятности случайного превышения примерно 1 из 22, или p ≈ 0,045; Фишер отмечает эти приближения.

Рекомендации

  1. ^ «Стиль дома ASA» (PDF) . Новости Амстата . Американская статистическая ассоциация.
  2. ^ Ашванден С (24 ноября 2015 г.). «Даже ученые не могут легко объяснить P-значения». ПятьТридцатьВосемь . Архивировано из оригинала 25 сентября 2019 года . Проверено 11 октября 2019 г.
  3. ^ abcde Вассерштейн Р.Л., Лазар Н.А. (7 марта 2016 г.). «Заявление ASA о p-значениях: контекст, процесс и цель». Американский статистик . 70 (2): 129–133. дои : 10.1080/00031305.2016.1154108 .
  4. ^ Хаббард Р., Линдси Р.М. (2008). «Почему значения P не являются полезной мерой доказательств при проверке статистической значимости». Теория и психология . 18 (1): 69–88. дои : 10.1177/0959354307086923. S2CID  143487211.
  5. ^ Мунафо М.Р. , Носек Б.А., Бишоп Д.В., Баттон К.С., Чемберс CD, du Sert NP и др. (январь 2017 г.). «Манифест воспроизводимой науки». Природа человеческого поведения . 1 : 0021. дои : 10.1038/s41562-016-0021 . ПМЦ 7610724 . PMID  33954258. S2CID  6326747. 
  6. ^ Вассерштейн, Рональд Л.; Лазар, Николь А. (2 апреля 2016 г.). «Заявление ASA о p-значениях: контекст, процесс и цель». Американский статистик . 70 (2): 129–133. дои : 10.1080/00031305.2016.1154108 . ISSN  0003-1305. S2CID  124084622.
  7. ^ аб Бенджамини, Йоав; Де Во, Ричард Д.; Эфрон, Брэдли; Эванс, Скотт; Гликман, Марк; Граубар, Барри И.; Он, Сюмин; Мэн, Сяо-Ли; Рид, Нэнси М.; Стиглер, Стивен М.; Вардеман, Стивен Б.; Викле, Кристофер К.; Райт, Томми; Янг, Линда Дж.; Кафадар, Карен (2 октября 2021 г.). «Заявление целевой группы президента ASA о статистической значимости и воспроизводимости». Шанс . Информа ЮК Лимитед. 34 (4): 10–11. дои : 10.1080/09332480.2021.2003631 . ISSN  0933-2480.
  8. ^ Нейман, Ежи (1976). «Появление математической статистики: исторический очерк с особым упором на Соединенные Штаты». В Оуэне, Д.Б. (ред.). К истории статистики и вероятности. Учебники и монографии. Нью-Йорк: Marcel Dekker Inc., с. 161.
  9. ^ Бенджамин, Дэниел Дж.; Бергер, Джеймс О.; Йоханнессон, Магнус; Носек, Брайан А.; Вагенмейкерс, Э.-Дж.; Берк, Ричард; Боллен, Кеннет А.; Брембс, Бьорн; Браун, Лоуренс; Камерер, Колин; Чезарини, Дэвид; Чемберс, Кристофер Д.; Клайд, Мерлиз; Кук, Томас Д.; Де Бек, Пол; Динес, Золтан; Дребер, Анна; Иасваран, Кенни; Эфферсон, Чарльз; Фер, Эрнст; Фидлер, Фиона; Филд, Энди П.; Форстер, Малькольм; Джордж, Эдвард И.; Гонсалес, Ричард; Гудман, Стивен; Грин, Эдвин; Грин, Дональд П.; Гринвальд, Энтони Г.; Хэдфилд, Джаррод Д.; Хеджес, Ларри В.; Держись, Леонард; Хуа Хо, Тек; Хойтинк, Герберт; Грушка, Дэниел Дж.; Имаи, Косукэ; Имбенс, Гвидо; Иоаннидис, Джон П.А.; Чон, Минджон; Джонс, Джеймс Холланд; Кирхлер, Майкл; Лейбсон, Дэвид; Лист, Джон; Литтл, Родерик; Лупия, Артур; Машери, Эдуард; Максвелл, Скотт Э.; Маккарти, Майкл; Мур, Дон А.; Морган, Стивен Л.; Мунафо, Маркус; Накагава, Шиничи; Найхан, Брендан; Паркер, Тимоти Х.; Перикки, Луис; Перуджини, Марко; Рудер, Джефф; Руссо, Юдит; Савалей, Виктория; Шенбродт, Феликс Д.; Селлке, Томас; Синклер, Бетси; Тингли, Дастин; Ван Зандт, Триша; Вазире, Симине; Уоттс, Дункан Дж.; Уиншип, Кристофер; Вулперт, Роберт Л.; Се, Ю; Янг, Кристобаль; Зинман, Джонатан; Джонсон, Вален Э. (1 сентября 2017 г.). «Переопределить статистическую значимость». Природа человеческого поведения . 2 (1): 6–10. дои : 10.1038/s41562-017-0189-z. eISSN  2397-3374. hdl : 10281/184094 . PMID  30980045. S2CID  256726352.
  10. ^ ab Head ML, Холман Л., Ланфир Р., Кан А.Т., Дженнионс, доктор медицины (март 2015 г.). «Масштабы и последствия p-хакинга в науке». ПЛОС Биология . 13 (3): e1002106. дои : 10.1371/journal.pbio.1002106 . ПМК 4359000 . ПМИД  25768323. 
  11. ^ Симонсон Ю, Нельсон Л.Д., Симмонс Дж.П. (ноябрь 2014 г.). «Р-кривая и размер эффекта: коррекция систематической ошибки публикации с использованием только значимых результатов». Перспективы психологической науки . 9 (6): 666–681. дои : 10.1177/1745691614553988. PMID  26186117. S2CID  39975518.
  12. ^ Бхаттачарья Б, Хабцги Д (2002). «Медиана значения p согласно альтернативной гипотезе». Американский статистик . 56 (3): 202–6. дои : 10.1198/000313002146. S2CID  33812107.
  13. ^ Хунг Х.М., О'Нил Р.Т., Бауэр П., Кёне К. (март 1997 г.). «Поведение P-значения, когда альтернативная гипотеза верна». Биометрия (Представлена ​​рукопись). 53 (1): 11–22. дои : 10.2307/2533093. JSTOR  2533093. PMID  9147587.
  14. ^ Нуццо Р. (февраль 2014 г.). «Научный метод: статистические ошибки». Природа . 506 (7487): 150–152. Бибкод : 2014Natur.506..150N. дои : 10.1038/506150a . ПМИД  24522584.
  15. ^ Колкухун Д. (ноябрь 2014 г.). «Исследование частоты ложных открытий и неправильной интерпретации p-значений». Королевское общество открытой науки . 1 (3): 140216. arXiv : 1407.5296 . Бибкод : 2014RSOS....140216C. дои : 10.1098/rsos.140216. ПМЦ 4448847 . ПМИД  26064558. 
  16. ^ Ли Д.К. (декабрь 2016 г.). «Альтернативы значению P: доверительный интервал и размер эффекта». Корейский журнал анестезиологии . 69 (6): 555–562. дои : 10.4097/kjae.2016.69.6.555. ПМК 5133225 . ПМИД  27924194. 
  17. ^ Ранстам Дж (август 2012 г.). «Почему культура P-значений плоха, а доверительные интервалы — лучшая альтернатива». Остеоартрит и хрящ . 20 (8): 805–808. дои : 10.1016/j.joca.2012.04.001 . ПМИД  22503814.
  18. ^ Пернегер ТВ (май 2001 г.). «Просеивание доказательств. Отношения правдоподобия являются альтернативой значениям P». БМЖ . 322 (7295): 1184–1185. дои : 10.1136/bmj.322.7295.1184. ПМЦ 1120301 . ПМИД  11379590. 
  19. ^ Ройалл Р. (2004). «Парадигма правдоподобия статистических данных». Природа научных данных . стр. 119–152. дои : 10.7208/Чикаго/9780226789583.003.0005. ISBN 9780226789576.
  20. Шиммак Ю (30 апреля 2015 г.). «Замена p-значений на байесовские факторы: чудесное лекарство от кризиса воспроизводимости в психологической науке». Индекс воспроизводимости . Проверено 7 марта 2017 г.
  21. ^ Марден Джи (декабрь 2000 г.). «Проверка гипотез: от значений p к факторам Байеса». Журнал Американской статистической ассоциации . 95 (452): 1316–1320. дои : 10.2307/2669779. JSTOR  2669779.
  22. Stern HS (16 февраля 2016 г.). «Тест под любым другим названием: значения P, факторы Байеса и статистический вывод». Многомерное поведенческое исследование . 51 (1): 23–29. дои : 10.1080/00273171.2015.1099032. ПМК 4809350 . ПМИД  26881954. 
  23. ^ Мерто, Пенсильвания (март 2014 г.). «В защиту ценностей P». Экология . 95 (3): 611–617. Бибкод : 2014Экол...95..611М. дои : 10.1890/13-0590.1. ПМИД  24804441.
  24. Ашванден C (7 марта 2016 г.). «Статистики нашли одно, в чем они могут согласиться: пора прекратить неправильное использование P-значений». ПятьТридцатьВосемь .
  25. ^ Амрайн В. , Корнер-Нивергельт Ф., Рот Т. (2017). «Земля плоская (p > 0,05): пороги значимости и кризис невоспроизводимых исследований». ПерДж . 5 : е3544. дои : 10.7717/peerj.3544 . ПМК 5502092 . ПМИД  28698825. 
  26. ^ Амрайн V , Гренландия S (январь 2018 г.). «Удалить, а не переопределить статистическую значимость». Природа человеческого поведения . 2 (1): 4. дои : 10.1038/s41562-017-0224-0. PMID  30980046. S2CID  46814177.
  27. ^ Колкухун Д. (декабрь 2017 г.). «Воспроизводимость исследований и неверная интерпретация p-значений». Королевское общество открытой науки . 4 (12): 171085. doi :10.1098/rsos.171085. ПМК 5750014 . ПМИД  29308247. 
  28. ^ Брайан Э , Джейссон М (2007). «Физико-теология и математика (1710–1794)». Изменение соотношения полов человека при рождении . Springer Science & Business Media. стр. 1–25. ISBN 978-1-4020-6036-6.
  29. ^ Арбутнот Дж (1710). «Аргумент в пользу Божественного Провидения, основанный на постоянной регулярности рождаемости у представителей обоих полов» (PDF) . Философские труды Лондонского королевского общества . 27 (325–336): 186–190. дои : 10.1098/rstl.1710.0011 . S2CID  186209819.
  30. ^ ab Conover WJ (1999). «Глава 3.4: Тест на знаки». Практическая непараметрическая статистика (Третье изд.). Уайли. стр. 157–176. ISBN 978-0-471-16068-7.
  31. ^ Срент П (1989). Прикладные непараметрические статистические методы (Второе изд.). Чепмен и Холл. ISBN 978-0-412-44980-2.
  32. ^ Стиглер С.М. (1986). История статистики: измерение неопределенности до 1900 года . Издательство Гарвардского университета. стр. 225–226. ISBN 978-0-67440341-3.
  33. ^ Беллхаус П (2001). «Джон Арбетнот». В Heyde CC, Seneta E (ред.). Статистики веков . Спрингер. стр. 39–42. ISBN 978-0-387-95329-8.
  34. ^ Халд А. (1998). «Глава 4. Случайность или замысел: критерии значимости». История математической статистики с 1750 по 1930 год . Уайли. п. 65.
  35. ^ Стиглер С.М. (1986). История статистики: измерение неопределенности до 1900 года . Издательство Гарвардского университета. п. 134. ИСБН 978-0-67440341-3.
  36. ^ аб Пирсон К. (1900). «О том критерии, что данная система отклонений от вероятного в случае коррелированной системы переменных такова, что можно разумно предположить, что она возникла в результате случайной выборки» (PDF) . Философский журнал . Серия 5. 50 (302): 157–175. дои : 10.1080/14786440009463897.
  37. ^ Инман 2004.
  38. ^ Хаббард Р., Баярри М.Дж. (2003), «Путаница в отношении мер доказательности ( p s) и ошибок (α s) в классическом статистическом тестировании», The American Statistician , 57 (3): 171–178 [стр. 171], doi : 10.1198/0003130031856, S2CID  55671953
  39. ^ Фишер 1925, с. 47, глава III. Распределения.
  40. ^ ab Dallal 2012, Примечание 31: Почему P = 0,05?
  41. ^ Фишер 1925, стр. 78–79, 98, Глава IV. Тесты на соответствие, независимость и однородность; с Таблицей χ2, Таблицей III. Таблица χ2.
  42. ^ Фишер 1971, II. Принципы экспериментирования, иллюстрированные психофизическим экспериментом.
  43. ^ ab Fisher 1971, Раздел 7. Проверка значимости.
  44. ^ Фишер 1971, Раздел 12.1. Научные выводы и процедуры принятия.
  45. ^ «Определение E-значения» . Национальные институты здоровья .
  46. ^ Стори Джей Ди (2003). «Положительная частота ложных открытий: байесовская интерпретация и значение q». Анналы статистики . 31 (6): 2013–2035. дои : 10.1214/aos/1074290335 .
  47. ^ Стори Дж.Д., Тибширани Р. (август 2003 г.). «Статистическая значимость для полногеномных исследований». Труды Национальной академии наук Соединенных Штатов Америки . 100 (16): 9440–9445. Бибкод : 2003PNAS..100.9440S. дои : 10.1073/pnas.1530509100 . ПМК 170937 . ПМИД  12883005. 
  48. ^ Маковски Д., Бен-Шачар М.С., Чен Ш., Людеке Д. (10 декабря 2019 г.). «Индексы существования и значимости эффектов в байесовской системе». Границы в психологии . 10 : 2767. doi : 10.3389/fpsyg.2019.02767 . ПМК 6914840 . ПМИД  31920819. 
  49. ^ Введение в p-ценности второго поколения Джеффри Д. Блюм, Роберт А. Гриви, Валери Ф. Велти, Джеффри Р. Смит и Уильям Д. Дюпон https://www.tandfonline.com/doi/full/10.1080/00031305.2018 .1537893

дальнейшее чтение

Внешние ссылки