p-значение

При проверке значимости нулевой гипотезы -значение ^{[примечание 1]} представляет собой вероятность получения результатов теста, по крайней мере, столь же экстремальных, как фактически наблюдаемый результат , при условии, что нулевая гипотеза верна. ^[2]^[3] Очень малое p -значение означает, что такой экстремальный наблюдаемый результат был бы очень маловероятен при нулевой гипотезе. Несмотря на то, что сообщение p -значений статистических тестов является обычной практикой в академических публикациях многих количественных областей, неправильное толкование и неправильное использование p -значений широко распространено и является основной темой в математике и метанауке . ^[4]^[5] В 2016 году Американская статистическая ассоциация (ASA) сделала официальное заявление о том, что « p -значения не измеряют вероятность того, что изучаемая гипотеза верна, или вероятность того, что данные были получены исключительно случайным образом» и что « p -значение, или статистическая значимость, не измеряет размер эффекта или важность результата» или «доказательства относительно модели или гипотезы». ^[6] Тем не менее, целевая группа Американского общества по статистике (ASA) в 2019 году опубликовала заявление о статистической значимости и воспроизводимости, в котором говорится следующее: « Значения p и тесты значимости при правильном применении и интерпретации повышают строгость выводов, сделанных на основе данных». ^[7] $p$

Основные понятия

В статистике каждая гипотеза, касающаяся неизвестного распределения вероятностей набора случайных величин, представляющих наблюдаемые данные в некотором исследовании, называется статистической гипотезой . Если мы выдвигаем только одну гипотезу и цель статистического теста состоит в том, чтобы увидеть, является ли эта гипотеза обоснованной, но не исследовать другие конкретные гипотезы, то такой тест называется проверкой нулевой гипотезы . $X$

Поскольку наша статистическая гипотеза по определению будет устанавливать некоторое свойство распределения, нулевая гипотеза является гипотезой по умолчанию, при которой это свойство не существует. Нулевая гипотеза обычно заключается в том, что некоторый параметр (такой как корреляция или разница между средними) в интересующих популяциях равен нулю. Наша гипотеза может точно определять распределение вероятностей или может только указывать, что оно принадлежит к некоторому классу распределений. Часто мы сводим данные к одной числовой статистике, например, , чье предельное распределение вероятностей тесно связано с основным вопросом, представляющим интерес в исследовании. $X$ $T$

Значение p используется в контексте проверки нулевой гипотезы для количественной оценки статистической значимости результата, при этом результатом является наблюдаемое значение выбранной статистики . ^{[примечание 2]} Чем ниже значение p , тем ниже вероятность получения этого результата, если бы нулевая гипотеза была верна. Результат считается статистически значимым , если он позволяет нам отвергнуть нулевую гипотезу. При прочих равных условиях меньшие значения p принимаются как более весомое доказательство против нулевой гипотезы. $T$

Грубо говоря, отклонение нулевой гипотезы подразумевает, что против нее имеется достаточно доказательств.

В качестве частного примера, если нулевая гипотеза утверждает, что определенная сводная статистика следует стандартному нормальному распределению , то отклонение этой нулевой гипотезы может означать, что (i) среднее значение не равно 0, или (ii) дисперсия не равна 1, или (iii) не распределена нормально. Различные тесты одной и той же нулевой гипотезы будут более или менее чувствительны к различным альтернативам. Однако даже если нам удастся отклонить нулевую гипотезу для всех 3 альтернатив, и даже если мы знаем, что распределение нормальное, а дисперсия равна 1, тест нулевой гипотезы не скажет нам, какие ненулевые значения среднего значения теперь наиболее правдоподобны. Чем больше независимых наблюдений из одного и того же распределения вероятностей, тем точнее будет тест, и тем выше точность, с которой можно будет определить среднее значение и показать, что оно не равно нулю; но это также увеличит важность оценки реальной или научной значимости этого отклонения. $T$ ${\mathcal {N}}(0,1),$ $T$ $T$ $T$

Определение и толкование

Определение

Значение p - это вероятность при нулевой гипотезе получения действительной тестовой статистики, по крайней мере, такой же экстремальной, как полученная. Рассмотрим наблюдаемую тестовую статистику из неизвестного распределения . Тогда значение p - это то, какой была бы априорная вероятность наблюдения значения тестовой статистики, по крайней мере, такого же "экстремального", как если бы нулевая гипотеза была верна. То есть: $t$ $T$ $p$ $t$ $H_{0}$

$p=\Pr(T\geq t\mid H_{0})$ для одностороннего правостороннего распределения тестовой статистики.
$p=\Pr(T\leq t\mid H_{0})$ для одностороннего левостороннего распределения тестовой статистики.
$p=2\min\{\Pr(T\geq t\mid H_{0}),\Pr(T\leq t\mid H_{0})\}$ для двустороннего тестового распределения статистики. Если распределение симметрично относительно нуля, то $T$ $p=\Pr(|T|\geq |t|\mid H_{0}).$

Интерпретации

Ошибка, которую практикующий статистик посчитал бы более важной для избежания (что является субъективным суждением), называется ошибкой первого рода. Первое требование математической теории — вывести такие критерии проверки, которые гарантировали бы, что вероятность совершения ошибки первого рода будет равна (или приблизительно равна, или не превысит) заранее заданному числу α, например α = 0,05 или 0,01 и т. д. Это число называется уровнем значимости.
— Ежи Нейман, «Возникновение математической статистики» ^[8]

В тесте значимости нулевая гипотеза отклоняется, если p -значение меньше или равно предопределенному пороговому значению , которое называется уровнем альфа или уровнем значимости . не выводится из данных, а устанавливается исследователем перед изучением данных. обычно устанавливается равным 0,05, хотя иногда используются и более низкие уровни альфа. Значение 0,05 (эквивалентное 1/20 шансов) было первоначально предложено Р. Фишером в 1925 году в его знаменитой книге под названием « Статистические методы для научных работников ». ^[9] В 2018 году группа статистиков во главе с Дэниелом Бенджамином предложила принять значение 0,005 в качестве стандартного значения для статистической значимости во всем мире. ^[10] $H_{0}$ $\alpha$ $\alpha$ $\alpha$

Различные p -значения, основанные на независимых наборах данных, можно комбинировать, например, с помощью комбинированного теста вероятности Фишера .

Распределение

Значение p является функцией выбранной тестовой статистики и, следовательно, является случайной величиной . Если нулевая гипотеза фиксирует распределение вероятностей точно (например, где — единственный параметр), и если это распределение непрерывно, то, когда нулевая гипотеза верна, значение p равномерно распределено между 0 и 1. Независимо от истинности , значение p не является фиксированным; если тот же тест повторяется независимо с новыми данными, обычно получается другое значение p в каждой итерации. $T$ $T$ $H_{0}:\theta =\theta _{0},$ $\theta$ $H_{0}$

Обычно наблюдается только одно p -значение, относящееся к гипотезе, поэтому p -значение интерпретируется с помощью теста значимости, и не предпринимается никаких усилий для оценки распределения, из которого оно было взято. Когда доступен набор p -значений (например, при рассмотрении группы исследований по одному и тому же предмету), распределение p -значений иногда называют p -кривой. ^[11] P - кривую можно использовать для оценки надежности научной литературы, например, путем обнаружения смещения публикации или p -хакинга . ^[11]^[12]

Распределение для составной гипотезы

В задачах параметрической проверки гипотез простая или точечная гипотеза относится к гипотезе, где предполагается, что значение параметра является одним числом. Напротив, в составной гипотезе значение параметра задается набором чисел. Когда нулевая гипотеза является составной (или распределение статистики дискретно), то когда нулевая гипотеза верна, вероятность получения p -значения, меньшего или равного любому числу от 0 до 1, все еще меньше или равна этому числу. Другими словами, остается тот факт, что очень малые значения относительно маловероятны, если нулевая гипотеза верна, и что тест значимости на уровне получается путем отклонения нулевой гипотезы, если p -значение меньше или равно . ^[13]^[14] $\alpha$ $\alpha$

Например, при проверке нулевой гипотезы о том, что распределение является нормальным со средним значением, меньшим или равным нулю, против альтернативы, что среднее значение больше нуля ( , дисперсия известна), нулевая гипотеза не определяет точное распределение вероятностей соответствующей тестовой статистики. В этом примере это будет Z -статистика, принадлежащая одностороннему одновыборочному Z -тесту. Для каждого возможного значения теоретического среднего статистика Z -теста имеет различное распределение вероятностей. В этих обстоятельствах p -значение определяется путем взятия наименее благоприятного случая нулевой гипотезы, который обычно находится на границе между нулем и альтернативой. Это определение обеспечивает взаимодополняемость p-значений и альфа-уровней: означает, что нулевая гипотеза отвергается только в том случае, если p -значение меньше или равно , и проверка гипотезы действительно будет иметь максимальную частоту ошибок типа 1 . $H_{0}:\mu \leq 0$ $\alpha =0.05$ $0.05$ $0.05$

Использование

Значение p широко используется в статистической проверке гипотез , в частности, в проверке значимости нулевой гипотезы. В этом методе перед проведением исследования сначала выбирается модель ( нулевая гипотеза ) и уровень альфа α (чаще всего 0,05). После анализа данных, если значение p меньше α , это означает, что наблюдаемые данные достаточно несовместимы с нулевой гипотезой , чтобы ее отвергнуть. Однако это не доказывает, что нулевая гипотеза ложна. Значение p само по себе не устанавливает вероятности гипотез. Скорее, это инструмент для принятия решения об отклонении нулевой гипотезы. ^[15]

Неправильное использование

Согласно ASA , широко распространено мнение, что p -значения часто используются неправильно и неверно интерпретируются. ^[3] Одной из практик, которая особенно критиковалась, является принятие альтернативной гипотезы для любого p -значения, номинально меньшего 0,05, без других подтверждающих доказательств. Хотя p -значения полезны для оценки того, насколько несовместимы данные с указанной статистической моделью, необходимо также учитывать контекстуальные факторы, такие как «дизайн исследования, качество измерений, внешние доказательства изучаемого явления и обоснованность предположений, лежащих в основе анализа данных». ^[3] Другая проблема заключается в том, что p -значение часто неправильно понимается как вероятность того, что нулевая гипотеза верна. ^[3]^[16]

Некоторые статистики предложили отказаться от p -значений и сосредоточиться больше на других выводных статистиках, ^[3] таких как доверительные интервалы , ^[17]^[18] отношения правдоподобия , ^[19]^[20] или факторы Байеса , ^[21]^[22]^[23], но ведутся жаркие споры о целесообразности этих альтернатив. ^[24]^[25] Другие предложили убрать фиксированные пороги значимости и интерпретировать p -значения как непрерывные индексы силы доказательств против нулевой гипотезы. ^[26]^[27] Другие же предложили сообщать вместе с p -значениями априорную вероятность реального эффекта, которая потребуется для получения ложноположительного риска (т. е. вероятности того, что нет реального эффекта) ниже заранее определенного порога (например, 5%). ^[28]

Тем не менее, в 2019 году целевая группа ASA собралась для рассмотрения использования статистических методов в научных исследованиях, в частности, проверки гипотез и p -значений, а также их связи с воспроизводимостью. ^[7] В нем говорится, что «Различные меры неопределенности могут дополнять друг друга; ни одна мера не служит всем целям», ссылаясь на p -значение как на одну из таких мер. Они также подчеркивают, что p -значения могут предоставлять ценную информацию при рассмотрении конкретного значения, а также при сравнении с некоторым пороговым значением. В целом, в нем подчеркивается, что « p -значения и тесты значимости при правильном применении и интерпретации повышают строгость выводов, сделанных на основе данных».

Расчет

Обычно, является тестовой статистикой . Тестовая статистика является выходом скалярной функции всех наблюдений. Эта статистика предоставляет одно число, например t -статистику или F -статистику . Таким образом, тестовая статистика следует распределению, определяемому функцией, используемой для определения этой тестовой статистики, и распределению входных данных наблюдений. $T$

Для важного случая, когда предполагается, что данные являются случайной выборкой из нормального распределения, в зависимости от характера тестовой статистики и интересующих гипотез о ее распределении были разработаны различные тесты нулевой гипотезы. Некоторые из таких тестов — это z -тест для гипотез относительно среднего значения нормального распределения с известной дисперсией, t -тест, основанный на t -распределении Стьюдента подходящей статистики, для гипотез относительно среднего значения нормального распределения, когда дисперсия неизвестна, F -тест, основанный на F -распределении еще одной статистики, для гипотез относительно дисперсии. Для данных другой природы, например, категориальных (дискретных) данных, можно построить тестовую статистику, распределение нулевой гипотезы которой основано на нормальных приближениях к соответствующим статистикам, полученным путем использования центральной предельной теоремы для больших выборок, как в случае теста Пирсона хи-квадрат .

Таким образом, вычисление p -значения требует нулевой гипотезы, тестовой статистики (вместе с решением, выполняет ли исследователь односторонний тест или двухсторонний тест ) и данных. Несмотря на то, что вычисление тестовой статистики по заданным данным может быть простым, вычисление выборочного распределения при нулевой гипотезе, а затем вычисление ее кумулятивной функции распределения (CDF) часто является сложной задачей. Сегодня это вычисление выполняется с помощью статистического программного обеспечения, часто с помощью числовых методов (а не точных формул), но в начале и середине 20-го века это вместо этого делалось с помощью таблиц значений, и один интерполировал или экстраполировал p -значения из этих дискретных значений ^{[ требуется ссылка ]} . Вместо того, чтобы использовать таблицу p -значений, Фишер вместо этого инвертировал CDF, опубликовав список значений тестовой статистики для заданных фиксированных p -значений; это соответствует вычислению функции квантиля (обратной CDF).

Пример

Проверка честности монеты

В качестве примера статистического теста проводится эксперимент, чтобы определить, является ли подбрасывание монеты честным (равная вероятность выпадения орла или решки) или несправедливо предвзятым (один результат более вероятен, чем другой).

Предположим, что экспериментальные результаты показывают, что монета выпадает орлом 14 раз из 20 подбрасываний. Полные данные будут представлять собой последовательность из двадцати символов «H» или «T». Статистика, на которой можно было бы сосредоточиться, могла бы быть общим числом орлов. Нулевая гипотеза заключается в том, что монета является честной, и подбрасывания монеты независимы друг от друга. Если рассматривать правосторонний тест, что было бы в случае, если бы кто-то действительно интересовался возможностью того, что монета склонна к падению орла, то p -значение этого результата является вероятностью того, что честная монета выпадет орлом по крайней мере 14 раз из 20 подбрасываний. Эту вероятность можно вычислить из биномиальных коэффициентов как $X$ $T$

{\begin{aligned}&\Pr(14{\text{ heads}})+\Pr(15{\text{ heads}})+\cdots +\Pr(20{\text{ heads}})\\&={\frac {1}{2^{20}}}\left[{\binom {20}{14}}+{\binom {20}{15}}+\cdots +{\binom {20}{20}}\right]={\frac {60\,460}{1\,048\,576}}\approx 0.058.\end{aligned}}

Эта вероятность является p -значением, учитывающим только экстремальные результаты, которые благоприятствуют орлу. Это называется односторонним тестом . Однако кого-то могут интересовать отклонения в любом направлении, благоприятствующие либо орлу, либо решке. Вместо этого можно рассчитать двухстороннее p -значение, которое учитывает отклонения в пользу либо орла, либо решки. Поскольку биномиальное распределение симметрично для честной монеты, двустороннее p -значение просто в два раза больше рассчитанного выше одностороннего p -значения: двустороннее p -значение равно 0,115.

В приведенном выше примере:

Нулевая гипотеза ( H ₀ ): Монета честная, с Pr(орлы) = 0,5.
Статистика теста: Количество голов.
Уровень альфа (установленный порог значимости): 0,05.
Наблюдение O : 14 орлов из 20 подбрасываний.
Двустороннее p -значение наблюдения O при заданном H ₀ = 2 × min(Pr(количество голов ≥ 14 голов), Pr(количество голов ≤ 14 голов)) = 2 × min(0,058, 0,978) = 2 × 0,058 = 0,115.

Pr(количество орлов ≤ 14) = 1 − Pr(количество орлов ≥ 14) + Pr(количество орлов = 14) = 1 − 0,058 + 0,036 = 0,978; однако симметрия этого биномиального распределения делает ненужным вычисление для нахождения меньшей из двух вероятностей. Здесь рассчитанное p -значение превышает 0,05, что означает, что данные попадают в диапазон того, что произошло бы в 95% случаев, если бы монета была честной. Следовательно, нулевая гипотеза не отвергается на уровне 0,05.

Однако если бы был получен еще один «орёл», то итоговое p -значение (двустороннее) составило бы 0,0414 (4,14%), и в этом случае нулевая гипотеза была бы отклонена на уровне 0,05.

Необязательная остановка

Разница между двумя значениями «экстремального» проявляется, когда мы рассматриваем последовательную проверку гипотезы или опциональную остановку для честности монеты. В общем, опциональная остановка изменяет способ вычисления p-значения. ^[29]^[30] Предположим, мы проектируем эксперимент следующим образом:

Подбросьте монету дважды. Если оба раза выпадет орел или решка, закончите эксперимент.
В противном случае подбросьте монету еще 4 раза.

В этом эксперименте 7 типов результатов: 2 орла, 2 решки, 5 орлов 1 решка, ..., 1 орел 5 решек. Теперь вычислим p -значение результата "3 орла 3 решки".

Если мы используем тестовую статистику , то при нулевой гипотезе она равна точно 1 для двустороннего p -значения, точно 1 для одностороннего левостороннего p -значения и то же самое для одностороннего правостороннего p -значения. ${\text{heads}}/{\text{tails}}$ $19/32$

Если мы будем рассматривать каждый результат, который имеет равную или меньшую вероятность, чем «3 орла 3 решки», как «по крайней мере экстремальный», то p -значение будет в точности равно $1/2.$

Однако предположим, что мы запланировали просто подбросить монетку 6 раз, независимо от того, что произойдет, тогда второе определение p -значения будет означать, что p -значение «3 орла 3 решки» равно ровно 1.

Таким образом, определение p -значения как «по крайней мере, столь же экстремального» глубоко контекстуально и зависит от того, что экспериментатор планировал делать даже в ситуациях, которые не произошли.

История

Фотография молодого человека в костюме, с медалью и очками в металлической оправе, тонированная сепией — Рональд Фишер

Вычисления p -значения восходят к 1700-м годам, когда они были вычислены для человеческого соотношения полов при рождении и использовались для вычисления статистической значимости по сравнению с нулевой гипотезой о равной вероятности рождения мальчиков и девочек. ^[31] Джон Арбетнот изучал этот вопрос в 1710 году, ^[32]^[33]^[34]^[35] и исследовал записи о рождении в Лондоне за каждый из 82 лет с 1629 по 1710 год. В каждом году число мужчин, родившихся в Лондоне, превышало число женщин. Рассматривая большее количество рождений мальчиков или большее количество рождений девочек как равновероятные, вероятность наблюдаемого результата составляет 1/2 ⁸² , или около 1 из 4 836 000 000 000 000 000 000 000; в современных терминах это p -значение. Это исчезающе мало, что привело Арбутнота к мысли, что это произошло не по воле случая, а по божественному провидению: «Откуда следует, что правит не случай, а искусство». Говоря современным языком, он отверг нулевую гипотезу о равной вероятности рождения мальчиков и девочек на уровне значимости p = 1/2 ^82. Эта и другие работы Арбутнота считаются «… первым использованием тестов значимости …» ^[36], первым примером рассуждений о статистической значимости ^[37] и «… возможно, первым опубликованным отчетом о непараметрическом тесте …», ^[33] в частности, тесте знаков ; подробности см. в Тест знаков § История .

Тот же вопрос позже затронул Пьер-Симон Лаплас , который вместо этого использовал параметрический тест, моделируя число рождений мальчиков с помощью биномиального распределения : ^[38]

В 1770-х годах Лаплас рассмотрел статистику почти полумиллиона рождений. Статистика показала избыток мальчиков по сравнению с девочками. Он пришел к выводу, вычислив p -значение, что избыток был реальным, но необъяснимым эффектом.

Значение p было впервые формально введено Карлом Пирсоном в его тесте хи-квадрат Пирсона ^[39] с использованием распределения хи-квадрат и обозначено заглавной буквой P. ^[39] Значения p для распределения хи-квадрат (для различных значений χ2 ^и степеней свободы), теперь обозначенные как P, были рассчитаны в (Elderton 1902) и собраны в (Pearson 1914, стр. xxxi–xxxiii, 26–28, таблица XII).

Рональд Фишер формализовал и популяризировал использование p -значения в статистике, ^[40]^[41] при этом оно играло центральную роль в его подходе к предмету. ^[42] В своей весьма влиятельной книге «Статистические методы для научных работников» (1925) Фишер предложил уровень p = 0,05, или вероятность 1 из 20 быть превышенным случайно, в качестве предела статистической значимости и применил его к нормальному распределению (как двусторонний тест), таким образом получив правило двух стандартных отклонений (для нормального распределения) для статистической значимости (см. правило 68–95–99,7 ). ^[43]^{[примечание 3]}^[44]

Затем он вычислил таблицу значений, похожую на таблицу Элдертона, но, что важно, поменял роли χ2 ^и p . То есть, вместо того, чтобы вычислять p для разных значений χ2 ⁽ и степеней свободы n ), он вычислил значения χ2 ^, которые дают заданные p -значения, а именно 0,99, 0,98, 0,95, 0,90, 0,80, 0,70, 0,50, 0,30, 0,20, 0,10, 0,05, 0,02 и 0,01. ^[45] Это позволило сравнивать вычисленные значения χ2 ^с предельными значениями и поощряло использование p -значений (особенно 0,05, 0,02 и 0,01) в качестве предельными значений вместо вычисления и сообщения самих p -значений. Затем в работе (Fisher & Yates 1938) были составлены таблицы того же типа, которые закрепили этот подход. ^[44]

В качестве иллюстрации применения p -значений к планированию и интерпретации экспериментов в своей следующей книге «Планирование экспериментов» (1935) Фишер представил эксперимент с женщиной, дегустирующей чай , ^[46] , который является архетипическим примером p -значения.

Чтобы оценить утверждение женщины о том, что она ( Мюриэль Бристоль ) может различать по вкусу, как приготовлен чай (сначала добавляя в чашку молоко, затем чай, или сначала чай, затем молоко), ей последовательно предъявляли 8 чашек: 4, приготовленные одним способом, 4, приготовленные другим, и просили определить приготовление каждой чашки (зная, что было 4 чашки каждого вида). В этом случае нулевая гипотеза заключалась в том, что у нее не было особых способностей, тест был точным тестом Фишера , а p -значение было таким, что Фишер был готов отвергнуть нулевую гипотезу (считая результат крайне маловероятным из-за случайности), если бы все были классифицированы правильно. (В реальном эксперименте Бристоль правильно классифицировала все 8 чашек.) $1/{\binom {8}{4}}=1/70\approx 0.014,$

Фишер повторил пороговое значение p = 0,05 и объяснил его обоснование, заявив: ^[47]

Экспериментаторам обычно и удобно принимать 5 процентов в качестве стандартного уровня значимости в том смысле, что они готовы игнорировать все результаты, которые не достигают этого стандарта, и тем самым исключить из дальнейшего обсуждения большую часть флуктуаций, которые случайные причины внесли в их экспериментальные результаты.

Он также применяет этот порог к планированию экспериментов, отмечая, что если бы было представлено только 6 чашек (по 3 каждого вида), идеальная классификация дала бы только p -значение , которое не соответствовало бы этому уровню значимости. ^[47] Фишер также подчеркнул интерпретацию p как долгосрочной доли значений, по крайней мере, столь же экстремальных, как и данные, при условии, что нулевая гипотеза верна. $1/{\binom {6}{3}}=1/20=0.05,$

В более поздних изданиях Фишер явно противопоставил использование p -значения для статистического вывода в науке методу Неймана–Пирсона, который он называет «процедурами принятия». ^[48] Фишер подчеркивает, что хотя фиксированные уровни, такие как 5%, 2% и 1%, удобны, можно использовать точное p -значение, а сила доказательств может и будет пересмотрена с помощью дальнейших экспериментов. Напротив, процедуры принятия решений требуют четкого решения, приводящего к необратимому действию, и процедура основана на стоимости ошибки, которая, как он утверждает, неприменима к научным исследованиям.

Связанные индексы

Значение E может относиться к двум концепциям, обе из которых связаны с p-значением и обе играют роль в множественном тестировании . Во-первых, оно соответствует общей, более надежной альтернативе p-значению , которая может иметь дело с необязательным продолжением экспериментов. Во-вторых, оно также используется для сокращения «ожидаемого значения», которое является ожидаемым числом раз, которое можно ожидать получить тестовую статистику, по крайней мере, такую же экстремальную, как та, которая фактически наблюдалась, если предположить, что нулевая гипотеза верна. ^[49] Это ожидаемое значение является произведением числа тестов и p -значения.

Значение q является аналогом значения p по отношению к показателю ложных положительных результатов . ^[50] Оно используется при проверке множественных гипотез для поддержания статистической мощности при минимизации показателя ложных положительных результатов . ^[51]

Вероятность направления ( pd ) — это байесовский числовой эквивалент p -значения. ^[52] Она соответствует доле апостериорного распределения , которая имеет знак медианы, обычно варьируясь от 50% до 100% и представляя собой уверенность, с которой эффект является положительным или отрицательным.

Значения p второго поколения расширяют концепцию значений p, не учитывая чрезвычайно малые, практически не имеющие значения размеры эффекта как значимые. ^[53]

Смотрите также

Примечания

^ Курсив, заглавные буквы и дефисы в термине различаются. Например, стиль AMA использует « P value», стиль APA использует « p value», а Американская статистическая ассоциация использует « p -value». Во всех случаях «p» означает вероятность. ^[1]
^ Статистическая значимость результата не означает, что результат также имеет реальную значимость. Например, лекарство может иметь статистически значимый эффект, который слишком мал, чтобы быть интересным.
^ Если говорить точнее, p = 0,05 соответствует примерно 1,96 стандартных отклонений для нормального распределения (двусторонний тест), а 2 стандартных отклонения соответствуют примерно 1 из 22 шансов быть случайно превышенным, или p ≈ 0,045; Фишер отмечает эти приближения.

Ссылки

^ "ASA House Style" (PDF) . Новости Amstat . Американская статистическая ассоциация.
^ Aschwanden C (2015-11-24). «Даже ученые не могут легко объяснить P-значения». FiveThirtyEight . Архивировано из оригинала 25 сентября 2019 года . Получено 11 октября 2019 года .
^ abcde Wasserstein RL, Lazar NA (7 марта 2016 г.). «Заявление ASA о p-значениях: контекст, процесс и цель». The American Statistician . 70 (2): 129–133. doi : 10.1080/00031305.2016.1154108 .
^ Хаббард Р., Линдси Р. М. (2008). «Почему значения P не являются полезной мерой доказательств при проверке статистической значимости». Теория и психология . 18 (1): 69–88. doi :10.1177/0959354307086923. S2CID 143487211.
^ Munafò MR , Nosek BA, Bishop DV, Button KS, Chambers CD, du Sert NP и др. (январь 2017 г.). «Манифест воспроизводимой науки». Nature Human Behaviour . 1 (1): 0021. doi : 10.1038 / s41562-016-0021 . PMC 7610724. PMID 33954258. S2CID 6326747.
^ Вассерштейн, Рональд Л.; Лазар, Николь А. (2016-04-02). «Заявление ASA о p-значениях: контекст, процесс и цель». The American Statistician . 70 (2): 129–133. doi : 10.1080/00031305.2016.1154108 . ISSN 0003-1305. S2CID 124084622.
^ ab Benjamini, Yoav; De Veaux, Richard D.; Efron, Bradley; Evans, Scott; Glickman, Mark; Graubard, Barry I.; He, Xuming; Meng, Xiao-Li; Reid, Nancy M.; Stigler, Stephen M.; Vardeman, Stephen B.; Wikle, Christopher K.; Wright, Tommy; Young, Linda J.; Kafadar, Karen (2021-10-02). «Заявление целевой группы президента ASA о статистической значимости и воспроизводимости». Chance . 34 (4). Informa UK Limited: 10–11. doi : 10.1080/09332480.2021.2003631 . ISSN 0933-2480.
^ Нейман, Ежи (1976). «Возникновение математической статистики: исторический очерк с особым акцентом на Соединенные Штаты». В Оуэне, Д.Б. (ред.). Об истории статистики и вероятности. Учебники и монографии. Нью-Йорк: Marcel Dekker Inc., стр. 161.
^ Фишер, РА (1992), Котц, Сэмюэл; Джонсон, Норман Л. (ред.), «Статистические методы для научных работников», Прорывы в статистике: методология и распространение , Springer Series in Statistics, Нью-Йорк, штат Нью-Йорк: Springer, стр. 66–70, doi :10.1007/978-1-4612-4380-9_6, ISBN 978-1-4612-4380-9, получено 2024-07-07
^ Бенджамин, Дэниел Дж.; Бергер, Джеймс О.; Йоханнессон, Магнус; Носек, Брайан А.; Вагенмакерс, Э.-Дж.; Берк, Ричард; Боллен, Кеннет А.; Брембс, Бьёрн; Браун, Лоуренс; Камерер, Колин; Чезарини, Дэвид; Чемберс, Кристофер Д.; Клайд, Мерлис; Кук, Томас Д.; Де Бёк, Пол; Динес, Золтан; Дребер, Анна; Исваран, Кенни; Эфферсон, Чарльз; Фер, Эрнст; Фидлер, Фиона; Филд, Энди П.; Форстер, Малкольм; Джордж, Эдвард И.; Гонсалес, Ричард; Гудман, Стивен; Грин, Эдвин; Грин, Дональд П.; Гринвальд, Энтони Г.; Хэдфилд, Джаррод Д.; Хеджес, Ларри В.; Хелд, Леонард; Хуа Хо, Тек; Хойтинк, Герберт; Грушка, Дэниел Дж.; Имаи, Косуке; Имбенс, Гвидо; Иоаннидис, Джон П.А.; Чон, Минджон; Джонс, Джеймс Холланд; Кирхлер, Майкл; Лейбсон, Дэвид; Лист, Джон; Литтл, Родерик; Лупия, Артур; Машери, Эдуард; Максвелл, Скотт Э.; Маккарти, Майкл; Мур, Дон А.; Морган, Стивен Л.; Мунафо, Маркус; Накагава, Шиничи; Найхан, Брендан; Паркер, Тимоти Х.; Перикки, Луис; Перуджини, Марко; Рудер, Джефф; Руссо, Юдит; Савалей, Виктория; Шенбродт, Феликс Д.; Селлке, Томас; Синклер, Бетси; Тингли, Дастин; Ван Зандт, Триша; Вазире, Симине; Уоттс, Дункан Дж.; Уиншип, Кристофер; Вольперт, Роберт Л.; Кси, Ю; Янг, Кристобаль; Зинман, Джонатан; Джонсон, Вален Э. (1 сентября 2017 г.). «Переосмысление статистической значимости». Nature Human Behaviour . 2 (1): 6–10. doi :10.1038/s41562-017-0189-z. eISSN 2397-3374. hdl : 10281/184094 . PMID 30980045. S2CID 256726352.
^ ab Head ML, Holman L, Lanfear R, Kahn AT, Jennions MD (март 2015 г.). «Масштабы и последствия p-хакинга в науке». PLOS Biology . 13 (3): e1002106. doi : 10.1371/journal.pbio.1002106 . PMC 4359000. PMID 25768323 .
^ Simonsohn U, Nelson LD, Simmons JP (ноябрь 2014 г.). " p -кривая и размер эффекта: коррекция смещения публикации с использованием только значимых результатов". Perspectives on Psychological Science . 9 (6): 666–681. doi :10.1177/1745691614553988. PMID 26186117. S2CID 39975518.
^ Бхаттачарья Б., Хабцги Д. (2002). «Медиана значения p при альтернативной гипотезе». Американский статистик . 56 (3): 202–6. doi :10.1198/000313002146. S2CID 33812107.
^ Hung HM, O'Neill RT, Bauer P, Köhne K (март 1997). «Поведение P-значения, когда альтернативная гипотеза верна». Биометрия (Представленная рукопись). 53 (1): 11–22. doi :10.2307/2533093. JSTOR 2533093. PMID 9147587.
^ Nuzzo R (февраль 2014 г.). «Научный метод: статистические ошибки». Nature . 506 (7487): 150–152. Bibcode :2014Natur.506..150N. doi : 10.1038/506150a . PMID 24522584.
^ Colquhoun D (ноябрь 2014 г.). «Исследование частоты ложных открытий и неправильной интерпретации p-значений». Royal Society Open Science . 1 (3): 140216. arXiv : 1407.5296 . Bibcode :2014RSOS....140216C. doi :10.1098/rsos.140216. PMC 4448847 . PMID 26064558.
^ Ли ДК (декабрь 2016 г.). «Альтернативы значению P: доверительный интервал и размер эффекта». Корейский журнал анестезиологии . 69 (6): 555–562. doi :10.4097/kjae.2016.69.6.555. PMC 5133225. PMID 27924194 .
^ Ranstam J (август 2012 г.). «Почему культура P-значения плоха, а доверительные интервалы — лучшая альтернатива». Остеоартрит и хрящ . 20 (8): 805–808. doi : 10.1016/j.joca.2012.04.001 . PMID 22503814.
^ Perneger TV (май 2001 г.). «Просеивание доказательств. Отношения правдоподобия являются альтернативами значениям P». BMJ . 322 (7295): 1184–1185. doi :10.1136/bmj.322.7295.1184. PMC 1120301 . PMID 11379590.
^ Ройалл Р. (2004). «Парадигма правдоподобия для статистических доказательств». Природа научных доказательств . стр. 119–152. doi :10.7208/chicago/9780226789583.003.0005. ISBN 9780226789576.
^ Schimmack U (30 апреля 2015 г.). «Замена p-значений на байесовские факторы: чудесное лекарство от кризиса воспроизводимости в психологической науке». Replicability-Index . Получено 7 марта 2017 г.
^ Marden JI (декабрь 2000 г.). «Проверка гипотез: от значений p до факторов Байеса». Журнал Американской статистической ассоциации . 95 (452): 1316–1320. doi :10.2307/2669779. JSTOR 2669779.
^ Stern HS (16 февраля 2016 г.). «Тест под любым другим названием: значения P, факторы Байеса и статистический вывод». Многомерные поведенческие исследования . 51 (1): 23–29. doi : 10.1080/00273171.2015.1099032. PMC 4809350. PMID 26881954 .
^ Murtaugh PA (март 2014 г.). «В защиту значений P». Экология . 95 (3): 611–617. Bibcode : 2014Ecol...95..611M. doi : 10.1890/13-0590.1. PMID 24804441.
^ Aschwanden C (7 марта 2016 г.). «Статистики обнаружили одну вещь, в которой они могут согласиться: пора прекратить неправильное использование P-значений». FiveThirtyEight .
^ Амрайн В. , Корнер-Нивергельт Ф., Рот Т. (2017). «Земля плоская (p > 0,05): пороги значимости и кризис невоспроизводимых исследований». PeerJ . 5 : e3544. doi : 10.7717/peerj.3544 . PMC 5502092. PMID 28698825 .
^ Амрейн В. , Гренландия С. (январь 2018 г.). «Удаляйте, а не переопределяйте статистическую значимость». Nature Human Behaviour . 2 (1): 4. doi :10.1038/s41562-017-0224-0. PMID 30980046. S2CID 46814177.
^ Colquhoun D (декабрь 2017 г.). «Воспроизводимость исследований и неправильная интерпретация p-значений». Royal Society Open Science . 4 (12): 171085. doi :10.1098/rsos.171085. PMC 5750014. PMID 29308247 .
^ Гудман, Стивен (2008-07-01). «Грязная дюжина: Двенадцать заблуждений о значении P». Семинары по гематологии . Интерпретация количественных исследований. 45 (3): 135–140. doi :10.1053/j.seminhematol.2008.04.003. ISSN 0037-1963. PMID 18582619.
^ Вагенмейкерс, Эрик-Джан (октябрь 2007 г.). «Практическое решение распространенных проблем значений p». Psychonomic Bulletin & Review . 14 (5): 779–804. doi :10.3758/BF03194105. ISSN 1069-9384.
^ Брайан Э. , Джейссон М. (2007). «Физико-теология и математика (1710–1794)». Происхождение соотношения полов у людей при рождении . Springer Science & Business Media. стр. 1–25. ISBN 978-1-4020-6036-6.
^ Арбутнот Дж. (1710). «Аргумент в пользу Божественного Провидения, взятый из постоянной регулярности, наблюдаемой в рождении обоих полов» (PDF) . Philosophical Transactions of the Royal Society of London . 27 (325–336): 186–190. doi : 10.1098/rstl.1710.0011 . S2CID 186209819.
^ ab Conover WJ (1999). "Глава 3.4: Тест знаков". Practical Nonparametric Statistics (Третье изд.). Wiley. С. 157–176. ISBN 978-0-471-16068-7.
^ Спрент П. (1989). Прикладные непараметрические статистические методы (второе издание). Chapman & Hall. ISBN 978-0-412-44980-2.
^ Stigler SM (1986). История статистики: измерение неопределенности до 1900 года . Harvard University Press. С. 225–226. ISBN 978-0-67440341-3.
^ Bellhouse P (2001). "Джон Арбетнот". В Heyde CC , Seneta E (ред.). Статистики веков . Springer. стр. 39–42. ISBN 978-0-387-95329-8.
^ Hald A (1998). "Глава 4. Случайность или замысел: тесты значимости". История математической статистики с 1750 по 1930 год . Wiley. стр. 65.
^ Stigler SM (1986). История статистики: измерение неопределенности до 1900 года . Harvard University Press. стр. 134. ISBN 978-0-67440341-3.
^ ab Pearson K (1900). «О критерии, согласно которому данная система отклонений от вероятного в случае коррелированной системы переменных такова, что можно обоснованно предположить, что она возникла из случайной выборки» (PDF) . Philosophical Magazine . Серия 5. 50 (302): 157–175. doi :10.1080/14786440009463897.
^ Biau, David Jean; Jolles, Brigitte M.; Porcher, Raphaël (2010). «P-значение и теория проверки гипотез: объяснение для новых исследователей». Клиническая ортопедия и смежные исследования . 468 (3): 885–892. doi :10.1007/s11999-009-1164-4. ISSN 0009-921X. PMC 2816758. PMID 19921345 .
^ Бреретон, Ричард Г. (2021). «Значения P и многомерные распределения: неортогональные члены в регрессионных моделях». Хемометрика и интеллектуальные лабораторные системы . 210 : 104264. doi : 10.1016/j.chemolab.2021.104264.
^ Хаббард Р., Байарри М.Дж. (2003), «Путаница в отношении мер доказательств ( p ′s) против ошибок (α′s) в классическом статистическом тестировании», The American Statistician , 57 (3): 171–178 [стр. 171], doi : 10.1198/0003130031856, S2CID 55671953
↑ Фишер 1925, стр. 47, Глава III. Распределения.
^ ab Dallal 2012, Примечание 31: Почему P = 0,05?
↑ Фишер 1925, стр. 78–79, 98, Глава IV. Тесты на соответствие, независимость и однородность; с таблицей χ2, Таблица III. Таблица χ2.
↑ Фишер 1971, II. Принципы экспериментирования, проиллюстрированные психофизическим экспериментом.
^ ab Fisher 1971, Раздел 7. Тест значимости.
^ Фишер 1971, Раздел 12.1 Научные выводы и процедуры принятия.
^ «Определение E-value». Национальные институты здравоохранения .
^ Storey JD (2003). «Положительный уровень ложных открытий: байесовская интерпретация и q-значение». Анналы статистики . 31 (6): 2013–2035. doi : 10.1214/aos/1074290335 .
^ Storey JD, Tibshirani R (август 2003 г.). «Статистическая значимость для исследований генома». Труды Национальной академии наук Соединенных Штатов Америки . 100 (16): 9440–9445. Bibcode : 2003PNAS..100.9440S . doi : 10.1073/pnas.1530509100 . PMC 170937. PMID 12883005.
^ Makowski D, Ben-Shachar MS, Chen SH, Lüdecke D (10 декабря 2019 г.). «Индексы существования и значимости эффекта в байесовской модели». Frontiers in Psychology . 10 : 2767. doi : 10.3389/fpsyg.2019.02767 . PMC 6914840. PMID 31920819 .
^ Введение во второе поколение p-значений Джеффри Д. Блюм, Роберт А. Гриви, Валери Ф. Уэлти, Джеффри Р. Смит и Уильям Д. Дюпон https://www.tandfonline.com/doi/full/10.1080/00031305.2018.1537893

Дальнейшее чтение

Denworth L (октябрь 2019 г.). «Значительная проблема: стандартные научные методы подвергаются критике. Изменится ли что-нибудь?». Scientific American . 321 (4): 62–67 (63). Использование значений p в течение почти столетия [с 1925 г.] для определения статистической значимости экспериментальных результатов способствовало возникновению иллюзии определенности и [кризису] воспроизводимости во многих научных областях . Растет решимость реформировать статистический анализ... Некоторые [исследователи] предлагают изменить статистические методы, тогда как другие отказались бы от порогового значения для определения «значимых» результатов.
Elderton WP (1902). «Таблицы для проверки соответствия теории наблюдениям». Biometrika . 1 (2): 155–163. doi :10.1093/biomet/1.2.155.
Пирсон, Карл (1914). «О вероятности того, что два независимых распределения частот на самом деле являются образцами одной и той же популяции, с особой ссылкой на недавнюю работу по идентичности штаммов трипаносом». Biometrika . 10 : 85–154. doi :10.1093/biomet/10.1.85.
Фишер РА (1925). Статистические методы для научных работников . Эдинбург, Шотландия: Oliver & Boyd. ISBN 978-0-05-002170-5.
Фишер РА (1971) [1935]. Планирование экспериментов (9-е изд.). Macmillan. ISBN 978-0-02-844690-5.
Фишер Р. А., Йейтс Ф. (1938). Статистические таблицы для биологических, сельскохозяйственных и медицинских исследований . Лондон, Англия.{{cite book}}: CS1 maint: location missing publisher (link)
Stigler SM (1986). История статистики: измерение неопределенности до 1900 года . Кембридж, Массачусетс: Belknap Press of Harvard University Press. ISBN 978-0-674-40340-6.
Хаббард Р., Армстронг Дж. С. (2006). «Почему мы на самом деле не знаем, что означает статистическая значимость: выводы для педагогов» (PDF) . Журнал маркетингового образования . 28 (2): 114–120. doi :10.1177/0273475306288399. hdl : 2092/413 . S2CID 34729227. Архивировано из оригинала (PDF) 18 мая 2006 г.
Хаббард Р., Линдси Р. М. (2008). «Почему значения P не являются полезной мерой доказательств при проверке статистической значимости» (PDF) . Теория и психология . 18 (1): 69–88. doi :10.1177/0959354307086923. S2CID 143487211. Архивировано из оригинала (PDF) 21 октября 2016 г. . Получено 28 августа 2015 г. .
Стиглер С. (декабрь 2008 г.). "Фишер и уровень 5%". Шанс . 21 (4): 12. doi : 10.1007/s00144-008-0033-3 .
Даллал GE (2012). Маленький справочник статистической практики.
Biau DJ, Jolles BM, Porcher R (март 2010 г.). «P-значение и теория проверки гипотез: объяснение для новых исследователей». Клиническая ортопедия и смежные исследования . 468 (3): 885–892. doi :10.1007/s11999-009-1164-4. PMC 2816758. PMID 19921345 .
Рейнхарт А. (2015). Статистика сделана неправильно: ужасно полное руководство. No Starch Press . стр. 176. ISBN 978-1593276201.
Benjamini, Yoav ; De Veaux, Richard D.; Efron, Bradley ; Evans, Scott; Glickman, Mark; Graubard, Barry I.; He, Xuming; Meng, Xiao-Li ; Reid, Nancy ; Stigler, Stephen M. ; Vardeman, Stephen B.; Wikle, Christopher K.; Wright, Tommy; Young, Linda J.; Kafadar, Karen (2021). «Заявление целевой группы президента ASA о статистической значимости и воспроизводимости». Annals of Applied Statistics . 15 (3): 1084–1085. doi : 10.1214/21-AOAS1501 .
Бенджамин, Дэниел Дж.; Бергер, Джеймс О.; Йоханнессон, Магнус; Носек, Брайан А.; Вагенмакерс, Э.-Дж.; Берк, Ричард; Боллен, Кеннет А.; Брембс, Бьёрн; Браун, Лоуренс; Камерер, Колин; Чезарини, Дэвид; Чемберс, Кристофер Д.; Клайд, Мерлис; Кук, Томас Д.; Де Бёк, Пол; Динес, Золтан; Дребер, Анна; Исваран, Кенни; Эфферсон, Чарльз; Фер, Эрнст; Фидлер, Фиона; Филд, Энди П.; Форстер, Малкольм; Джордж, Эдвард И.; Гонсалес, Ричард; Гудман, Стивен; Грин, Эдвин; Грин, Дональд П.; Гринвальд, Энтони Г.; Хэдфилд, Джаррод Д.; Хеджес, Ларри В.; Хелд, Леонард; Хуа Хо, Тек; Хойтинк, Герберт; Грушка, Дэниел Дж.; Имаи, Косуке; Имбенс, Гвидо; Иоаннидис, Джон П.А.; Чон, Минджон; Джонс, Джеймс Холланд; Кирхлер, Майкл; Лейбсон, Дэвид; Лист, Джон; Литтл, Родерик; Лупия, Артур; Машери, Эдуард; Максвелл, Скотт Э.; Маккарти, Майкл; Мур, Дон А.; Морган, Стивен Л.; Мунафо, Маркус; Накагава, Шиничи; Найхан, Брендан; Паркер, Тимоти Х.; Перикки, Луис; Перуджини, Марко; Рудер, Джефф; Руссо, Юдит; Савалей, Виктория; Шенбродт, Феликс Д.; Селлке, Томас; Синклер, Бетси; Тингли, Дастин; Ван Зандт, Триша; Вазире, Симине; Уоттс, Дункан Дж.; Уиншип, Кристофер; Вольперт, Роберт Л.; Кси, Ю; Янг, Кристобаль; Зинман, Джонатан; Джонсон, Вален Э. (1 сентября 2017 г.). «Переопределите статистическую значимость». Nature Human Behaviour . 2 (1): 6–10. doi :10.1038/s41562-017-0189-z. eISSN 2397-3374. hdl : 10281/184094 . PMID 30980045. S2CID 256726352.

Внешние ссылки

На Викискладе есть медиафайлы по теме P-value .

Бесплатные онлайн-калькуляторы p-значений для различных специальных тестов (хи-квадрат, F-тест Фишера и т. д.).
Понимание p-значений, включая Java-апплет, иллюстрирующий, как числовые значения p -значений могут создавать совершенно обманчивые впечатления об истинности или ложности проверяемой гипотезы.
StatQuest: P-значения, наглядно объясненные на YouTube
StatQuest: подводные камни P-значения и расчеты мощности на YouTube
Наука не сломана — статья о том, как можно манипулировать p-значениями, и интерактивный инструмент для их визуализации.