При проверке значимости нулевой гипотезы -значение [примечание 1] представляет собой вероятность получения результатов теста, по крайней мере, столь же экстремальных, как фактически наблюдаемый результат , при условии, что нулевая гипотеза верна. [2] [3] Очень малое p -значение означает, что такой экстремальный наблюдаемый результат был бы очень маловероятен при нулевой гипотезе. Несмотря на то, что сообщение p -значений статистических тестов является обычной практикой в академических публикациях многих количественных областей, неправильное толкование и неправильное использование p -значений широко распространено и является основной темой в математике и метанауке . [4] [5] В 2016 году Американская статистическая ассоциация (ASA) сделала официальное заявление о том, что « p -значения не измеряют вероятность того, что изучаемая гипотеза верна, или вероятность того, что данные были получены исключительно случайным образом» и что « p -значение, или статистическая значимость, не измеряет размер эффекта или важность результата» или «доказательства относительно модели или гипотезы». [6] Тем не менее, целевая группа Американского общества по статистике (ASA) в 2019 году опубликовала заявление о статистической значимости и воспроизводимости, в котором говорится следующее: « Значения p и тесты значимости при правильном применении и интерпретации повышают строгость выводов, сделанных на основе данных». [7]
В статистике каждая гипотеза, касающаяся неизвестного распределения вероятностей набора случайных величин, представляющих наблюдаемые данные в некотором исследовании, называется статистической гипотезой . Если мы выдвигаем только одну гипотезу и цель статистического теста состоит в том, чтобы увидеть, является ли эта гипотеза обоснованной, но не исследовать другие конкретные гипотезы, то такой тест называется проверкой нулевой гипотезы .
Поскольку наша статистическая гипотеза по определению будет устанавливать некоторое свойство распределения, нулевая гипотеза является гипотезой по умолчанию, при которой это свойство не существует. Нулевая гипотеза обычно заключается в том, что некоторый параметр (такой как корреляция или разница между средними) в интересующих популяциях равен нулю. Наша гипотеза может точно определять распределение вероятностей или может только указывать, что оно принадлежит к некоторому классу распределений. Часто мы сводим данные к одной числовой статистике, например, , чье предельное распределение вероятностей тесно связано с основным вопросом, представляющим интерес в исследовании.
Значение p используется в контексте проверки нулевой гипотезы для количественной оценки статистической значимости результата, при этом результатом является наблюдаемое значение выбранной статистики . [примечание 2] Чем ниже значение p , тем ниже вероятность получения этого результата, если бы нулевая гипотеза была верна. Результат считается статистически значимым , если он позволяет нам отвергнуть нулевую гипотезу. При прочих равных условиях меньшие значения p принимаются как более весомое доказательство против нулевой гипотезы.
Грубо говоря, отклонение нулевой гипотезы подразумевает, что против нее имеется достаточно доказательств.
В качестве частного примера, если нулевая гипотеза утверждает, что определенная сводная статистика следует стандартному нормальному распределению , то отклонение этой нулевой гипотезы может означать, что (i) среднее значение не равно 0, или (ii) дисперсия не равна 1, или (iii) не распределена нормально. Различные тесты одной и той же нулевой гипотезы будут более или менее чувствительны к различным альтернативам. Однако даже если нам удастся отклонить нулевую гипотезу для всех 3 альтернатив, и даже если мы знаем, что распределение нормальное, а дисперсия равна 1, тест нулевой гипотезы не скажет нам, какие ненулевые значения среднего значения теперь наиболее правдоподобны. Чем больше независимых наблюдений из одного и того же распределения вероятностей, тем точнее будет тест, и тем выше точность, с которой можно будет определить среднее значение и показать, что оно не равно нулю; но это также увеличит важность оценки реальной или научной значимости этого отклонения.
Значение p - это вероятность при нулевой гипотезе получения действительной тестовой статистики, по крайней мере, такой же экстремальной, как полученная. Рассмотрим наблюдаемую тестовую статистику из неизвестного распределения . Тогда значение p - это то, какой была бы априорная вероятность наблюдения значения тестовой статистики, по крайней мере, такого же "экстремального", как если бы нулевая гипотеза была верна. То есть:
Ошибка, которую практикующий статистик посчитал бы более важной для избежания (что является субъективным суждением), называется ошибкой первого рода. Первое требование математической теории — вывести такие критерии проверки, которые гарантировали бы, что вероятность совершения ошибки первого рода будет равна (или приблизительно равна, или не превысит) заранее заданному числу α, например α = 0,05 или 0,01 и т. д. Это число называется уровнем значимости.
— Ежи Нейман, «Возникновение математической статистики» [8]
В тесте значимости нулевая гипотеза отклоняется, если p -значение меньше или равно предопределенному пороговому значению , которое называется уровнем альфа или уровнем значимости . не выводится из данных, а устанавливается исследователем перед изучением данных. обычно устанавливается равным 0,05, хотя иногда используются и более низкие уровни альфа. Значение 0,05 (эквивалентное 1/20 шансов) было первоначально предложено Р. Фишером в 1925 году в его знаменитой книге под названием « Статистические методы для научных работников ». [9] В 2018 году группа статистиков во главе с Дэниелом Бенджамином предложила принять значение 0,005 в качестве стандартного значения для статистической значимости во всем мире. [10]
Различные p -значения, основанные на независимых наборах данных, можно комбинировать, например, с помощью комбинированного теста вероятности Фишера .
Значение p является функцией выбранной тестовой статистики и, следовательно, является случайной величиной . Если нулевая гипотеза фиксирует распределение вероятностей точно (например, где — единственный параметр), и если это распределение непрерывно, то, когда нулевая гипотеза верна, значение p равномерно распределено между 0 и 1. Независимо от истинности , значение p не является фиксированным; если тот же тест повторяется независимо с новыми данными, обычно получается другое значение p в каждой итерации.
Обычно наблюдается только одно p -значение, относящееся к гипотезе, поэтому p -значение интерпретируется с помощью теста значимости, и не предпринимается никаких усилий для оценки распределения, из которого оно было взято. Когда доступен набор p -значений (например, при рассмотрении группы исследований по одному и тому же предмету), распределение p -значений иногда называют p -кривой. [11] P - кривую можно использовать для оценки надежности научной литературы, например, путем обнаружения смещения публикации или p -хакинга . [11] [12]
В задачах параметрической проверки гипотез простая или точечная гипотеза относится к гипотезе, где предполагается, что значение параметра является одним числом. Напротив, в составной гипотезе значение параметра задается набором чисел. Когда нулевая гипотеза является составной (или распределение статистики дискретно), то когда нулевая гипотеза верна, вероятность получения p -значения, меньшего или равного любому числу от 0 до 1, все еще меньше или равна этому числу. Другими словами, остается тот факт, что очень малые значения относительно маловероятны, если нулевая гипотеза верна, и что тест значимости на уровне получается путем отклонения нулевой гипотезы, если p -значение меньше или равно . [13] [14]
Например, при проверке нулевой гипотезы о том, что распределение является нормальным со средним значением, меньшим или равным нулю, против альтернативы, что среднее значение больше нуля ( , дисперсия известна), нулевая гипотеза не определяет точное распределение вероятностей соответствующей тестовой статистики. В этом примере это будет Z -статистика, принадлежащая одностороннему одновыборочному Z -тесту. Для каждого возможного значения теоретического среднего статистика Z -теста имеет различное распределение вероятностей. В этих обстоятельствах p -значение определяется путем взятия наименее благоприятного случая нулевой гипотезы, который обычно находится на границе между нулем и альтернативой. Это определение обеспечивает взаимодополняемость p-значений и альфа-уровней: означает, что нулевая гипотеза отвергается только в том случае, если p -значение меньше или равно , и проверка гипотезы действительно будет иметь максимальную частоту ошибок типа 1 .
Значение p широко используется в статистической проверке гипотез , в частности, в проверке значимости нулевой гипотезы. В этом методе перед проведением исследования сначала выбирается модель ( нулевая гипотеза ) и уровень альфа α (чаще всего 0,05). После анализа данных, если значение p меньше α , это означает, что наблюдаемые данные достаточно несовместимы с нулевой гипотезой , чтобы ее отвергнуть. Однако это не доказывает, что нулевая гипотеза ложна. Значение p само по себе не устанавливает вероятности гипотез. Скорее, это инструмент для принятия решения об отклонении нулевой гипотезы. [15]
Согласно ASA , широко распространено мнение, что p -значения часто используются неправильно и неверно интерпретируются. [3] Одной из практик, которая особенно критиковалась, является принятие альтернативной гипотезы для любого p -значения, номинально меньшего 0,05, без других подтверждающих доказательств. Хотя p -значения полезны для оценки того, насколько несовместимы данные с указанной статистической моделью, необходимо также учитывать контекстуальные факторы, такие как «дизайн исследования, качество измерений, внешние доказательства изучаемого явления и обоснованность предположений, лежащих в основе анализа данных». [3] Другая проблема заключается в том, что p -значение часто неправильно понимается как вероятность того, что нулевая гипотеза верна. [3] [16]
Некоторые статистики предложили отказаться от p -значений и сосредоточиться больше на других выводных статистиках, [3] таких как доверительные интервалы , [17] [18] отношения правдоподобия , [19] [20] или факторы Байеса , [21] [22] [23], но ведутся жаркие споры о целесообразности этих альтернатив. [24] [25] Другие предложили убрать фиксированные пороги значимости и интерпретировать p -значения как непрерывные индексы силы доказательств против нулевой гипотезы. [26] [27] Другие же предложили сообщать вместе с p -значениями априорную вероятность реального эффекта, которая потребуется для получения ложноположительного риска (т. е. вероятности того, что нет реального эффекта) ниже заранее определенного порога (например, 5%). [28]
Тем не менее, в 2019 году целевая группа ASA собралась для рассмотрения использования статистических методов в научных исследованиях, в частности, проверки гипотез и p -значений, а также их связи с воспроизводимостью. [7] В нем говорится, что «Различные меры неопределенности могут дополнять друг друга; ни одна мера не служит всем целям», ссылаясь на p -значение как на одну из таких мер. Они также подчеркивают, что p -значения могут предоставлять ценную информацию при рассмотрении конкретного значения, а также при сравнении с некоторым пороговым значением. В целом, в нем подчеркивается, что « p -значения и тесты значимости при правильном применении и интерпретации повышают строгость выводов, сделанных на основе данных».
Обычно, является тестовой статистикой . Тестовая статистика является выходом скалярной функции всех наблюдений. Эта статистика предоставляет одно число, например t -статистику или F -статистику . Таким образом, тестовая статистика следует распределению, определяемому функцией, используемой для определения этой тестовой статистики, и распределению входных данных наблюдений.
Для важного случая, когда предполагается, что данные являются случайной выборкой из нормального распределения, в зависимости от характера тестовой статистики и интересующих гипотез о ее распределении были разработаны различные тесты нулевой гипотезы. Некоторые из таких тестов — это z -тест для гипотез относительно среднего значения нормального распределения с известной дисперсией, t -тест, основанный на t -распределении Стьюдента подходящей статистики, для гипотез относительно среднего значения нормального распределения, когда дисперсия неизвестна, F -тест, основанный на F -распределении еще одной статистики, для гипотез относительно дисперсии. Для данных другой природы, например, категориальных (дискретных) данных, можно построить тестовую статистику, распределение нулевой гипотезы которой основано на нормальных приближениях к соответствующим статистикам, полученным путем использования центральной предельной теоремы для больших выборок, как в случае теста Пирсона хи-квадрат .
Таким образом, вычисление p -значения требует нулевой гипотезы, тестовой статистики (вместе с решением, выполняет ли исследователь односторонний тест или двухсторонний тест ) и данных. Несмотря на то, что вычисление тестовой статистики по заданным данным может быть простым, вычисление выборочного распределения при нулевой гипотезе, а затем вычисление ее кумулятивной функции распределения (CDF) часто является сложной задачей. Сегодня это вычисление выполняется с помощью статистического программного обеспечения, часто с помощью числовых методов (а не точных формул), но в начале и середине 20-го века это вместо этого делалось с помощью таблиц значений, и один интерполировал или экстраполировал p -значения из этих дискретных значений [ требуется ссылка ] . Вместо того, чтобы использовать таблицу p -значений, Фишер вместо этого инвертировал CDF, опубликовав список значений тестовой статистики для заданных фиксированных p -значений; это соответствует вычислению функции квантиля (обратной CDF).
В качестве примера статистического теста проводится эксперимент, чтобы определить, является ли подбрасывание монеты честным (равная вероятность выпадения орла или решки) или несправедливо предвзятым (один результат более вероятен, чем другой).
Предположим, что экспериментальные результаты показывают, что монета выпадает орлом 14 раз из 20 подбрасываний. Полные данные будут представлять собой последовательность из двадцати символов «H» или «T». Статистика, на которой можно было бы сосредоточиться, могла бы быть общим числом орлов. Нулевая гипотеза заключается в том, что монета является честной, и подбрасывания монеты независимы друг от друга. Если рассматривать правосторонний тест, что было бы в случае, если бы кто-то действительно интересовался возможностью того, что монета склонна к падению орла, то p -значение этого результата является вероятностью того, что честная монета выпадет орлом по крайней мере 14 раз из 20 подбрасываний. Эту вероятность можно вычислить из биномиальных коэффициентов как
Эта вероятность является p -значением, учитывающим только экстремальные результаты, которые благоприятствуют орлу. Это называется односторонним тестом . Однако кого-то могут интересовать отклонения в любом направлении, благоприятствующие либо орлу, либо решке. Вместо этого можно рассчитать двухстороннее p -значение, которое учитывает отклонения в пользу либо орла, либо решки. Поскольку биномиальное распределение симметрично для честной монеты, двустороннее p -значение просто в два раза больше рассчитанного выше одностороннего p -значения: двустороннее p -значение равно 0,115.
В приведенном выше примере:
Pr(количество орлов ≤ 14) = 1 − Pr(количество орлов ≥ 14) + Pr(количество орлов = 14) = 1 − 0,058 + 0,036 = 0,978; однако симметрия этого биномиального распределения делает ненужным вычисление для нахождения меньшей из двух вероятностей. Здесь рассчитанное p -значение превышает 0,05, что означает, что данные попадают в диапазон того, что произошло бы в 95% случаев, если бы монета была честной. Следовательно, нулевая гипотеза не отвергается на уровне 0,05.
Однако если бы был получен еще один «орёл», то итоговое p -значение (двустороннее) составило бы 0,0414 (4,14%), и в этом случае нулевая гипотеза была бы отклонена на уровне 0,05.
Разница между двумя значениями «экстремального» проявляется, когда мы рассматриваем последовательную проверку гипотезы или опциональную остановку для честности монеты. В общем, опциональная остановка изменяет способ вычисления p-значения. [29] [30] Предположим, мы проектируем эксперимент следующим образом:
В этом эксперименте 7 типов результатов: 2 орла, 2 решки, 5 орлов 1 решка, ..., 1 орел 5 решек. Теперь вычислим p -значение результата "3 орла 3 решки".
Если мы используем тестовую статистику , то при нулевой гипотезе она равна точно 1 для двустороннего p -значения, точно 1 для одностороннего левостороннего p -значения и то же самое для одностороннего правостороннего p -значения.
Если мы будем рассматривать каждый результат, который имеет равную или меньшую вероятность, чем «3 орла 3 решки», как «по крайней мере экстремальный», то p -значение будет в точности равно
Однако предположим, что мы запланировали просто подбросить монетку 6 раз, независимо от того, что произойдет, тогда второе определение p -значения будет означать, что p -значение «3 орла 3 решки» равно ровно 1.
Таким образом, определение p -значения как «по крайней мере, столь же экстремального» глубоко контекстуально и зависит от того, что экспериментатор планировал делать даже в ситуациях, которые не произошли.
Вычисления p -значения восходят к 1700-м годам, когда они были вычислены для человеческого соотношения полов при рождении и использовались для вычисления статистической значимости по сравнению с нулевой гипотезой о равной вероятности рождения мальчиков и девочек. [31] Джон Арбетнот изучал этот вопрос в 1710 году, [32] [33] [34] [35] и исследовал записи о рождении в Лондоне за каждый из 82 лет с 1629 по 1710 год. В каждом году число мужчин, родившихся в Лондоне, превышало число женщин. Рассматривая большее количество рождений мальчиков или большее количество рождений девочек как равновероятные, вероятность наблюдаемого результата составляет 1/2 82 , или около 1 из 4 836 000 000 000 000 000 000 000; в современных терминах это p -значение. Это исчезающе мало, что привело Арбутнота к мысли, что это произошло не по воле случая, а по божественному провидению: «Откуда следует, что правит не случай, а искусство». Говоря современным языком, он отверг нулевую гипотезу о равной вероятности рождения мальчиков и девочек на уровне значимости p = 1/2 82. Эта и другие работы Арбутнота считаются «… первым использованием тестов значимости …» [36], первым примером рассуждений о статистической значимости [37] и «… возможно, первым опубликованным отчетом о непараметрическом тесте …», [33] в частности, тесте знаков ; подробности см. в Тест знаков § История .
Тот же вопрос позже затронул Пьер-Симон Лаплас , который вместо этого использовал параметрический тест, моделируя число рождений мальчиков с помощью биномиального распределения : [38]
В 1770-х годах Лаплас рассмотрел статистику почти полумиллиона рождений. Статистика показала избыток мальчиков по сравнению с девочками. Он пришел к выводу, вычислив p -значение, что избыток был реальным, но необъяснимым эффектом.
Значение p было впервые формально введено Карлом Пирсоном в его тесте хи-квадрат Пирсона [39] с использованием распределения хи-квадрат и обозначено заглавной буквой P. [39] Значения p для распределения хи-квадрат (для различных значений χ2 и степеней свободы), теперь обозначенные как P, были рассчитаны в (Elderton 1902) и собраны в (Pearson 1914, стр. xxxi–xxxiii, 26–28, таблица XII).
Рональд Фишер формализовал и популяризировал использование p -значения в статистике, [40] [41] при этом оно играло центральную роль в его подходе к предмету. [42] В своей весьма влиятельной книге «Статистические методы для научных работников» (1925) Фишер предложил уровень p = 0,05, или вероятность 1 из 20 быть превышенным случайно, в качестве предела статистической значимости и применил его к нормальному распределению (как двусторонний тест), таким образом получив правило двух стандартных отклонений (для нормального распределения) для статистической значимости (см. правило 68–95–99,7 ). [43] [примечание 3] [44]
Затем он вычислил таблицу значений, похожую на таблицу Элдертона, но, что важно, поменял роли χ2 и p . То есть, вместо того, чтобы вычислять p для разных значений χ2 ( и степеней свободы n ), он вычислил значения χ2 , которые дают заданные p -значения, а именно 0,99, 0,98, 0,95, 0,90, 0,80, 0,70, 0,50, 0,30, 0,20, 0,10, 0,05, 0,02 и 0,01. [45] Это позволило сравнивать вычисленные значения χ2 с предельными значениями и поощряло использование p -значений (особенно 0,05, 0,02 и 0,01) в качестве предельными значений вместо вычисления и сообщения самих p -значений. Затем в работе (Fisher & Yates 1938) были составлены таблицы того же типа, которые закрепили этот подход. [44]
В качестве иллюстрации применения p -значений к планированию и интерпретации экспериментов в своей следующей книге «Планирование экспериментов» (1935) Фишер представил эксперимент с женщиной, дегустирующей чай , [46] , который является архетипическим примером p -значения.
Чтобы оценить утверждение женщины о том, что она ( Мюриэль Бристоль ) может различать по вкусу, как приготовлен чай (сначала добавляя в чашку молоко, затем чай, или сначала чай, затем молоко), ей последовательно предъявляли 8 чашек: 4, приготовленные одним способом, 4, приготовленные другим, и просили определить приготовление каждой чашки (зная, что было 4 чашки каждого вида). В этом случае нулевая гипотеза заключалась в том, что у нее не было особых способностей, тест был точным тестом Фишера , а p -значение было таким, что Фишер был готов отвергнуть нулевую гипотезу (считая результат крайне маловероятным из-за случайности), если бы все были классифицированы правильно. (В реальном эксперименте Бристоль правильно классифицировала все 8 чашек.)
Фишер повторил пороговое значение p = 0,05 и объяснил его обоснование, заявив: [47]
Экспериментаторам обычно и удобно принимать 5 процентов в качестве стандартного уровня значимости в том смысле, что они готовы игнорировать все результаты, которые не достигают этого стандарта, и тем самым исключить из дальнейшего обсуждения большую часть флуктуаций, которые случайные причины внесли в их экспериментальные результаты.
Он также применяет этот порог к планированию экспериментов, отмечая, что если бы было представлено только 6 чашек (по 3 каждого вида), идеальная классификация дала бы только p -значение , которое не соответствовало бы этому уровню значимости. [47] Фишер также подчеркнул интерпретацию p как долгосрочной доли значений, по крайней мере, столь же экстремальных, как и данные, при условии, что нулевая гипотеза верна.
В более поздних изданиях Фишер явно противопоставил использование p -значения для статистического вывода в науке методу Неймана–Пирсона, который он называет «процедурами принятия». [48] Фишер подчеркивает, что хотя фиксированные уровни, такие как 5%, 2% и 1%, удобны, можно использовать точное p -значение, а сила доказательств может и будет пересмотрена с помощью дальнейших экспериментов. Напротив, процедуры принятия решений требуют четкого решения, приводящего к необратимому действию, и процедура основана на стоимости ошибки, которая, как он утверждает, неприменима к научным исследованиям.
Значение E может относиться к двум концепциям, обе из которых связаны с p-значением и обе играют роль в множественном тестировании . Во-первых, оно соответствует общей, более надежной альтернативе p-значению , которая может иметь дело с необязательным продолжением экспериментов. Во-вторых, оно также используется для сокращения «ожидаемого значения», которое является ожидаемым числом раз, которое можно ожидать получить тестовую статистику, по крайней мере, такую же экстремальную, как та, которая фактически наблюдалась, если предположить, что нулевая гипотеза верна. [49] Это ожидаемое значение является произведением числа тестов и p -значения.
Значение q является аналогом значения p по отношению к показателю ложных положительных результатов . [50] Оно используется при проверке множественных гипотез для поддержания статистической мощности при минимизации показателя ложных положительных результатов . [51]
Вероятность направления ( pd ) — это байесовский числовой эквивалент p -значения. [52] Она соответствует доле апостериорного распределения , которая имеет знак медианы, обычно варьируясь от 50% до 100% и представляя собой уверенность, с которой эффект является положительным или отрицательным.
Значения p второго поколения расширяют концепцию значений p, не учитывая чрезвычайно малые, практически не имеющие значения размеры эффекта как значимые. [53]
Использование значений p в течение почти столетия [с 1925 г.] для определения статистической значимости экспериментальных результатов способствовало возникновению иллюзии определенности и [кризису] воспроизводимости во многих научных областях . Растет решимость реформировать статистический анализ... Некоторые [исследователи] предлагают изменить статистические методы, тогда как другие отказались бы от порогового значения для определения «значимых» результатов.
{{cite book}}
: CS1 maint: location missing publisher (link)