При проверке значимости нулевой гипотезы значение p [примечание 1] представляет собой вероятность получения результатов теста, по крайней мере, столь же экстремальных, как фактически наблюдаемый результат , при условии, что нулевая гипотеза верна. [2] [3] Очень маленькое значение p означает, что такой экстремальный наблюдаемый результат был бы очень маловероятен при нулевой гипотезе. Несмотря на то, что сообщение о p -значениях статистических тестов является обычной практикой в академических публикациях во многих количественных областях, неверная интерпретация и неправильное использование p-значений широко распространены и являются основной темой в математике и метанауке . [4] [5] В 2016 году Американская статистическая ассоциация (ASA) сделала официальное заявление о том, что « p -значения не измеряют вероятность того, что изучаемая гипотеза верна, или вероятность того, что данные были получены исключительно случайным образом» и что « значение p или статистическая значимость не измеряет размер эффекта или важность результата» или «доказательства относительно модели или гипотезы». [6] Тем не менее, в 2019 году целевая группа ASA опубликовала заявление о статистической значимости и воспроизводимости, в котором заключила: « p -значения и тесты значимости при правильном применении и интерпретации повышают строгость выводов, сделанных на основе данных». [7]
В статистике каждая гипотеза относительно неизвестного распределения вероятностей набора случайных величин, представляющих наблюдаемые данные в каком-либо исследовании, называется статистической гипотезой . Если мы формулируем только одну гипотезу и цель статистической проверки состоит в том, чтобы увидеть, является ли эта гипотеза обоснованной, но не исследовать другие конкретные гипотезы, то такая проверка называется проверкой нулевой гипотезы .
Поскольку наша статистическая гипотеза по определению утверждает какое-то свойство распределения, нулевая гипотеза — это гипотеза по умолчанию, при которой это свойство не существует. Нулевая гипотеза обычно заключается в том, что какой-то параметр (например, корреляция или разница между средними значениями) в интересующих популяциях равен нулю. Наша гипотеза может точно указать распределение вероятностей или только указать, что оно принадлежит к некоторому классу распределений. Часто мы сводим данные к одной числовой статистике, например, чье предельное распределение вероятностей тесно связано с основным вопросом, представляющим интерес в исследовании.
Значение p используется в контексте проверки нулевой гипотезы для количественной оценки статистической значимости результата, причем результат представляет собой наблюдаемое значение выбранной статистики . [примечание 2] Чем ниже значение p , тем ниже вероятность получения этого результата, если нулевая гипотеза верна. Результат считается статистически значимым , если он позволяет отвергнуть нулевую гипотезу. При прочих равных условиях меньшие значения p считаются более сильным доказательством против нулевой гипотезы.
Грубо говоря, отказ от нулевой гипотезы подразумевает наличие достаточных доказательств против нее.
В качестве конкретного примера, если нулевая гипотеза утверждает, что определенная суммарная статистика соответствует стандартному нормальному распределению N(0,1), то отказ от этой нулевой гипотезы может означать, что (i) среднее значение не равно 0, или (ii ) дисперсия не равна 1 или (iii) не имеет нормального распределения. Различные тесты одной и той же нулевой гипотезы будут более или менее чувствительны к различным альтернативам. Однако даже если нам удастся отвергнуть нулевую гипотезу для всех трех альтернатив и даже если мы знаем, что распределение нормальное, а дисперсия равна 1, проверка нулевой гипотезы не скажет нам, какие ненулевые значения среднего значения сейчас наиболее эффективны. правдоподобно. Чем больше независимых наблюдений из одного и того же распределения вероятностей, тем точнее будет тест и тем выше точность, с которой можно будет определить среднее значение и показать, что оно не равно нулю; но это также повысит важность оценки реальной или научной значимости этого отклонения.
Значение p — это вероятность при нулевой гипотезе получить действительную тестовую статистику, по крайней мере столь же экстремальную, как и полученная. Рассмотрим наблюдаемую тестовую статистику из неизвестного распределения . Тогда значение p — это то, какой была бы априорная вероятность наблюдения значения тестовой статистики, по крайней мере, как «экстремального», как если бы нулевая гипотеза была верной. То есть:
Ошибка, которую практикующий статистик счел бы более важным избегать (что является субъективным суждением), называется ошибкой первого рода. Первое требование математической теории состоит в том, чтобы вывести такие критерии проверки, которые гарантировали бы, что вероятность совершения ошибки первого рода будет равна (или приблизительно равна или не превысит) заданному числу α, например α = 0,05 или 0,01. и т. д. Это число называется уровнем значимости.
- Ежи Нейман, «Появление математической статистики» [8]
При проверке значимости нулевая гипотеза отклоняется, если значение p меньше или равно заранее определенному пороговому значению , которое называется альфа-уровнем или уровнем значимости . не выводится из данных, а скорее устанавливается исследователем перед изучением данных. обычно устанавливается равным 0,05, хотя иногда используются более низкие уровни альфа. В 2018 году группа статистиков под руководством Дэниела Бенджамина предложила принять значение 0,005 в качестве стандартного значения статистической значимости во всем мире. [9]
Различные значения p , основанные на независимых наборах данных, можно комбинировать, например, используя комбинированный тест вероятности Фишера .
Значение p является функцией выбранной тестовой статистики и, следовательно, является случайной величиной . Если нулевая гипотеза точно фиксирует распределение вероятностей ( например , где находится единственный параметр) и если это распределение является непрерывным, то, когда нулевая гипотеза верна, значение p равномерно распределяется между 0 и 1. Независимо от истинности из них значение p не фиксировано; если один и тот же тест повторяется независимо со свежими данными, обычно на каждой итерации будет получено другое значение p .
Обычно наблюдается только одно значение p , относящееся к гипотезе, поэтому значение p интерпретируется с помощью теста значимости, и не предпринимается никаких усилий для оценки распределения, на основе которого оно было получено. Когда доступен набор p -значений ( например , при рассмотрении группы исследований по одному и тому же предмету), распределение p -значений иногда называют p -кривой. [10] P - кривую можно использовать для оценки надежности научной литературы, например, путем выявления предвзятости публикации или p -хакинга . [10] [11]
В задачах проверки параметрических гипотез простая или точечная гипотеза относится к гипотезе, в которой предполагается, что значение параметра представляет собой одно число. Напротив, в составной гипотезе значение параметра задается набором чисел. Когда нулевая гипотеза является составной (или распределение статистики дискретно), тогда, когда нулевая гипотеза верна, вероятность получения значения p , меньшего или равного любому числу от 0 до 1, по-прежнему меньше или равен этому числу. Другими словами, остается тот случай, когда очень маленькие значения относительно маловероятны, если нулевая гипотеза верна, и что критерий значимости на уровне получается путем отклонения нулевой гипотезы, если значение p меньше или равно . [12] [13]
Например, при проверке нулевой гипотезы о том, что распределение является нормальным со средним значением, меньшим или равным нулю, в сравнении с альтернативой, что среднее значение больше нуля ( , дисперсия известна), нулевая гипотеза не определяет точное распределение вероятностей соответствующую тестовую статистику. В данном примере это будет Z -статистика , принадлежащая одностороннему одновыборочному Z -тесту. Для каждого возможного значения теоретического среднего статистика Z -теста имеет различное распределение вероятностей. В этих обстоятельствах значение p определяется путем выбора наименее благоприятного случая нулевой гипотезы, который обычно находится на границе между нулевой и альтернативной гипотезой. Это определение обеспечивает взаимодополняемость значений p и альфа-уровней: означает, что нулевую гипотезу отклоняют только в том случае, если значение p меньше или равно , и проверка гипотезы действительно будет иметь максимальную частоту ошибок типа 1, равную .
Значение p широко используется при проверке статистических гипотез , особенно при проверке значимости нулевой гипотезы. В этом методе перед проведением исследования сначала выбирают модель ( нулевая гипотеза ) и уровень альфа α (чаще всего 0,05). Если после анализа данных значение p меньше α , это означает, что наблюдаемые данные достаточно несовместимы с нулевой гипотезой , чтобы нулевая гипотеза была отклонена. Однако это не доказывает, что нулевая гипотеза ложна. Значение p само по себе не устанавливает вероятности гипотез. Скорее, это инструмент для принятия решения о том, следует ли отвергать нулевую гипотезу. [14]
По данным ASA , широко распространено мнение, что значения p часто неправильно используются и неверно интерпретируются. [3] Одной из практик, которая подвергалась особой критике, является принятие альтернативной гипотезы для любого значения p , номинально меньшего, чем 0,05, без других подтверждающих доказательств. Хотя значения p полезны при оценке того, насколько данные несовместимы с определенной статистической моделью, необходимо также учитывать контекстуальные факторы, такие как «план исследования, качество измерений, внешние доказательства изучаемого явления, и обоснованность предположений, лежащих в основе анализа данных». [3] Другая проблема заключается в том, что значение p часто неправильно понимается как вероятность того, что нулевая гипотеза верна. [3] [15]
Некоторые статистики предложили отказаться от p -значений и сосредоточиться больше на других статистических выводах, [3] таких как доверительные интервалы , [16] [17] отношения правдоподобия , [18] [19] или факторы Байеса , [20] [21] [ 22] , но ведутся жаркие споры о целесообразности этих альтернатив. [23] [24] Другие предложили удалить фиксированные пороги значимости и интерпретировать значения p как непрерывные показатели силы доказательств против нулевой гипотезы. [25] [26] Третьи предлагали сообщать наряду с p-значениями априорную вероятность реального эффекта, который потребуется для получения ложноположительного риска (т. е. вероятности отсутствия реального эффекта) ниже заранее определенного порога ( например 5%). [27]
Тем не менее, в 2019 году рабочая группа ASA собралась для рассмотрения использования статистических методов в научных исследованиях, в частности, проверки гипотез и р-значений, а также их связи с воспроизводимостью. [7] В нем говорится, что «Различные меры неопределенности могут дополнять друг друга; ни одна мера не служит всем целям», ссылаясь на p-значение как на одну из этих мер. Они также подчеркивают, что значения p могут предоставить ценную информацию при рассмотрении конкретного значения, а также при сравнении с некоторым пороговым значением. В целом в нем подчеркивается, что «p-значения и тесты значимости при правильном применении и интерпретации повышают строгость выводов, сделанных на основе данных».
Обычно это тестовая статистика . Тестовая статистика — это результат скалярной функции всех наблюдений. Эта статистика представляет собой одно число, например t-статистику или F-статистику. Таким образом, статистика теста следует распределению, определяемому функцией, используемой для определения этой статистики теста, и распределением входных данных наблюдений.
Для важного случая, когда предполагается, что данные представляют собой случайную выборку из нормального распределения, в зависимости от характера тестовой статистики и интересующих гипотез о ее распределении были разработаны различные тесты нулевой гипотезы. Некоторые из таких тестов - это z-тест для гипотез относительно среднего нормального распределения с известной дисперсией, t-критерий , основанный на t-распределении Стьюдента подходящей статистики для гипотез относительно среднего нормального распределения, когда дисперсия неизвестна, F -тест , основанный на F-распределении еще одной статистики для гипотез, касающихся дисперсии. Для данных другой природы, например категориальных (дискретных) данных, можно построить тестовые статистики, распределение нулевых гипотез которых основано на нормальных аппроксимациях соответствующих статистических данных, полученных путем применения центральной предельной теоремы для больших выборок, как в случае с хи-фактором Пирсона. квадратный тест .
Таким образом, для вычисления значения p требуется нулевая гипотеза, статистика теста (вместе с решением, выполняет ли исследователь односторонний или двусторонний тест ) и данные. Несмотря на то, что вычисление тестовой статистики по заданным данным может быть простым, вычисление выборочного распределения при нулевой гипотезе, а затем вычисление его кумулятивной функции распределения (CDF) часто является сложной проблемой. Сегодня эти вычисления выполняются с использованием статистического программного обеспечения, часто с помощью числовых методов (а не точных формул), но в начале и середине 20-го века вместо этого это делалось с помощью таблиц значений и интерполированных или экстраполированных p-значений из этих дискретные значения . _ _ Вместо того, чтобы использовать таблицу p -значений, Фишер инвертировал CDF, опубликовав список значений тестовой статистики для заданных фиксированных p -значений; это соответствует вычислению функции квантиля (обратного CDF).
В качестве примера статистического теста проводится эксперимент, чтобы определить, является ли подбрасывание монеты справедливым (равная вероятность выпадения орла или решки) или несправедливо предвзятым (один результат более вероятен, чем другой).
Предположим, что результаты эксперимента показывают, что монета выпала орлом в 14 случаях из 20 подбрасываний. Полные данные будут представлять собой последовательность из двадцати символов «H» или «T». Статистикой, на которой можно сосредоточиться, может быть общее количество голов. Нулевая гипотеза состоит в том, что монета честная и подбрасывания монеты не зависят друг от друга. Если рассматривать правосторонний тест, что было бы в том случае, если кто-то действительно заинтересован в возможности того, что монета смещена в сторону падения орла, то p - значение этого результата - это вероятность того, что честная монета упадет орлом в точке минимум 14 раз из 20 бросков. Эту вероятность можно вычислить из биномиальных коэффициентов как
Эта вероятность представляет собой значение p , учитывающее только экстремальные результаты, благоприятствующие выпадению орла. Это называется односторонним тестом . Однако кого-то могут заинтересовать отклонения в любом направлении, в пользу орла или решки. Вместо этого можно рассчитать двустороннее значение p , которое учитывает отклонения в пользу орла или решки. Поскольку биномиальное распределение симметрично для честной монеты, двустороннее значение p просто в два раза превышает рассчитанное выше одностороннее значение p : двустороннее значение p равно 0,115.
В приведенном выше примере:
Пр (количество голов < 14 голов) = 1 - Пр (количество голов ≥ 14 голов) + Пр (количество голов = 14) = 1 - 0,058 + 0,036 = 0,978; однако симметрия этого биномиального распределения делает ненужными вычисления для определения меньшей из двух вероятностей. Здесь рассчитанное значение p превышает 0,05, что означает, что данные попадают в диапазон того, что произошло бы в 95% случаев, если бы монета была честной. Следовательно, нулевая гипотеза не отвергается на уровне 0,05.
Однако если бы была получена еще одна голова, результирующее значение p (двустороннее) составило бы 0,0414 (4,14%), и в этом случае нулевая гипотеза была бы отклонена на уровне 0,05.
Разница между двумя значениями слова «крайний» проявляется, когда мы рассматриваем многоэтапный эксперимент по проверке честности монеты. Предположим, мы спланировали эксперимент следующим образом:
Этот эксперимент имеет 7 типов исходов: 2 орла, 2 решки, 5 орлов, 1 решка..., 1 орел, 5 решек. Теперь мы рассчитаем p-значение результата «3 орла 3 решки».
Если мы используем тестовую статистику , то при нулевой гипотезе она равна ровно 1 для двустороннего значения p, точно для одностороннего левого значения p и то же самое для одностороннего правого значения p.
Если мы рассмотрим каждый исход, вероятность которого равна или ниже вероятности «3 орла 3 решки», как «по меньшей мере столь же экстремальный», то значение p будет равно .
Однако предположим, что мы запланировали просто подбросить монету 6 раз, что бы ни случилось, тогда второе определение значения p будет означать, что значение p для «3 орла 3 решки» равно ровно 1.
Таким образом, «по крайней мере столь же экстремальное» определение значения p глубоко контекстуально и зависит от того, что экспериментатор планировал делать даже в ситуациях, которые не произошли.
Вычисления P -значения относятся к 1700-м годам, когда они рассчитывались для соотношения полов человека при рождении и использовались для расчета статистической значимости по сравнению с нулевой гипотезой о равной вероятности рождения мальчиков и девочек. [28] Джон Арбутнот изучал этот вопрос в 1710 году, [29] [30] [31] [32] и исследовал записи о рождении в Лондоне за каждый из 82 лет с 1629 по 1710 год. Лондон превысил число женщин. Если принять во внимание равновероятность рождения большего количества мальчиков и девочек, то вероятность наблюдаемого исхода составляет 1/282 , или примерно 1 на 4 836 000 000 000 000 000 000 000; говоря современным языком, p -значение. Это исчезающе мало, что приводит Арбетнота к выводу, что это произошло не по воле случая, а по божественному провидению: «Отсюда следует, что правит Искусство, а не Случай». Говоря современным языком, он отверг нулевую гипотезу о равной вероятности рождения мальчиков и девочек на уровне значимости p = 1/282 . Эта и другие работы Арбутнота считаются «… первым использованием тестов значимости…» [33], первым примером рассуждений о статистической значимости, [34] и «… возможно, первым опубликованным отчетом о непараметрическом тесте …», [ 30] в частности тест на знак ; подробности см. в разделе «История жестового теста» .
К этому же вопросу позже обратился Пьер-Симон Лаплас , который вместо этого использовал параметрический тест, моделируя количество рождений мужского пола с биномиальным распределением : [35]
В 1770-е годы Лаплас рассматривал статистику почти полумиллиона рождений. Статистика показала преобладание мальчиков над девочками. Путем расчета значения p он пришел к выводу , что превышение было реальным, но необъяснимым эффектом.
Значение p было впервые формально введено Карлом Пирсоном в его тесте хи-квадрат Пирсона [36] с использованием распределения хи-квадрат и обозначено заглавной буквой P. [36] Значения p для распределения хи-квадрат (для различные значения χ 2 и степени свободы), теперь обозначаемые как P, были рассчитаны в (Elderton 1902), собраны в (Pearson 1914, стр. xxxi–xxxiii, 26–28, таблица XII) .
Использование p -значения в статистике было популяризировано Рональдом Фишером [37] [ нужна полная ссылка ] , и оно играет центральную роль в его подходе к предмету. [38] В своей влиятельной книге «Статистические методы для научных работников» (1925) Фишер предложил уровень p = 0,05, или вероятность случайного превышения 1 из 20, в качестве предела статистической значимости , и применил его к нормальному распределению. (как двусторонний критерий), что дает правило двух стандартных отклонений (при нормальном распределении) для статистической значимости (см. правило 68–95–99,7 ). [39] [примечание 3] [40]
Затем он вычислил таблицу значений, аналогичную Элдертону, но, что важно, поменял роли χ 2 и p. То есть вместо того, чтобы вычислять p для разных значений χ 2 (и степеней свободы n ), он вычислил значения χ 2 , которые дают заданные значения p , а именно 0,99, 0,98, 0,95, 0,90, 0,80, 0,70, 0,50. , 0,30, 0,20, 0,10, 0,05, 0,02 и 0,01. [41] Это позволяло сравнивать вычисленные значения χ 2 с пороговыми значениями и поощряло использование значений p (особенно 0,05, 0,02 и 0,01) в качестве пороговых значений вместо вычисления и сообщения самих значений p . Затем таблицы того же типа были составлены (Fisher & Yates 1938), что закрепило этот подход. [40]
В качестве иллюстрации применения p -значений для планирования и интерпретации экспериментов в своей следующей книге « План экспериментов» (1935) Фишер представил эксперимент с дамой, дегустирующей чай , [42] который является архетипическим примером p -значений. ценить.
Чтобы оценить утверждение дамы о том, что она ( Мюриэл Бристоль ) могла на вкус отличить, как готовится чай (сначала добавляя в чашку молоко, затем чай или сначала чай, затем молоко), ей последовательно преподнесли 8 чашек: 4 приготовленных. в одну сторону 4 приготовили другую и попросили определить готовность каждой чашки (зная, что каждой чашки было по 4). Если _ _ _ _ _ все были классифицированы правильно. (В реальном эксперименте Бристоль правильно классифицировал все 8 чашек.)
Фишер подтвердил порог p = 0,05 и объяснил его обоснование, заявив: [43]
Для экспериментаторов обычно и удобно принимать 5 процентов в качестве стандартного уровня значимости в том смысле, что они готовы игнорировать все результаты, которые не достигают этого стандарта, и таким образом исключить из дальнейшего обсуждения больший уровень значимости. часть флуктуаций, которые случайные причины внесли в их экспериментальные результаты.
Он также применяет этот порог к планированию экспериментов, отмечая, что если бы было предъявлено только 6 чашек (по 3 каждой), идеальная классификация дала бы только значение p, которое не соответствовало бы этому уровню значимости. [43] Фишер также подчеркнул интерпретацию p как долгосрочной доли значений, по крайней мере столь же экстремальных, как и данные, при условии, что нулевая гипотеза верна.
В более поздних изданиях Фишер явно противопоставил использование p -значения для статистических выводов в науке методу Неймана-Пирсона, который он называет «процедурами принятия». [44] Фишер подчеркивает, что, хотя фиксированные уровни, такие как 5%, 2% и 1%, удобны, можно использовать точное значение p , а сила доказательств может и будет пересматриваться в ходе дальнейших экспериментов. Напротив, процедуры принятия решений требуют четкого решения, приводящего к необратимым действиям, и эта процедура основана на цене ошибки, которая, как он утверждает, неприменима к научным исследованиям.
Значение E может относиться к двум концепциям, оба из которых связаны со значением p и оба играют роль в множественном тестировании . Во-первых, оно соответствует общей, более надежной альтернативе значению p , которая может учитывать необязательное продолжение экспериментов. Во-вторых, оно также используется для сокращения «ожидаемого значения», которое представляет собой ожидаемое количество раз, когда ожидается получение тестовой статистики, по крайней мере, такой же экстремальной, как та, которая фактически наблюдалась, если предположить, что нулевая гипотеза верна. [45] Это ожидаемое значение является произведением количества тестов и p -значения.
Значение q является аналогом значения p в отношении положительного уровня ложных открытий . [46] Он используется при проверке нескольких гипотез для поддержания статистической мощности и минимизации количества ложноположительных результатов . [47]
Вероятность направления ( pd ) — это байесовский числовой эквивалент p -значения. [48] Это соответствует доле апостериорного распределения , которая имеет знак медианы, обычно варьируется от 50% до 100% и представляет собой уверенность, с которой эффект является положительным или отрицательным.
P-значения второго поколения расширяют концепцию p-значений, не считая чрезвычайно малые, практически нерелевантные величины эффекта значимыми. [49]
Использование значений p в течение почти столетия [с 1925 года] для определения статистической значимости экспериментальных результатов способствовало возникновению иллюзии уверенности и [к] кризисам воспроизводимости во многих научных областях . Растет решимость реформировать статистический анализ... Некоторые [исследователи] предлагают изменить статистические методы, тогда как другие готовы отказаться от порога для определения «значимых» результатов.
{{cite book}}
: CS1 maint: location missing publisher (link)