Проверка статистической гипотезы — это метод статистического вывода, используемый для определения того, достаточно ли имеющиеся данные подтверждают конкретную гипотезу. В более общем плане проверка гипотез позволяет нам делать вероятностные утверждения о параметрах популяции. Таким образом, это один из способов принятия решений в условиях неопределенности. Обычно процедуры проверки гипотез включают выбираемый пользователем компромисс между ложноположительными и ложноотрицательными результатами .
Хотя проверка гипотез была популяризирована в начале 20-го века, ранние формы использовались в 1700-х годах. Первое использование приписывается Джону Арбутноту (1710 г.), [1] а затем Пьеру-Симону Лапласу (1770-е гг.) при анализе соотношения полов человека при рождении; см. § Соотношение полов у человека.
Современное тестирование значимости во многом является продуктом Карла Пирсона ( p -значение , критерий хи-квадрат Пирсона ), Уильяма Сили Госсета ( t-распределение Стьюдента ) и Рональда Фишера (« нулевая гипотеза », дисперсионный анализ , « критерий значимости »). , а проверку гипотез разработали Ежи Нейман и Эгон Пирсон (сын Карла). Рональд Фишер начал свою карьеру в статистике как байесианец (Zabell 1992), но вскоре Фишер разочаровался в связанной с этим субъективности (а именно, в использовании принципа безразличия при определении априорных вероятностей) и стремился предложить более «объективный» подход к индуктивным вычислениям. вывод. [2]
Фишер подчеркнул строгий план эксперимента и методы извлечения результата из нескольких выборок, предполагая распределение Гаусса . Нейман (который сотрудничал с Пирсоном-младшим) подчеркивал математическую строгость и методы, позволяющие получить больше результатов из множества выборок и более широкого диапазона распределений. Современная проверка гипотез представляет собой противоречивый гибрид формулировок Фишера и Неймана/Пирсона, методов и терминологии, разработанных в начале 20 века.
Фишер популяризировал «тест значимости». Ему потребовалась нулевая гипотеза (соответствующая частотному распределению населения) и выборка. Его (теперь знакомые) расчеты определяли, следует ли отвергать нулевую гипотезу или нет. При проверке значимости не использовалась альтернативная гипотеза, поэтому не существовало понятия ошибки II рода (ложноотрицательный результат).
Значение p было разработано как неформальный, но объективный индекс, призванный помочь исследователю определить (на основе других знаний), следует ли модифицировать будущие эксперименты или укрепить веру в нулевую гипотезу. [3] Проверка гипотез (и ошибки типа I/II) была разработана Нейманом и Пирсоном как более объективная альтернатива p -значению Фишера, также предназначенная для определения поведения исследователя, но не требующая от исследователя каких-либо индуктивных выводов . [4] [5]
Нейман и Пирсон рассматривали другую проблему, чем Фишер (которую они назвали «проверкой гипотез»). Первоначально они рассматривали две простые гипотезы (обе с частотными распределениями). Они рассчитали две вероятности и обычно выбирали гипотезу, связанную с более высокой вероятностью (гипотеза, которая с большей вероятностью создала выборку). Их метод всегда выбирал гипотезу. Это также позволило рассчитать вероятности ошибок обоих типов.
Фишер и Нейман/Пирсон сильно поссорились. Нейман/Пирсон считали свою формулировку улучшенным обобщением проверки значимости (определяющая статья [4] была абстрактной ; математики обобщали и уточняли теорию на протяжении десятилетий [6] ). Фишер считал, что она неприменима к научным исследованиям, поскольку часто в ходе эксперимента обнаруживается, что первоначальные предположения о нулевой гипотезе сомнительны из-за неожиданных источников ошибок. Он считал, что использование жестких решений «отклонить/принять», основанных на моделях, сформулированных до сбора данных, несовместимо с этим распространенным сценарием, с которым сталкиваются ученые, и попытки применить этот метод к научным исследованиям приведут к массовой путанице. [7]
Спор между Фишером и Нейманом-Пирсоном велся на философских основаниях, охарактеризованный философом как спор о надлежащей роли моделей в статистическом выводе. [8]
Вмешались события: Нейман принял должность в Калифорнийском университете в Беркли в 1938 году, разорвав партнерство с Пирсоном и разделив участников спора (которые занимали одно и то же здание). Вторая мировая война дала перерыв в дебатах. Спор между Фишером и Нейманом завершился (неразрешенный спустя 27 лет) со смертью Фишера в 1962 году. Нейман написал хорошо зарекомендовавшую себя панегирик. [9] В некоторых из более поздних публикаций Неймана сообщалось о p -значениях и уровнях значимости. [10]
Современная версия проверки гипотез представляет собой гибрид двух подходов, возникший в результате путаницы авторов статистических учебников (как и предсказывал Фишер) начиная с 1940-х годов [11] (но обнаружение сигналов , например, до сих пор использует формулировку Неймана/Пирсона). ). Большие концептуальные различия и многие предостережения помимо упомянутых выше были проигнорированы. Нейман и Пирсон предоставили более строгую терминологию, более строгую математику и более последовательную философию, но предмет, преподаваемый сегодня во вводной статистике, имеет больше сходства с методом Фишера, чем с их методом. [12]
Где-то около 1940 года [11] авторы статистических учебников начали комбинировать два подхода, используя значение p вместо тестовой статистики (или данных) для проверки «уровня значимости» Неймана-Пирсона.
Пол Мил утверждал, что эпистемологическая важность выбора нулевой гипотезы осталась в значительной степени непризнанной. Когда нулевая гипотеза предсказывается теорией, более точный эксперимент станет более серьезной проверкой лежащей в ее основе теории. Когда нулевая гипотеза по умолчанию равна «нет разницы» или «нет эффекта», более точный эксперимент является менее серьезной проверкой теории, которая послужила мотивом проведения эксперимента. [13] Поэтому изучение истоков последней практики может оказаться полезным:
1778: Пьер Лаплас сравнивает рождаемость мальчиков и девочек в нескольких европейских городах. Он утверждает: «естественно заключить, что эти возможности находятся примерно в одном и том же соотношении». Таким образом, нулевая гипотеза Лапласа о том, что рождаемость мальчиков и девочек должна быть одинаковой, принимается «общепринятым мнением». [14]
1900: Карл Пирсон разрабатывает критерий хи-квадрат , чтобы определить, «будет ли данная форма частотной кривой эффективно описывать выборки, взятые из данной совокупности». Таким образом, нулевая гипотеза состоит в том, что популяция описывается некоторым распределением, предсказанным теорией. В качестве примера он использует числа пять и шестерки в данных о бросках игральных костей Уэлдона . [15]
1904: Карл Пирсон разрабатывает концепцию « непредвиденных обстоятельств », чтобы определить, независимы ли результаты от данного категориального фактора. Здесь нулевая гипотеза по умолчанию заключается в том, что две вещи не связаны друг с другом (например, образование рубцов и уровень смертности от оспы). [16] Нулевая гипотеза в этом случае больше не предсказывается теорией или общепринятым мнением, а вместо этого представляет собой принцип безразличия , который побудил Фишера и других отказаться от использования «обратных вероятностей». [17]
Проверка гипотез и философия пересекаются. Инференциальная статистика , включающая проверку гипотез, представляет собой прикладную вероятность. И вероятность, и ее применение переплетаются с философией. Философ Дэвид Юм писал: «Все знания вырождаются в вероятность». Конкурирующие практические определения вероятности отражают философские различия. Наиболее распространенным применением проверки гипотез является научная интерпретация экспериментальных данных, которая, естественно, изучается философией науки .
Фишер и Нейман выступили против субъективности вероятности. Их взгляды способствовали объективным определениям. Суть их исторических разногласий была философской.
Многие философские критические замечания по проверке гипотез обсуждаются статистиками в других контекстах, в частности, корреляция не подразумевает причинно-следственную связь и планирование экспериментов . Проверка гипотез представляет постоянный интерес для философов. [8] [18]
Статистика все чаще преподается в школах, причем проверка гипотез является одним из преподаваемых элементов. [19] [20] Многие выводы, публикуемые в популярной прессе (от опросов политического мнения до медицинских исследований), основаны на статистике. Некоторые авторы заявляют, что статистический анализ такого рода позволяет ясно думать о проблемах, связанных с массовыми данными, а также эффективно сообщать о тенденциях и выводах из этих данных, но предупреждают, что авторы, представляющие широкую публику, должны иметь четкое понимание этой области. для того, чтобы правильно использовать термины и понятия. [21] [22] На вводном курсе статистики в колледже большое внимание уделяется проверке гипотез – возможно, это половина курса. Такие области, как литература и богословие, теперь включают результаты, основанные на статистическом анализе (см. « Анализатор Библии »). На вводном курсе статистики проверка гипотез рассматривается как процесс кулинарной книги. Проверка гипотез также преподается на уровне аспирантуры. Статистики учатся создавать хорошие статистические тестовые процедуры (такие как z , t Стьюдента , F и хи-квадрат). Проверка статистических гипотез считается зрелой областью статистики [23] , но в ней продолжаются ограниченные разработки.
В одном академическом исследовании говорится, что метод обучения вводной статистике, основанный на кулинарных книгах, не оставляет времени для истории, философии или полемики. Проверка гипотез преподавалась как общепринятый единый метод. Опросы показали, что выпускники этого класса были полны философских заблуждений (по всем аспектам статистических выводов), которые сохранялись среди преподавателей. [24] Хотя проблема была решена более десяти лет назад, [25] и призывы к реформе образования продолжаются, [26] студенты все еще заканчивают курсы статистики, придерживаясь фундаментальных заблуждений о проверке гипотез. [27] Идеи по улучшению преподавания проверки гипотез включают в себя поощрение студентов к поиску статистических ошибок в опубликованных статьях, преподавание истории статистики и подчеркивание противоречий в обычно сухом предмете. [28]
Типичные этапы практической проверки частотной гипотезы:
Разница в двух процессах применительно к примеру с радиоактивным чемоданом (ниже):
Первый отчет является адекватным, второй дает более подробное объяснение данных и причины проверки чемодана.
Неопровержение нулевой гипотезы не означает, что нулевая гипотеза «принята» (см. раздел «Интерпретация»).
Описанные здесь процессы вполне подходят для вычислений. Они серьезно пренебрегают соображениями планирования экспериментов . [30] [31]
Особенно важно оценить соответствующие размеры выборки перед проведением эксперимента.
Фразу «тест значимости» придумал статистик Рональд Фишер . [32]
Когда нулевая гипотеза верна и статистические предположения выполняются, вероятность того, что значение p будет меньше или равно уровню значимости, не превышает . Это гарантирует, что проверка гипотезы сохранит заданный уровень ложных срабатываний (при условии, что статистические предположения выполняются). [33]
Значение p — это вероятность того, что при нулевой гипотезе будет получена тестовая статистика, которая, по крайней мере, столь же экстремальна, как и полученная. При уровне значимости 0,05 можно ожидать, что честная монета (ошибочно) отвергнет нулевую гипотезу (о том, что она честна) в среднем в 1 из 20 тестов. Значение p не обеспечивает вероятность того, что нулевая гипотеза или ее противоположность верны (частый источник путаницы). [34]
Если значение p меньше выбранного порога значимости (что эквивалентно, если наблюдаемая статистика теста находится в критической области), то мы говорим, что нулевая гипотеза отклонена на выбранном уровне значимости. Если значение p не меньше выбранного порога значимости (т. е. если наблюдаемая статистика теста находится за пределами критической области), то нулевая гипотеза не отклоняется на выбранном уровне значимости.
В примере с «дамой, дегустирующей чай» (ниже) Фишер потребовал, чтобы дама правильно классифицировала все чашки чая, чтобы оправдать вывод о том, что результат вряд ли является случайным. Его тест показал, что если женщина фактически угадывала наугад (нулевая гипотеза), вероятность получения наблюдаемого результата (идеально заказанного чая) составляла 1,4%.
Статистика полезна при анализе большинства коллекций данных. Это в равной степени справедливо и для проверки гипотез, которая может обосновать выводы, даже если научной теории не существует. В примере с дамой, дегустирующей чай, было «очевидно», что не существует никакой разницы между (молоко, налитое в чай) и (чай, налитое в молоко). Данные противоречили «очевидному».
Реальные применения проверки гипотез включают: [35]
Статистическая проверка гипотез играет важную роль во всей статистике и в статистических выводах . Например, Леманн (1992) в обзоре фундаментальной работы Неймана и Пирсона (1933) говорит: «Тем не менее, несмотря на свои недостатки, новая парадигма, сформулированная в статье 1933 года, и многие разработки, выполненные в ее рамках, продолжают играют центральную роль как в теории, так и в практике статистики, и можно ожидать, что это произойдет в обозримом будущем».
Тестирование значимости было излюбленным статистическим инструментом в некоторых экспериментальных социальных науках (более 90% статей в Журнале прикладной психологии в начале 1990-х годов). [36] Другие области отдают предпочтение оценке параметров (например, размера эффекта ). Проверка значимости используется вместо традиционного сравнения прогнозируемого значения и экспериментального результата, лежащего в основе научного метода . Когда теория способна предсказать только знак взаимосвязи, направленную (одностороннюю) проверку гипотезы можно сконфигурировать так, чтобы только статистически значимый результат поддерживал теорию. Эта форма оценки теории является наиболее подвергаемым критике применением проверки гипотез.
«Если бы правительство потребовало, чтобы статистические процедуры имели предупреждающие надписи, как на лекарствах, большинство методов вывода действительно имели бы длинные надписи». [37] Это предостережение относится к проверке гипотез и альтернативам им.
Успешная проверка гипотезы связана с вероятностью и частотой ошибок I рода. Вывод может быть неверным.
Выводы теста столь же надежны, как и образец, на котором они основаны. Дизайн эксперимента имеет решающее значение. Был обнаружен ряд неожиданных эффектов, в том числе:
Статистический анализ вводящих в заблуждение данных приводит к ошибочным выводам. Вопрос качества данных может быть более тонким. Например, в прогнозировании не существует единого мнения относительно меры точности прогноза. В отсутствие консенсусного измерения ни одно решение, основанное на измерениях, не будет бесспорным.
Предвзятость публикации: статистически незначимые результаты могут быть опубликованы с меньшей вероятностью, что может привести к искажению литературы.
Множественное тестирование: когда несколько тестов истинной нулевой гипотезы проводятся одновременно без корректировки, общая вероятность ошибки типа I выше номинального альфа-уровня. [38]
Те, кто принимает критические решения на основе результатов проверки гипотез, благоразумно обращают внимание на детали, а не только на выводы. В физических науках большинство результатов полностью принимаются только в том случае, если они подтверждены независимо. Общий совет относительно статистики таков: «Цифры никогда не лгут, а лжецы верят» (анонимно).
Следующие определения в основном основаны на изложении книги Лемана и Романо: [33]
Проверка статистической гипотезы сравнивает статистику теста ( z или t для примеров) с пороговым значением. Статистика теста (формула приведена в таблице ниже) основана на оптимальности. Для фиксированного уровня частоты ошибок типа I использование этой статистики минимизирует частоту ошибок типа II (эквивалентно максимизации мощности). Следующие термины описывают тесты с точки зрения такой оптимальности:
Методы повторной выборки на основе бутстрапа можно использовать для проверки нулевой гипотезы. Бутстрап создает множество смоделированных выборок путем случайной повторной выборки (с заменой) исходных объединенных выборочных данных, предполагая, что нулевая гипотеза верна. Бутстрап очень универсален, поскольку он не имеет распределения и не опирается на ограничительные параметрические предположения, а скорее на эмпирические приближенные методы с асимптотическими гарантиями. Традиционные параметрические тесты гипотез более эффективны в вычислительном отношении, но делают более строгие структурные предположения. В ситуациях, когда вычисление вероятности тестовой статистики при нулевой гипотезе затруднено или невозможно (возможно, из-за неудобства или отсутствия знания основного распределения), бутстрап предлагает жизнеспособный метод статистического вывода. [39] [40] [41] [42]
Самое раннее использование проверки статистических гипотез обычно связано с вопросом о том, одинаково ли вероятны рождения мальчиков и девочек (нулевая гипотеза), который был рассмотрен в 1700-х годах Джоном Арбутнотом (1710), [43] , а затем Пьером-Симоном Лапласом. (1770-е гг.). [44]
Арбутнот изучил записи о рождении в Лондоне за каждый из 82 лет с 1629 по 1710 год и применил знаковый тест — простой непараметрический критерий . [45] [46] [47] Каждый год количество мужчин, рожденных в Лондоне, превышало количество женщин. Если принять во внимание равновероятность большего количества рождений мальчиков и девочек, то вероятность наблюдаемого исхода составляет 0,582 , или примерно 1 на 4 836 000 000 000 000 000 000 000; говоря современным языком, это p -значение. Арбутнот пришел к выводу, что это слишком мало, чтобы быть результатом случайности, и вместо этого должно быть связано с божественным провидением: «Отсюда следует, что правит Искусство, а не Случай». Говоря современным языком, он отверг нулевую гипотезу о равной вероятности рождения мальчиков и девочек на уровне значимости p = 1/282 .
Лаплас рассмотрел статистику почти полумиллиона рождений. Статистика показала преобладание мальчиков над девочками. [14] [48] Путем расчета p -значения он пришел к выводу, что превышение было реальным, но необъяснимым эффектом. [49]
В известном примере проверки гипотез, известном как « Чай с дегустацией леди» , [50] доктор Мюриэль Бристоль , коллега Фишера, утверждала, что может определить, был ли чай или молоко добавлено в чашку первым. Фишер предложил подарить ей восемь чашек, по четыре каждого сорта, в случайном порядке. Тогда можно было бы спросить, какова вероятность того, что она назовет правильное число, но это просто случайно. Нулевая гипотеза заключалась в том, что у Леди не было такой способности. Статистика теста представляла собой простой подсчет количества успешных попыток выбрать 4 чашки. Критическая область представляла собой единственный случай 4 успехов из 4 возможных, основанных на общепринятом критерии вероятности (< 5%). Паттерн из 4 успехов соответствует 1 из 70 возможных комбинаций (р≈ 1,4%). Фишер утверждал, что никакая альтернативная гипотеза (никогда) не требовалась. Женщина правильно определила каждую чашку, [51] что можно было бы считать статистически значимым результатом.
Процедура статистического тестирования сравнима с уголовным судом ; Подсудимый считается невиновным, пока его вина не доказана. Прокурор пытается доказать вину подсудимого. Только тогда, когда имеется достаточно доказательств для обвинения, обвиняемый признается виновным.
В начале процедуры существуют две гипотезы : «обвиняемый невиновен» и «обвиняемый виновен». Первая из них называется нулевой гипотезой . Вторая гипотеза называется альтернативной гипотезой . Это альтернативная гипотеза, которую мы надеемся поддержать.
Гипотеза невиновности отвергается только тогда, когда ошибка очень маловероятна, поскольку нежелательно осуждать невиновного обвиняемого. Такая ошибка называется ошибкой первого рода (т. е. осуждением невиновного лица), и возникновение этой ошибки контролируется, чтобы быть редким. Вследствие такого асимметричного поведения чаще встречается ошибка второго рода (оправдание лица, совершившего преступление).
Уголовный процесс можно рассматривать как один или оба из двух процессов принятия решений: виновен против невиновности или доказательства против порога («вне разумного сомнения»). С одной точки зрения, обвиняемого судят; с другой точки зрения, оценивается деятельность обвинения (которое несет бремя доказывания). Проверка гипотезы может рассматриваться либо как оценка гипотезы, либо как оценка доказательств.
Следующий пример был приведен философом, описывающим научные методы за несколько поколений до того, как проверка гипотез была формализована и популяризирована. [52]
Лишь немногие зерна из этой горстки белые.
Большинство зерен в этом мешке белые.
Следовательно: Вероятно, эти бобы были взяты из другого мешка.
Это гипотетический вывод.
Бобы в мешке — это население. Горстка — это образец. Нулевая гипотеза состоит в том, что выборка возникла из генеральной совокупности. Критерием отклонения нулевой гипотезы является «очевидная» разница во внешнем виде (неформальная разница в среднем). Интересный результат заключается в том, что при рассмотрении реальной популяции и реальной выборки получился воображаемый мешок. Философ рассматривал логику, а не вероятность. Чтобы быть настоящей статистической проверкой гипотезы, этот пример требует формальностей расчета вероятности и сравнения этой вероятности со стандартом.
Простое обобщение примера рассматривает смешанный мешок фасоли и горстку, содержащую либо очень мало, либо очень много белой фасоли. Обобщение учитывает обе крайности. Для получения формального ответа требуется больше расчетов и сравнений, но основная философия остается неизменной; Если состав горсти сильно отличается от состава мешка, то, вероятно, образец был взят из другого мешка. Исходный пример называется односторонним или односторонним тестом, а обобщение называется двусторонним или двусторонним тестом.
Это утверждение также основано на выводе о том, что выборка была случайной. Если бы кто-то рылся в мешке в поисках белой фасоли, это объяснило бы, почему в горстке было так много белой фасоли, а также объяснило бы, почему количество белой фасоли в мешке исчерпалось (хотя предполагается, что мешок, вероятно, намного больше ладони).
Человек (субъект) проверяется на ясновидение . Им 25 раз показывают обратную сторону случайно выбранной игральной карты и спрашивают, к какой из четырех мастей она принадлежит. Количество попаданий или правильных ответов называется X.
Пока мы пытаемся найти доказательства их ясновидения, на данный момент нулевая гипотеза состоит в том, что этот человек не является ясновидящим. [53] Альтернатива такова: человек (более или менее) ясновидящий.
Если нулевая гипотеза верна, единственное, что может сделать испытуемый, — это гадать. Для каждой карты вероятность (относительная частота) появления одной масти равна 1/4. Если альтернатива верна, испытуемый правильно предскажет масть с вероятностью больше 1/4. Вероятность правильного угадывания будем называть p . Итак, гипотезы таковы:
и
Когда испытуемый правильно предскажет все 25 карт, мы будем считать его ясновидящим и отвергнем нулевую гипотезу. Таким образом, также с 24 или 23 попаданиями. С другой стороны, при наличии всего лишь 5 или 6 попаданий нет оснований считать их таковыми. А как насчет 12 или 17 попаданий? Каково критическое число попаданий c , при котором мы считаем субъекта ясновидящим? Как определить критическое значение c ? При выборе c =25 (т.е. мы принимаем ясновидение только тогда, когда все карты предсказаны правильно) мы более критичны, чем при c =10. В первом случае почти никто из испытуемых не будет признан ясновидящим, во втором случае определенное количество пройдет тест. На практике каждый решает, насколько критичным он будет. То есть каждый решает, как часто он допускает ошибку первого рода – ложное срабатывание или ошибку I рода. При c = 25 вероятность такой ошибки равна:
и, следовательно, очень маленький. Вероятность ложного срабатывания — это вероятность случайного угадывания правильно все 25 раз.
Менее критичный вариант с c = 10 дает:
Таким образом, c = 10 дает гораздо большую вероятность ложного срабатывания.
Перед фактическим проведением испытания определяется максимально допустимая вероятность ошибки I рода ( α ). Обычно выбираются значения в диапазоне от 1% до 5%. (Если максимально допустимая частота ошибок равна нулю, требуется бесконечное количество правильных предположений.) В зависимости от этой частоты ошибок типа 1 рассчитывается критическое значение c . Например, если мы выберем коэффициент ошибок 1%, c рассчитывается следующим образом:
Из всех чисел с, обладающих этим свойством, выбираем наименьшее, чтобы минимизировать вероятность ошибки II рода, ложноотрицательный результат . Для приведенного выше примера мы выбираем: .
Статистическая проверка гипотез является ключевым методом как частотного вывода , так и байесовского вывода , хотя эти два типа вывода имеют заметные различия. Статистические проверки гипотез определяют процедуру, которая контролирует (исправляет) вероятность неправильного решения о том, что позиция по умолчанию ( нулевая гипотеза ) неверна. Процедура основана на том, насколько вероятно было бы появление набора наблюдений, если бы нулевая гипотеза была верной. Эта вероятность принятия неправильного решения не является вероятностью того, что нулевая гипотеза верна или верна какая-либо конкретная альтернативная гипотеза. Это контрастирует с другими возможными методами теории принятия решений , в которых нулевая и альтернативная гипотезы рассматриваются на более равной основе.
Один из наивных байесовских подходов к проверке гипотез состоит в том, чтобы основывать решения на апостериорной вероятности [54] [55] , но это не работает при сравнении точечных и непрерывных гипотез. Другие подходы к принятию решений, такие как байесовская теория принятия решений , пытаются сбалансировать последствия неправильных решений по всем возможностям, а не концентрироваться на одной нулевой гипотезе. Ряд других подходов к принятию решения на основе данных доступен через теорию принятия решений и оптимальные решения , некоторые из которых обладают желаемыми свойствами. Однако проверка гипотез является доминирующим подходом к анализу данных во многих областях науки. Расширение теории проверки гипотез включает изучение силы тестов , т.е. вероятности правильного отклонения нулевой гипотезы при условии, что она ложна. Такие соображения можно использовать для определения размера выборки до сбора данных.
Пример проверки гипотезы Неймана-Пирсона (или проверки статистической значимости нулевой гипотезы) можно представить, изменив пример с радиоактивным чемоданом. Если «чемодан» на самом деле представляет собой экранированный контейнер для перевозки радиоактивного материала, то можно использовать тест для выбора одной из трех гипотез: радиоактивный источник отсутствует, присутствует один, присутствуют два (все). Испытание может потребоваться в целях безопасности, при этом действия необходимы в каждом случае. Лемма Неймана-Пирсона о проверке гипотез гласит, что хорошим критерием выбора гипотез является отношение их вероятностей ( отношение правдоподобия ). Простой метод решения состоит в выборе гипотезы с наибольшей вероятностью наблюдаемых чисел Гейгера. Типичный результат соответствует интуиции: небольшое количество подсчетов подразумевает отсутствие источника, большое количество подсчетов предполагает наличие двух источников, а промежуточные подсчеты подразумевают один источник. Обратите также внимание, что обычно возникают проблемы с доказательством отрицательного результата . Нулевые гипотезы должны быть как минимум фальсифицируемы .
Теория Неймана-Пирсона может учитывать как априорные вероятности, так и стоимость действий, следующих из решений. [56] Первый позволяет каждому тесту учитывать результаты предыдущих тестов (в отличие от тестов значимости Фишера). Последнее позволяет учитывать экономические вопросы (например), а также вероятности. Отношение правдоподобия остается хорошим критерием выбора гипотез.
Две формы проверки гипотез основаны на разных формулировках задач. Исходный тест аналогичен вопросу «верно/неверно»; тест Неймана-Пирсона больше похож на множественный выбор. По мнению Тьюки [57], первый делает вывод только на основе веских доказательств, тогда как второй принимает решение на основе имеющихся доказательств. Хотя эти два теста кажутся совершенно разными как с математической, так и с философской точки зрения, более поздние разработки привели к противоположному утверждению. Рассмотрим множество крошечных радиоактивных источников. Гипотезы становятся 0,1,2,3... песчинками радиоактивного песка. Существует небольшая разница между отсутствием радиации или некоторым количеством радиации (Фишер) и нулевым количеством песчинок радиоактивного песка по сравнению со всеми альтернативами (Нейман-Пирсон). В основной статье Неймана-Пирсона 1933 г. [4] также рассматривались составные гипотезы (распределение которых включает неизвестный параметр). На примере доказана оптимальность t -критерия (Студента), «лучшего теста для рассматриваемой гипотезы не может быть» (стр. 321). Теория Неймана-Пирсона с самого начала доказывала оптимальность методов Фишера.
Проверка значимости Фишера оказалась популярным гибким статистическим инструментом с небольшим математическим потенциалом роста. Проверка гипотез Неймана-Пирсона считается основой математической статистики [58] , создавая новую парадигму в этой области. Это также стимулировало новые применения в статистическом управлении процессами , теории обнаружения , теории принятия решений и теории игр . Обе формулировки оказались успешными, но успехи носили разный характер.
Спор по формулировкам не разрешен. Наука в основном использует формулировку Фишера (слегка измененную), как она преподается во вводной статистике. Статистики изучают теорию Неймана-Пирсона в аспирантуре. Математики гордятся объединением формулировок. Философы рассматривают их отдельно. Ученые считают, что эти формулировки могут быть конкурирующими (Фишер против Неймана), несовместимыми [2] или дополняющими друг друга. [6] Спор стал более сложным, поскольку байесовский вывод стал респектабельным.
Терминология противоречива. Проверка гипотезы может означать любую смесь двух формулировок, каждая из которых изменилась со временем. Любое обсуждение проверки значимости и проверки гипотез вдвойне подвержено путанице.
Фишер считал, что проверка гипотез является полезной стратегией для осуществления промышленного контроля качества, однако он категорически не соглашался с тем, что проверка гипотез может быть полезна для ученых. [3] Проверка гипотез обеспечивает средства поиска статистических данных, используемых при проверке значимости. [6] Концепция мощности полезна для объяснения последствий корректировки уровня значимости и широко используется при определении размера выборки . Эти два метода остаются философски разными. [8] Обычно (но не всегда ) они дают один и тот же математический ответ. Предпочтительный ответ зависит от контекста. [6] Хотя существующее слияние теорий Фишера и Неймана-Пирсона подверглось резкой критике, рассматривалась возможность модификации слияния для достижения байесовских целей. [59]
Критика проверки статистических гипотез заполняет тома. [60] [61] [62] [63] [64] [65] Большую часть критики можно резюмировать следующими вопросами:
Критики и сторонники в основном сходятся во мнении относительно характеристик проверки значимости нулевой гипотезы (NHST): хотя она может предоставить критическую информацию, она неадекватна в качестве единственного инструмента статистического анализа . Успешное отклонение нулевой гипотезы может не поддержать исследовательскую гипотезу. Продолжающиеся споры касаются выбора лучших статистических практик на ближайшую перспективу с учетом существующих практик. Однако адекватный дизайн исследования может свести к минимуму эту проблему. Критики предпочли бы полностью запретить NHST, что приведет к полному отказу от этой практики, [77] в то время как сторонники предлагают менее абсолютные изменения. [ нужна цитата ]
Споры по поводу проверки значимости и, в частности, ее влияния на предвзятость публикаций привели к нескольким результатам. Американская психологическая ассоциация ужесточила свои требования к статистической отчетности после проверки, [78] издатели медицинских журналов признали обязанность публиковать некоторые результаты, которые не являются статистически значимыми для борьбы с предвзятостью публикации, [79] и журнал ( Journal of Articles in Support of Нулевая гипотеза ) была создана исключительно для публикации таких результатов. [80] В учебники добавлены некоторые предостережения, [81] и расширено освещение инструментов, необходимых для оценки размера выборки, необходимой для получения значимых результатов. Лишь немногие крупные организации отказались от использования тестов значимости, хотя некоторые обсуждали это. [78] Например, в 2023 году редакторы журнала « Физиология» «настоятельно рекомендуют использовать методы оценки тем, кто публикуется в журнале» (имеется в виду величина эффекта ( чтобы позволить читателям судить, имеет ли вывод практическое значение). (физиологическая или клиническая значимость) и доверительные интервалы , чтобы передать точность этой оценки), говоря: «В конечном счете, тех, кто публикует в «Журнале физиологии», должна больше всего интересовать физиологическая значимость данных, а не статистическая значимость. ." [82]
Объединяющая позиция критиков заключается в том, что статистика должна приводить не к выводу или решению «принять-отклонить», а к оценочному значению с интервальной оценкой ; Эта философия анализа данных широко называется оценочной статистикой . Статистика оценки может быть получена с помощью частотного [1] или байесовского метода. [83] [84]
Критики проверки значимости выступают за то, чтобы выводы основывались не столько на p-значениях, сколько на доверительных интервалах для величины эффекта по важности, интервалах прогнозирования для уверенности, повторениях и расширениях для воспроизводимости, метаанализе для общности: [85] . Но ни одна из этих предложенных альтернатив по своей сути не приводит к решению. Леманн сказал, что теория проверки гипотез может быть представлена в терминах выводов/решений, вероятностей или доверительных интервалов: «Различие между... подходами во многом заключается в сообщении и интерпретации». [23]
Байесовский вывод является одной из предлагаемых альтернатив проверке значимости. (Никерсон процитировал 10 источников, предполагающих это, включая Розебума (1960)). [75] Например, оценка байесовских параметров может предоставить обширную информацию о данных, из которой исследователи могут сделать выводы, используя при этом неопределенные априорные данные , которые оказывают лишь минимальное влияние на результаты, когда доступно достаточно данных. Психолог Джон К. Крушке предложил байесовскую оценку в качестве альтернативы t -тесту [83] , а также противопоставил байесовскую оценку для оценки нулевых значений сравнению байесовской модели для проверки гипотез. [84] Две конкурирующие модели/гипотезы можно сравнить с использованием факторов Байеса . [86] Байесовские методы можно критиковать за то, что они требуют информации, которая редко доступна в тех случаях, когда проверка значимости используется наиболее интенсивно. Ни априорные вероятности, ни распределение вероятностей тестовой статистики согласно альтернативной гипотезе часто недоступны в социальных науках. [75]
Сторонники байесовского подхода иногда утверждают, что целью исследователя чаще всего является объективная оценка вероятности того, что гипотеза верна, на основе собранных им данных. [87] [88] Ни проверка значимости Фишера, ни проверка гипотезы Неймана-Пирсона не могут предоставить эту информацию и не претендуют на это. Вероятность того, что гипотеза верна, может быть получена только на основе использования теоремы Байеса , которая была неудовлетворительной как для лагеря Фишера, так и для лагеря Неймана-Пирсона из-за явного использования субъективности в форме априорной вероятности . [4] [89] Стратегия Фишера состоит в том, чтобы обойти это с помощью p -значения (объективного индекса , основанного только на данных) с последующим индуктивным выводом , в то время как Нейман-Пирсон разработали свой подход индуктивного поведения .
Мы рискуем отправить в мир высококвалифицированных и очень умных молодых людей с таблицами ошибочных чисел под мышкой и с густым туманом в том месте, где должны быть их мозги.
В этом столетии, конечно, они будут работать над управляемыми ракетами и консультировать медиков по вопросам борьбы с болезнями, и нет предела тому, до какой степени они могут препятствовать любым национальным усилиям.
{{cite book}}
: |journal=
игнорируется ( помощь )Редакторы должны серьезно рассматривать возможность публикации любого тщательно проведенного исследования важного вопроса, интересующего читателей, независимо от того, являются ли результаты основного или любого дополнительного результата статистически значимыми.
Неспособность представить или опубликовать результаты из-за отсутствия статистической значимости является важной причиной предвзятости публикации.
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка )