Проверка статистической гипотезы — это метод статистического вывода, используемый для определения того, достаточно ли данные поддерживают определенную гипотезу. Проверка статистической гипотезы обычно включает в себя расчет статистической характеристики теста . Затем принимается решение либо путем сравнения статистической характеристики теста с критическим значением , либо, что эквивалентно, путем оценки p -значения, вычисленного из статистической характеристики теста. Было определено около 100 специализированных статистических тестов . [1] [2]
Хотя проверка гипотез была популяризирована в начале 20-го века, ранние формы использовались в 1700-х годах. Первое использование приписывается Джону Арбетноту (1710), [3] за которым последовал Пьер-Симон Лаплас (1770-е годы), при анализе соотношения полов у людей при рождении; см. § Соотношение полов у людей.
Пол Мил утверждал, что эпистемологическая важность выбора нулевой гипотезы осталась в значительной степени непризнанной. Когда нулевая гипотеза предсказывается теорией, более точный эксперимент будет более строгой проверкой базовой теории. Когда нулевая гипотеза по умолчанию принимает значение «нет разницы» или «нет эффекта», более точный эксперимент является менее строгой проверкой теории, которая мотивировала проведение эксперимента. [4] Поэтому изучение истоков последней практики может быть полезным:
1778: Пьер Лаплас сравнивает рождаемость мальчиков и девочек в нескольких европейских городах. Он утверждает: «естественно заключить, что эти возможности находятся почти в одинаковом соотношении». Таким образом, нулевая гипотеза в этом случае заключается в том, что рождаемость мальчиков и девочек должна быть одинаковой, учитывая «общепринятую точку зрения». [5]
1900: Карл Пирсон разрабатывает тест хи-квадрат , чтобы определить, «будет ли данная форма кривой частот эффективно описывать выборки, взятые из данной популяции». Таким образом, нулевая гипотеза заключается в том, что популяция описывается некоторым распределением, предсказанным теорией. В качестве примера он использует числа пятерок и шестерок в данных по броскам игральных костей Уэлдона . [6]
1904: Карл Пирсон разрабатывает концепцию « случайности », чтобы определить, являются ли результаты независимыми от заданного категориального фактора. Здесь нулевая гипотеза по умолчанию заключается в том, что две вещи не связаны (например, образование рубцов и уровень смертности от оспы). [7] Нулевая гипотеза в этом случае больше не предсказывается теорией или общепринятым мнением, а вместо этого является принципом безразличия , который заставил Фишера и других отказаться от использования «обратных вероятностей». [8]
Современное тестирование значимости в значительной степени является продуктом Карла Пирсона ( p -значение , критерий хи-квадрат Пирсона ), Уильяма Сили Госсета ( t-распределение Стьюдента ) и Рональда Фишера (« нулевая гипотеза », дисперсионный анализ , « критерий значимости »), в то время как тестирование гипотез было разработано Ежи Нейманом и Эгоном Пирсоном (сыном Карла). Рональд Фишер начал свою жизнь в статистике как байесианец (Zabell 1992), но Фишер вскоре разочаровался в вовлеченной субъективности (а именно в использовании принципа безразличия при определении априорных вероятностей) и стремился обеспечить более «объективный» подход к индуктивному выводу. [9]
Фишер подчеркивал строгий экспериментальный дизайн и методы извлечения результата из нескольких образцов, предполагая гауссовские распределения . Нейман (который объединился с младшим Пирсоном) подчеркивал математическую строгость и методы получения большего количества результатов из многих образцов и более широкого диапазона распределений. Современная проверка гипотез представляет собой противоречивый гибрид формулировки Фишера против Неймана/Пирсона, методов и терминологии, разработанных в начале 20-го века.
Фишер популяризировал «тест значимости». Он требовал нулевой гипотезы (соответствующей распределению частот популяции) и выборки. Его (теперь уже знакомые) вычисления определяли, следует ли отвергать нулевую гипотезу или нет. Тест значимости не использовал альтернативную гипотезу, поэтому не было понятия ошибки типа II (ложноотрицательной).
Значение p было разработано как неформальный, но объективный индекс, призванный помочь исследователю определить (на основе других знаний), следует ли модифицировать будущие эксперименты или укрепить веру в нулевую гипотезу. [10] Проверка гипотез (и ошибок типа I/II) была разработана Нейманом и Пирсоном как более объективная альтернатива значению p Фишера , также призванная определять поведение исследователя, но не требующая от исследователя никаких индуктивных выводов . [11] [12]
Нейман и Пирсон рассматривали другую проблему, нежели Фишер (которую они назвали «проверкой гипотез»). Сначала они рассматривали две простые гипотезы (обе с частотными распределениями). Они вычисляли две вероятности и обычно выбирали гипотезу, связанную с более высокой вероятностью (гипотеза, которая с большей вероятностью сгенерировала выборку). Их метод всегда выбирал гипотезу. Он также позволял вычислять оба типа вероятностей ошибок.
Фишер и Нейман/Пирсон ожесточенно схлестнулись. Нейман/Пирсон считали, что их формулировка является улучшенным обобщением проверки значимости (определяющая статья [11] была абстрактной ; математики обобщали и совершенствовали теорию в течение десятилетий [13] ). Фишер считал, что она неприменима к научным исследованиям, поскольку часто в ходе эксперимента обнаруживается, что первоначальные предположения о нулевой гипотезе сомнительны из-за неожиданных источников ошибок. Он считал, что использование жестких решений отклонить/принять, основанных на моделях, сформулированных до сбора данных, несовместимо с этим распространенным сценарием, с которым сталкиваются ученые, и попытки применить этот метод к научным исследованиям приведут к массовой путанице. [14]
Спор между Фишером и Нейманом-Пирсоном велся на философской почве, характеризуемой философом как спор о надлежащей роли моделей в статистическом выводе. [15]
События вмешались: Нейман принял должность в Калифорнийском университете в Беркли в 1938 году, разорвав свое партнерство с Пирсоном и разделив спорящих (которые занимали одно и то же здание). Вторая мировая война дала перерыв в дебатах. Спор между Фишером и Нейманом прекратился (неразрешенным после 27 лет) со смертью Фишера в 1962 году. Нейман написал хорошо принятую панегирик. [16] Некоторые из более поздних публикаций Неймана сообщали о p -значениях и уровнях значимости. [17]
Современная версия проверки гипотез представляет собой гибрид двух подходов, возникших из-за путаницы, возникшей у авторов статистических учебников (как и предсказывал Фишер) начиная с 1940-х годов [18] (но обнаружение сигнала , например, все еще использует формулировку Неймана/Пирсона). Большие концептуальные различия и множество оговорок в дополнение к упомянутым выше были проигнорированы. Нейман и Пирсон предоставили более сильную терминологию, более строгую математику и более последовательную философию, но предмет, преподаваемый сегодня во вводной статистике, имеет больше сходств с методом Фишера, чем их. [19]
Где-то около 1940 года [18] авторы статистических учебников начали объединять два подхода, используя p -значение вместо тестовой статистики (или данных) для проверки на соответствие «уровню значимости» Неймана–Пирсона.
Проверка гипотез и философия пересекаются. Выводная статистика , которая включает проверку гипотез, является прикладной вероятностью. И вероятность, и ее применение переплетены с философией. Философ Дэвид Юм писал: «Все знания вырождаются в вероятность». Конкурирующие практические определения вероятности отражают философские различия. Наиболее распространенное применение проверки гипотез — научная интерпретация экспериментальных данных, которая естественным образом изучается философией науки .
Фишер и Нейман выступали против субъективности вероятности. Их взгляды способствовали объективным определениям. Суть их исторического разногласия была философской.
Многие из философских критических замечаний по поводу проверки гипотез обсуждаются статистиками в других контекстах, в частности, корреляция не подразумевает причинно-следственную связь и планирование экспериментов . Проверка гипотез продолжает вызывать интерес у философов. [15] [20]
Статистика все чаще преподается в школах, и проверка гипотез является одним из преподаваемых элементов. [21] [22] Многие выводы, опубликованные в популярной прессе (от политических опросов общественного мнения до медицинских исследований), основаны на статистике. Некоторые авторы заявляют, что статистический анализ такого рода позволяет ясно мыслить о проблемах, связанных с массовыми данными, а также эффективно сообщать о тенденциях и выводах из этих данных, но предупреждают, что авторы для широкой публики должны иметь твердое понимание этой области, чтобы правильно использовать термины и концепции. [23] [24] Вводный курс статистики в колледже уделяет большое внимание проверке гипотез – возможно, половине курса. Такие области, как литература и богословие, теперь включают выводы, основанные на статистическом анализе (см. Bible Analyzer ). Вводный курс статистики обучает проверке гипотез как процессу кулинарной книги. Проверка гипотез также преподается на уровне аспирантуры. Статистики учатся создавать хорошие статистические процедуры тестирования (такие как z , t Стьюдента , F и хи-квадрат). Статистическая проверка гипотез считается зрелой областью статистики [25] , но ее развитие еще не завершено.
В академическом исследовании говорится, что метод кулинарной книги для преподавания вводной статистики не оставляет времени на историю, философию или споры. Проверка гипотез преподавалась как полученный унифицированный метод. Опросы показали, что выпускники класса были полны философских заблуждений (по всем аспектам статистического вывода), которые сохранялись среди преподавателей. [26] Хотя проблема была решена более десяти лет назад, [27] и призывы к образовательной реформе продолжаются, [28] студенты по-прежнему заканчивают курсы статистики, имея фундаментальные заблуждения о проверке гипотез. [29] Идеи по улучшению преподавания проверки гипотез включают поощрение студентов к поиску статистических ошибок в опубликованных работах, преподавание истории статистики и подчеркивание противоречий в в целом сухом предмете. [30]
Типичные этапы проведения проверки частотной гипотезы на практике:
Разница в двух процессах, применяемых к примеру с радиоактивным чемоданом (ниже):
Первый отчет является адекватным, второй дает более подробное объяснение данных и причины, по которой чемодан подвергается проверке.
Неотклонение нулевой гипотезы не означает, что нулевая гипотеза «принята» как таковая (хотя Нейман и Пирсон использовали это слово в своих оригинальных работах; см. раздел «Интерпретация»).
Описанные здесь процессы вполне адекватны для вычислений. Они серьезно пренебрегают соображениями дизайна экспериментов . [32] [33]
Особенно важно оценить соответствующие размеры выборки перед проведением эксперимента.
Термин «тест значимости» был придуман статистиком Рональдом Фишером . [34]
Когда нулевая гипотеза верна и статистические предположения выполняются, вероятность того, что p-значение будет меньше или равно уровню значимости, составляет не более . Это гарантирует, что проверка гипотезы сохранит указанный уровень ложноположительных результатов (при условии выполнения статистических предположений). [35]
Значение p - это вероятность того, что тестовая статистика, которая по крайней мере столь же экстремальна, как полученная, будет иметь место при нулевой гипотезе. При уровне значимости 0,05 можно ожидать, что честная монета (неправильно) отвергнет нулевую гипотезу (что она честная) в среднем в 1 из 20 тестов. Значение p не обеспечивает вероятность того, что либо нулевая гипотеза, либо ее противоположность верны (частый источник путаницы). [36]
Если p -значение меньше выбранного порога значимости (эквивалентно, если наблюдаемая статистика теста находится в критической области), то мы говорим, что нулевая гипотеза отвергается на выбранном уровне значимости. Если p -значение не меньше выбранного порога значимости (эквивалентно, если наблюдаемая статистика теста находится за пределами критической области), то нулевая гипотеза не отвергается на выбранном уровне значимости.
В примере «леди, пробующей чай» (ниже) Фишер потребовал от леди правильно классифицировать все чашки чая, чтобы обосновать вывод о том, что результат вряд ли является результатом случайности. Его тест показал, что если леди фактически угадывала наугад (нулевая гипотеза), то вероятность того, что наблюдаемые результаты (идеально упорядоченный чай) будут получены, составляет 1,4%.
Статистика полезна при анализе большинства наборов данных. Это в равной степени относится к проверке гипотез, которая может обосновать выводы, даже если не существует научной теории. В примере с леди, дегустирующей чай, было «очевидно», что не существует никакой разницы между (молоко, налитое в чай) и (чай, налитый в молоко). Данные противоречили «очевидному».
Реальные приложения проверки гипотез включают: [37]
Статистическая проверка гипотез играет важную роль во всей статистике и в статистическом выводе . Например, Леманн (1992) в обзоре фундаментальной статьи Неймана и Пирсона (1933) говорит: «Тем не менее, несмотря на свои недостатки, новая парадигма, сформулированная в статье 1933 года, и многочисленные разработки, проведенные в ее рамках, продолжают играть центральную роль как в теории, так и в практике статистики, и можно ожидать, что они будут делать это в обозримом будущем».
Проверка значимости была излюбленным статистическим инструментом в некоторых экспериментальных социальных науках (более 90% статей в журнале « Прикладная психология» в начале 1990-х годов). [38] Другие области отдавали предпочтение оценке параметров (например, размера эффекта ). Проверка значимости используется в качестве замены традиционному сравнению прогнозируемого значения и экспериментального результата в основе научного метода . Когда теория способна предсказать только знак связи, направленная (односторонняя) проверка гипотезы может быть настроена таким образом, чтобы только статистически значимый результат подтверждал теорию. Эта форма оценки теории является наиболее критикуемым применением проверки гипотез.
«Если бы правительство потребовало, чтобы статистические процедуры содержали предупреждающие надписи, подобные тем, что есть на лекарственных препаратах, большинство методов вывода действительно имели бы длинные надписи». [39] Это предостережение относится к проверкам гипотез и альтернативным им методам.
Успешная проверка гипотезы связана с вероятностью и частотой ошибок типа I. Вывод может быть неверным.
Вывод теста настолько же надежен, насколько надежен образец, на котором он основан. Дизайн эксперимента имеет решающее значение. Было обнаружено несколько неожиданных эффектов, в том числе:
Статистический анализ вводящих в заблуждение данных приводит к вводящим в заблуждение выводам. Вопрос качества данных может быть более тонким. Например, в прогнозировании нет согласия относительно меры точности прогноза. При отсутствии консенсусного измерения ни одно решение, основанное на измерениях, не будет без противоречий.
Ошибка публикации: статистически незначимые результаты с меньшей вероятностью будут опубликованы, что может привести к смещению литературы.
Множественное тестирование: Когда одновременно проводятся множественные проверки истинной нулевой гипотезы без корректировки, общая вероятность ошибки типа I выше номинального уровня альфа. [40]
Те, кто принимает критические решения на основе результатов проверки гипотез, благоразумно смотрят на детали, а не только на выводы. В физических науках большинство результатов полностью принимаются только после независимого подтверждения. Общий совет относительно статистики: «Цифры никогда не лгут, но лжецы — цифры» (аноним).
Следующие определения в основном основаны на изложении в книге Леманна и Романо: [35]
Статистическая проверка гипотезы сравнивает статистику теста ( например, z или t ) с порогом. Статистика теста (формула, приведенная в таблице ниже) основана на оптимальности. Для фиксированного уровня частоты ошибок типа I использование этой статистики минимизирует частоту ошибок типа II (что эквивалентно максимизации мощности). Следующие термины описывают тесты с точки зрения такой оптимальности:
Методы повторной выборки на основе бутстрапа могут использоваться для проверки нулевой гипотезы. Бутстрап создает многочисленные смоделированные выборки путем случайной повторной выборки (с заменой) исходных объединенных данных выборки, предполагая, что нулевая гипотеза верна. Бутстрап очень универсален, поскольку он свободен от распределения и не полагается на ограничительные параметрические предположения, а скорее на эмпирические приближенные методы с асимптотическими гарантиями. Традиционные параметрические проверки гипотез более эффективны в вычислительном отношении, но делают более сильные структурные предположения. В ситуациях, когда вычисление вероятности тестовой статистики при нулевой гипотезе сложно или невозможно (из-за, возможно, неудобства или отсутствия знаний о базовом распределении), бутстрап предлагает жизнеспособный метод для статистического вывода. [42] [43] [44] [45]
Самое раннее применение проверки статистических гипотез обычно приписывают вопросу о том, одинаково ли вероятно рождение мальчиков и девочек (нулевая гипотеза), который рассматривался в 1700-х годах Джоном Арбетнотом (1710) [46] , а позднее Пьером-Симоном Лапласом (1770-е годы) [47] .
Арбутнот изучил записи о рождении в Лондоне за каждый из 82 лет с 1629 по 1710 год и применил тест знаков , простой непараметрический тест . [48] [49] [50] В каждом году число мужчин, рожденных в Лондоне, превышало число женщин. Если считать большее количество рождений мужчин или большее количество рождений женщин равновероятными, вероятность наблюдаемого результата составляет 0,5 82 , или около 1 из 4 836 000 000 000 000 000 000 000; в современных терминах это p -значение. Арбутнот пришел к выводу, что это слишком мало, чтобы быть следствием случайности, и вместо этого должно быть следствием божественного провидения: «Откуда следует, что правит Искусство, а не Случай». В современных терминах он отверг нулевую гипотезу о равной вероятности рождений мужчин и женщин на уровне значимости p = 1/2 82 .
Лаплас рассмотрел статистику почти полумиллиона рождений. Статистика показала избыток мальчиков по сравнению с девочками. [5] [51] Он пришел к выводу, вычислив p -значение, что избыток был реальным, но необъяснимым эффектом. [52]
В известном примере проверки гипотез, известном как « Дама, дегустирующая чай » [53], доктор Мюриэль Бристоль , коллега Фишера, утверждала, что может определить, что было добавлено в чашку первым — чай или молоко. Фишер предложил дать ей восемь чашек, по четыре каждого сорта, в случайном порядке. Затем можно было спросить, какова вероятность того, что она правильно назовет число, но только случайно. Нулевая гипотеза заключалась в том, что у Дамы такой способности не было. Статистика теста представляла собой простой подсчет количества успехов в выборе 4 чашек. Критическая область представляла собой единственный случай 4 успехов из 4 возможных на основе обычного критерия вероятности (< 5%). Модель из 4 успехов соответствует 1 из 70 возможных комбинаций (p ≈ 1,4%). Фишер утверждал, что никакая альтернативная гипотеза (никогда) не требовалась. Дама правильно идентифицировала каждую чашку, [54], что можно было бы считать статистически значимым результатом.
Статистическая процедура проверки сравнима с уголовным судом ; обвиняемый считается невиновным, пока его вина не доказана. Прокурор пытается доказать вину обвиняемого. Только при наличии достаточных доказательств для обвинения обвиняемый осуждается.
В начале процедуры есть две гипотезы : «подсудимый не виновен» и «подсудимый виновен». Первая, , называется нулевой гипотезой . Вторая, , называется альтернативной гипотезой . Это альтернативная гипотеза, которую надеются поддержать.
Гипотеза невиновности отвергается только тогда, когда ошибка крайне маловероятна, поскольку не хочется осуждать невиновного подсудимого. Такая ошибка называется ошибкой первого рода (т. е. осуждение невиновного), и возникновение этой ошибки контролируется так, чтобы быть редким. Вследствие этого асимметричного поведения ошибка второго рода (оправдание человека, совершившего преступление) встречается чаще.
Уголовный процесс можно рассматривать как один или оба из двух процессов принятия решений: виновный против невиновного или доказательства против порога («вне разумного сомнения»). С одной стороны, судят обвиняемого; с другой стороны, судят эффективность обвинения (которое несет бремя доказывания). Проверка гипотезы может рассматриваться либо как суждение гипотезы, либо как суждение доказательств.
Следующий пример был приведен философом, описывающим научные методы за несколько поколений до того, как проверка гипотез была формализована и популяризирована. [55]
Несколько бобов в этой горсти белые.
Большинство бобов в этом мешке белые.
Следовательно: Вероятно, эти бобы были взяты из другого мешка.
Это гипотетический вывод.
Бобы в мешке — это популяция. Горсть — это выборка. Нулевая гипотеза заключается в том, что выборка произошла из популяции. Критерием отклонения нулевой гипотезы является «очевидное» различие во внешнем виде (неформальное различие в среднем). Интересный результат заключается в том, что рассмотрение реальной популяции и реальной выборки дало воображаемый мешок. Философ рассматривал логику, а не вероятность. Чтобы быть настоящим статистическим тестом гипотезы, этот пример требует формальностей расчета вероятности и сравнения этой вероятности со стандартом.
Простое обобщение примера рассматривает смешанный мешок фасоли и горсть, которая содержит либо очень мало, либо очень много белой фасоли. Обобщение рассматривает обе крайности. Оно требует больше вычислений и больше сравнений, чтобы прийти к формальному ответу, но основная философия неизменна; если состав горсти сильно отличается от состава мешка, то образец, вероятно, произошел из другого мешка. Исходный пример называется односторонним или односторонним тестом, в то время как обобщение называется двусторонним или двухсторонним тестом.
Утверждение также опирается на вывод о том, что выборка была случайной. Если бы кто-то рылся в мешке, чтобы найти белую фасоль, то это объяснило бы, почему в горсти было так много белой фасоли, а также объяснило бы, почему количество белой фасоли в мешке было исчерпано (хотя мешок, вероятно, предполагается намного большим, чем рука).
Человек (субъект) проходит тест на ясновидение . Ему показывают оборотную сторону случайно выбранной игральной карты 25 раз и спрашивают, к какой из четырех мастей она принадлежит. Количество попаданий, или правильных ответов, называется X.
Поскольку мы пытаемся найти доказательства их ясновидения, на данный момент нулевая гипотеза заключается в том, что человек не является ясновидящим. [56] Альтернатива такова: человек (более или менее) ясновидящий.
Если нулевая гипотеза верна, единственное, что может сделать испытуемый, — это угадать. Для каждой карты вероятность (относительная частота) появления любой одной масти составляет 1/4. Если альтернатива верна, испытуемый правильно предскажет масть с вероятностью, большей 1/4. Мы назовем вероятность правильного угадывания p . Таким образом, гипотезы таковы:
и
Когда испытуемый правильно предсказывает все 25 карт, мы будем считать его ясновидящим и отвергнем нулевую гипотезу. То же самое и с 24 или 23 попаданиями. С другой стороны, при 5 или 6 попаданиях нет причин считать их таковыми. Но что насчет 12 попаданий или 17 попаданий? Каково критическое число, c , попаданий, при котором мы считаем испытуемого ясновидящим? Как мы определяем критическое значение c ? При выборе c = 25 (т. е. мы принимаем ясновидение только тогда, когда все карты предсказаны правильно) мы более критичны, чем при c = 10. В первом случае почти ни один испытуемый не будет признан ясновидящим, во втором случае определенное число пройдет тест. На практике человек решает, насколько он будет критичным. То есть он решает, как часто он принимает ошибку первого рода – ложноположительную или ошибку типа I. При c = 25 вероятность такой ошибки равна:
и, следовательно, очень мала. Вероятность ложного положительного результата — это вероятность случайного угадывания правильно все 25 раз.
Менее критично, при c = 10, получаем:
Таким образом, c = 10 дает гораздо большую вероятность ложноположительного результата.
Перед тем, как тест будет фактически выполнен, определяется максимально допустимая вероятность ошибки типа I ( α ). Обычно выбираются значения в диапазоне от 1% до 5%. (Если максимально допустимая частота ошибок равна нулю, требуется бесконечное количество правильных догадок.) В зависимости от этой частоты ошибок типа 1 вычисляется критическое значение c . Например, если мы выбираем частоту ошибок 1%, c вычисляется следующим образом:
Из всех чисел c, обладающих этим свойством, выбираем наименьшее, чтобы минимизировать вероятность ошибки II типа, ложноотрицательного . Для приведенного выше примера выбираем: .
Статистическая проверка гипотез является ключевым методом как частотного вывода , так и байесовского вывода , хотя эти два типа вывода имеют заметные различия. Статистические проверки гипотез определяют процедуру, которая контролирует (фиксирует) вероятность неправильного решения о том, что позиция по умолчанию ( нулевая гипотеза ) неверна. Процедура основана на том, насколько вероятно, что набор наблюдений произойдет, если нулевая гипотеза будет верна. Эта вероятность принятия неправильного решения не является вероятностью того, что нулевая гипотеза верна, и не является ли какая-либо конкретная альтернативная гипотеза верной. Это контрастирует с другими возможными методами теории принятия решений , в которых нулевая и альтернативная гипотезы рассматриваются на более равной основе.
Один наивный байесовский подход к проверке гипотез заключается в том, чтобы основывать решения на апостериорной вероятности , [57] [58], но это не работает при сравнении точечных и непрерывных гипотез. Другие подходы к принятию решений, такие как байесовская теория принятия решений , пытаются сбалансировать последствия неверных решений по всем возможностям, а не концентрироваться на одной нулевой гипотезе. Ряд других подходов к принятию решения на основе данных доступны через теорию принятия решений и оптимальные решения , некоторые из которых обладают желаемыми свойствами. Проверка гипотез, однако, является доминирующим подходом к анализу данных во многих областях науки. Расширения теории проверки гипотез включают изучение мощности тестов , т. е. вероятности правильного отклонения нулевой гипотезы, учитывая, что она ложна. Такие соображения могут быть использованы для определения размера выборки до сбора данных.
Пример проверки гипотезы Неймана–Пирсона (или проверки статистической значимости нулевой гипотезы) можно сделать, изменив пример с радиоактивным чемоданом. Если «чемодан» на самом деле является экранированным контейнером для перевозки радиоактивного материала, то тест может быть использован для выбора из трех гипотез: радиоактивный источник отсутствует, присутствует один, присутствуют два (все) источника. Тест может потребоваться для обеспечения безопасности, с действиями, необходимыми в каждом случае. Лемма Неймана–Пирсона о проверке гипотез гласит, что хорошим критерием для выбора гипотез является отношение их вероятностей ( отношение правдоподобия ). Простой метод решения — выбрать гипотезу с наибольшей вероятностью для наблюдаемых счетчиков Гейгера. Типичный результат соответствует интуиции: малое количество счетчиков подразумевает отсутствие источника, много счетчиков подразумевает два источника, а промежуточные счетчики предполагают один источник. Обратите также внимание, что обычно существуют проблемы с доказательством отрицательного . Нулевые гипотезы должны быть по крайней мере фальсифицируемыми .
Теория Неймана–Пирсона может учитывать как априорные вероятности, так и затраты на действия, вытекающие из решений. [59] Первая позволяет каждому тесту учитывать результаты более ранних тестов (в отличие от тестов значимости Фишера). Последняя позволяет учитывать экономические вопросы (например), а также вероятности. Отношение правдоподобия остается хорошим критерием для выбора среди гипотез.
Две формы проверки гипотез основаны на различных формулировках проблемы. Первоначальный тест аналогичен вопросу «истина/ложь»; тест Неймана–Пирсона больше похож на множественный выбор. По мнению Тьюки [60], первый выводит заключение на основе только веских доказательств, тогда как последний выводит решение на основе имеющихся доказательств. Хотя эти два теста кажутся совершенно разными как с математической, так и с философской точки зрения, более поздние разработки приводят к противоположному утверждению. Рассмотрим множество крошечных радиоактивных источников. Гипотезы становятся 0,1,2,3... зерен радиоактивного песка. Существует небольшое различие между отсутствием или некоторым количеством радиации (Фишер) и 0 зерен радиоактивного песка по сравнению со всеми альтернативами (Нейман–Пирсон). Основная статья Неймана–Пирсона 1933 года [11] также рассматривала составные гипотезы (те, распределение которых включает неизвестный параметр). Пример доказал оптимальность t -теста (Стьюдента): «не может быть лучшего теста для рассматриваемой гипотезы» (стр. 321). Теория Неймана–Пирсона с самого начала доказывала оптимальность фишеровских методов.
Тестирование значимости Фишера оказалось популярным гибким статистическим инструментом в применении с небольшим математическим потенциалом роста. Тестирование гипотез Неймана–Пирсона заявлено как столп математической статистики, [61] создающий новую парадигму для этой области. Оно также стимулировало новые приложения в статистическом управлении процессами , теории обнаружения , теории принятия решений и теории игр . Обе формулировки были успешными, но успехи имели разный характер.
Спор о формулировках не решен. Наука в основном использует формулировку Фишера (слегка измененную), как ее преподают во вводной статистике. Статистики изучают теорию Неймана–Пирсона в аспирантуре. Математики гордятся объединением формулировок. Философы рассматривают их по отдельности. Ученые мнения считают формулировки по-разному конкурирующими (Фишер против Неймана), несовместимыми [9] или взаимодополняющими. [13] Спор стал более сложным с тех пор, как байесовский вывод достиг респектабельности.
Терминология непоследовательна. Проверка гипотез может означать любую смесь двух формулировок, которые обе меняются со временем. Любое обсуждение проверки значимости против проверки гипотез вдвойне уязвимо для путаницы.
Фишер считал, что проверка гипотез является полезной стратегией для выполнения промышленного контроля качества, однако он категорически не соглашался с тем, что проверка гипотез может быть полезна для ученых. [10] Проверка гипотез обеспечивает средства нахождения статистики тестирования, используемой при проверке значимости. [13] Концепция мощности полезна для объяснения последствий корректировки уровня значимости и широко используется при определении размера выборки . Эти два метода остаются философски различными. [15] Они обычно (но не всегда ) дают один и тот же математический ответ. Предпочтительный ответ зависит от контекста. [13] Хотя существующее слияние теорий Фишера и Неймана–Пирсона подверглось резкой критике, рассматривалось изменение слияния для достижения байесовских целей. [62]
Критика статистической проверки гипотез заполняет целые тома. [63] [64] [65] [66] [67] [68] Большую часть критики можно свести к следующим пунктам:
Критики и сторонники в основном находятся в фактическом согласии относительно характеристик проверки значимости нулевой гипотезы (NHST): хотя она может предоставить важную информацию, она неадекватна как единственный инструмент статистического анализа . Успешное отклонение нулевой гипотезы может не обеспечить никакой поддержки исследовательской гипотезы. Продолжающиеся споры касаются выбора лучших статистических практик для ближайшего будущего с учетом существующих практик. Однако адекватный дизайн исследования может минимизировать эту проблему. Критики предпочли бы полностью запретить NHST, заставив полностью отказаться от этих практик, [80] в то время как сторонники предлагают менее абсолютные изменения. [ необходима цитата ]
Разногласия по поводу проверки значимости и ее влияния на публикационную предвзятость в частности привели к нескольким результатам. Американская психологическая ассоциация ужесточила свои требования к статистической отчетности после обзора, [81] издатели медицинских журналов признали обязанность публиковать некоторые результаты, которые не являются статистически значимыми, чтобы бороться с публикационной предвзятостью, [82] и был создан журнал ( Journal of Articles in Support of the Null Hypothesis ) для публикации исключительно таких результатов. [83] В учебники были добавлены некоторые предостережения, [84] и увеличено освещение инструментов, необходимых для оценки размера выборки, требуемой для получения значимых результатов. Немногие крупные организации отказались от использования тестов значимости, хотя некоторые обсуждали это. [81] Например, в 2023 году редакторы Journal of Physiology «настоятельно рекомендуют использовать методы оценки для тех, кто публикуется в The Journal» (имея в виду величину размера эффекта (чтобы позволить читателям судить о том, имеет ли открытие практическую, физиологическую или клиническую значимость) и доверительные интервалы для передачи точности этой оценки), заявляя: «В конечном счете, именно физиологическая важность данных должна волновать тех, кто публикуется в The Journal of Physiology, а не статистическая значимость». [85]
Объединяющая позиция критиков заключается в том, что статистика не должна приводить к принятию-отклонению заключения или решения, а к оценочному значению с интервальной оценкой ; эта философия анализа данных широко называется оценочной статистикой . Оценочная статистика может быть достигнута либо с помощью частотных [1], либо с помощью байесовских методов. [86] [87]
Критики значимого тестирования выступали за то, чтобы делать выводы не столько на основе p-значений, сколько на основе доверительных интервалов для размеров эффекта для важности, интервалов прогнозирования для уверенности, репликаций и расширений для воспроизводимости, метаанализов для общности:. [88] Но ни одна из этих предложенных альтернатив по сути не приводит к решению. Леманн сказал, что теория проверки гипотез может быть представлена в терминах выводов/решений, вероятностей или доверительных интервалов: «Различие между ... подходами в значительной степени заключается в отчетности и интерпретации». [25]
Байесовский вывод является одной из предлагаемых альтернатив проверке значимости. (Никерсон процитировал 10 источников, предлагающих это, включая Розебума (1960)). [78] Например, байесовская оценка параметров может предоставить богатую информацию о данных, из которых исследователи могут сделать выводы, используя при этом неопределенные априорные данные , которые оказывают лишь минимальное влияние на результаты, когда доступно достаточно данных. Психолог Джон К. Крушке предложил байесовскую оценку в качестве альтернативы t -тесту [86] и также противопоставил байесовскую оценку для оценки нулевых значений сравнению с байесовской моделью для проверки гипотез. [87] Две конкурирующие модели/гипотезы можно сравнить с использованием байесовских факторов . [89] Байесовские методы можно критиковать за то, что они требуют информации, которая редко доступна в случаях, когда проверка значимости используется наиболее интенсивно. Ни априорные вероятности, ни распределение вероятностей тестовой статистики в рамках альтернативной гипотезы часто не доступны в социальных науках. [78]
Сторонники байесовского подхода иногда утверждают, что цель исследователя чаще всего состоит в том, чтобы объективно оценить вероятность того, что гипотеза верна, на основе собранных ими данных. [90] [91] Ни проверка значимости Фишера, ни проверка гипотез Неймана–Пирсона не могут предоставить эту информацию и не претендуют на это. Вероятность того, что гипотеза верна, может быть получена только с помощью теоремы Байеса , которая была неудовлетворительной как для лагеря Фишера, так и для лагеря Неймана–Пирсона из-за явного использования субъективности в форме априорной вероятности . [11] [92] Стратегия Фишера заключается в том, чтобы обойти это с помощью p -значения (объективного индекса, основанного только на данных) с последующим индуктивным выводом , в то время как Нейман–Пирсон разработал свой подход индуктивного поведения .
Мы находимся в большой опасности, отправляя высококвалифицированных и высокоинтеллектуальных молодых людей в мир с таблицами ошибочных чисел под мышкой и с густым туманом в том месте, где должны быть их мозги. В этом столетии, конечно, они будут работать над управляемыми ракетами и консультировать медиков по контролю над болезнями, и нет предела тому, в какой степени они могли бы препятствовать любым видам национальных усилий.
{{cite book}}
: |journal=
проигнорировано ( помощь )Редакторы должны серьезно рассмотреть возможность публикации любого тщательно выполненного исследования важного вопроса, релевантного их читателям, независимо от того, являются ли результаты для основного или любого дополнительного результата статистически значимыми. Непредставление или не публикация результатов из-за отсутствия статистической значимости является важной причиной смещения публикации.
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка )