Статистическая проверка гипотез

Проверка статистической гипотезы — это метод статистического вывода, используемый для определения того, достаточно ли имеющиеся данные подтверждают конкретную гипотезу. В более общем плане проверка гипотез позволяет нам делать вероятностные утверждения о параметрах популяции. Таким образом, это один из способов принятия решений в условиях неопределенности. Обычно процедуры проверки гипотез включают выбираемый пользователем компромисс между ложноположительными и ложноотрицательными результатами .

История

Раннее использование

Хотя проверка гипотез была популяризирована в начале 20-го века, ранние формы использовались в 1700-х годах. Первое использование приписывается Джону Арбутноту (1710 г.), ^[1] а затем Пьеру-Симону Лапласу (1770-е гг.) при анализе соотношения полов человека при рождении; см. § Соотношение полов у человека.

Современное происхождение и ранние споры

Современное тестирование значимости во многом является продуктом Карла Пирсона ( p -значение , критерий хи-квадрат Пирсона ), Уильяма Сили Госсета ( t-распределение Стьюдента ) и Рональда Фишера (« нулевая гипотеза », дисперсионный анализ , « критерий значимости »). , а проверку гипотез разработали Ежи Нейман и Эгон Пирсон (сын Карла). Рональд Фишер начал свою карьеру в статистике как байесианец (Zabell 1992), но вскоре Фишер разочаровался в связанной с этим субъективности (а именно, в использовании принципа безразличия при определении априорных вероятностей) и стремился предложить более «объективный» подход к индуктивным вычислениям. вывод. ^[2]

Фишер подчеркнул строгий план эксперимента и методы извлечения результата из нескольких выборок, предполагая распределение Гаусса . Нейман (который сотрудничал с Пирсоном-младшим) подчеркивал математическую строгость и методы, позволяющие получить больше результатов из множества выборок и более широкого диапазона распределений. Современная проверка гипотез представляет собой противоречивый гибрид формулировок Фишера и Неймана/Пирсона, методов и терминологии, разработанных в начале 20 века.

Фишер популяризировал «тест значимости». Ему потребовалась нулевая гипотеза (соответствующая частотному распределению населения) и выборка. Его (теперь знакомые) расчеты определяли, следует ли отвергать нулевую гипотезу или нет. При проверке значимости не использовалась альтернативная гипотеза, поэтому не существовало понятия ошибки II рода (ложноотрицательный результат).

Значение p было разработано как неформальный, но объективный индекс, призванный помочь исследователю определить (на основе других знаний), следует ли модифицировать будущие эксперименты или укрепить веру в нулевую гипотезу. ^[3] Проверка гипотез (и ошибки типа I/II) была разработана Нейманом и Пирсоном как более объективная альтернатива p -значению Фишера, также предназначенная для определения поведения исследователя, но не требующая от исследователя каких-либо индуктивных выводов . ^[4]^[5]

Нейман и Пирсон рассматривали другую проблему, чем Фишер (которую они назвали «проверкой гипотез»). Первоначально они рассматривали две простые гипотезы (обе с частотными распределениями). Они рассчитали две вероятности и обычно выбирали гипотезу, связанную с более высокой вероятностью (гипотеза, которая с большей вероятностью создала выборку). Их метод всегда выбирал гипотезу. Это также позволило рассчитать вероятности ошибок обоих типов.

Фишер и Нейман/Пирсон сильно поссорились. Нейман/Пирсон считали свою формулировку улучшенным обобщением проверки значимости (определяющая статья ^[4] была абстрактной ; математики обобщали и уточняли теорию на протяжении десятилетий ^[6] ). Фишер считал, что она неприменима к научным исследованиям, поскольку часто в ходе эксперимента обнаруживается, что первоначальные предположения о нулевой гипотезе сомнительны из-за неожиданных источников ошибок. Он считал, что использование жестких решений «отклонить/принять», основанных на моделях, сформулированных до сбора данных, несовместимо с этим распространенным сценарием, с которым сталкиваются ученые, и попытки применить этот метод к научным исследованиям приведут к массовой путанице. ^[7]

Спор между Фишером и Нейманом-Пирсоном велся на философских основаниях, охарактеризованный философом как спор о надлежащей роли моделей в статистическом выводе. ^[8]

Вмешались события: Нейман принял должность в Калифорнийском университете в Беркли в 1938 году, разорвав партнерство с Пирсоном и разделив участников спора (которые занимали одно и то же здание). Вторая мировая война дала перерыв в дебатах. Спор между Фишером и Нейманом завершился (неразрешенный спустя 27 лет) со смертью Фишера в 1962 году. Нейман написал хорошо зарекомендовавшую себя панегирик. ^[9] В некоторых из более поздних публикаций Неймана сообщалось о p -значениях и уровнях значимости. ^[10]

Современная версия проверки гипотез представляет собой гибрид двух подходов, возникший в результате путаницы авторов статистических учебников (как и предсказывал Фишер) начиная с 1940-х годов ^[11] (но обнаружение сигналов , например, до сих пор использует формулировку Неймана/Пирсона). ). Большие концептуальные различия и многие предостережения помимо упомянутых выше были проигнорированы. Нейман и Пирсон предоставили более строгую терминологию, более строгую математику и более последовательную философию, но предмет, преподаваемый сегодня во вводной статистике, имеет больше сходства с методом Фишера, чем с их методом. ^[12]

Где-то около 1940 года ^[11] авторы статистических учебников начали комбинировать два подхода, используя значение p вместо тестовой статистики (или данных) для проверки «уровня значимости» Неймана-Пирсона.

Ранний выбор нулевой гипотезы

Пол Мил утверждал, что эпистемологическая важность выбора нулевой гипотезы осталась в значительной степени непризнанной. Когда нулевая гипотеза предсказывается теорией, более точный эксперимент станет более серьезной проверкой лежащей в ее основе теории. Когда нулевая гипотеза по умолчанию равна «нет разницы» или «нет эффекта», более точный эксперимент является менее серьезной проверкой теории, которая послужила мотивом проведения эксперимента. ^[13] Поэтому изучение истоков последней практики может оказаться полезным:

1778: Пьер Лаплас сравнивает рождаемость мальчиков и девочек в нескольких европейских городах. Он утверждает: «естественно заключить, что эти возможности находятся примерно в одном и том же соотношении». Таким образом, нулевая гипотеза Лапласа о том, что рождаемость мальчиков и девочек должна быть одинаковой, принимается «общепринятым мнением». ^[14]

1900: Карл Пирсон разрабатывает критерий хи-квадрат , чтобы определить, «будет ли данная форма частотной кривой эффективно описывать выборки, взятые из данной совокупности». Таким образом, нулевая гипотеза состоит в том, что популяция описывается некоторым распределением, предсказанным теорией. В качестве примера он использует числа пять и шестерки в данных о бросках игральных костей Уэлдона . ^[15]

1904: Карл Пирсон разрабатывает концепцию « непредвиденных обстоятельств », чтобы определить, независимы ли результаты от данного категориального фактора. Здесь нулевая гипотеза по умолчанию заключается в том, что две вещи не связаны друг с другом (например, образование рубцов и уровень смертности от оспы). ^[16] Нулевая гипотеза в этом случае больше не предсказывается теорией или общепринятым мнением, а вместо этого представляет собой принцип безразличия , который побудил Фишера и других отказаться от использования «обратных вероятностей». ^[17]

Философия

Проверка гипотез и философия пересекаются. Инференциальная статистика , включающая проверку гипотез, представляет собой прикладную вероятность. И вероятность, и ее применение переплетаются с философией. Философ Дэвид Юм писал: «Все знания вырождаются в вероятность». Конкурирующие практические определения вероятности отражают философские различия. Наиболее распространенным применением проверки гипотез является научная интерпретация экспериментальных данных, которая, естественно, изучается философией науки .

Фишер и Нейман выступили против субъективности вероятности. Их взгляды способствовали объективным определениям. Суть их исторических разногласий была философской.

Многие философские критические замечания по проверке гипотез обсуждаются статистиками в других контекстах, в частности, корреляция не подразумевает причинно-следственную связь и планирование экспериментов . Проверка гипотез представляет постоянный интерес для философов. ^[8]^[18]

Образование

Статистика все чаще преподается в школах, причем проверка гипотез является одним из преподаваемых элементов. ^[19]^[20] Многие выводы, публикуемые в популярной прессе (от опросов политического мнения до медицинских исследований), основаны на статистике. Некоторые авторы заявляют, что статистический анализ такого рода позволяет ясно думать о проблемах, связанных с массовыми данными, а также эффективно сообщать о тенденциях и выводах из этих данных, но предупреждают, что авторы, представляющие широкую публику, должны иметь четкое понимание этой области. для того, чтобы правильно использовать термины и понятия. ^[21]^[22] На вводном курсе статистики в колледже большое внимание уделяется проверке гипотез – возможно, это половина курса. Такие области, как литература и богословие, теперь включают результаты, основанные на статистическом анализе (см. « Анализатор Библии »). На вводном курсе статистики проверка гипотез рассматривается как процесс кулинарной книги. Проверка гипотез также преподается на уровне аспирантуры. Статистики учатся создавать хорошие статистические тестовые процедуры (такие как z , t Стьюдента , F и хи-квадрат). Проверка статистических гипотез считается зрелой областью статистики ^[23] , но в ней продолжаются ограниченные разработки.

В одном академическом исследовании говорится, что метод обучения вводной статистике, основанный на кулинарных книгах, не оставляет времени для истории, философии или полемики. Проверка гипотез преподавалась как общепринятый единый метод. Опросы показали, что выпускники этого класса были полны философских заблуждений (по всем аспектам статистических выводов), которые сохранялись среди преподавателей. ^[24] Хотя проблема была решена более десяти лет назад, ^[25] и призывы к реформе образования продолжаются, ^[26] студенты все еще заканчивают курсы статистики, придерживаясь фундаментальных заблуждений о проверке гипотез. ^[27] Идеи по улучшению преподавания проверки гипотез включают в себя поощрение студентов к поиску статистических ошибок в опубликованных статьях, преподавание истории статистики и подчеркивание противоречий в обычно сухом предмете. ^[28]

Выполнение проверки частотной гипотезы на практике

Типичные этапы практической проверки частотной гипотезы:

Определите гипотезу (утверждение, которое можно проверить с использованием данных).
Выберите соответствующий статистический тест со связанной тестовой статистикой T .
Выведите распределение тестовой статистики при нулевой гипотезе из допущений. В стандартных случаях это будет хорошо известный результат. Например, статистика теста может следовать t-распределению Стьюдента с известными степенями свободы или нормальному распределению с известными средним значением и дисперсией.
Выберите уровень значимости ( α ), максимально допустимый уровень ложных срабатываний . Общие значения — 5% и 1%.
Вычислите на основе наблюдений наблюдаемое значение t _obs тестовой статистики T .
Решите либо отвергнуть нулевую гипотезу в пользу альтернативы, либо не отвергать ее. Правило принятия решения Неймана-Пирсона состоит в том, чтобы отвергнуть нулевую гипотезу H ₀ , если наблюдаемое значение t _obs находится в критической области, и не отвергать нулевую гипотезу в противном случае. ^[29]

Практический пример

Разница в двух процессах применительно к примеру с радиоактивным чемоданом (ниже):

«Показания счетчика Гейгера — 10. Предел — 9. Проверьте чемодан».
«Показания счетчика Гейгера высокие; 97% безопасных чемоданов имеют более низкие показания. Предел — 95%. Проверьте чемодан».

Первый отчет является адекватным, второй дает более подробное объяснение данных и причины проверки чемодана.

Неопровержение нулевой гипотезы не означает, что нулевая гипотеза «принята» (см. раздел «Интерпретация»).

Описанные здесь процессы вполне подходят для вычислений. Они серьезно пренебрегают соображениями планирования экспериментов . ^[30]^[31]

Особенно важно оценить соответствующие размеры выборки перед проведением эксперимента.

Фразу «тест значимости» придумал статистик Рональд Фишер . ^[32]

Интерпретация

Когда нулевая гипотеза верна и статистические предположения выполняются, вероятность того, что значение p будет меньше или равно уровню значимости, не превышает . Это гарантирует, что проверка гипотезы сохранит заданный уровень ложных срабатываний (при условии, что статистические предположения выполняются). ^[33] $\альфа$ $\альфа$

Значение p — это вероятность того, что при нулевой гипотезе будет получена тестовая статистика, которая, по крайней мере, столь же экстремальна, как и полученная. При уровне значимости 0,05 можно ожидать, что честная монета (ошибочно) отвергнет нулевую гипотезу (о том, что она честна) в среднем в 1 из 20 тестов. Значение p не обеспечивает вероятность того, что нулевая гипотеза или ее противоположность верны (частый источник путаницы). ^[34]

Если значение p меньше выбранного порога значимости (что эквивалентно, если наблюдаемая статистика теста находится в критической области), то мы говорим, что нулевая гипотеза отклонена на выбранном уровне значимости. Если значение p не меньше выбранного порога значимости (т. е. если наблюдаемая статистика теста находится за пределами критической области), то нулевая гипотеза не отклоняется на выбранном уровне значимости.

В примере с «дамой, дегустирующей чай» (ниже) Фишер потребовал, чтобы дама правильно классифицировала все чашки чая, чтобы оправдать вывод о том, что результат вряд ли является случайным. Его тест показал, что если женщина фактически угадывала наугад (нулевая гипотеза), вероятность получения наблюдаемого результата (идеально заказанного чая) составляла 1,4%.

Использование и важность

Статистика полезна при анализе большинства коллекций данных. Это в равной степени справедливо и для проверки гипотез, которая может обосновать выводы, даже если научной теории не существует. В примере с дамой, дегустирующей чай, было «очевидно», что не существует никакой разницы между (молоко, налитое в чай) и (чай, налитое в молоко). Данные противоречили «очевидному».

Реальные применения проверки гипотез включают: ^[35]

Тестирование: мужчины страдают от кошмаров чаще, чем женщины
Установление авторства документов
Оценка влияния полнолуния на поведение
Определение расстояния, на котором летучая мышь может обнаружить насекомое по эху.
Решение о том, приводит ли больничное ковровое покрытие к большему количеству инфекций
Выбор лучших средств, чтобы бросить курить
Проверяем, отражают ли наклейки на бампере поведение владельца автомобиля
Проверка утверждений почерковедческих аналитиков

Статистическая проверка гипотез играет важную роль во всей статистике и в статистических выводах . Например, Леманн (1992) в обзоре фундаментальной работы Неймана и Пирсона (1933) говорит: «Тем не менее, несмотря на свои недостатки, новая парадигма, сформулированная в статье 1933 года, и многие разработки, выполненные в ее рамках, продолжают играют центральную роль как в теории, так и в практике статистики, и можно ожидать, что это произойдет в обозримом будущем».

Тестирование значимости было излюбленным статистическим инструментом в некоторых экспериментальных социальных науках (более 90% статей в Журнале прикладной психологии в начале 1990-х годов). ^[36] Другие области отдают предпочтение оценке параметров (например, размера эффекта ). Проверка значимости используется вместо традиционного сравнения прогнозируемого значения и экспериментального результата, лежащего в основе научного метода . Когда теория способна предсказать только знак взаимосвязи, направленную (одностороннюю) проверку гипотезы можно сконфигурировать так, чтобы только статистически значимый результат поддерживал теорию. Эта форма оценки теории является наиболее подвергаемым критике применением проверки гипотез.

Предостережения

«Если бы правительство потребовало, чтобы статистические процедуры имели предупреждающие надписи, как на лекарствах, большинство методов вывода действительно имели бы длинные надписи». ^[37] Это предостережение относится к проверке гипотез и альтернативам им.

Успешная проверка гипотезы связана с вероятностью и частотой ошибок I рода. Вывод может быть неверным.

Выводы теста столь же надежны, как и образец, на котором они основаны. Дизайн эксперимента имеет решающее значение. Был обнаружен ряд неожиданных эффектов, в том числе:

Умный эффект Ганса . Лошадь, казалось, была способна выполнять простые арифметические действия.
Эффект Хоторна . Промышленные рабочие были более продуктивны при лучшем освещении и наиболее продуктивны при худшем.
Эффект плацебо . Таблетки, не содержащие активных ингредиентов, оказались чрезвычайно эффективными.

Статистический анализ вводящих в заблуждение данных приводит к ошибочным выводам. Вопрос качества данных может быть более тонким. Например, в прогнозировании не существует единого мнения относительно меры точности прогноза. В отсутствие консенсусного измерения ни одно решение, основанное на измерениях, не будет бесспорным.

Предвзятость публикации: статистически незначимые результаты могут быть опубликованы с меньшей вероятностью, что может привести к искажению литературы.

Множественное тестирование: когда несколько тестов истинной нулевой гипотезы проводятся одновременно без корректировки, общая вероятность ошибки типа I выше номинального альфа-уровня. ^[38]

Те, кто принимает критические решения на основе результатов проверки гипотез, благоразумно обращают внимание на детали, а не только на выводы. В физических науках большинство результатов полностью принимаются только в том случае, если они подтверждены независимо. Общий совет относительно статистики таков: «Цифры никогда не лгут, а лжецы верят» (анонимно).

Значение терминов

Следующие определения в основном основаны на изложении книги Лемана и Романо: ^[33]

Статистическая гипотеза : утверждение о параметрах, описывающих популяцию (а не выборку ).
Статистика теста: значение, рассчитанное на основе выборки без каких-либо неизвестных параметров, часто для обобщения выборки в целях сравнения.
Простая гипотеза : любая гипотеза, которая полностью определяет распределение населения.
Составная гипотеза: любая гипотеза, которая не полностью определяет распределение населения.
Нулевая гипотеза (H ₀ )
Положительные данные: данные, которые позволяют исследователю отвергнуть нулевую гипотезу.
Альтернативная гипотеза (H ₁ )
Область отклонения/Критическая область: набор значений тестовой статистики, для которых отклоняется нулевая гипотеза.
Критическое значение
Мощность теста (1 - β )
Размер : для простых гипотез это вероятность неправильного отклонения теста нулевой гипотезы. Уровень ложноположительных результатов. Для составных гипотез это верхняя граница вероятности отклонения нулевой гипотезы во всех случаях, охватываемых нулевой гипотезой. Дополнение ложноположительных результатовв биостатистике называется специфичностью . («Это специфический тест. Поскольку результат положительный, мы можем с уверенностью сказать, что у пациента есть заболевание».) См. чувствительность и специфичность , а также ошибки типа I и типа II для получения исчерпывающих определений.
Уровень значимости теста ( α)
р -значение
Тест статистической значимости : предшественник теста статистической гипотезы (см. раздел «Происхождение»). Экспериментальный результат считался статистически значимым, если выборка в достаточной степени не соответствовала (нулевой) гипотезе. По-разному это считалось здравым смыслом, прагматической эвристикой для выявления значимых экспериментальных результатов, соглашением, устанавливающим порог статистических данных или методом получения выводов на основе данных. Проверка статистической гипотезы добавила концепции математическую строгость и философскую последовательность, сделав альтернативную гипотезу явной. Этот термин широко используется для обозначения современной версии, которая сейчас является частью проверки статистических гипотез.
Консервативный тест: тест является консервативным, если при его построении для данного номинального уровня значимости истинная вероятность неправильного отклонения нулевой гипотезы никогда не превышает номинальный уровень.
Точный тест

Проверка статистической гипотезы сравнивает статистику теста ( z или t для примеров) с пороговым значением. Статистика теста (формула приведена в таблице ниже) основана на оптимальности. Для фиксированного уровня частоты ошибок типа I использование этой статистики минимизирует частоту ошибок типа II (эквивалентно максимизации мощности). Следующие термины описывают тесты с точки зрения такой оптимальности:

Самый мощный тест: для данного размера или уровня значимости тест с наибольшей мощностью (вероятностью отклонения) для данного значения проверяемого параметра(ов), содержащегося в альтернативной гипотезе.
Равномерно самый мощный тест (UMP)

Общая статистика испытаний

Непараметрическая проверка гипотезы начальной загрузки

Методы повторной выборки на основе бутстрапа можно использовать для проверки нулевой гипотезы. Бутстрап создает множество смоделированных выборок путем случайной повторной выборки (с заменой) исходных объединенных выборочных данных, предполагая, что нулевая гипотеза верна. Бутстрап очень универсален, поскольку он не имеет распределения и не опирается на ограничительные параметрические предположения, а скорее на эмпирические приближенные методы с асимптотическими гарантиями. Традиционные параметрические тесты гипотез более эффективны в вычислительном отношении, но делают более строгие структурные предположения. В ситуациях, когда вычисление вероятности тестовой статистики при нулевой гипотезе затруднено или невозможно (возможно, из-за неудобства или отсутствия знания основного распределения), бутстрап предлагает жизнеспособный метод статистического вывода. ^[39]^[40]^[41]^[42]

Примеры

Соотношение полов человека

Самое раннее использование проверки статистических гипотез обычно связано с вопросом о том, одинаково ли вероятны рождения мальчиков и девочек (нулевая гипотеза), который был рассмотрен в 1700-х годах Джоном Арбутнотом (1710), ^[43] , а затем Пьером-Симоном Лапласом. (1770-е гг.). ^[44]

Арбутнот изучил записи о рождении в Лондоне за каждый из 82 лет с 1629 по 1710 год и применил знаковый тест — простой непараметрический критерий . ^[45]^[46]^[47] Каждый год количество мужчин, рожденных в Лондоне, превышало количество женщин. Если принять во внимание равновероятность большего количества рождений мальчиков и девочек, то вероятность наблюдаемого исхода составляет 0,582 ^, или примерно 1 на 4 836 000 000 000 000 000 000 000; говоря современным языком, это p -значение. Арбутнот пришел к выводу, что это слишком мало, чтобы быть результатом случайности, и вместо этого должно быть связано с божественным провидением: «Отсюда следует, что правит Искусство, а не Случай». Говоря современным языком, он отверг нулевую гипотезу о равной вероятности рождения мальчиков и девочек на уровне значимости p = ^1/282 .

Лаплас рассмотрел статистику почти полумиллиона рождений. Статистика показала преобладание мальчиков над девочками. ^[14]^[48] Путем расчета p -значения он пришел к выводу, что превышение было реальным, но необъяснимым эффектом. ^[49]

Леди дегустирует чай

В известном примере проверки гипотез, известном как « Чай с дегустацией леди» , ^[50] доктор Мюриэль Бристоль , коллега Фишера, утверждала, что может определить, был ли чай или молоко добавлено в чашку первым. Фишер предложил подарить ей восемь чашек, по четыре каждого сорта, в случайном порядке. Тогда можно было бы спросить, какова вероятность того, что она назовет правильное число, но это просто случайно. Нулевая гипотеза заключалась в том, что у Леди не было такой способности. Статистика теста представляла собой простой подсчет количества успешных попыток выбрать 4 чашки. Критическая область представляла собой единственный случай 4 успехов из 4 возможных, основанных на общепринятом критерии вероятности (< 5%). Паттерн из 4 успехов соответствует 1 из 70 возможных комбинаций (р≈ 1,4%). Фишер утверждал, что никакая альтернативная гипотеза (никогда) не требовалась. Женщина правильно определила каждую чашку, ^[51] что можно было бы считать статистически значимым результатом.

Судебный процесс

Процедура статистического тестирования сравнима с уголовным судом ; Подсудимый считается невиновным, пока его вина не доказана. Прокурор пытается доказать вину подсудимого. Только тогда, когда имеется достаточно доказательств для обвинения, обвиняемый признается виновным.

В начале процедуры существуют две гипотезы : «обвиняемый невиновен» и «обвиняемый виновен». Первая из них называется нулевой гипотезой . Вторая гипотеза называется альтернативной гипотезой . Это альтернативная гипотеза, которую мы надеемся поддержать. $H_{0}$ $H_{1}$ $H_{0}$ $H_{1}$

Гипотеза невиновности отвергается только тогда, когда ошибка очень маловероятна, поскольку нежелательно осуждать невиновного обвиняемого. Такая ошибка называется ошибкой первого рода (т. е. осуждением невиновного лица), и возникновение этой ошибки контролируется, чтобы быть редким. Вследствие такого асимметричного поведения чаще встречается ошибка второго рода (оправдание лица, совершившего преступление).

Уголовный процесс можно рассматривать как один или оба из двух процессов принятия решений: виновен против невиновности или доказательства против порога («вне разумного сомнения»). С одной точки зрения, обвиняемого судят; с другой точки зрения, оценивается деятельность обвинения (которое несет бремя доказывания). Проверка гипотезы может рассматриваться либо как оценка гипотезы, либо как оценка доказательств.

Философские бобы

Следующий пример был приведен философом, описывающим научные методы за несколько поколений до того, как проверка гипотез была формализована и популяризирована. ^[52]

Лишь немногие зерна из этой горстки белые.
Большинство зерен в этом мешке белые.
Следовательно: Вероятно, эти бобы были взяты из другого мешка.
Это гипотетический вывод.

Бобы в мешке — это население. Горстка — это образец. Нулевая гипотеза состоит в том, что выборка возникла из генеральной совокупности. Критерием отклонения нулевой гипотезы является «очевидная» разница во внешнем виде (неформальная разница в среднем). Интересный результат заключается в том, что при рассмотрении реальной популяции и реальной выборки получился воображаемый мешок. Философ рассматривал логику, а не вероятность. Чтобы быть настоящей статистической проверкой гипотезы, этот пример требует формальностей расчета вероятности и сравнения этой вероятности со стандартом.

Простое обобщение примера рассматривает смешанный мешок фасоли и горстку, содержащую либо очень мало, либо очень много белой фасоли. Обобщение учитывает обе крайности. Для получения формального ответа требуется больше расчетов и сравнений, но основная философия остается неизменной; Если состав горсти сильно отличается от состава мешка, то, вероятно, образец был взят из другого мешка. Исходный пример называется односторонним или односторонним тестом, а обобщение называется двусторонним или двусторонним тестом.

Это утверждение также основано на выводе о том, что выборка была случайной. Если бы кто-то рылся в мешке в поисках белой фасоли, это объяснило бы, почему в горстке было так много белой фасоли, а также объяснило бы, почему количество белой фасоли в мешке исчерпалось (хотя предполагается, что мешок, вероятно, намного больше ладони).

Ясновидящая карточная игра

Человек (субъект) проверяется на ясновидение . Им 25 раз показывают обратную сторону случайно выбранной игральной карты и спрашивают, к какой из четырех мастей она принадлежит. Количество попаданий или правильных ответов называется X.

Пока мы пытаемся найти доказательства их ясновидения, на данный момент нулевая гипотеза состоит в том, что этот человек не является ясновидящим. ^[53] Альтернатива такова: человек (более или менее) ясновидящий.

Если нулевая гипотеза верна, единственное, что может сделать испытуемый, — это гадать. Для каждой карты вероятность (относительная частота) появления одной масти равна 1/4. Если альтернатива верна, испытуемый правильно предскажет масть с вероятностью больше 1/4. Вероятность правильного угадывания будем называть p . Итак, гипотезы таковы:

нулевая гипотеза (просто предположение) ${\text{:}}\qquad H_{0}:p={\tfrac {1}{4}}$

альтернативная гипотеза (истинный ясновидящий). ${\text{:}}H_{1}:p>{\tfrac {1}{4}}$

Когда испытуемый правильно предскажет все 25 карт, мы будем считать его ясновидящим и отвергнем нулевую гипотезу. Таким образом, также с 24 или 23 попаданиями. С другой стороны, при наличии всего лишь 5 или 6 попаданий нет оснований считать их таковыми. А как насчет 12 или 17 попаданий? Каково критическое число попаданий c , при котором мы считаем субъекта ясновидящим? Как определить критическое значение c ? При выборе c =25 (т.е. мы принимаем ясновидение только тогда, когда все карты предсказаны правильно) мы более критичны, чем при c =10. В первом случае почти никто из испытуемых не будет признан ясновидящим, во втором случае определенное количество пройдет тест. На практике каждый решает, насколько критичным он будет. То есть каждый решает, как часто он допускает ошибку первого рода – ложное срабатывание или ошибку I рода. При c = 25 вероятность такой ошибки равна:

P({\text{reject }}H_{0}\mid H_{0}{\text{действителен}})=P\left(X=25\mid p={\frac {1} 4}}\right)=\left({\frac {1}{4}}\right)^{25}\approx 10^{-15}

и, следовательно, очень маленький. Вероятность ложного срабатывания — это вероятность случайного угадывания правильно все 25 раз.

Менее критичный вариант с c = 10 дает:

P({\text{reject }}H_{0}\mid H_{0}{\text{действителен}})=P\left(X\geq 10\mid p={\frac {1} {4}}\right)=\sum _{k=10}^{25}P\left(X=k\mid p={\frac {1}{4}}\right)=\sum _{k =10}^{25}{\binom {25}{k}}\left(1-{\frac {1}{4}}\right)^{25-k}\left({\frac {1} {4}}\вправо)^{k}\приблизительно 0,0713

Таким образом, c = 10 дает гораздо большую вероятность ложного срабатывания.

Перед фактическим проведением испытания определяется максимально допустимая вероятность ошибки I рода ( α ). Обычно выбираются значения в диапазоне от 1% до 5%. (Если максимально допустимая частота ошибок равна нулю, требуется бесконечное количество правильных предположений.) В зависимости от этой частоты ошибок типа 1 рассчитывается критическое значение c . Например, если мы выберем коэффициент ошибок 1%, c рассчитывается следующим образом:

P({\text{reject }}H_{0}\mid H_{0}{\text{действителен}})=P\left(X\geq c\mid p={\frac {1} {4}}\вправо)\leq 0,01

Из всех чисел с, обладающих этим свойством, выбираем наименьшее, чтобы минимизировать вероятность ошибки II рода, ложноотрицательный результат . Для приведенного выше примера мы выбираем: . $c=13$

Вариации и подклассы

Статистическая проверка гипотез является ключевым методом как частотного вывода , так и байесовского вывода , хотя эти два типа вывода имеют заметные различия. Статистические проверки гипотез определяют процедуру, которая контролирует (исправляет) вероятность неправильного решения о том, что позиция по умолчанию ( нулевая гипотеза ) неверна. Процедура основана на том, насколько вероятно было бы появление набора наблюдений, если бы нулевая гипотеза была верной. Эта вероятность принятия неправильного решения не является вероятностью того, что нулевая гипотеза верна или верна какая-либо конкретная альтернативная гипотеза. Это контрастирует с другими возможными методами теории принятия решений , в которых нулевая и альтернативная гипотезы рассматриваются на более равной основе.

Один из наивных байесовских подходов к проверке гипотез состоит в том, чтобы основывать решения на апостериорной вероятности ^[54]^[55] , но это не работает при сравнении точечных и непрерывных гипотез. Другие подходы к принятию решений, такие как байесовская теория принятия решений , пытаются сбалансировать последствия неправильных решений по всем возможностям, а не концентрироваться на одной нулевой гипотезе. Ряд других подходов к принятию решения на основе данных доступен через теорию принятия решений и оптимальные решения , некоторые из которых обладают желаемыми свойствами. Однако проверка гипотез является доминирующим подходом к анализу данных во многих областях науки. Расширение теории проверки гипотез включает изучение силы тестов , т.е. вероятности правильного отклонения нулевой гипотезы при условии, что она ложна. Такие соображения можно использовать для определения размера выборки до сбора данных.

Проверка гипотезы Неймана – Пирсона

Пример проверки гипотезы Неймана-Пирсона (или проверки статистической значимости нулевой гипотезы) можно представить, изменив пример с радиоактивным чемоданом. Если «чемодан» на самом деле представляет собой экранированный контейнер для перевозки радиоактивного материала, то можно использовать тест для выбора одной из трех гипотез: радиоактивный источник отсутствует, присутствует один, присутствуют два (все). Испытание может потребоваться в целях безопасности, при этом действия необходимы в каждом случае. Лемма Неймана-Пирсона о проверке гипотез гласит, что хорошим критерием выбора гипотез является отношение их вероятностей ( отношение правдоподобия ). Простой метод решения состоит в выборе гипотезы с наибольшей вероятностью наблюдаемых чисел Гейгера. Типичный результат соответствует интуиции: небольшое количество подсчетов подразумевает отсутствие источника, большое количество подсчетов предполагает наличие двух источников, а промежуточные подсчеты подразумевают один источник. Обратите также внимание, что обычно возникают проблемы с доказательством отрицательного результата . Нулевые гипотезы должны быть как минимум фальсифицируемы .

Теория Неймана-Пирсона может учитывать как априорные вероятности, так и стоимость действий, следующих из решений. ^[56] Первый позволяет каждому тесту учитывать результаты предыдущих тестов (в отличие от тестов значимости Фишера). Последнее позволяет учитывать экономические вопросы (например), а также вероятности. Отношение правдоподобия остается хорошим критерием выбора гипотез.

Две формы проверки гипотез основаны на разных формулировках задач. Исходный тест аналогичен вопросу «верно/неверно»; тест Неймана-Пирсона больше похож на множественный выбор. По мнению Тьюки ^[57], первый делает вывод только на основе веских доказательств, тогда как второй принимает решение на основе имеющихся доказательств. Хотя эти два теста кажутся совершенно разными как с математической, так и с философской точки зрения, более поздние разработки привели к противоположному утверждению. Рассмотрим множество крошечных радиоактивных источников. Гипотезы становятся 0,1,2,3... песчинками радиоактивного песка. Существует небольшая разница между отсутствием радиации или некоторым количеством радиации (Фишер) и нулевым количеством песчинок радиоактивного песка по сравнению со всеми альтернативами (Нейман-Пирсон). В основной статье Неймана-Пирсона 1933 г. ^[4] также рассматривались составные гипотезы (распределение которых включает неизвестный параметр). На примере доказана оптимальность t -критерия (Студента), «лучшего теста для рассматриваемой гипотезы не может быть» (стр. 321). Теория Неймана-Пирсона с самого начала доказывала оптимальность методов Фишера.

Проверка значимости Фишера оказалась популярным гибким статистическим инструментом с небольшим математическим потенциалом роста. Проверка гипотез Неймана-Пирсона считается основой математической статистики ^[58] , создавая новую парадигму в этой области. Это также стимулировало новые применения в статистическом управлении процессами , теории обнаружения , теории принятия решений и теории игр . Обе формулировки оказались успешными, но успехи носили разный характер.

Спор по формулировкам не разрешен. Наука в основном использует формулировку Фишера (слегка измененную), как она преподается во вводной статистике. Статистики изучают теорию Неймана-Пирсона в аспирантуре. Математики гордятся объединением формулировок. Философы рассматривают их отдельно. Ученые считают, что эти формулировки могут быть конкурирующими (Фишер против Неймана), несовместимыми ^[2] или дополняющими друг друга. ^[6] Спор стал более сложным, поскольку байесовский вывод стал респектабельным.

Терминология противоречива. Проверка гипотезы может означать любую смесь двух формулировок, каждая из которых изменилась со временем. Любое обсуждение проверки значимости и проверки гипотез вдвойне подвержено путанице.

Фишер считал, что проверка гипотез является полезной стратегией для осуществления промышленного контроля качества, однако он категорически не соглашался с тем, что проверка гипотез может быть полезна для ученых. ^[3] Проверка гипотез обеспечивает средства поиска статистических данных, используемых при проверке значимости. ^[6] Концепция мощности полезна для объяснения последствий корректировки уровня значимости и широко используется при определении размера выборки . Эти два метода остаются философски разными. ^[8] Обычно (но не всегда ) они дают один и тот же математический ответ. Предпочтительный ответ зависит от контекста. ^[6] Хотя существующее слияние теорий Фишера и Неймана-Пирсона подверглось резкой критике, рассматривалась возможность модификации слияния для достижения байесовских целей. ^[59]

Критика

Критика проверки статистических гипотез заполняет тома. ^[60]^[61]^[62]^[63]^[64]^[65] Большую часть критики можно резюмировать следующими вопросами:

Интерпретация значения p зависит от правила остановки и определения множественного сравнения. Первое часто меняется в ходе исследования, а второе неизбежно неоднозначно. (т.е. «значения p зависят как от наблюдаемых (данных), так и от других возможных (данных), которые могли бы наблюдаться, но не наблюдались»). ^[66]
Путаница, возникающая (частично) из-за объединения концептуально различных методов Фишера и Неймана-Пирсона. ^[57]
Акцент на статистической значимости, исключая оценку и подтверждение повторными экспериментами. ^[67]
Жесткое требование статистической значимости в качестве критерия публикации, что приводит к предвзятости публикации . ^[68] Большая часть критики носит косвенный характер. Вместо того, чтобы быть ошибочным, проверка статистической гипотезы неправильно понимается, злоупотребляется и используется неправильно.
При использовании для определения наличия различий между группами возникает парадокс. Поскольку в план эксперимента вносятся улучшения (например, повышается точность измерений и размер выборки), тест становится более мягким. Если не принять абсурдное предположение, что все источники шума в данных полностью компенсируются, вероятность найти статистическую значимость в любом направлении приближается к 100%. ^[69] Однако это абсурдное предположение о том, что средняя разница между двумя группами не может быть нулевой, подразумевает, что данные не могут быть независимыми и одинаково распределенными (iid), поскольку ожидаемая разница между любыми двумя подгруппами iid случайных величин равна нулю; следовательно, предположение iid также абсурдно.
Слои философских проблем. Вероятность статистической значимости является функцией решений, принятых экспериментаторами/аналитиками. ^[70] Если решения основаны на соглашении, их называют произвольными или бессмысленными ^[71] , тогда как решения, не основанные на этом, можно назвать субъективными. Чтобы свести к минимуму ошибки второго рода, рекомендуется использовать большие выборки. В психологии практически все нулевые гипотезы считаются ложными для достаточно больших выборок, поэтому «... обычно бессмысленно проводить эксперимент с единственной целью отвергнуть нулевую гипотезу». ^[72] «Статистически значимые результаты часто вводят в заблуждение» в психологии. ^[73] Статистическая значимость не подразумевает практическую значимость, а корреляция не подразумевает причинно-следственную связь . Ставить под сомнение нулевую гипотезу, таким образом, далеко от прямого подтверждения исследовательской гипотезы.
«[Я] не говорит нам того, что мы хотим знать». ^[74] Доступны списки из десятков жалоб. ^[64]^[75]^[76]

Критики и сторонники в основном сходятся во мнении относительно характеристик проверки значимости нулевой гипотезы (NHST): хотя она может предоставить критическую информацию, она неадекватна в качестве единственного инструмента статистического анализа . Успешное отклонение нулевой гипотезы может не поддержать исследовательскую гипотезу. Продолжающиеся споры касаются выбора лучших статистических практик на ближайшую перспективу с учетом существующих практик. Однако адекватный дизайн исследования может свести к минимуму эту проблему. Критики предпочли бы полностью запретить NHST, что приведет к полному отказу от этой практики, ^[77] в то время как сторонники предлагают менее абсолютные изменения. ^{[ нужна цитата ]}

Споры по поводу проверки значимости и, в частности, ее влияния на предвзятость публикаций привели к нескольким результатам. Американская психологическая ассоциация ужесточила свои требования к статистической отчетности после проверки, ^{[78] издатели} медицинских журналов признали обязанность публиковать некоторые результаты, которые не являются статистически значимыми для борьбы с предвзятостью публикации, ^[79] и журнал ( Journal of Articles in Support of Нулевая гипотеза ) была создана исключительно для публикации таких результатов. ^[80] В учебники добавлены некоторые предостережения, ^[81] и расширено освещение инструментов, необходимых для оценки размера выборки, необходимой для получения значимых результатов. Лишь немногие крупные организации отказались от использования тестов значимости, хотя некоторые обсуждали это. ^[78] Например, в 2023 году редакторы журнала « Физиология» «настоятельно рекомендуют использовать методы оценки тем, кто публикуется в журнале» (имеется в виду величина эффекта ( чтобы позволить читателям судить, имеет ли вывод практическое значение). (физиологическая или клиническая значимость) и доверительные интервалы , чтобы передать точность этой оценки), говоря: «В конечном счете, тех, кто публикует в «Журнале физиологии», должна больше всего интересовать физиологическая значимость данных, а не статистическая значимость. ." ^[82]

Альтернативы

Объединяющая позиция критиков заключается в том, что статистика должна приводить не к выводу или решению «принять-отклонить», а к оценочному значению с интервальной оценкой ; Эта философия анализа данных широко называется оценочной статистикой . Статистика оценки может быть получена с помощью частотного [1] или байесовского метода. ^[83]^[84]

Критики проверки значимости выступают за то, чтобы выводы основывались не столько на p-значениях, сколько на доверительных интервалах для величины эффекта по важности, интервалах прогнозирования для уверенности, повторениях и расширениях для воспроизводимости, метаанализе для общности: ^[85] . Но ни одна из этих предложенных альтернатив по своей сути не приводит к решению. Леманн сказал, что теория проверки гипотез может быть представлена в терминах выводов/решений, вероятностей или доверительных интервалов: «Различие между... подходами во многом заключается в сообщении и интерпретации». ^[23]

Байесовский вывод является одной из предлагаемых альтернатив проверке значимости. (Никерсон процитировал 10 источников, предполагающих это, включая Розебума (1960)). ^[75] Например, оценка байесовских параметров может предоставить обширную информацию о данных, из которой исследователи могут сделать выводы, используя при этом неопределенные априорные данные , которые оказывают лишь минимальное влияние на результаты, когда доступно достаточно данных. Психолог Джон К. Крушке предложил байесовскую оценку в качестве альтернативы t -тесту ^[83] , а также противопоставил байесовскую оценку для оценки нулевых значений сравнению байесовской модели для проверки гипотез. ^[84] Две конкурирующие модели/гипотезы можно сравнить с использованием факторов Байеса . ^[86] Байесовские методы можно критиковать за то, что они требуют информации, которая редко доступна в тех случаях, когда проверка значимости используется наиболее интенсивно. Ни априорные вероятности, ни распределение вероятностей тестовой статистики согласно альтернативной гипотезе часто недоступны в социальных науках. ^[75]

Сторонники байесовского подхода иногда утверждают, что целью исследователя чаще всего является объективная оценка вероятности того, что гипотеза верна, на основе собранных им данных. ^[87]^[88] Ни проверка значимости Фишера, ни проверка гипотезы Неймана-Пирсона не могут предоставить эту информацию и не претендуют на это. Вероятность того, что гипотеза верна, может быть получена только на основе использования теоремы Байеса , которая была неудовлетворительной как для лагеря Фишера, так и для лагеря Неймана-Пирсона из-за явного использования субъективности в форме априорной вероятности . ^[4]^[89] Стратегия Фишера состоит в том, чтобы обойти это с помощью p -значения (объективного индекса , основанного только на данных) с последующим индуктивным выводом , в то время как Нейман-Пирсон разработали свой подход индуктивного поведения .

Смотрите также

дальнейшее чтение

Леманн Э.Л. (1992) «Введение в работу Неймана и Пирсона (1933) О проблеме наиболее эффективных проверок статистических гипотез». В: Прорывы в статистике, Том 1 , (Эдс Коц, С., Джонсон, Н.Л.), Springer-Verlag. ISBN 0-387-94037-5 (с последующим переизданием статьи)
Нейман, Дж.; Пирсон, ES (1933). «К проблеме наиболее эффективной проверки статистических гипотез». Философские труды Королевского общества А. 231 (694–706): 289–337. Бибкод : 1933RSPTA.231..289N. дои : 10.1098/rsta.1933.0009 .

Внешние ссылки

Викискладе есть медиафайлы, связанные с проверкой гипотез .

В Викиверситете есть учебные ресурсы по проверке статистических гипотез по адресу:

Введение в статистический анализ/Содержание модуля 5

«Статистические гипотезы, проверка», Математическая энциклопедия , EMS Press , 2001 [1994]
Уилсон Гонсалес, Джорджина; Кей Шанкаран (10 сентября 1997 г.). "Проверка гипотезы". Учебное пособие по отбору проб и мониторингу окружающей среды . Вирджинский технологический институт.
Байесовская критика проверки классической гипотезы
Критика проверки классической гипотезы, подчеркивающая давние сомнения статистиков
Даллал GE (2007) Маленький справочник статистической практики (хорошее учебное пособие)
Ссылки на аргументы за и против проверки гипотез.
Обзор статистических тестов: как выбрать правильный статистический тест
[2] Метод проверки гипотез на основе статистического анализа при открытии биологических знаний; Доктор Насиф-Ур-Рахман Чоудхури, Суванкар Пол, Кази Закиа Султана

Онлайн калькуляторы

Калькуляторы доверительного интервала и проверки гипотез MBAStats
Некоторые калькуляторы p-значений и проверки гипотез.