Проверка статистической гипотезы

Проверка статистической гипотезы — это метод статистического вывода, используемый для определения того, достаточно ли данные поддерживают определенную гипотезу. Проверка статистической гипотезы обычно включает в себя расчет статистической характеристики теста . Затем принимается решение либо путем сравнения статистической характеристики теста с критическим значением , либо, что эквивалентно, путем оценки p -значения, вычисленного из статистической характеристики теста. Было определено около 100 специализированных статистических тестов . ^[1]^[2]

История

Хотя проверка гипотез была популяризирована в начале 20-го века, ранние формы использовались в 1700-х годах. Первое использование приписывается Джону Арбетноту (1710), ^[3] за которым последовал Пьер-Симон Лаплас (1770-е годы), при анализе соотношения полов у людей при рождении; см. § Соотношение полов у людей.

Выбор нулевой гипотезы

Пол Мил утверждал, что эпистемологическая важность выбора нулевой гипотезы осталась в значительной степени непризнанной. Когда нулевая гипотеза предсказывается теорией, более точный эксперимент будет более строгой проверкой базовой теории. Когда нулевая гипотеза по умолчанию принимает значение «нет разницы» или «нет эффекта», более точный эксперимент является менее строгой проверкой теории, которая мотивировала проведение эксперимента. ^[4] Поэтому изучение истоков последней практики может быть полезным:

1778: Пьер Лаплас сравнивает рождаемость мальчиков и девочек в нескольких европейских городах. Он утверждает: «естественно заключить, что эти возможности находятся почти в одинаковом соотношении». Таким образом, нулевая гипотеза в этом случае заключается в том, что рождаемость мальчиков и девочек должна быть одинаковой, учитывая «общепринятую точку зрения». ^[5]

1900: Карл Пирсон разрабатывает тест хи-квадрат , чтобы определить, «будет ли данная форма кривой частот эффективно описывать выборки, взятые из данной популяции». Таким образом, нулевая гипотеза заключается в том, что популяция описывается некоторым распределением, предсказанным теорией. В качестве примера он использует числа пятерок и шестерок в данных по броскам игральных костей Уэлдона . ^[6]

1904: Карл Пирсон разрабатывает концепцию « случайности », чтобы определить, являются ли результаты независимыми от заданного категориального фактора. Здесь нулевая гипотеза по умолчанию заключается в том, что две вещи не связаны (например, образование рубцов и уровень смертности от оспы). ^[7] Нулевая гипотеза в этом случае больше не предсказывается теорией или общепринятым мнением, а вместо этого является принципом безразличия , который заставил Фишера и других отказаться от использования «обратных вероятностей». ^[8]

Современное происхождение и ранние споры

Современное тестирование значимости в значительной степени является продуктом Карла Пирсона ( p -значение , критерий хи-квадрат Пирсона ), Уильяма Сили Госсета ( t-распределение Стьюдента ) и Рональда Фишера (« нулевая гипотеза », дисперсионный анализ , « критерий значимости »), в то время как тестирование гипотез было разработано Ежи Нейманом и Эгоном Пирсоном (сыном Карла). Рональд Фишер начал свою жизнь в статистике как байесианец (Zabell 1992), но Фишер вскоре разочаровался в вовлеченной субъективности (а именно в использовании принципа безразличия при определении априорных вероятностей) и стремился обеспечить более «объективный» подход к индуктивному выводу. ^[9]

Фишер подчеркивал строгий экспериментальный дизайн и методы извлечения результата из нескольких образцов, предполагая гауссовские распределения . Нейман (который объединился с младшим Пирсоном) подчеркивал математическую строгость и методы получения большего количества результатов из многих образцов и более широкого диапазона распределений. Современная проверка гипотез представляет собой противоречивый гибрид формулировки Фишера против Неймана/Пирсона, методов и терминологии, разработанных в начале 20-го века.

Фишер популяризировал «тест значимости». Он требовал нулевой гипотезы (соответствующей распределению частот популяции) и выборки. Его (теперь уже знакомые) вычисления определяли, следует ли отвергать нулевую гипотезу или нет. Тест значимости не использовал альтернативную гипотезу, поэтому не было понятия ошибки типа II (ложноотрицательной).

Значение p было разработано как неформальный, но объективный индекс, призванный помочь исследователю определить (на основе других знаний), следует ли модифицировать будущие эксперименты или укрепить веру в нулевую гипотезу. ^{[10] Проверка гипотез (и ошибок типа I/II) была разработана Нейманом и Пирсоном как более объективная альтернатива значению}p Фишера , также призванная определять поведение исследователя, но не требующая от исследователя никаких индуктивных выводов . ^[11]^[12]

Нейман и Пирсон рассматривали другую проблему, нежели Фишер (которую они назвали «проверкой гипотез»). Сначала они рассматривали две простые гипотезы (обе с частотными распределениями). Они вычисляли две вероятности и обычно выбирали гипотезу, связанную с более высокой вероятностью (гипотеза, которая с большей вероятностью сгенерировала выборку). Их метод всегда выбирал гипотезу. Он также позволял вычислять оба типа вероятностей ошибок.

Фишер и Нейман/Пирсон ожесточенно схлестнулись. Нейман/Пирсон считали, что их формулировка является улучшенным обобщением проверки значимости (определяющая статья ^[11] была абстрактной ; математики обобщали и совершенствовали теорию в течение десятилетий ^[13] ). Фишер считал, что она неприменима к научным исследованиям, поскольку часто в ходе эксперимента обнаруживается, что первоначальные предположения о нулевой гипотезе сомнительны из-за неожиданных источников ошибок. Он считал, что использование жестких решений отклонить/принять, основанных на моделях, сформулированных до сбора данных, несовместимо с этим распространенным сценарием, с которым сталкиваются ученые, и попытки применить этот метод к научным исследованиям приведут к массовой путанице. ^[14]

Спор между Фишером и Нейманом-Пирсоном велся на философской почве, характеризуемой философом как спор о надлежащей роли моделей в статистическом выводе. ^[15]

События вмешались: Нейман принял должность в Калифорнийском университете в Беркли в 1938 году, разорвав свое партнерство с Пирсоном и разделив спорящих (которые занимали одно и то же здание). Вторая мировая война дала перерыв в дебатах. Спор между Фишером и Нейманом прекратился (неразрешенным после 27 лет) со смертью Фишера в 1962 году. Нейман написал хорошо принятую панегирик. ^[16] Некоторые из более поздних публикаций Неймана сообщали о p -значениях и уровнях значимости. ^[17]

Современная версия проверки гипотез представляет собой гибрид двух подходов, возникших из-за путаницы, возникшей у авторов статистических учебников (как и предсказывал Фишер) начиная с 1940-х годов ^[18] (но обнаружение сигнала , например, все еще использует формулировку Неймана/Пирсона). Большие концептуальные различия и множество оговорок в дополнение к упомянутым выше были проигнорированы. Нейман и Пирсон предоставили более сильную терминологию, более строгую математику и более последовательную философию, но предмет, преподаваемый сегодня во вводной статистике, имеет больше сходств с методом Фишера, чем их. ^[19]

Где-то около 1940 года ^[18] авторы статистических учебников начали объединять два подхода, используя p -значение вместо тестовой статистики (или данных) для проверки на соответствие «уровню значимости» Неймана–Пирсона.

Философия

Проверка гипотез и философия пересекаются. Выводная статистика , которая включает проверку гипотез, является прикладной вероятностью. И вероятность, и ее применение переплетены с философией. Философ Дэвид Юм писал: «Все знания вырождаются в вероятность». Конкурирующие практические определения вероятности отражают философские различия. Наиболее распространенное применение проверки гипотез — научная интерпретация экспериментальных данных, которая естественным образом изучается философией науки .

Фишер и Нейман выступали против субъективности вероятности. Их взгляды способствовали объективным определениям. Суть их исторического разногласия была философской.

Многие из философских критических замечаний по поводу проверки гипотез обсуждаются статистиками в других контекстах, в частности, корреляция не подразумевает причинно-следственную связь и планирование экспериментов . Проверка гипотез продолжает вызывать интерес у философов. ^[15]^[20]

Образование

Статистика все чаще преподается в школах, и проверка гипотез является одним из преподаваемых элементов. ^[21]^[22] Многие выводы, опубликованные в популярной прессе (от политических опросов общественного мнения до медицинских исследований), основаны на статистике. Некоторые авторы заявляют, что статистический анализ такого рода позволяет ясно мыслить о проблемах, связанных с массовыми данными, а также эффективно сообщать о тенденциях и выводах из этих данных, но предупреждают, что авторы для широкой публики должны иметь твердое понимание этой области, чтобы правильно использовать термины и концепции. ^[23]^[24] Вводный курс статистики в колледже уделяет большое внимание проверке гипотез – возможно, половине курса. Такие области, как литература и богословие, теперь включают выводы, основанные на статистическом анализе (см. Bible Analyzer ). Вводный курс статистики обучает проверке гипотез как процессу кулинарной книги. Проверка гипотез также преподается на уровне аспирантуры. Статистики учатся создавать хорошие статистические процедуры тестирования (такие как z , t Стьюдента , F и хи-квадрат). Статистическая проверка гипотез считается зрелой областью статистики ^[25] , но ее развитие еще не завершено.

В академическом исследовании говорится, что метод кулинарной книги для преподавания вводной статистики не оставляет времени на историю, философию или споры. Проверка гипотез преподавалась как полученный унифицированный метод. Опросы показали, что выпускники класса были полны философских заблуждений (по всем аспектам статистического вывода), которые сохранялись среди преподавателей. ^[26] Хотя проблема была решена более десяти лет назад, ^[27] и призывы к образовательной реформе продолжаются, ^[28] студенты по-прежнему заканчивают курсы статистики, имея фундаментальные заблуждения о проверке гипотез. ^[29] Идеи по улучшению преподавания проверки гипотез включают поощрение студентов к поиску статистических ошибок в опубликованных работах, преподавание истории статистики и подчеркивание противоречий в в целом сухом предмете. ^[30]

Проведение проверки частотной гипотезы на практике

Типичные этапы проведения проверки частотной гипотезы на практике:

Определите гипотезу (утверждение, которое можно проверить с помощью данных).
Выберите соответствующий статистический тест с соответствующей тестовой статистикой T.
Выведите распределение тестовой статистики при нулевой гипотезе из предположений. В стандартных случаях это будет хорошо известный результат. Например, тестовая статистика может следовать распределению Стьюдента с известными степенями свободы или нормальному распределению с известным средним значением и дисперсией.
Выберите уровень значимости ( α ), максимально допустимый уровень ложных срабатываний . Обычные значения — 5% и 1%.
Вычислите из наблюдений наблюдаемое значение t _obs тестовой статистики T .
Решите, следует ли отвергнуть нулевую гипотезу в пользу альтернативы или не отвергать ее. Правило принятия решения Неймана-Пирсона заключается в том, чтобы отвергнуть нулевую гипотезу H _{0 ,} если наблюдаемое значение t _obs находится в критической области, и не отвергать нулевую гипотезу в противном случае. ^[31]

Практический пример

Разница в двух процессах, применяемых к примеру с радиоактивным чемоданом (ниже):

«Показания счетчика Гейгера — 10. Предел — 9. Проверьте чемодан».
«Показания счетчика Гейгера высокие; 97% безопасных чемоданов имеют более низкие показания. Предел — 95%. Проверьте чемодан».

Первый отчет является адекватным, второй дает более подробное объяснение данных и причины, по которой чемодан подвергается проверке.

Неотклонение нулевой гипотезы не означает, что нулевая гипотеза «принята» как таковая (хотя Нейман и Пирсон использовали это слово в своих оригинальных работах; см. раздел «Интерпретация»).

Описанные здесь процессы вполне адекватны для вычислений. Они серьезно пренебрегают соображениями дизайна экспериментов . ^[32]^[33]

Особенно важно оценить соответствующие размеры выборки перед проведением эксперимента.

Термин «тест значимости» был придуман статистиком Рональдом Фишером . ^[34]

Интерпретация

Когда нулевая гипотеза верна и статистические предположения выполняются, вероятность того, что p-значение будет меньше или равно уровню значимости, составляет не более . Это гарантирует, что проверка гипотезы сохранит указанный уровень ложноположительных результатов (при условии выполнения статистических предположений). ^[35] $\альфа$ $\альфа$

Значение p - это вероятность того, что тестовая статистика, которая по крайней мере столь же экстремальна, как полученная, будет иметь место при нулевой гипотезе. При уровне значимости 0,05 можно ожидать, что честная монета (неправильно) отвергнет нулевую гипотезу (что она честная) в среднем в 1 из 20 тестов. Значение p не обеспечивает вероятность того, что либо нулевая гипотеза, либо ее противоположность верны (частый источник путаницы). ^[36]

Если p -значение меньше выбранного порога значимости (эквивалентно, если наблюдаемая статистика теста находится в критической области), то мы говорим, что нулевая гипотеза отвергается на выбранном уровне значимости. Если p -значение не меньше выбранного порога значимости (эквивалентно, если наблюдаемая статистика теста находится за пределами критической области), то нулевая гипотеза не отвергается на выбранном уровне значимости.

В примере «леди, пробующей чай» (ниже) Фишер потребовал от леди правильно классифицировать все чашки чая, чтобы обосновать вывод о том, что результат вряд ли является результатом случайности. Его тест показал, что если леди фактически угадывала наугад (нулевая гипотеза), то вероятность того, что наблюдаемые результаты (идеально упорядоченный чай) будут получены, составляет 1,4%.

Использование и важность

Статистика полезна при анализе большинства наборов данных. Это в равной степени относится к проверке гипотез, которая может обосновать выводы, даже если не существует научной теории. В примере с леди, дегустирующей чай, было «очевидно», что не существует никакой разницы между (молоко, налитое в чай) и (чай, налитый в молоко). Данные противоречили «очевидному».

Реальные приложения проверки гипотез включают: ^[37]

Тестирование того, страдают ли мужчины от кошмаров чаще, чем женщины
Установление авторства документов
Оценка влияния полнолуния на поведение
Определение расстояния, на котором летучая мышь может обнаружить насекомое с помощью эха
Как решить, приводит ли ковровое покрытие в больнице к большему количеству инфекций
Выбор лучшего средства, чтобы бросить курить
Проверка того, отражают ли наклейки на бампере поведение владельца автомобиля
Проверка утверждений экспертов-графологов

Статистическая проверка гипотез играет важную роль во всей статистике и в статистическом выводе . Например, Леманн (1992) в обзоре фундаментальной статьи Неймана и Пирсона (1933) говорит: «Тем не менее, несмотря на свои недостатки, новая парадигма, сформулированная в статье 1933 года, и многочисленные разработки, проведенные в ее рамках, продолжают играть центральную роль как в теории, так и в практике статистики, и можно ожидать, что они будут делать это в обозримом будущем».

Проверка значимости была излюбленным статистическим инструментом в некоторых экспериментальных социальных науках (более 90% статей в журнале « Прикладная психология» в начале 1990-х годов). ^[38] Другие области отдавали предпочтение оценке параметров (например, размера эффекта ). Проверка значимости используется в качестве замены традиционному сравнению прогнозируемого значения и экспериментального результата в основе научного метода . Когда теория способна предсказать только знак связи, направленная (односторонняя) проверка гипотезы может быть настроена таким образом, чтобы только статистически значимый результат подтверждал теорию. Эта форма оценки теории является наиболее критикуемым применением проверки гипотез.

Предостережения

«Если бы правительство потребовало, чтобы статистические процедуры содержали предупреждающие надписи, подобные тем, что есть на лекарственных препаратах, большинство методов вывода действительно имели бы длинные надписи». ^[39] Это предостережение относится к проверкам гипотез и альтернативным им методам.

Успешная проверка гипотезы связана с вероятностью и частотой ошибок типа I. Вывод может быть неверным.

Вывод теста настолько же надежен, насколько надежен образец, на котором он основан. Дизайн эксперимента имеет решающее значение. Было обнаружено несколько неожиданных эффектов, в том числе:

Эффект умного Ганса . Лошадь, похоже, способна выполнять простые арифметические действия.
Эффект Хоторна . Промышленные рабочие были более производительны при лучшем освещении и наиболее производительны при худшем.
Эффект плацебо . Таблетки без медицинских активных ингредиентов оказались необычайно эффективными.

Статистический анализ вводящих в заблуждение данных приводит к вводящим в заблуждение выводам. Вопрос качества данных может быть более тонким. Например, в прогнозировании нет согласия относительно меры точности прогноза. При отсутствии консенсусного измерения ни одно решение, основанное на измерениях, не будет без противоречий.

Ошибка публикации: статистически незначимые результаты с меньшей вероятностью будут опубликованы, что может привести к смещению литературы.

Множественное тестирование: Когда одновременно проводятся множественные проверки истинной нулевой гипотезы без корректировки, общая вероятность ошибки типа I выше номинального уровня альфа. ^[40]

Те, кто принимает критические решения на основе результатов проверки гипотез, благоразумно смотрят на детали, а не только на выводы. В физических науках большинство результатов полностью принимаются только после независимого подтверждения. Общий совет относительно статистики: «Цифры никогда не лгут, но лжецы — цифры» (аноним).

Определение терминов

Следующие определения в основном основаны на изложении в книге Леманна и Романо: ^[35]

Статистическая гипотеза : утверждение о параметрах, описывающих популяцию (не выборку ).
Тестовая статистика: значение, рассчитанное по выборке без каких-либо неизвестных параметров, часто для обобщения выборки в целях сравнения.
Простая гипотеза : Любая гипотеза, которая полностью определяет распределение популяции.
Составная гипотеза: Любая гипотеза, которая не определяет полностью распределение популяции.
Нулевая гипотеза (H ₀ )
Положительные данные: данные, которые позволяют исследователю отвергнуть нулевую гипотезу.
Альтернативная гипотеза (H ₁ )

Критические значения sстатистического теста являются границами области принятия теста.^[41]Область принятия — это набор значений статистики теста, для которых нулевая гипотеза не отвергается. В зависимости от формы области принятия может быть одно или более одного критического значения.
- Область отторжения /Критическая область : набор значений тестовой статистики, для которых нулевая гипотеза отвергается.
Мощность теста (1 − β )
Размер : Для простых гипотез это вероятность теста неправильно отвергнуть нулевую гипотезу. Ложноположительный процент. Для сложных гипотез это супремум вероятности отвергнуть нулевую гипотезу по всем случаям, охватываемым нулевой гипотезой. Дополнение ложноположительного процента называется специфичностью в биостатистике . («Это специфический тест. Поскольку результат положительный, мы можем с уверенностью сказать, что у пациента есть это заболевание».) См. чувствительность и специфичность , а также ошибки типа I и типа II для исчерпывающих определений.
Уровень значимости теста ( α)
p -значение
Статистическая значимость теста : предшественник статистического теста гипотез (см. раздел «Истоки»). Экспериментальный результат считалсястатистически значимым,если выборка была достаточно несовместима с (нулевой) гипотезой. Это по-разному считалось здравым смыслом, прагматической эвристикой для выявления значимых экспериментальных результатов, соглашением, устанавливающим порог статистических доказательств, или методом для вывода выводов из данных. Статистический тест гипотез добавил математическую строгость и философскую последовательность концепции, сделав альтернативную гипотезу явной. Этот термин свободно используется для современной версии, которая теперь является частью статистической проверки гипотез.
Консервативный тест: Тест является консервативным, если при построении для заданного номинального уровня значимости истинная вероятность неправильного отклонения нулевой гипотезы никогда не превышает номинального уровня.
Точный тест

Статистическая проверка гипотезы сравнивает статистику теста ( например, z или t ) с порогом. Статистика теста (формула, приведенная в таблице ниже) основана на оптимальности. Для фиксированного уровня частоты ошибок типа I использование этой статистики минимизирует частоту ошибок типа II (что эквивалентно максимизации мощности). Следующие термины описывают тесты с точки зрения такой оптимальности:

Самый мощный тест: для заданного размера или уровня значимости тест с наибольшей мощностью (вероятностью отклонения) для заданного значения проверяемого параметра(ов), содержащегося в альтернативной гипотезе.
Единообразный наиболее мощный тест (UMP)

Непараметрическая проверка гипотез методом бутстрепа

Методы повторной выборки на основе бутстрапа могут использоваться для проверки нулевой гипотезы. Бутстрап создает многочисленные смоделированные выборки путем случайной повторной выборки (с заменой) исходных объединенных данных выборки, предполагая, что нулевая гипотеза верна. Бутстрап очень универсален, поскольку он свободен от распределения и не полагается на ограничительные параметрические предположения, а скорее на эмпирические приближенные методы с асимптотическими гарантиями. Традиционные параметрические проверки гипотез более эффективны в вычислительном отношении, но делают более сильные структурные предположения. В ситуациях, когда вычисление вероятности тестовой статистики при нулевой гипотезе сложно или невозможно (из-за, возможно, неудобства или отсутствия знаний о базовом распределении), бутстрап предлагает жизнеспособный метод для статистического вывода. ^[42]^[43]^[44]^[45]

Примеры

Соотношение полов у людей

Самое раннее применение проверки статистических гипотез обычно приписывают вопросу о том, одинаково ли вероятно рождение мальчиков и девочек (нулевая гипотеза), который рассматривался в 1700-х годах Джоном Арбетнотом (1710) ^[46] , а позднее Пьером-Симоном Лапласом (1770-е годы) ^[47] .

Арбутнот изучил записи о рождении в Лондоне за каждый из 82 лет с 1629 по 1710 год и применил тест знаков , простой непараметрический тест . ^[48]^[49]^[50] В каждом году число мужчин, рожденных в Лондоне, превышало число женщин. Если считать большее количество рождений мужчин или большее количество рождений женщин равновероятными, вероятность наблюдаемого результата составляет 0,5 ⁸² , или около 1 из 4 836 000 000 000 000 000 000 000; в современных терминах это p -значение. Арбутнот пришел к выводу, что это слишком мало, чтобы быть следствием случайности, и вместо этого должно быть следствием божественного провидения: «Откуда следует, что правит Искусство, а не Случай». В современных терминах он отверг нулевую гипотезу о равной вероятности рождений мужчин и женщин на уровне значимости p = 1/2 ⁸² .

Лаплас рассмотрел статистику почти полумиллиона рождений. Статистика показала избыток мальчиков по сравнению с девочками. ^[5]^[51] Он пришел к выводу, вычислив p -значение, что избыток был реальным, но необъяснимым эффектом. ^[52]

Дама пробует чай

В известном примере проверки гипотез, известном как « Дама, дегустирующая чай » ^[53], доктор Мюриэль Бристоль , коллега Фишера, утверждала, что может определить, что было добавлено в чашку первым — чай или молоко. Фишер предложил дать ей восемь чашек, по четыре каждого сорта, в случайном порядке. Затем можно было спросить, какова вероятность того, что она правильно назовет число, но только случайно. Нулевая гипотеза заключалась в том, что у Дамы такой способности не было. Статистика теста представляла собой простой подсчет количества успехов в выборе 4 чашек. Критическая область представляла собой единственный случай 4 успехов из 4 возможных на основе обычного критерия вероятности (< 5%). Модель из 4 успехов соответствует 1 из 70 возможных комбинаций (p ≈ 1,4%). Фишер утверждал, что никакая альтернативная гипотеза (никогда) не требовалась. Дама правильно идентифицировала каждую чашку, ^[54], что можно было бы считать статистически значимым результатом.

Судебное разбирательство

Статистическая процедура проверки сравнима с уголовным судом ; обвиняемый считается невиновным, пока его вина не доказана. Прокурор пытается доказать вину обвиняемого. Только при наличии достаточных доказательств для обвинения обвиняемый осуждается.

В начале процедуры есть две гипотезы : «подсудимый не виновен» и «подсудимый виновен». Первая, , называется нулевой гипотезой . Вторая, , называется альтернативной гипотезой . Это альтернативная гипотеза, которую надеются поддержать. $H_{0}$ $H_{1}$ $H_{0}$ $H_{1}$

Гипотеза невиновности отвергается только тогда, когда ошибка крайне маловероятна, поскольку не хочется осуждать невиновного подсудимого. Такая ошибка называется ошибкой первого рода (т. е. осуждение невиновного), и возникновение этой ошибки контролируется так, чтобы быть редким. Вследствие этого асимметричного поведения ошибка второго рода (оправдание человека, совершившего преступление) встречается чаще.

Уголовный процесс можно рассматривать как один или оба из двух процессов принятия решений: виновный против невиновного или доказательства против порога («вне разумного сомнения»). С одной стороны, судят обвиняемого; с другой стороны, судят эффективность обвинения (которое несет бремя доказывания). Проверка гипотезы может рассматриваться либо как суждение гипотезы, либо как суждение доказательств.

Философские бобы

Следующий пример был приведен философом, описывающим научные методы за несколько поколений до того, как проверка гипотез была формализована и популяризирована. ^[55]

Несколько бобов в этой горсти белые.
Большинство бобов в этом мешке белые.
Следовательно: Вероятно, эти бобы были взяты из другого мешка.
Это гипотетический вывод.

Бобы в мешке — это популяция. Горсть — это выборка. Нулевая гипотеза заключается в том, что выборка произошла из популяции. Критерием отклонения нулевой гипотезы является «очевидное» различие во внешнем виде (неформальное различие в среднем). Интересный результат заключается в том, что рассмотрение реальной популяции и реальной выборки дало воображаемый мешок. Философ рассматривал логику, а не вероятность. Чтобы быть настоящим статистическим тестом гипотезы, этот пример требует формальностей расчета вероятности и сравнения этой вероятности со стандартом.

Простое обобщение примера рассматривает смешанный мешок фасоли и горсть, которая содержит либо очень мало, либо очень много белой фасоли. Обобщение рассматривает обе крайности. Оно требует больше вычислений и больше сравнений, чтобы прийти к формальному ответу, но основная философия неизменна; если состав горсти сильно отличается от состава мешка, то образец, вероятно, произошел из другого мешка. Исходный пример называется односторонним или односторонним тестом, в то время как обобщение называется двусторонним или двухсторонним тестом.

Утверждение также опирается на вывод о том, что выборка была случайной. Если бы кто-то рылся в мешке, чтобы найти белую фасоль, то это объяснило бы, почему в горсти было так много белой фасоли, а также объяснило бы, почему количество белой фасоли в мешке было исчерпано (хотя мешок, вероятно, предполагается намного большим, чем рука).

Ясновидящая карточная игра

Человек (субъект) проходит тест на ясновидение . Ему показывают оборотную сторону случайно выбранной игральной карты 25 раз и спрашивают, к какой из четырех мастей она принадлежит. Количество попаданий, или правильных ответов, называется X.

Поскольку мы пытаемся найти доказательства их ясновидения, на данный момент нулевая гипотеза заключается в том, что человек не является ясновидящим. ^[56] Альтернатива такова: человек (более или менее) ясновидящий.

Если нулевая гипотеза верна, единственное, что может сделать испытуемый, — это угадать. Для каждой карты вероятность (относительная частота) появления любой одной масти составляет 1/4. Если альтернатива верна, испытуемый правильно предскажет масть с вероятностью, большей 1/4. Мы назовем вероятность правильного угадывания p . Таким образом, гипотезы таковы:

нулевая гипотеза (просто предположение) ${\text{:}}\qquad H_{0}:p={\tfrac {1}{4}}$

альтернативная гипотеза (истинный ясновидящий). ${\text{:}}H_{1}:p>{\tfrac {1}{4}}$

Когда испытуемый правильно предсказывает все 25 карт, мы будем считать его ясновидящим и отвергнем нулевую гипотезу. То же самое и с 24 или 23 попаданиями. С другой стороны, при 5 или 6 попаданиях нет причин считать их таковыми. Но что насчет 12 попаданий или 17 попаданий? Каково критическое число, c , попаданий, при котором мы считаем испытуемого ясновидящим? Как мы определяем критическое значение c ? При выборе c = 25 (т. е. мы принимаем ясновидение только тогда, когда все карты предсказаны правильно) мы более критичны, чем при c = 10. В первом случае почти ни один испытуемый не будет признан ясновидящим, во втором случае определенное число пройдет тест. На практике человек решает, насколько он будет критичным. То есть он решает, как часто он принимает ошибку первого рода – ложноположительную или ошибку типа I. При c = 25 вероятность такой ошибки равна:

P({\text{отклонить}}H_{0}\mid H_{0}{\text{ допустимо}})=P\left(X=25\mid p={\frac {1}{4}}\right)=\left({\frac {1}{4}}\right)^{25}\approx 10^{-15}

и, следовательно, очень мала. Вероятность ложного положительного результата — это вероятность случайного угадывания правильно все 25 раз.

Менее критично, при c = 10, получаем:

P({\text{отклонить}}H_{0}\mid H_{0}{\text{ допустимо}})=P\left(X\geq 10\mid p={\frac {1}{4}}\right)=\sum _{k=10}^{25}P\left(X=k\mid p={\frac {1}{4}}\right)=\sum _{k=10}^{25}{\binom {25}{k}}\left(1-{\frac {1}{4}}\right)^{25-k}\left({\frac {1}{4}}\right)^{k}\approx 0.0713

Таким образом, c = 10 дает гораздо большую вероятность ложноположительного результата.

Перед тем, как тест будет фактически выполнен, определяется максимально допустимая вероятность ошибки типа I ( α ). Обычно выбираются значения в диапазоне от 1% до 5%. (Если максимально допустимая частота ошибок равна нулю, требуется бесконечное количество правильных догадок.) В зависимости от этой частоты ошибок типа 1 вычисляется критическое значение c . Например, если мы выбираем частоту ошибок 1%, c вычисляется следующим образом:

P({\text{отклонить}}H_{0}\mid H_{0}{\text{ допустимо}})=P\left(X\geq c\mid p={\frac {1}{4}}\right)\leq 0.01

Из всех чисел c, обладающих этим свойством, выбираем наименьшее, чтобы минимизировать вероятность ошибки II типа, ложноотрицательного . Для приведенного выше примера выбираем: . $c=13$

Вариации и подклассы

Статистическая проверка гипотез является ключевым методом как частотного вывода , так и байесовского вывода , хотя эти два типа вывода имеют заметные различия. Статистические проверки гипотез определяют процедуру, которая контролирует (фиксирует) вероятность неправильного решения о том, что позиция по умолчанию ( нулевая гипотеза ) неверна. Процедура основана на том, насколько вероятно, что набор наблюдений произойдет, если нулевая гипотеза будет верна. Эта вероятность принятия неправильного решения не является вероятностью того, что нулевая гипотеза верна, и не является ли какая-либо конкретная альтернативная гипотеза верной. Это контрастирует с другими возможными методами теории принятия решений , в которых нулевая и альтернативная гипотезы рассматриваются на более равной основе.

Один наивный байесовский подход к проверке гипотез заключается в том, чтобы основывать решения на апостериорной вероятности , ^[57]^[58], но это не работает при сравнении точечных и непрерывных гипотез. Другие подходы к принятию решений, такие как байесовская теория принятия решений , пытаются сбалансировать последствия неверных решений по всем возможностям, а не концентрироваться на одной нулевой гипотезе. Ряд других подходов к принятию решения на основе данных доступны через теорию принятия решений и оптимальные решения , некоторые из которых обладают желаемыми свойствами. Проверка гипотез, однако, является доминирующим подходом к анализу данных во многих областях науки. Расширения теории проверки гипотез включают изучение мощности тестов , т. е. вероятности правильного отклонения нулевой гипотезы, учитывая, что она ложна. Такие соображения могут быть использованы для определения размера выборки до сбора данных.

Проверка гипотезы Неймана-Пирсона

Пример проверки гипотезы Неймана–Пирсона (или проверки статистической значимости нулевой гипотезы) можно сделать, изменив пример с радиоактивным чемоданом. Если «чемодан» на самом деле является экранированным контейнером для перевозки радиоактивного материала, то тест может быть использован для выбора из трех гипотез: радиоактивный источник отсутствует, присутствует один, присутствуют два (все) источника. Тест может потребоваться для обеспечения безопасности, с действиями, необходимыми в каждом случае. Лемма Неймана–Пирсона о проверке гипотез гласит, что хорошим критерием для выбора гипотез является отношение их вероятностей ( отношение правдоподобия ). Простой метод решения — выбрать гипотезу с наибольшей вероятностью для наблюдаемых счетчиков Гейгера. Типичный результат соответствует интуиции: малое количество счетчиков подразумевает отсутствие источника, много счетчиков подразумевает два источника, а промежуточные счетчики предполагают один источник. Обратите также внимание, что обычно существуют проблемы с доказательством отрицательного . Нулевые гипотезы должны быть по крайней мере фальсифицируемыми .

Теория Неймана–Пирсона может учитывать как априорные вероятности, так и затраты на действия, вытекающие из решений. ^[59] Первая позволяет каждому тесту учитывать результаты более ранних тестов (в отличие от тестов значимости Фишера). Последняя позволяет учитывать экономические вопросы (например), а также вероятности. Отношение правдоподобия остается хорошим критерием для выбора среди гипотез.

Две формы проверки гипотез основаны на различных формулировках проблемы. Первоначальный тест аналогичен вопросу «истина/ложь»; тест Неймана–Пирсона больше похож на множественный выбор. По мнению Тьюки ^[60], первый выводит заключение на основе только веских доказательств, тогда как последний выводит решение на основе имеющихся доказательств. Хотя эти два теста кажутся совершенно разными как с математической, так и с философской точки зрения, более поздние разработки приводят к противоположному утверждению. Рассмотрим множество крошечных радиоактивных источников. Гипотезы становятся 0,1,2,3... зерен радиоактивного песка. Существует небольшое различие между отсутствием или некоторым количеством радиации (Фишер) и 0 зерен радиоактивного песка по сравнению со всеми альтернативами (Нейман–Пирсон). Основная статья Неймана–Пирсона 1933 года ^[11] также рассматривала составные гипотезы (те, распределение которых включает неизвестный параметр). Пример доказал оптимальность t -теста (Стьюдента): «не может быть лучшего теста для рассматриваемой гипотезы» (стр. 321). Теория Неймана–Пирсона с самого начала доказывала оптимальность фишеровских методов.

Тестирование значимости Фишера оказалось популярным гибким статистическим инструментом в применении с небольшим математическим потенциалом роста. Тестирование гипотез Неймана–Пирсона заявлено как столп математической статистики, ^[61] создающий новую парадигму для этой области. Оно также стимулировало новые приложения в статистическом управлении процессами , теории обнаружения , теории принятия решений и теории игр . Обе формулировки были успешными, но успехи имели разный характер.

Спор о формулировках не решен. Наука в основном использует формулировку Фишера (слегка измененную), как ее преподают во вводной статистике. Статистики изучают теорию Неймана–Пирсона в аспирантуре. Математики гордятся объединением формулировок. Философы рассматривают их по отдельности. Ученые мнения считают формулировки по-разному конкурирующими (Фишер против Неймана), несовместимыми ^[9] или взаимодополняющими. ^[13] Спор стал более сложным с тех пор, как байесовский вывод достиг респектабельности.

Терминология непоследовательна. Проверка гипотез может означать любую смесь двух формулировок, которые обе меняются со временем. Любое обсуждение проверки значимости против проверки гипотез вдвойне уязвимо для путаницы.

Фишер считал, что проверка гипотез является полезной стратегией для выполнения промышленного контроля качества, однако он категорически не соглашался с тем, что проверка гипотез может быть полезна для ученых. ^[10] Проверка гипотез обеспечивает средства нахождения статистики тестирования, используемой при проверке значимости. ^[13] Концепция мощности полезна для объяснения последствий корректировки уровня значимости и широко используется при определении размера выборки . Эти два метода остаются философски различными. ^[15] Они обычно (но не всегда ) дают один и тот же математический ответ. Предпочтительный ответ зависит от контекста. ^[13] Хотя существующее слияние теорий Фишера и Неймана–Пирсона подверглось резкой критике, рассматривалось изменение слияния для достижения байесовских целей. ^[62]

Критика

Критика статистической проверки гипотез заполняет целые тома. ^[63]^[64]^[65]^[66]^[67]^[68] Большую часть критики можно свести к следующим пунктам:

Интерпретация p -значения зависит от правила остановки и определения множественного сравнения. Первое часто меняется в ходе исследования, а последнее неизбежно неоднозначно. (т. е. "p-значения зависят как от наблюдаемых (данных), так и от других возможных (данных), которые могли бы наблюдаться, но не наблюдались"). ^[69]
Путаница, возникающая (отчасти) из-за объединения методов Фишера и Неймана–Пирсона, которые концептуально различны. ^[60]
Акцент на статистической значимости, исключающий оценку и подтверждение повторными экспериментами. ^[70]
Жесткое требование статистической значимости как критерия для публикации, что приводит к предвзятости публикации . ^[71] Большая часть критики является косвенной. Вместо того, чтобы быть неправильным, статистическая проверка гипотез неправильно понимается, используется слишком часто и неправильно.
При использовании для обнаружения разницы между группами возникает парадокс. По мере усовершенствования экспериментального дизайна (например, повышения точности измерения и размера выборки) тест становится более мягким. Если не принять абсурдное предположение, что все источники шума в данных полностью нейтрализуются, вероятность обнаружения статистической значимости в любом направлении приближается к 100%. ^[72] Однако это абсурдное предположение о том, что средняя разница между двумя группами не может быть равна нулю, подразумевает, что данные не могут быть независимыми и одинаково распределенными (iid), поскольку ожидаемая разница между любыми двумя подгруппами iid случайных величин равна нулю; следовательно, предположение iid также абсурдно.
Слои философских проблем. Вероятность статистической значимости является функцией решений, принимаемых экспериментаторами/аналитиками. ^[73] Если решения основаны на соглашении, их называют произвольными или бессмысленными ^[74], тогда как те, которые не основаны на этом, можно назвать субъективными. Чтобы минимизировать ошибки типа II, рекомендуются большие выборки. В психологии практически все нулевые гипотезы объявляются ложными для достаточно больших выборок, поэтому «...обычно бессмысленно проводить эксперимент с единственной целью отвергнуть нулевую гипотезу». ^[75] «Статистически значимые результаты часто вводят в заблуждение» в психологии. ^[76] Статистическая значимость не подразумевает практической значимости, а корреляция не подразумевает причинно-следственной связи . Таким образом, сомнение в нулевой гипотезе далеко от прямой поддержки исследовательской гипотезы.
«[О]но не говорит нам то, что мы хотим знать». ^[77] Доступны списки десятков жалоб. ^[67]^[78]^[79]

Критики и сторонники в основном находятся в фактическом согласии относительно характеристик проверки значимости нулевой гипотезы (NHST): хотя она может предоставить важную информацию, она неадекватна как единственный инструмент статистического анализа . Успешное отклонение нулевой гипотезы может не обеспечить никакой поддержки исследовательской гипотезы. Продолжающиеся споры касаются выбора лучших статистических практик для ближайшего будущего с учетом существующих практик. Однако адекватный дизайн исследования может минимизировать эту проблему. Критики предпочли бы полностью запретить NHST, заставив полностью отказаться от этих практик, ^[80] в то время как сторонники предлагают менее абсолютные изменения. ^{[ необходима цитата ]}

Разногласия по поводу проверки значимости и ее влияния на публикационную предвзятость в частности привели к нескольким результатам. Американская психологическая ассоциация ужесточила свои требования к статистической отчетности после обзора, ^{[81] издатели} медицинских журналов признали обязанность публиковать некоторые результаты, которые не являются статистически значимыми, чтобы бороться с публикационной предвзятостью, ^[82] и был создан журнал ( Journal of Articles in Support of the Null Hypothesis ) для публикации исключительно таких результатов. ^[83] В учебники были добавлены некоторые предостережения, ^[84] и увеличено освещение инструментов, необходимых для оценки размера выборки, требуемой для получения значимых результатов. Немногие крупные организации отказались от использования тестов значимости, хотя некоторые обсуждали это. ^[81] Например, в 2023 году редакторы Journal of Physiology «настоятельно рекомендуют использовать методы оценки для тех, кто публикуется в The Journal» (имея в виду величину размера эффекта (чтобы позволить читателям судить о том, имеет ли открытие практическую, физиологическую или клиническую значимость) и доверительные интервалы для передачи точности этой оценки), заявляя: «В конечном счете, именно физиологическая важность данных должна волновать тех, кто публикуется в The Journal of Physiology, а не статистическая значимость». ^[85]

Альтернативы

Объединяющая позиция критиков заключается в том, что статистика не должна приводить к принятию-отклонению заключения или решения, а к оценочному значению с интервальной оценкой ; эта философия анализа данных широко называется оценочной статистикой . Оценочная статистика может быть достигнута либо с помощью частотных [1], либо с помощью байесовских методов. ^[86]^[87]

Критики значимого тестирования выступали за то, чтобы делать выводы не столько на основе p-значений, сколько на основе доверительных интервалов для размеров эффекта для важности, интервалов прогнозирования для уверенности, репликаций и расширений для воспроизводимости, метаанализов для общности:. ^[88] Но ни одна из этих предложенных альтернатив по сути не приводит к решению. Леманн сказал, что теория проверки гипотез может быть представлена в терминах выводов/решений, вероятностей или доверительных интервалов: «Различие между ... подходами в значительной степени заключается в отчетности и интерпретации». ^[25]

Байесовский вывод является одной из предлагаемых альтернатив проверке значимости. (Никерсон процитировал 10 источников, предлагающих это, включая Розебума (1960)). ^[78] Например, байесовская оценка параметров может предоставить богатую информацию о данных, из которых исследователи могут сделать выводы, используя при этом неопределенные априорные данные , которые оказывают лишь минимальное влияние на результаты, когда доступно достаточно данных. Психолог Джон К. Крушке предложил байесовскую оценку в качестве альтернативы t -тесту ^[86] и также противопоставил байесовскую оценку для оценки нулевых значений сравнению с байесовской моделью для проверки гипотез. ^[87] Две конкурирующие модели/гипотезы можно сравнить с использованием байесовских факторов . ^[89] Байесовские методы можно критиковать за то, что они требуют информации, которая редко доступна в случаях, когда проверка значимости используется наиболее интенсивно. Ни априорные вероятности, ни распределение вероятностей тестовой статистики в рамках альтернативной гипотезы часто не доступны в социальных науках. ^[78]

Сторонники байесовского подхода иногда утверждают, что цель исследователя чаще всего состоит в том, чтобы объективно оценить вероятность того, что гипотеза верна, на основе собранных ими данных. ^[90]^[91] Ни проверка значимости Фишера, ни проверка гипотез Неймана–Пирсона не могут предоставить эту информацию и не претендуют на это. Вероятность того, что гипотеза верна, может быть получена только с помощью теоремы Байеса , которая была неудовлетворительной как для лагеря Фишера, так и для лагеря Неймана–Пирсона из-за явного использования субъективности в форме априорной вероятности . ^[11]^[92] Стратегия Фишера заключается в том, чтобы обойти это с помощью p -значения (объективного индекса, основанного только на данных) с последующим индуктивным выводом , в то время как Нейман–Пирсон разработал свой подход индуктивного поведения .

Смотрите также

Ссылки

^ Льюис, Нэнси Д.; Льюис, Найджел Да Коста; Льюис, НД (2013). 100 статистических тестов в R: что выбрать, как легко вычислить, с более чем 300 иллюстрациями и примерами. Heather Hills Press. ISBN 978-1-4840-5299-0.
^ Канджи, Гопал К. (18 июля 2006 г.). 100 статистических тестов. SAGE. ISBN 978-1-4462-2250-8.
^ Беллхаус, П. (2001), «Джон Арбетнот», в книге «Статистики веков» К. К. Хейда и Э. Сенеты , Springer, стр. 39–42, ISBN 978-0-387-95329-8
^ Мил, П. (1990). «Оценка и исправление теорий: стратегия защиты Лакатоса и два принципа, которые ее оправдывают» (PDF) . Psychological Inquiry . 1 (2): 108–141. doi :10.1207/s15327965pli0102_1.
^ аб Лаплас, П. (1778). «Мемуар о вероятностях» (PDF) . Мемуары Парижской Королевской академии наук . 9 : 227–332. Архивировано из оригинала (PDF) 27 апреля 2015 года . Проверено 5 сентября 2013 г.
^ Пирсон, К (1900). «О критерии, согласно которому данная система отклонений от вероятного в случае коррелированной системы переменных такова, что можно обоснованно предположить, что она возникла из случайной выборки» (PDF) . Лондонский, Эдинбургский и Дублинский философский журнал и научный журнал . 5 (50): 157–175. doi :10.1080/14786440009463897.
^ Пирсон, К. (1904). «О теории случайности и ее связи с ассоциацией и нормальной корреляцией». Исследовательские мемуары компании Drapers' Company, биометрическая серия . 1 : 1–35.
^ Забелл, С. (1989). «RA Fisher об истории обратной вероятности». Статистическая наука . 4 (3): 247–256. doi : 10.1214/ss/1177012488 . JSTOR 2245634.
^ ab Raymond Hubbard, MJ Bayarri , P-значения не являются вероятностями ошибок Архивировано 4 сентября 2013 г. в Wayback Machine . Рабочий документ, объясняющий разницу между доказательным p -значением Фишера и частотой ошибок Неймана–Пирсона первого типа . $\альфа$
^ ab Фишер, Р. (1955). "Статистические методы и научная индукция" (PDF) . Журнал Королевского статистического общества, серия B. 17 ( 1): 69–78. doi :10.1111/j.2517-6161.1955.tb00180.x.
^ abcd Нейман, Дж.; Пирсон, Э.С. (1 января 1933 г.). «О проблеме наиболее эффективных проверок статистических гипотез». Philosophical Transactions of the Royal Society A . 231 (694–706): 289–337. Bibcode :1933RSPTA.231..289N. doi : 10.1098/rsta.1933.0009 .
^ Гудман, SN (15 июня 1999 г.). «К медицинской статистике, основанной на доказательствах. 1: Ошибка P-значения». Ann Intern Med . 130 (12): 995–1004. doi :10.7326/0003-4819-130-12-199906150-00008. PMID 10383371. S2CID 7534212.
^ abcd Lehmann, EL (декабрь 1993 г.). «Теории проверки гипотез Фишера, Неймана–Пирсона: одна теория или две?». Журнал Американской статистической ассоциации . 88 (424): 1242–1249. doi :10.1080/01621459.1993.10476404.
^ Фишер, Р. Н. (1958). "Природа вероятности" (PDF) . Centennial Review . 2 : 261–274. Мы находимся в большой опасности, отправляя высококвалифицированных и высокоинтеллектуальных молодых людей в мир с таблицами ошибочных чисел под мышкой и с густым туманом в том месте, где должны быть их мозги. В этом столетии, конечно, они будут работать над управляемыми ракетами и консультировать медиков по контролю над болезнями, и нет предела тому, в какой степени они могли бы препятствовать любым видам национальных усилий.
^ abc Lenhard, Johannes (2006). «Модели и статистический вывод: спор между Фишером и Нейманом–Пирсоном». Br. J. Philos. Sci . 57 : 69–91. doi :10.1093/bjps/axi152. S2CID 14136146.
^ Нейман, Ежи (1967). «RA Fisher (1890—1962): An Appreciation». Science . 156 (3781): 1456–1460. Bibcode :1967Sci...156.1456N. doi :10.1126/science.156.3781.1456. PMID 17741062. S2CID 44708120.
^ Losavich, JL; Neyman, J.; Scott, EL; Wells, MA (1971). «Гипотетические объяснения отрицательных очевидных эффектов засева облаков в эксперименте Whitetop». Труды Национальной академии наук Соединенных Штатов Америки . 68 (11): 2643–2646. Bibcode : 1971PNAS...68.2643L. doi : 10.1073/pnas.68.11.2643 . PMC 389491. PMID 16591951 .
^ ab Halpin, PF; Stam, HJ (зима 2006 г.). «Индуктивный вывод или индуктивное поведение: Фишер и Нейман: подходы Пирсона к статистическому тестированию в психологических исследованиях (1940–1960)». Американский журнал психологии . 119 (4): 625–653. doi :10.2307/20445367. JSTOR 20445367. PMID 17286092.
^ Гигеренцер, Герд; Зено Свейтинк; Теодор Портер; Лоррейн Дастон; Джон Битти; Лоренц Крюгер (1989). «Часть 3: Эксперты по выводам». Империя случая: как вероятность изменила науку и повседневную жизнь . Cambridge University Press. стр. 70–122. ISBN 978-0-521-39838-1.
^ Mayo, DG; Spanos, A. (2006). «Жесткое тестирование как базовая концепция в философии индукции Неймана–Пирсона». Британский журнал философии науки . 57 (2): 323–357. CiteSeerX 10.1.1.130.8131 . doi :10.1093/bjps/axl003. S2CID 7176653.
^ Математика > Средняя школа: Статистика и вероятность > Введение Архивировано 28 июля 2012 г. на archive.today Инициатива государственных стандартов Common Core (относится к студентам США)
^ Тесты College Board > AP: Предметы > Статистика College Board (относится к студентам США)
^ Хафф, Даррелл (1993). Как лгать с помощью статистики. Нью-Йорк: Norton. С. 8. ISBN 978-0-393-31072-6.«Статистические методы и статистические термины необходимы для сообщения массовых данных о социальных и экономических тенденциях, условиях ведения бизнеса, опросах общественного мнения, переписях. Но без писателей, которые используют слова честно, и читателей, которые знают, что они означают, результатом может стать лишь семантическая бессмыслица».
^ Снедекор, Джордж У.; Кохран, Уильям Г. (1967). Статистические методы (6-е изд.). Эймс, Айова: Издательство Университета штата Айова. стр. 3.«...основные идеи статистики помогают нам ясно мыслить о проблеме, дают некоторые указания относительно условий, которые должны быть выполнены для того, чтобы можно было сделать обоснованные выводы, и позволяют нам обнаружить множество выводов, не имеющих под собой хорошей логической основы».
^ ab EL Lehmann (1997). «Проверка статистических гипотез: история одной книги». Статистическая наука . 12 (1): 48–52. doi : 10.1214/ss/1029963261 .
^ Сотос, Ана Элиза Кастро; Ванхуф, Стейн; Ноортгейт, Вим Ван ден; Онгена, Патрик (2007). «Заблуждения студентов о статистических выводах: обзор эмпирических данных исследований в области статистического образования» (PDF) . Обзор образовательных исследований . 2 (2): 98–113. doi :10.1016/j.edurev.2007.04.001.
^ Мур, Дэвид С. (1997). «Новая педагогика и новый контент: случай статистики» (PDF) . International Statistical Review . 65 (2): 123–165. doi :10.2307/1403333. JSTOR 1403333.
^ Хаббард, Рэймонд; Армстронг, Дж. Скотт (2006). «Почему мы на самом деле не знаем, что означает статистическая значимость: выводы для педагогов». Журнал маркетингового образования . 28 (2): 114–120. doi : 10.1177/0273475306288399. hdl : 2092/413 . S2CID 34729227.
^ Сотос, Ана Элиза Кастро; Ванхуф, Стайн; Ноортгейт, Вим Ван ден; Онгена, Патрик (2009). «Насколько уверены студенты в своих заблуждениях о проверке гипотез?». Журнал статистического образования . 17 (2). doi : 10.1080/10691898.2009.11889514 .
^ Гигеренцер, Г. (2004). «Нулевой ритуал. Что вы всегда хотели знать о значимом тестировании, но боялись спросить» (PDF) . Справочник SAGE по количественной методологии для социальных наук . стр. 391–408. doi :10.4135/9781412986311. ISBN 9780761923596.
^ "Проверка статистических гипотез". Springer Texts in Statistics . 2005. doi :10.1007/0-387-27605-x. ISBN 978-0-387-98864-1. ISSN 1431-875X.
^ Хинкельманн, Клаус; Кемпторн, Оскар (2008). Планирование и анализ экспериментов . Том I и II (Второе издание). Wiley. ISBN 978-0-470-38551-7.
^ Монтгомери, Дуглас (2009). Планирование и анализ экспериментов . Хобокен, Нью-Джерси: Wiley. ISBN 978-0-470-12866-4.
^ RA Fisher (1925). Статистические методы для научных работников , Эдинбург: Oliver and Boyd, 1925, стр.43.
^ ab Lehmann, EL; Romano, Joseph P. (2005). Проверка статистических гипотез (3E ed.). Нью-Йорк: Springer. ISBN 978-0-387-98864-1.
^ Nuzzo, Regina (2014). «Научный метод: Статистические ошибки». Nature . 506 (7487): 150–152. Bibcode :2014Natur.506..150N. doi : 10.1038/506150a . PMID 24522584.
^ Ричард Дж. Ларсен; Донна Фокс Строуп (1976). Статистика в реальном мире: книга примеров . Macmillan. ISBN 978-0023677205.
^ Хаббард, Р.; Парса, А. Р.; Люти, М. Р. (1997). «Распространение тестирования статистической значимости в психологии: случай журнала прикладной психологии». Теория и психология . 7 (4): 545–554. doi :10.1177/0959354397074006. S2CID 145576828.
^ Мур, Дэвид (2003). Введение в практику статистики . Нью-Йорк: WH Freeman and Co. стр. 426. ISBN 9780716796572.
^ Ранганатан, Прия; Прамеш, К. С.; Буйс, Марк (апрель–июнь 2016 г.). «Распространенные ошибки в статистическом анализе: опасности множественного тестирования». Perspect Clin Res . 7 (2): 106–107. doi : 10.4103 /2229-3485.179436 . PMC 4840791. PMID 27141478.
^ Хьюз, Энн Дж.; Грэвоиг, Деннис Э. (1971). Статистика: Основа для анализа . Рединг, Массачусетс: Эддисон-Уэсли. стр. 191. ISBN 0-201-03021-7.
^ Холл, П. и Уилсон, С.Р., 1991. Два руководства по проверке гипотез методом бутстрепа. Биометрия, стр. 757-762.
^ Тибширани, Р. Дж. и Эфрон, Б., 1993. Введение в бутстрап. Монографии по статистике и прикладной вероятности, 57(1).
^ Мартин, MA, 2007. Проверка гипотезы бутстрепа для некоторых распространенных статистических проблем: критическая оценка свойств размера и мощности. Computational Statistics & Data Analysis, 51(12), стр. 6321-6342.
^ Горовиц, Дж. Л., 2019. Методы бутстрапа в эконометрике. Annual Review of Economics, 11, стр. 193-224. Я
↑ Джон Арбетнот (1710). «Аргумент в пользу Божественного Провидения, взятый из постоянной регулярности, наблюдаемой в рождении обоих полов» (PDF) . Philosophical Transactions of the Royal Society of London . 27 (325–336): 186–190. doi : 10.1098/rstl.1710.0011 . S2CID 186209819.
^ Брайан, Эрик; Джейссон, Мари (2007). «Физико-теология и математика (1710–1794)». Происхождение соотношения полов у людей при рождении . Springer Science & Business Media. стр. 1–25. ISBN 978-1-4020-6036-6.
^ Conover, WJ (1999), «Глава 3.4: Тест знаков», Practical Nonparametric Statistics (Третье изд.), Wiley, стр. 157–176, ISBN 978-0-471-16068-7
^ Спрент, П. (1989), Прикладные непараметрические статистические методы (второе издание), Chapman & Hall, ISBN 978-0-412-44980-2
^ Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 года . Издательство Гарвардского университета. С. 225–226. ISBN 978-0-67440341-3.
^ Лаплас, П. (1778). «Воспоминания о вероятностях (XIX, XX)». Завершены произведения Лапласа . Том. 9. С. 429–438. {{cite book}}: |journal=проигнорировано ( помощь )
^ Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 года. Кембридж, Массачусетс: Belknap Press of Harvard University Press. стр. 134. ISBN 978-0-674-40340-6.
^ Фишер, сэр Рональд А. (1956) [1935]. «Математика леди, дегустирующей чай». В Джеймсе Рое Ньюмане (ред.). Мир математики, том 3 [ Планирование экспериментов ]. Courier Dover Publications. ISBN 978-0-486-41151-4.Первоначально из книги Фишера «Планирование экспериментов» .
^ Бокс, Джоан Фишер (1978). RA Fisher, Жизнь ученого . Нью-Йорк: Wiley. стр. 134. ISBN 978-0-471-09300-8.
↑ CS Peirce (август 1878 г.). «Иллюстрации логики науки VI: дедукция, индукция и гипотеза». Popular Science Monthly . 13. Получено 30 марта 2012 г.
^ Джейнс, ET (2007). Теория вероятностей: логика науки (5-е печатное издание). Кембридж [ua]: Cambridge Univ. Press. ISBN 978-0-521-59271-0.
^ Шервиш, М. (1996) Теория статистики , с. 218. ISBN Спрингера 0-387-94546-6 .
^ Кей, Дэвид Х.; Фридман, Дэвид А. (2011). «Справочное руководство по статистике». Справочное руководство по научным доказательствам (3-е изд.). Иган, Миннесота; Вашингтон, округ Колумбия: West National Academies Press. стр. 259. ISBN 978-0-309-21421-6.
^ Эш, Роберт (1970). Основы теории вероятностей . Нью-Йорк: Wiley. ISBN 978-0471034506.Раздел 8.2
^ ab Tukey, John W. (1960). «Выводы против решений». Technometrics . 26 (4): 423–433. doi :10.1080/00401706.1960.10489909.«Пока мы не рассмотрим отчеты о проверке гипотез, отделив элементы решений [Неймана–Пирсона] от элементов выводов [Фишера], тесное смешение разрозненных элементов будет постоянным источником путаницы». ... «Есть место и для «делать все возможное», и для «говорить только то, что определенно», но важно знать в каждом случае и то, что делается, и то, что следует делать».
^ Стиглер, Стивен М. (август 1996 г.). «История статистики в 1933 г.». Статистическая наука . 11 (3): 244–252. doi : 10.1214/ss/1032280216 . JSTOR 2246117.
^ Бергер, Джеймс О. (2003). «Могли ли Фишер, Джеффрис и Нейман договориться о тестировании?». Статистическая наука . 18 (1): 1–32. doi : 10.1214/ss/1056397485 .
^ Моррисон, Дентон; Хенкель, Рамон, ред. (2006) [1970]. Противоречие теста значимости . Aldine Transaction. ISBN 978-0-202-30879-1.
^ Оукс, Майкл (1986). Статистический вывод: комментарий для социальных и поведенческих наук . Чичестер, Нью-Йорк: Wiley. ISBN 978-0471104438.
^ Chow, Siu L. (1997). Статистическая значимость: обоснование, валидность и полезность . SAGE Publications. ISBN 978-0-7619-5205-3.
^ Харлоу, Лиза Лавуа; Стэнли А. Мулейк; Джеймс Х. Стайгер, ред. (1997). Что, если бы не было никаких тестов значимости? . Lawrence Erlbaum Associates. ISBN 978-0-8058-2634-0.
^ ab Kline, Rex (2004). Beyond Value Testing: Reforming Data Analysis Methods in Behavioral Research . Вашингтон, округ Колумбия: Американская психологическая ассоциация. ISBN 9781591471189.
^ Макклоски, Дейрдре Н.; Стивен Т. Зилиак (2008). Культ статистической значимости: как стандартная ошибка стоит нам рабочих мест, правосудия и жизней . Издательство Мичиганского университета. ISBN 978-0-472-05007-9.
^ Корнфилд, Джером (1976). «Недавние методологические вклады в клинические испытания» (PDF) . Американский журнал эпидемиологии . 104 (4): 408–421. doi :10.1093/oxfordjournals.aje.a112313. PMID 788503.
^ Йейтс, Фрэнк (1951). «Влияние статистических методов для научных работников на развитие науки статистики». Журнал Американской статистической ассоциации . 46 (253): 19–34. doi :10.1080/01621459.1951.10500764.«Упор на формальные проверки значимости в «Статистических методах» [Р. А. Фишера]... привел к тому, что научные работники стали уделять чрезмерное внимание результатам проверок значимости, которые они проводят на своих данных, особенно на данных, полученных в результате экспериментов, и слишком мало внимания оценкам величины эффектов, которые они исследуют». ... «Упор на проверки значимости и рассмотрение результатов каждого эксперимента в отдельности имели печальные последствия, заключающиеся в том, что научные работники часто считали выполнение проверки значимости эксперимента своей конечной целью».
^ Бегг, Колин Б.; Берлин, Джесси А. (1988). «Ошибка публикации: проблема интерпретации медицинских данных». Журнал Королевского статистического общества, серия A. 151 ( 3): 419–463. doi : 10.2307/2982993. JSTOR 2982993. S2CID 121054702.
^ Мил, Пол Э. (1967). «Проверка теории в психологии и физике: методологический парадокс» (PDF) . Философия науки . 34 (2): 103–115. doi :10.1086/288135. S2CID 96422880. Архивировано из оригинала (PDF) 3 декабря 2013 г.Тридцать лет спустя Мил признал, что теория статистической значимости математически обоснована, но при этом продолжал подвергать сомнению выбор нулевой гипотезы по умолчанию, обвиняя вместо этого «плохое понимание социологами логической связи между теорией и фактом» в статье «Проблема в эпистемологии, а не в статистике: замените тесты значимости доверительными интервалами и количественно оцените точность рискованных числовых прогнозов» (глава 14 в Harlow (1997)).
^ Бакан, Дэвид (1966). «Тест значимости в психологических исследованиях». Психологический вестник . 66 (6): 423–437. doi :10.1037/h0020412. PMID 5974619.
^ Гигеренцер, Г. (ноябрь 2004 г.). «Бездумная статистика». Журнал социально-экономической науки . 33 (5): 587–606. doi :10.1016/j.socec.2004.09.033.
^ Нанналли, Джум (1960). «Место статистики в психологии». Образовательные и психологические измерения . 20 (4): 641–650. doi :10.1177/001316446002000401. S2CID 144813784.
^ Ликкен, Дэвид Т. (1991). «Что не так с психологией?». Thinking Clearly About Psychology . 1 : 3–39.
↑ Jacob Cohen (декабрь 1994 г.). «Земля круглая (p < .05)». American Psychologist . 49 (12): 997–1003. doi :10.1037/0003-066X.49.12.997. S2CID 380942.Эта статья привела к обзору статистических практик АПА. Коэн был членом целевой группы, которая проводила обзор.
^ abc Никерсон, Рэймонд С. (2000). «Тесты значимости нулевой гипотезы: обзор старого и продолжающегося спора». Психологические методы . 5 (2): 241–301. doi :10.1037/1082-989X.5.2.241. PMID 10937333. S2CID 28340967.
^ Бранч, Марк (2014). «Злокачественные побочные эффекты проверки значимости нулевой гипотезы». Теория и психология . 24 (2): 256–277. doi :10.1177/0959354314525282. S2CID 40712136.
^ Хантер, Джон Э. (январь 1997 г.). «Необходимо: запрет на тест значимости». Психологическая наука . 8 (1): 3–7. doi :10.1111/j.1467-9280.1997.tb00534.x. S2CID 145422959.
^ ab Wilkinson, Leland (1999). «Статистические методы в психологических журналах; Руководства и пояснения». American Psychologist . 54 (8): 594–604. doi :10.1037/0003-066X.54.8.594. S2CID 428023.«Проверка гипотез. Трудно представить ситуацию, в которой дихотомическое решение «принять-отклонить» лучше, чем сообщение фактического значения p или, еще лучше, доверительного интервала». (стр. 599). Комитет использовал предостерегающий термин «снисходительность» при описании своего решения против запрета проверки гипотез в психологических отчетах. (стр. 603)
^ "ICMJE: Obligation to Publish Negative Studies". Архивировано из оригинала 16 июля 2012 г. Получено 3 сентября 2012 г. Редакторы должны серьезно рассмотреть возможность публикации любого тщательно выполненного исследования важного вопроса, релевантного их читателям, независимо от того, являются ли результаты для основного или любого дополнительного результата статистически значимыми. Непредставление или не публикация результатов из-за отсутствия статистической значимости является важной причиной смещения публикации.
^ Сайт журнала статей в поддержку нулевой гипотезы : домашняя страница JASNH. Том 1, номер 1, был опубликован в 2002 году, и все статьи посвящены темам, связанным с психологией.
^ Хауэлл, Дэвид (2002). Статистические методы в психологии (5-е изд.). Даксбери. стр. 94. ISBN 978-0-534-37770-0.
^ Уильямс С., Карсон Р., Тот К. (10 октября 2023 г.). «Выход за рамки значений P в журнале физиологии: практическое руководство по значению размеров эффекта и доверительных интервалов». J Physiol . 601 (23): 5131–5133. doi : 10.1113/JP285575 . PMID 37815959. S2CID 263827430.{{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ ab Kruschke, JK (9 июля 2012 г.). «Байесовская оценка заменяет t-тест» (PDF) . Журнал экспериментальной психологии: Общие сведения . 142 (2): 573–603. doi :10.1037/a0029146. PMID 22774788. S2CID 5610231.
^ ab Kruschke, JK (8 мая 2018 г.). «Отклонение или принятие значений параметров в байесовской оценке» (PDF) . Достижения в методах и практиках психологической науки . 1 (2): 270–280. doi :10.1177/2515245918771304. S2CID 125788648.
^ Армстронг, Дж. Скотт (2007). «Тесты значимости вредят прогрессу в прогнозировании». Международный журнал прогнозирования . 23 (2): 321–327. CiteSeerX 10.1.1.343.9516 . doi :10.1016/j.ijforecast.2007.03.004. S2CID 1550979.
^ Касс, Р. Э. (1993). Факторы Байеса и неопределенность модели (PDF) (Отчет). Департамент статистики, Вашингтонский университет.
^ Розебум, Уильям В. (1960). «Ошибочность теста значимости нулевой гипотезы» (PDF) . Psychological Bulletin . 57 (5): 416–428. CiteSeerX 10.1.1.398.9002 . doi :10.1037/h0042040. PMID 13744252. «...правильное применение статистики к научным выводам необратимо связано с широким рассмотрением обратных [иначе называемых байесовскими] вероятностей...» С сожалением было признано, что априорные распределения вероятностей будут доступны «только как субъективное ощущение, различающееся у разных людей» «по крайней мере, в ближайшем будущем».
^ Бергер, Джеймс (2006). «Дело в пользу объективного байесовского анализа». Байесовский анализ . 1 (3): 385–402. doi : 10.1214/06-ba115 . Перечисляя конкурирующие определения «объективного» байесовского анализа, «главная цель статистики (и науки) — найти полностью последовательную объективную байесовскую методологию для обучения на основе данных». Автор выразил мнение, что эта цель «недостижима».
^ Aldrich, J (2008). "RA Fisher о Байесе и теореме Байеса". Bayesian Analysis . 3 (1): 161–170. doi : 10.1214/08-BA306 .

Дальнейшее чтение

Lehmann EL (1992) "Введение в работу Неймана и Пирсона (1933) "О проблеме наиболее эффективных проверок статистических гипотез". В: Breakthroughs in Statistics, Volume 1 (Eds Kotz, S., Johnson, NL), Springer-Verlag. ISBN 0-387-94037-5 (с последующей перепечаткой статьи)
Нейман, Дж.; Пирсон, Э.С. (1933). «О проблеме наиболее эффективных проверок статистических гипотез». Philosophical Transactions of the Royal Society A. 231 ( 694–706): 289–337. Bibcode :1933RSPTA.231..289N. doi : 10.1098/rsta.1933.0009 .

Внешние ссылки

На Викискладе есть медиафайлы по теме «Проверка гипотез» .

«Статистические гипотезы, проверка», Энциклопедия математики , EMS Press , 2001 [1994]
Байесовская критика классической проверки гипотез
Критика классической проверки гипотез, подчеркивающая давние сомнения статистиков
Обзор статистических тестов: как выбрать правильный статистический тест
[2] Метод проверки гипотез на основе статистического анализа в области открытия биологических знаний; Мд. Насиф-Ур-Рахман Чоудхури, Суванкар Пол, Кази Закия Султана

Онлайн калькуляторы

Некоторые калькуляторы p-значений и проверки гипотез.