stringtranslate.com

Статистическая проверка гипотез

Проверка статистической гипотезы — это метод статистического вывода, используемый для определения того, достаточно ли имеющиеся данные подтверждают конкретную гипотезу. В более общем плане проверка гипотез позволяет нам делать вероятностные утверждения о параметрах популяции. Таким образом, это один из способов принятия решений в условиях неопределенности. Обычно процедуры проверки гипотез включают выбираемый пользователем компромисс между ложноположительными и ложноотрицательными результатами .

История

Раннее использование

Хотя проверка гипотез была популяризирована в начале 20-го века, ранние формы использовались в 1700-х годах. Первое использование приписывается Джону Арбутноту (1710 г.), [1] а затем Пьеру-Симону Лапласу (1770-е гг.) при анализе соотношения полов человека при рождении; см. § Соотношение полов у человека.

Современное происхождение и ранние споры

Современное тестирование значимости во многом является продуктом Карла Пирсона ( p -значение , критерий хи-квадрат Пирсона ), Уильяма Сили Госсета ( t-распределение Стьюдента ) и Рональда Фишеранулевая гипотеза », дисперсионный анализ , « критерий значимости »). , а проверку гипотез разработали Ежи Нейман и Эгон Пирсон (сын Карла). Рональд Фишер начал свою карьеру в статистике как байесианец (Zabell 1992), но вскоре Фишер разочаровался в связанной с этим субъективности (а именно, в использовании принципа безразличия при определении априорных вероятностей) и стремился предложить более «объективный» подход к индуктивным вычислениям. вывод. [2]

Фишер подчеркнул строгий план эксперимента и методы извлечения результата из нескольких выборок, предполагая распределение Гаусса . Нейман (который сотрудничал с Пирсоном-младшим) подчеркивал математическую строгость и методы, позволяющие получить больше результатов из множества выборок и более широкого диапазона распределений. Современная проверка гипотез представляет собой противоречивый гибрид формулировок Фишера и Неймана/Пирсона, методов и терминологии, разработанных в начале 20 века.

Фишер популяризировал «тест значимости». Ему потребовалась нулевая гипотеза (соответствующая частотному распределению населения) и выборка. Его (теперь знакомые) расчеты определяли, следует ли отвергать нулевую гипотезу или нет. При проверке значимости не использовалась альтернативная гипотеза, поэтому не существовало понятия ошибки II рода (ложноотрицательный результат).

Значение p было разработано как неформальный, но объективный индекс, призванный помочь исследователю определить (на основе других знаний), следует ли модифицировать будущие эксперименты или укрепить веру в нулевую гипотезу. [3] Проверка гипотез (и ошибки типа I/II) была разработана Нейманом и Пирсоном как более объективная альтернатива p -значению Фишера, также предназначенная для определения поведения исследователя, но не требующая от исследователя каких-либо индуктивных выводов . [4] [5]

Нейман и Пирсон рассматривали другую проблему, чем Фишер (которую они назвали «проверкой гипотез»). Первоначально они рассматривали две простые гипотезы (обе с частотными распределениями). Они рассчитали две вероятности и обычно выбирали гипотезу, связанную с более высокой вероятностью (гипотеза, которая с большей вероятностью создала выборку). Их метод всегда выбирал гипотезу. Это также позволило рассчитать вероятности ошибок обоих типов.

Фишер и Нейман/Пирсон сильно поссорились. Нейман/Пирсон считали свою формулировку улучшенным обобщением проверки значимости (определяющая статья [4] была абстрактной ; математики обобщали и уточняли теорию на протяжении десятилетий [6] ). Фишер считал, что она неприменима к научным исследованиям, поскольку часто в ходе эксперимента обнаруживается, что первоначальные предположения о нулевой гипотезе сомнительны из-за неожиданных источников ошибок. Он считал, что использование жестких решений «отклонить/принять», основанных на моделях, сформулированных до сбора данных, несовместимо с этим распространенным сценарием, с которым сталкиваются ученые, и попытки применить этот метод к научным исследованиям приведут к массовой путанице. [7]

Спор между Фишером и Нейманом-Пирсоном велся на философских основаниях, охарактеризованный философом как спор о надлежащей роли моделей в статистическом выводе. [8]

Вмешались события: Нейман принял должность в Калифорнийском университете в Беркли в 1938 году, разорвав партнерство с Пирсоном и разделив участников спора (которые занимали одно и то же здание). Вторая мировая война дала перерыв в дебатах. Спор между Фишером и Нейманом завершился (неразрешенный спустя 27 лет) со смертью Фишера в 1962 году. Нейман написал хорошо зарекомендовавшую себя панегирик. [9] В некоторых из более поздних публикаций Неймана сообщалось о p -значениях и уровнях значимости. [10]

Современная версия проверки гипотез представляет собой гибрид двух подходов, возникший в результате путаницы авторов статистических учебников (как и предсказывал Фишер) начиная с 1940-х годов [11] (но обнаружение сигналов , например, до сих пор использует формулировку Неймана/Пирсона). ). Большие концептуальные различия и многие предостережения помимо упомянутых выше были проигнорированы. Нейман и Пирсон предоставили более строгую терминологию, более строгую математику и более последовательную философию, но предмет, преподаваемый сегодня во вводной статистике, имеет больше сходства с методом Фишера, чем с их методом. [12]

Где-то около 1940 года [11] авторы статистических учебников начали комбинировать два подхода, используя значение p вместо тестовой статистики (или данных) для проверки «уровня значимости» Неймана-Пирсона.

Ранний выбор нулевой гипотезы

Пол Мил утверждал, что эпистемологическая важность выбора нулевой гипотезы осталась в значительной степени непризнанной. Когда нулевая гипотеза предсказывается теорией, более точный эксперимент станет более серьезной проверкой лежащей в ее основе теории. Когда нулевая гипотеза по умолчанию равна «нет разницы» или «нет эффекта», более точный эксперимент является менее серьезной проверкой теории, которая послужила мотивом проведения эксперимента. [13] Поэтому изучение истоков последней практики может оказаться полезным:

1778: Пьер Лаплас сравнивает рождаемость мальчиков и девочек в нескольких европейских городах. Он утверждает: «естественно заключить, что эти возможности находятся примерно в одном и том же соотношении». Таким образом, нулевая гипотеза Лапласа о том, что рождаемость мальчиков и девочек должна быть одинаковой, принимается «общепринятым мнением». [14]

1900: Карл Пирсон разрабатывает критерий хи-квадрат , чтобы определить, «будет ли данная форма частотной кривой эффективно описывать выборки, взятые из данной совокупности». Таким образом, нулевая гипотеза состоит в том, что популяция описывается некоторым распределением, предсказанным теорией. В качестве примера он использует числа пять и шестерки в данных о бросках игральных костей Уэлдона . [15]

1904: Карл Пирсон разрабатывает концепцию « непредвиденных обстоятельств », чтобы определить, независимы ли результаты от данного категориального фактора. Здесь нулевая гипотеза по умолчанию заключается в том, что две вещи не связаны друг с другом (например, образование рубцов и уровень смертности от оспы). [16] Нулевая гипотеза в этом случае больше не предсказывается теорией или общепринятым мнением, а вместо этого представляет собой принцип безразличия , который побудил Фишера и других отказаться от использования «обратных вероятностей». [17]

Философия

Проверка гипотез и философия пересекаются. Инференциальная статистика , включающая проверку гипотез, представляет собой прикладную вероятность. И вероятность, и ее применение переплетаются с философией. Философ Дэвид Юм писал: «Все знания вырождаются в вероятность». Конкурирующие практические определения вероятности отражают философские различия. Наиболее распространенным применением проверки гипотез является научная интерпретация экспериментальных данных, которая, естественно, изучается философией науки .

Фишер и Нейман выступили против субъективности вероятности. Их взгляды способствовали объективным определениям. Суть их исторических разногласий была философской.

Многие философские критические замечания по проверке гипотез обсуждаются статистиками в других контекстах, в частности, корреляция не подразумевает причинно-следственную связь и планирование экспериментов . Проверка гипотез представляет постоянный интерес для философов. [8] [18]

Образование

Статистика все чаще преподается в школах, причем проверка гипотез является одним из преподаваемых элементов. [19] [20] Многие выводы, публикуемые в популярной прессе (от опросов политического мнения до медицинских исследований), основаны на статистике. Некоторые авторы заявляют, что статистический анализ такого рода позволяет ясно думать о проблемах, связанных с массовыми данными, а также эффективно сообщать о тенденциях и выводах из этих данных, но предупреждают, что авторы, представляющие широкую публику, должны иметь четкое понимание этой области. для того, чтобы правильно использовать термины и понятия. [21] [22] На вводном курсе статистики в колледже большое внимание уделяется проверке гипотез – возможно, это половина курса. Такие области, как литература и богословие, теперь включают результаты, основанные на статистическом анализе (см. « Анализатор Библии »). На вводном курсе статистики проверка гипотез рассматривается как процесс кулинарной книги. Проверка гипотез также преподается на уровне аспирантуры. Статистики учатся создавать хорошие статистические тестовые процедуры (такие как z , t Стьюдента , F и хи-квадрат). Проверка статистических гипотез считается зрелой областью статистики [23] , но в ней продолжаются ограниченные разработки.

В одном академическом исследовании говорится, что метод обучения вводной статистике, основанный на кулинарных книгах, не оставляет времени для истории, философии или полемики. Проверка гипотез преподавалась как общепринятый единый метод. Опросы показали, что выпускники этого класса были полны философских заблуждений (по всем аспектам статистических выводов), которые сохранялись среди преподавателей. [24] Хотя проблема была решена более десяти лет назад, [25] и призывы к реформе образования продолжаются, [26] студенты все еще заканчивают курсы статистики, придерживаясь фундаментальных заблуждений о проверке гипотез. [27] Идеи по улучшению преподавания проверки гипотез включают в себя поощрение студентов к поиску статистических ошибок в опубликованных статьях, преподавание истории статистики и подчеркивание противоречий в обычно сухом предмете. [28]

Выполнение проверки частотной гипотезы на практике

Типичные этапы практической проверки частотной гипотезы:

  1. Определите гипотезу (утверждение, которое можно проверить с использованием данных).
  2. Выберите соответствующий статистический тест со связанной тестовой статистикой T .
  3. Выведите распределение тестовой статистики при нулевой гипотезе из допущений. В стандартных случаях это будет хорошо известный результат. Например, статистика теста может следовать t-распределению Стьюдента с известными степенями свободы или нормальному распределению с известными средним значением и дисперсией.
  4. Выберите уровень значимости ( α ), максимально допустимый уровень ложных срабатываний . Общие значения — 5% и 1%.
  5. Вычислите на основе наблюдений наблюдаемое значение t obs тестовой статистики T .
  6. Решите либо отвергнуть нулевую гипотезу в пользу альтернативы, либо не отвергать ее. Правило принятия решения Неймана-Пирсона состоит в том, чтобы отвергнуть нулевую гипотезу H 0 , если наблюдаемое значение t obs находится в критической области, и не отвергать нулевую гипотезу в противном случае. [29]

Практический пример

Разница в двух процессах применительно к примеру с радиоактивным чемоданом (ниже):

Первый отчет является адекватным, второй дает более подробное объяснение данных и причины проверки чемодана.

Неопровержение нулевой гипотезы не означает, что нулевая гипотеза «принята» (см. раздел «Интерпретация»).

Описанные здесь процессы вполне подходят для вычислений. Они серьезно пренебрегают соображениями планирования экспериментов . [30] [31]

Особенно важно оценить соответствующие размеры выборки перед проведением эксперимента.

Фразу «тест значимости» придумал статистик Рональд Фишер . [32]

Интерпретация

Когда нулевая гипотеза верна и статистические предположения выполняются, вероятность того, что значение p будет меньше или равно уровню значимости, не превышает . Это гарантирует, что проверка гипотезы сохранит заданный уровень ложных срабатываний (при условии, что статистические предположения выполняются). [33]

Значение p — это вероятность того, что при нулевой гипотезе будет получена тестовая статистика, которая, по крайней мере, столь же экстремальна, как и полученная. При уровне значимости 0,05 можно ожидать, что честная монета (ошибочно) отвергнет нулевую гипотезу (о том, что она честна) в среднем в 1 из 20 тестов. Значение p не обеспечивает вероятность того, что нулевая гипотеза или ее противоположность верны (частый источник путаницы). [34]

Если значение p меньше выбранного порога значимости (что эквивалентно, если наблюдаемая статистика теста находится в критической области), то мы говорим, что нулевая гипотеза отклонена на выбранном уровне значимости. Если значение p не меньше выбранного порога значимости (т. е. если наблюдаемая статистика теста находится за пределами критической области), то нулевая гипотеза не отклоняется на выбранном уровне значимости.

В примере с «дамой, дегустирующей чай» (ниже) Фишер потребовал, чтобы дама правильно классифицировала все чашки чая, чтобы оправдать вывод о том, что результат вряд ли является случайным. Его тест показал, что если женщина фактически угадывала наугад (нулевая гипотеза), вероятность получения наблюдаемого результата (идеально заказанного чая) составляла 1,4%.

Использование и важность

Статистика полезна при анализе большинства коллекций данных. Это в равной степени справедливо и для проверки гипотез, которая может обосновать выводы, даже если научной теории не существует. В примере с дамой, дегустирующей чай, было «очевидно», что не существует никакой разницы между (молоко, налитое в чай) и (чай, налитое в молоко). Данные противоречили «очевидному».

Реальные применения проверки гипотез включают: [35]

Статистическая проверка гипотез играет важную роль во всей статистике и в статистических выводах . Например, Леманн (1992) в обзоре фундаментальной работы Неймана и Пирсона (1933) говорит: «Тем не менее, несмотря на свои недостатки, новая парадигма, сформулированная в статье 1933 года, и многие разработки, выполненные в ее рамках, продолжают играют центральную роль как в теории, так и в практике статистики, и можно ожидать, что это произойдет в обозримом будущем».

Тестирование значимости было излюбленным статистическим инструментом в некоторых экспериментальных социальных науках (более 90% статей в Журнале прикладной психологии в начале 1990-х годов). [36] Другие области отдают предпочтение оценке параметров (например, размера эффекта ). Проверка значимости используется вместо традиционного сравнения прогнозируемого значения и экспериментального результата, лежащего в основе научного метода . Когда теория способна предсказать только знак взаимосвязи, направленную (одностороннюю) проверку гипотезы можно сконфигурировать так, чтобы только статистически значимый результат поддерживал теорию. Эта форма оценки теории является наиболее подвергаемым критике применением проверки гипотез.

Предостережения

«Если бы правительство потребовало, чтобы статистические процедуры имели предупреждающие надписи, как на лекарствах, большинство методов вывода действительно имели бы длинные надписи». [37] Это предостережение относится к проверке гипотез и альтернативам им.

Успешная проверка гипотезы связана с вероятностью и частотой ошибок I рода. Вывод может быть неверным.

Выводы теста столь же надежны, как и образец, на котором они основаны. Дизайн эксперимента имеет решающее значение. Был обнаружен ряд неожиданных эффектов, в том числе:

Статистический анализ вводящих в заблуждение данных приводит к ошибочным выводам. Вопрос качества данных может быть более тонким. Например, в прогнозировании не существует единого мнения относительно меры точности прогноза. В отсутствие консенсусного измерения ни одно решение, основанное на измерениях, не будет бесспорным.

Предвзятость публикации: статистически незначимые результаты могут быть опубликованы с меньшей вероятностью, что может привести к искажению литературы.

Множественное тестирование: когда несколько тестов истинной нулевой гипотезы проводятся одновременно без корректировки, общая вероятность ошибки типа I выше номинального альфа-уровня. [38]

Те, кто принимает критические решения на основе результатов проверки гипотез, благоразумно обращают внимание на детали, а не только на выводы. В физических науках большинство результатов полностью принимаются только в том случае, если они подтверждены независимо. Общий совет относительно статистики таков: «Цифры никогда не лгут, а лжецы верят» (анонимно).

Значение терминов

Следующие определения в основном основаны на изложении книги Лемана и Романо: [33]

Проверка статистической гипотезы сравнивает статистику теста ( z или t для примеров) с пороговым значением. Статистика теста (формула приведена в таблице ниже) основана на оптимальности. Для фиксированного уровня частоты ошибок типа I использование этой статистики минимизирует частоту ошибок типа II (эквивалентно максимизации мощности). Следующие термины описывают тесты с точки зрения такой оптимальности:

Общая статистика испытаний

На изображении выше показана диаграмма с некоторыми наиболее распространенными статистическими данными тестов и соответствующими тестами или моделями.

Непараметрическая проверка гипотезы начальной загрузки

Методы повторной выборки на основе бутстрапа можно использовать для проверки нулевой гипотезы. Бутстрап создает множество смоделированных выборок путем случайной повторной выборки (с заменой) исходных объединенных выборочных данных, предполагая, что нулевая гипотеза верна. Бутстрап очень универсален, поскольку он не имеет распределения и не опирается на ограничительные параметрические предположения, а скорее на эмпирические приближенные методы с асимптотическими гарантиями. Традиционные параметрические тесты гипотез более эффективны в вычислительном отношении, но делают более строгие структурные предположения. В ситуациях, когда вычисление вероятности тестовой статистики при нулевой гипотезе затруднено или невозможно (возможно, из-за неудобства или отсутствия знания основного распределения), бутстрап предлагает жизнеспособный метод статистического вывода. [39] [40] [41] [42]

Примеры

Соотношение полов человека

Самое раннее использование проверки статистических гипотез обычно связано с вопросом о том, одинаково ли вероятны рождения мальчиков и девочек (нулевая гипотеза), который был рассмотрен в 1700-х годах Джоном Арбутнотом (1710), [43] , а затем Пьером-Симоном Лапласом. (1770-е гг.). [44]

Арбутнот изучил записи о рождении в Лондоне за каждый из 82 лет с 1629 по 1710 год и применил знаковый тест — простой непараметрический критерий . [45] [46] [47] Каждый год количество мужчин, рожденных в Лондоне, превышало количество женщин. Если принять во внимание равновероятность большего количества рождений мальчиков и девочек, то вероятность наблюдаемого исхода составляет 0,582 , или примерно 1 на 4 836 000 000 000 000 000 000 000; говоря современным языком, это p -значение. Арбутнот пришел к выводу, что это слишком мало, чтобы быть результатом случайности, и вместо этого должно быть связано с божественным провидением: «Отсюда следует, что правит Искусство, а не Случай». Говоря современным языком, он отверг нулевую гипотезу о равной вероятности рождения мальчиков и девочек на уровне значимости p  = 1/282 .

Лаплас рассмотрел статистику почти полумиллиона рождений. Статистика показала преобладание мальчиков над девочками. [14] [48] Путем расчета p -значения он пришел к выводу, что превышение было реальным, но необъяснимым эффектом. [49]

Леди дегустирует чай

В известном примере проверки гипотез, известном как « Чай с дегустацией леди» , [50] доктор Мюриэль Бристоль , коллега Фишера, утверждала, что может определить, был ли чай или молоко добавлено в чашку первым. Фишер предложил подарить ей восемь чашек, по четыре каждого сорта, в случайном порядке. Тогда можно было бы спросить, какова вероятность того, что она назовет правильное число, но это просто случайно. Нулевая гипотеза заключалась в том, что у Леди не было такой способности. Статистика теста представляла собой простой подсчет количества успешных попыток выбрать 4 чашки. Критическая область представляла собой единственный случай 4 успехов из 4 возможных, основанных на общепринятом критерии вероятности (< 5%). Паттерн из 4 успехов соответствует 1 из 70 возможных комбинаций (р≈ 1,4%). Фишер утверждал, что никакая альтернативная гипотеза (никогда) не требовалась. Женщина правильно определила каждую чашку, [51] что можно было бы считать статистически значимым результатом.

Судебный процесс

Процедура статистического тестирования сравнима с уголовным судом ; Подсудимый считается невиновным, пока его вина не доказана. Прокурор пытается доказать вину подсудимого. Только тогда, когда имеется достаточно доказательств для обвинения, обвиняемый признается виновным.

В начале процедуры существуют две гипотезы : «обвиняемый невиновен» и «обвиняемый виновен». Первая из них называется нулевой гипотезой . Вторая гипотеза называется альтернативной гипотезой . Это альтернативная гипотеза, которую мы надеемся поддержать.

Гипотеза невиновности отвергается только тогда, когда ошибка очень маловероятна, поскольку нежелательно осуждать невиновного обвиняемого. Такая ошибка называется ошибкой первого рода (т. е. осуждением невиновного лица), и возникновение этой ошибки контролируется, чтобы быть редким. Вследствие такого асимметричного поведения чаще встречается ошибка второго рода (оправдание лица, совершившего преступление).

Уголовный процесс можно рассматривать как один или оба из двух процессов принятия решений: виновен против невиновности или доказательства против порога («вне разумного сомнения»). С одной точки зрения, обвиняемого судят; с другой точки зрения, оценивается деятельность обвинения (которое несет бремя доказывания). Проверка гипотезы может рассматриваться либо как оценка гипотезы, либо как оценка доказательств.

Философские бобы

Следующий пример был приведен философом, описывающим научные методы за несколько поколений до того, как проверка гипотез была формализована и популяризирована. [52]

Лишь немногие зерна из этой горстки белые.
Большинство зерен в этом мешке белые.
Следовательно: Вероятно, эти бобы были взяты из другого мешка.
Это гипотетический вывод.

Бобы в мешке — это население. Горстка — это образец. Нулевая гипотеза состоит в том, что выборка возникла из генеральной совокупности. Критерием отклонения нулевой гипотезы является «очевидная» разница во внешнем виде (неформальная разница в среднем). Интересный результат заключается в том, что при рассмотрении реальной популяции и реальной выборки получился воображаемый мешок. Философ рассматривал логику, а не вероятность. Чтобы быть настоящей статистической проверкой гипотезы, этот пример требует формальностей расчета вероятности и сравнения этой вероятности со стандартом.

Простое обобщение примера рассматривает смешанный мешок фасоли и горстку, содержащую либо очень мало, либо очень много белой фасоли. Обобщение учитывает обе крайности. Для получения формального ответа требуется больше расчетов и сравнений, но основная философия остается неизменной; Если состав горсти сильно отличается от состава мешка, то, вероятно, образец был взят из другого мешка. Исходный пример называется односторонним или односторонним тестом, а обобщение называется двусторонним или двусторонним тестом.

Это утверждение также основано на выводе о том, что выборка была случайной. Если бы кто-то рылся в мешке в поисках белой фасоли, это объяснило бы, почему в горстке было так много белой фасоли, а также объяснило бы, почему количество белой фасоли в мешке исчерпалось (хотя предполагается, что мешок, вероятно, намного больше ладони).

Ясновидящая карточная игра

Человек (субъект) проверяется на ясновидение . Им 25 раз показывают обратную сторону случайно выбранной игральной карты и спрашивают, к какой из четырех мастей она принадлежит. Количество попаданий или правильных ответов называется X.

Пока мы пытаемся найти доказательства их ясновидения, на данный момент нулевая гипотеза состоит в том, что этот человек не является ясновидящим. [53] Альтернатива такова: человек (более или менее) ясновидящий.

Если нулевая гипотеза верна, единственное, что может сделать испытуемый, — это гадать. Для каждой карты вероятность (относительная частота) появления одной масти равна 1/4. Если альтернатива верна, испытуемый правильно предскажет масть с вероятностью больше 1/4. Вероятность правильного угадывания будем называть p . Итак, гипотезы таковы:

и

Когда испытуемый правильно предскажет все 25 карт, мы будем считать его ясновидящим и отвергнем нулевую гипотезу. Таким образом, также с 24 или 23 попаданиями. С другой стороны, при наличии всего лишь 5 или 6 попаданий нет оснований считать их таковыми. А как насчет 12 или 17 попаданий? Каково критическое число попаданий c , при котором мы считаем субъекта ясновидящим? Как определить критическое значение c ? При выборе c =25 (т.е. мы принимаем ясновидение только тогда, когда все карты предсказаны правильно) мы более критичны, чем при c =10. В первом случае почти никто из испытуемых не будет признан ясновидящим, во втором случае определенное количество пройдет тест. На практике каждый решает, насколько критичным он будет. То есть каждый решает, как часто он допускает ошибку первого рода – ложное срабатывание или ошибку I рода. При c = 25 вероятность такой ошибки равна:

,

и, следовательно, очень маленький. Вероятность ложного срабатывания — это вероятность случайного угадывания правильно все 25 раз.

Менее критичный вариант с c = 10 дает:

.

Таким образом, c = 10 дает гораздо большую вероятность ложного срабатывания.

Перед фактическим проведением испытания определяется максимально допустимая вероятность ошибки I рода ( α ). Обычно выбираются значения в диапазоне от 1% до 5%. (Если максимально допустимая частота ошибок равна нулю, требуется бесконечное количество правильных предположений.) В зависимости от этой частоты ошибок типа 1 рассчитывается критическое значение c . Например, если мы выберем коэффициент ошибок 1%, c рассчитывается следующим образом:

.

Из всех чисел с, обладающих этим свойством, выбираем наименьшее, чтобы минимизировать вероятность ошибки II рода, ложноотрицательный результат . Для приведенного выше примера мы выбираем: .

Вариации и подклассы

Статистическая проверка гипотез является ключевым методом как частотного вывода , так и байесовского вывода , хотя эти два типа вывода имеют заметные различия. Статистические проверки гипотез определяют процедуру, которая контролирует (исправляет) вероятность неправильного решения о том, что позиция по умолчанию ( нулевая гипотеза ) неверна. Процедура основана на том, насколько вероятно было бы появление набора наблюдений, если бы нулевая гипотеза была верной. Эта вероятность принятия неправильного решения не является вероятностью того, что нулевая гипотеза верна или верна какая-либо конкретная альтернативная гипотеза. Это контрастирует с другими возможными методами теории принятия решений , в которых нулевая и альтернативная гипотезы рассматриваются на более равной основе.

Один из наивных байесовских подходов к проверке гипотез состоит в том, чтобы основывать решения на апостериорной вероятности [54] [55] , но это не работает при сравнении точечных и непрерывных гипотез. Другие подходы к принятию решений, такие как байесовская теория принятия решений , пытаются сбалансировать последствия неправильных решений по всем возможностям, а не концентрироваться на одной нулевой гипотезе. Ряд других подходов к принятию решения на основе данных доступен через теорию принятия решений и оптимальные решения , некоторые из которых обладают желаемыми свойствами. Однако проверка гипотез является доминирующим подходом к анализу данных во многих областях науки. Расширение теории проверки гипотез включает изучение силы тестов , т.е. вероятности правильного отклонения нулевой гипотезы при условии, что она ложна. Такие соображения можно использовать для определения размера выборки до сбора данных.

Проверка гипотезы Неймана – Пирсона

Пример проверки гипотезы Неймана-Пирсона (или проверки статистической значимости нулевой гипотезы) можно представить, изменив пример с радиоактивным чемоданом. Если «чемодан» на самом деле представляет собой экранированный контейнер для перевозки радиоактивного материала, то можно использовать тест для выбора одной из трех гипотез: радиоактивный источник отсутствует, присутствует один, присутствуют два (все). Испытание может потребоваться в целях безопасности, при этом действия необходимы в каждом случае. Лемма Неймана-Пирсона о проверке гипотез гласит, что хорошим критерием выбора гипотез является отношение их вероятностей ( отношение правдоподобия ). Простой метод решения состоит в выборе гипотезы с наибольшей вероятностью наблюдаемых чисел Гейгера. Типичный результат соответствует интуиции: небольшое количество подсчетов подразумевает отсутствие источника, большое количество подсчетов предполагает наличие двух источников, а промежуточные подсчеты подразумевают один источник. Обратите также внимание, что обычно возникают проблемы с доказательством отрицательного результата . Нулевые гипотезы должны быть как минимум фальсифицируемы .

Теория Неймана-Пирсона может учитывать как априорные вероятности, так и стоимость действий, следующих из решений. [56] Первый позволяет каждому тесту учитывать результаты предыдущих тестов (в отличие от тестов значимости Фишера). Последнее позволяет учитывать экономические вопросы (например), а также вероятности. Отношение правдоподобия остается хорошим критерием выбора гипотез.

Две формы проверки гипотез основаны на разных формулировках задач. Исходный тест аналогичен вопросу «верно/неверно»; тест Неймана-Пирсона больше похож на множественный выбор. По мнению Тьюки [57], первый делает вывод только на основе веских доказательств, тогда как второй принимает решение на основе имеющихся доказательств. Хотя эти два теста кажутся совершенно разными как с математической, так и с философской точки зрения, более поздние разработки привели к противоположному утверждению. Рассмотрим множество крошечных радиоактивных источников. Гипотезы становятся 0,1,2,3... песчинками радиоактивного песка. Существует небольшая разница между отсутствием радиации или некоторым количеством радиации (Фишер) и нулевым количеством песчинок радиоактивного песка по сравнению со всеми альтернативами (Нейман-Пирсон). В основной статье Неймана-Пирсона 1933 г. [4] также рассматривались составные гипотезы (распределение которых включает неизвестный параметр). На примере доказана оптимальность t -критерия (Студента), «лучшего теста для рассматриваемой гипотезы не может быть» (стр. 321). Теория Неймана-Пирсона с самого начала доказывала оптимальность методов Фишера.

Проверка значимости Фишера оказалась популярным гибким статистическим инструментом с небольшим математическим потенциалом роста. Проверка гипотез Неймана-Пирсона считается основой математической статистики [58] , создавая новую парадигму в этой области. Это также стимулировало новые применения в статистическом управлении процессами , теории обнаружения , теории принятия решений и теории игр . Обе формулировки оказались успешными, но успехи носили разный характер.

Спор по формулировкам не разрешен. Наука в основном использует формулировку Фишера (слегка измененную), как она преподается во вводной статистике. Статистики изучают теорию Неймана-Пирсона в аспирантуре. Математики гордятся объединением формулировок. Философы рассматривают их отдельно. Ученые считают, что эти формулировки могут быть конкурирующими (Фишер против Неймана), несовместимыми [2] или дополняющими друг друга. [6] Спор стал более сложным, поскольку байесовский вывод стал респектабельным.

Терминология противоречива. Проверка гипотезы может означать любую смесь двух формулировок, каждая из которых изменилась со временем. Любое обсуждение проверки значимости и проверки гипотез вдвойне подвержено путанице.

Фишер считал, что проверка гипотез является полезной стратегией для осуществления промышленного контроля качества, однако он категорически не соглашался с тем, что проверка гипотез может быть полезна для ученых. [3] Проверка гипотез обеспечивает средства поиска статистических данных, используемых при проверке значимости. [6] Концепция мощности полезна для объяснения последствий корректировки уровня значимости и широко используется при определении размера выборки . Эти два метода остаются философски разными. [8] Обычно (но не всегда ) они дают один и тот же математический ответ. Предпочтительный ответ зависит от контекста. [6] Хотя существующее слияние теорий Фишера и Неймана-Пирсона подверглось резкой критике, рассматривалась возможность модификации слияния для достижения байесовских целей. [59]

Критика

Критика проверки статистических гипотез заполняет тома. [60] [61] [62] [63] [64] [65] Большую часть критики можно резюмировать следующими вопросами:

Критики и сторонники в основном сходятся во мнении относительно характеристик проверки значимости нулевой гипотезы (NHST): хотя она может предоставить критическую информацию, она неадекватна в качестве единственного инструмента статистического анализа . Успешное отклонение нулевой гипотезы может не поддержать исследовательскую гипотезу. Продолжающиеся споры касаются выбора лучших статистических практик на ближайшую перспективу с учетом существующих практик. Однако адекватный дизайн исследования может свести к минимуму эту проблему. Критики предпочли бы полностью запретить NHST, что приведет к полному отказу от этой практики, [77] в то время как сторонники предлагают менее абсолютные изменения. [ нужна цитата ]

Споры по поводу проверки значимости и, в частности, ее влияния на предвзятость публикаций привели к нескольким результатам. Американская психологическая ассоциация ужесточила свои требования к статистической отчетности после проверки, [78] издатели медицинских журналов признали обязанность публиковать некоторые результаты, которые не являются статистически значимыми для борьбы с предвзятостью публикации, [79] и журнал ( Journal of Articles in Support of Нулевая гипотеза ) была создана исключительно для публикации таких результатов. [80] В учебники добавлены некоторые предостережения, [81] и расширено освещение инструментов, необходимых для оценки размера выборки, необходимой для получения значимых результатов. Лишь немногие крупные организации отказались от использования тестов значимости, хотя некоторые обсуждали это. [78] Например, в 2023 году редакторы журнала « Физиология» «настоятельно рекомендуют использовать методы оценки тем, кто публикуется в журнале» (имеется в виду величина эффекта ( чтобы позволить читателям судить, имеет ли вывод практическое значение). (физиологическая или клиническая значимость) и доверительные интервалы , чтобы передать точность этой оценки), говоря: «В конечном счете, тех, кто публикует в «Журнале физиологии», должна больше всего интересовать физиологическая значимость данных, а не статистическая значимость. ." [82]

Альтернативы

Объединяющая позиция критиков заключается в том, что статистика должна приводить не к выводу или решению «принять-отклонить», а к оценочному значению с интервальной оценкой ; Эта философия анализа данных широко называется оценочной статистикой . Статистика оценки может быть получена с помощью частотного [1] или байесовского метода. [83] [84]

Критики проверки значимости выступают за то, чтобы выводы основывались не столько на p-значениях, сколько на доверительных интервалах для величины эффекта по важности, интервалах прогнозирования для уверенности, повторениях и расширениях для воспроизводимости, метаанализе для общности: [85] . Но ни одна из этих предложенных альтернатив по своей сути не приводит к решению. Леманн сказал, что теория проверки гипотез может быть представлена ​​в терминах выводов/решений, вероятностей или доверительных интервалов: «Различие между... подходами во многом заключается в сообщении и интерпретации». [23]

Байесовский вывод является одной из предлагаемых альтернатив проверке значимости. (Никерсон процитировал 10 источников, предполагающих это, включая Розебума (1960)). [75] Например, оценка байесовских параметров может предоставить обширную информацию о данных, из которой исследователи могут сделать выводы, используя при этом неопределенные априорные данные , которые оказывают лишь минимальное влияние на результаты, когда доступно достаточно данных. Психолог Джон К. Крушке предложил байесовскую оценку в качестве альтернативы t -тесту [83] , а также противопоставил байесовскую оценку для оценки нулевых значений сравнению байесовской модели для проверки гипотез. [84] Две конкурирующие модели/гипотезы можно сравнить с использованием факторов Байеса . [86] Байесовские методы можно критиковать за то, что они требуют информации, которая редко доступна в тех случаях, когда проверка значимости используется наиболее интенсивно. Ни априорные вероятности, ни распределение вероятностей тестовой статистики согласно альтернативной гипотезе часто недоступны в социальных науках. [75]

Сторонники байесовского подхода иногда утверждают, что целью исследователя чаще всего является объективная оценка вероятности того, что гипотеза верна, на основе собранных им данных. [87] [88] Ни проверка значимости Фишера, ни проверка гипотезы Неймана-Пирсона не могут предоставить эту информацию и не претендуют на это. Вероятность того, что гипотеза верна, может быть получена только на основе использования теоремы Байеса , которая была неудовлетворительной как для лагеря Фишера, так и для лагеря Неймана-Пирсона из-за явного использования субъективности в форме априорной вероятности . [4] [89] Стратегия Фишера состоит в том, чтобы обойти это с помощью p -значения (объективного индекса , основанного только на данных) с последующим индуктивным выводом , в то время как Нейман-Пирсон разработали свой подход индуктивного поведения .

Смотрите также

Рекомендации

  1. ^ Беллхаус, П. (2001), «Джон Арбетнот», в «Статистиках веков» К. К. Хейда и Э. Сенеты , Springer, стр. 39–42, ISBN 978-0-387-95329-8
  2. ^ ab Рэймонд Хаббард, MJ Bayarri , Значения P не являются вероятностью ошибки. Архивировано 4 сентября 2013 г. в Wayback Machine . Рабочий документ, объясняющий разницу между доказательным p -значением Фишера и частотой ошибок Неймана-Пирсона типа I.
  3. ^ аб Фишер, Р. (1955). «Статистические методы и научная индукция» (PDF) . Журнал Королевского статистического общества, серия B. 17 (1): 69–78.
  4. ^ abcd Нейман, Дж; Пирсон, Э.С. (1 января 1933 г.). «К проблеме наиболее эффективной проверки статистических гипотез». Философские труды Королевского общества А. 231 (694–706): 289–337. Бибкод : 1933RSPTA.231..289N. дои : 10.1098/rsta.1933.0009 .
  5. Гудман, SN (15 июня 1999 г.). «К медицинской статистике, основанной на фактических данных. 1: Ошибка значения P». Энн, интерн, мед . 130 (12): 995–1004. дои : 10.7326/0003-4819-130-12-199906150-00008. PMID  10383371. S2CID  7534212.
  6. ^ abcd Леманн, EL (декабрь 1993 г.). «Теории проверки гипотез Фишера, Неймана-Пирсона: одна теория или две?». Журнал Американской статистической ассоциации . 88 (424): 1242–1249. дои : 10.1080/01621459.1993.10476404.
  7. ^ Фишер, Р.Н. (1958). «Природа вероятности» (PDF) . Столетний обзор . 2 : 261–274. Мы рискуем отправить в мир высококвалифицированных и очень умных молодых людей с таблицами ошибочных чисел под мышкой и с густым туманом в том месте, где должны быть их мозги. В этом столетии, конечно, они будут работать над управляемыми ракетами и консультировать медиков по вопросам борьбы с болезнями, и нет предела тому, до какой степени они могут препятствовать любым национальным усилиям.
  8. ^ abc Ленхард, Йоханнес (2006). «Модели и статистические выводы: противоречие между Фишером и Нейманом-Пирсоном». Бр. Дж. Филос. Наука . 57 : 69–91. дои : 10.1093/bjps/axi152. S2CID  14136146.
  9. ^ Нейман, Ежи (1967). «РА Фишер (1890–1962): Признательность». Наука . 156 (3781): 1456–1460. Бибкод : 1967Sci...156.1456N. дои : 10.1126/science.156.3781.1456. PMID  17741062. S2CID  44708120.
  10. ^ Лосавич, Дж.Л.; Нейман, Дж.; Скотт, Эл.; Уэллс, Массачусетс (1971). «Гипотетические объяснения очевидных негативных последствий засева облаков в эксперименте с Уайттопом». Труды Национальной академии наук Соединенных Штатов Америки . 68 (11): 2643–2646. Бибкод : 1971PNAS...68.2643L. дои : 10.1073/pnas.68.11.2643 . ПМЦ 389491 . ПМИД  16591951. 
  11. ^ аб Халпин, П.Ф.; Стам, HJ (зима 2006 г.). «Индуктивный вывод или индуктивное поведение: Фишер и Нейман: подходы Пирсона к статистическому тестированию в психологических исследованиях (1940–1960)». Американский журнал психологии . 119 (4): 625–653. дои : 10.2307/20445367. JSTOR  20445367. PMID  17286092.
  12. ^ Гигеренцер, Герд; Зено Свитинк; Теодор Портер; Лоррейн Дастон; Джон Битти; Лоренц Крюгер (1989). «Часть 3: Эксперты по выводам». Империя случая: как вероятность изменила науку и повседневную жизнь . Издательство Кембриджского университета. стр. 70–122. ISBN 978-0-521-39838-1.
  13. ^ Мил, П. (1990). «Оценка и изменение теорий: стратегия защиты Лакатоса и два принципа, которые ее оправдывают» (PDF) . Психологический опрос . 1 (2): 108–141. дои : 10.1207/s15327965pli0102_1.
  14. ^ аб Лаплас, П. (1778). «Мемуар о вероятностях» (PDF) . Мемуары Парижской Королевской академии наук . 9 : 227–332. Архивировано из оригинала (PDF) 27 апреля 2015 г. Проверено 5 сентября 2013 г.
  15. ^ Пирсон, К. (1900). «О том критерии, что данная система отклонений от вероятного в случае коррелированной системы переменных такова, что можно разумно предположить, что она возникла в результате случайной выборки» (PDF) . Лондонский, Эдинбургский и Дублинский философский журнал и научный журнал . 5 (50): 157–175. дои : 10.1080/14786440009463897.
  16. ^ Пирсон, К. (1904). «О теории непредвиденных обстоятельств и ее связи с ассоциацией и нормальной корреляцией». Серия биометрических мемуаров об исследованиях компании Drapers . 1 :1–35.
  17. ^ Забелл, С (1989). «РА Фишер об истории обратной вероятности». Статистическая наука . 4 (3): 247–256. дои : 10.1214/ss/1177012488 . JSTOR  2245634.
  18. ^ Мэйо, генеральный директор; Спанос, А. (2006). «Строгое тестирование как основная концепция индукционной философии Неймана-Пирсона». Британский журнал философии науки . 57 (2): 323–357. CiteSeerX 10.1.1.130.8131 . дои : 10.1093/bjps/axl003. S2CID  7176653. 
  19. ^ Математика > Средняя школа: статистика и вероятность > Введение. Архивировано 28 июля 2012 г., в archive.today Инициатива по общим основным государственным стандартам (касается студентов из США).
  20. ^ Тесты Совета колледжа > AP: Предметы > Статистика Совет колледжа (относится к студентам из США)
  21. ^ Хафф, Даррелл (1993). Как лгать со статистикой. Нью-Йорк: Нортон. п. 8. ISBN 978-0-393-31072-6.«Статистические методы и статистические термины необходимы при сообщении массовых данных о социальных и экономических тенденциях, условиях предпринимательской деятельности, опросах общественного мнения, переписи населения. Но без писателей, которые честно используют эти слова, и читателей, которые знают, что они означают, результатом может стать лишь смысловая чепуха».
  22. ^ Снедекор, Джордж В.; Кокран, Уильям Г. (1967). Статистические методы (6-е изд.). Эймс, Айова: Издательство Университета штата Айова. п. 3.«...основные идеи статистики помогают нам ясно размышлять над проблемой, дают некоторые указания относительно условий, которые должны быть удовлетворены, чтобы сделать правильные выводы, и позволяют нам обнаруживать многие выводы, которые не имеют хорошего логического обоснования. "
  23. ^ AB Э. Л. Леманн (1997). «Проверка статистических гипотез: история книги». Статистическая наука . 12 (1): 48–52. дои : 10.1214/ss/1029963261 .
  24. ^ Сотос, Ана Элиза Кастро; Ванхоф, Стейн; Ноортгейт, Вим Ван ден; Онгена, Патрик (2007). «Заблуждения студентов о статистических выводах: обзор эмпирических данных исследований в области статистического образования» (PDF) . Обзор образовательных исследований . 2 (2): 98–113. doi :10.1016/j.edurev.2007.04.001.
  25. ^ Мур, Дэвид С. (1997). «Новая педагогика и новый контент: пример статистики» (PDF) . Международный статистический обзор . 65 (2): 123–165. дои : 10.2307/1403333. JSTOR  1403333.
  26. ^ Хаббард, Раймонд; Армстронг, Дж. Скотт (2006). «Почему мы на самом деле не знаем, что означает статистическая значимость: последствия для преподавателей». Журнал маркетингового образования . 28 (2): 114–120. дои : 10.1177/0273475306288399. hdl : 2092/413 . S2CID  34729227.
  27. ^ Сотос, Ана Элиза Кастро; Ванхоф, Стейн; Ноортгейт, Вим Ван ден; Онгена, Патрик (2009). «Насколько студенты уверены в своих заблуждениях о проверке гипотез?». Журнал статистического образования . 17 (2). дои : 10.1080/10691898.2009.11889514 .
  28. ^ Гигеренцер, Г. (2004). «Нулевой ритуал. Что вы всегда хотели знать о важных тестах, но боялись спросить» (PDF) . Справочник SAGE по количественной методологии для социальных наук . стр. 391–408. дои : 10.4135/9781412986311. ISBN 9780761923596.
  29. ^ «Проверка статистических гипотез». Спрингеровские тексты в статистике . 2005. doi : 10.1007/0-387-27605-x. ISBN 978-0-387-98864-1. ISSN  1431-875X.
  30. ^ Хинкельманн, Клаус; Кемпторн, Оскар (2008). Планирование и анализ экспериментов . Том. I и II (Второе изд.). Уайли. ISBN 978-0-470-38551-7.
  31. ^ Монтгомери, Дуглас (2009). Планирование и анализ экспериментов . Хобокен, Нью-Джерси: Уайли. ISBN 978-0-470-12866-4.
  32. ^ Р. А. Фишер (1925). Статистические методы для научных работников , Эдинбург: Оливер и Бойд, 1925, стр. 43.
  33. ^ Аб Леманн, Эль; Романо, Джозеф П. (2005). Проверка статистических гипотез (изд. 3E). Нью-Йорк: Спрингер. ISBN 978-0-387-98864-1.
  34. ^ Нуццо, Регина (2014). «Научный метод: Статистические ошибки». Природа . 506 (7487): 150–152. Бибкод : 2014Natur.506..150N. дои : 10.1038/506150a . ПМИД  24522584.
  35. ^ Ричард Дж. Ларсен; Донна Фокс Строуп (1976). Статистика в реальном мире: книга примеров . Макмиллан. ISBN 978-0023677205.
  36. ^ Хаббард, Р.; Парса, Арканзас; Люти, MR (1997). «Распространение тестирования статистической значимости в психологии: на примере журнала прикладной психологии». Теория и психология . 7 (4): 545–554. дои : 10.1177/0959354397074006. S2CID  145576828.
  37. ^ Мур, Дэвид (2003). Введение в практику статистики . Нью-Йорк: WH Freeman and Co., с. 426. ИСБН 9780716796572.
  38. ^ Ранганатан, Прия; Прамеш, К.С.; Буйс, Марк (апрель – июнь 2016 г.). «Распространенные ошибки статистического анализа: опасности множественного тестирования». Перспектива Клин Рес . 7 (2): 106–107. дои : 10.4103/2229-3485.179436 . ПМЦ 4840791 . ПМИД  27141478. 
  39. ^ Холл П. и Уилсон С.Р., 1991. Два руководства по проверке гипотез начальной загрузки. Биометрия, стр.757-762.
  40. ^ Тибширани, Р.Дж. и Эфрон, Б., 1993. Введение в бутстрап. Монографии по статистике и прикладной вероятности, 57(1).
  41. ^ Мартин, Массачусетс, 2007. Проверка гипотезы начальной загрузки для некоторых распространенных статистических проблем: критическая оценка свойств размера и мощности. Вычислительная статистика и анализ данных, 51 (12), стр. 6321-6342.
  42. ^ Горовиц, Дж. Л., 2019. Бутстрап-методы в эконометрике. Ежегодный обзор экономики, 11, стр. 193–224. Я
  43. ^ Джон Арбутнот (1710). «Аргумент в пользу Божественного Провидения, основанный на постоянной регулярности рождаемости у представителей обоих полов» (PDF) . Философские труды Лондонского королевского общества . 27 (325–336): 186–190. дои : 10.1098/rstl.1710.0011 . S2CID  186209819.
  44. ^ Брайан, Эрик; Джейссон, Мари (2007). «Физико-теология и математика (1710–1794)». Изменение соотношения полов человека при рождении . Springer Science & Business Media. стр. 1–25. ISBN 978-1-4020-6036-6.
  45. ^ Коновер, WJ (1999), «Глава 3.4: Знаковый тест», Практическая непараметрическая статистика (Третье изд.), Wiley, стр. 157–176, ISBN 978-0-471-16068-7
  46. ^ Срент, П. (1989), Прикладные непараметрические статистические методы (второе изд.), Chapman & Hall, ISBN 978-0-412-44980-2
  47. ^ Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 года . Издательство Гарвардского университета. стр. 225–226. ISBN 978-0-67440341-3.
  48. ^ Лаплас, П. (1778). «Воспоминания о вероятностях (XIX, XX)». Завершены произведения Лапласа . Том. 9. С. 429–438. {{cite book}}: |journal=игнорируется ( помощь )
  49. ^ Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 года. Кембридж, Массачусетс: Belknap Press of Harvard University Press. п. 134. ИСБН 978-0-674-40340-6.
  50. ^ Фишер, сэр Рональд А. (1956) [1935]. «Математика дамы, дегустирующей чай». В Джеймсе Рое Ньюмане (ред.). Мир математики, том 3 [ Планирование экспериментов ]. Публикации Courier Dover. ISBN 978-0-486-41151-4.Первоначально из книги Фишера «Планирование экспериментов» .
  51. ^ Коробка, Джоан Фишер (1978). Р.А. Фишер, Жизнь учёного . Нью-Йорк: Уайли. п. 134. ИСБН 978-0-471-09300-8.
  52. ^ К.С. Пирс (август 1878 г.). «Иллюстрации логики науки VI: дедукция, индукция и гипотеза». Научно-популярный ежемесячник . 13 . Проверено 30 марта 2012 г.
  53. ^ Джейнс, ET (2007). Теория вероятностей: логика науки (5-е печатное изд.). Кембридж [ua]: Cambridge Univ. Нажимать. ISBN 978-0-521-59271-0.
  54. ^ Шервиш, М. (1996) Теория статистики , с. 218. ISBN Спрингера 0-387-94546-6. 
  55. ^ Кэй, Дэвид Х.; Фридман, Дэвид А. (2011). «Справочник по статистике». Справочное руководство по научным данным (3-е изд.). Иган, Миннесота Вашингтон, округ Колумбия: Издательство Западных национальных академий. п. 259. ИСБН 978-0-309-21421-6.
  56. ^ Эш, Роберт (1970). Основная теория вероятностей . Нью-Йорк: Уайли. ISBN 978-0471034506.Раздел 8.2
  57. ^ аб Тьюки, Джон В. (1960). «Выводы против решений». Технометрика . 26 (4): 423–433. дои : 10.1080/00401706.1960.10489909.«Пока мы не пройдемся по отчетам о проверке гипотез, отделяя элементы решения [Неймана-Пирсона] от элементов заключения [Фишера], тесная смесь несопоставимых элементов будет постоянным источником путаницы». ... «Есть место и для того, чтобы «делать все, что в твоих силах», и для того, чтобы «говорить только то, что несомненно», но важно знать в каждом случае и то, что делается, и то, что следует делать. "
  58. ^ Стиглер, Стивен М. (август 1996 г.). «История статистики в 1933 году». Статистическая наука . 11 (3): 244–252. дои : 10.1214/ss/1032280216 . JSTOR  2246117.
  59. ^ Бергер, Джеймс О. (2003). «Могли ли Фишер, Джеффрис и Нейман договориться о тестировании?». Статистическая наука . 18 (1): 1–32. дои : 10.1214/ss/1056397485 .
  60. ^ Моррисон, Дентон; Хенкель, Рамон, ред. (2006) [1970]. Споры о тесте значимости . Альдинская сделка. ISBN 978-0-202-30879-1.
  61. ^ Оукс, Майкл (1986). Статистический вывод: комментарий для социальных и поведенческих наук . Чичестер, Нью-Йорк: Уайли. ISBN 978-0471104438.
  62. ^ Чоу, Сиу Л. (1997). Статистическая значимость: обоснование, достоверность и полезность . Публикации SAGE. ISBN 978-0-7619-5205-3.
  63. ^ Харлоу, Лиза Лавуа; Стэнли А. Мулайк; Джеймс Х. Стайгер, ред. (1997). Что, если бы не было никаких тестов значимости? . Лоуренс Эрлбаум Ассошиэйтс. ISBN 978-0-8058-2634-0.
  64. ^ аб Кляйн, Рекс (2004). За пределами тестирования значимости: реформирование методов анализа данных в поведенческих исследованиях . Вашингтон, округ Колумбия: Американская психологическая ассоциация. ISBN 9781591471189.
  65. ^ Макклоски, Дейдра Н.; Стивен Т. Зилиак (2008). Культ статистической значимости: как стандартная ошибка стоит нам рабочих мест, правосудия и жизней . Издательство Мичиганского университета. ISBN 978-0-472-05007-9.
  66. ^ Корнфилд, Джером (1976). «Последний методологический вклад в клинические исследования» (PDF) . Американский журнал эпидемиологии . 104 (4): 408–421. doi : 10.1093/oxfordjournals.aje.a112313. ПМИД  788503.
  67. ^ Йейтс, Фрэнк (1951). «Влияние статистических методов для научных работников на развитие статистической науки». Журнал Американской статистической ассоциации . 46 (253): 19–34. дои : 10.1080/01621459.1951.10500764.«Акцент, уделяемый формальным тестам значимости в «Статистических методах» [Р.А. Фишера]... заставил научных работников уделять чрезмерное внимание результатам тестов значимости, которые они выполняют над своими данными, особенно данными, полученными в результате экспериментов, а также мало что соответствует оценкам масштабов эффектов, которые они исследуют». ... «Акцент на проверках значимости и рассмотрение результатов каждого эксперимента в отдельности имели печальные последствия: научные работники часто считали выполнение проверки значимости эксперимента конечной целью».
  68. ^ Бегг, Колин Б.; Берлин, Джесси А. (1988). «Предвзятость публикации: проблема интерпретации медицинских данных». Журнал Королевского статистического общества, серия A. 151 (3): 419–463. дои : 10.2307/2982993. JSTOR  2982993. S2CID  121054702.
  69. ^ Мил, Пол Э. (1967). «Проверка теории в психологии и физике: методологический парадокс» (PDF) . Философия науки . 34 (2): 103–115. дои : 10.1086/288135. S2CID  96422880. Архивировано из оригинала (PDF) 3 декабря 2013 г.Тридцать лет спустя Мил признал теорию статистической значимости математически обоснованной, продолжая при этом подвергать сомнению выбор нулевой гипотезы по умолчанию, обвиняя вместо этого «плохое понимание социологами логической связи между теорией и фактами» в книге «Проблема заключается в эпистемологии, а не в Статистика: замена тестов значимости доверительными интервалами и количественная оценка точности рискованных числовых прогнозов» (глава 14 в Harlow (1997)).
  70. ^ Бакан, Дэвид (1966). «Тест значимости в психологических исследованиях». Психологический вестник . 66 (6): 423–437. дои : 10.1037/h0020412. ПМИД  5974619.
  71. ^ Гигеренцер, Г. (ноябрь 2004 г.). «Бессмысленная статистика». Журнал социально-экономики . 33 (5): 587–606. doi :10.1016/j.socec.2004.09.033.
  72. ^ Наннелли, Джам (1960). «Место статистики в психологии». Образовательные и психологические измерения . 20 (4): 641–650. дои : 10.1177/001316446002000401. S2CID  144813784.
  73. ^ Ликкен, Дэвид Т. (1991). «А что не так с психологией?». Думая ясно о психологии . 1 :3–39.
  74. ^ Джейкоб Коэн (декабрь 1994 г.). «Земля круглая (p < 0,05)». Американский психолог . 49 (12): 997–1003. дои : 10.1037/0003-066X.49.12.997. S2CID  380942.Эта статья привела к обзору статистической практики, проведенному APA. Коэн был членом оперативной группы, проводившей проверку.
  75. ^ abc Никерсон, Раймонд С. (2000). «Проверка значимости нулевой гипотезы: обзор старого и продолжающегося спора». Психологические методы . 5 (2): 241–301. дои : 10.1037/1082-989X.5.2.241. PMID  10937333. S2CID  28340967.
  76. ^ Бранч, Марк (2014). «Злокачественные побочные эффекты проверки значимости нулевой гипотезы». Теория и психология . 24 (2): 256–277. дои : 10.1177/0959354314525282. S2CID  40712136.
  77. ^ Хантер, Джон Э. (январь 1997 г.). «Необходимо: запрет на тест на значимость». Психологическая наука . 8 (1): 3–7. doi :10.1111/j.1467-9280.1997.tb00534.x. S2CID  145422959.
  78. ^ Аб Уилкинсон, Лиланд (1999). «Статистические методы в психологических журналах: рекомендации и пояснения». Американский психолог . 54 (8): 594–604. дои : 10.1037/0003-066X.54.8.594. S2CID  428023.«Проверка гипотез. Трудно представить ситуацию, в которой дихотомическое решение принять-отклонить будет лучше, чем сообщение фактического значения p или, еще лучше, доверительного интервала». (стр. 599). Комитет использовал предостерегающий термин «терпимость», описывая свое решение против запрета проверки гипотез в психологических репортажах. (стр. 603)
  79. ^ «ICMJE: Обязательство публиковать негативные исследования» . Архивировано из оригинала 16 июля 2012 года . Проверено 3 сентября 2012 г. Редакторы должны серьезно рассматривать возможность публикации любого тщательно проведенного исследования важного вопроса, интересующего читателей, независимо от того, являются ли результаты основного или любого дополнительного результата статистически значимыми. Неспособность представить или опубликовать результаты из-за отсутствия статистической значимости является важной причиной предвзятости публикации.
  80. ^ Веб-сайт журнала статей в поддержку нулевой гипотезы : домашняя страница JASNH. Том 1 номер 1 был опубликован в 2002 году, и все статьи посвящены темам, связанным с психологией.
  81. ^ Хауэлл, Дэвид (2002). Статистические методы психологии (5-е изд.). Даксбери. п. 94. ИСБН 978-0-534-37770-0.
  82. Уильямс С., Карсон Р., Тот К. (10 октября 2023 г.). «Выход за рамки значений P в Журнале физиологии: введение в значение величины эффекта и доверительных интервалов». Дж Физиол . 601 (23): 5131–5133. дои : 10.1113/JP285575 . PMID  37815959. S2CID  263827430.{{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  83. ↑ Аб Крушке, Дж. К. (9 июля 2012 г.). «Байесовская оценка заменяет T-тест» (PDF) . Журнал экспериментальной психологии: Общие сведения . 142 (2): 573–603. дои : 10.1037/a0029146. PMID  22774788. S2CID  5610231.
  84. ↑ Аб Крушке, Дж. К. (8 мая 2018 г.). «Отклонение или принятие значений параметров в байесовской оценке» (PDF) . Достижения в методах и практике психологической науки . 1 (2): 270–280. дои : 10.1177/2515245918771304. S2CID  125788648.
  85. ^ Армстронг, Дж. Скотт (2007). «Тестирование значимости вредит прогрессу в прогнозировании». Международный журнал прогнозирования . 23 (2): 321–327. CiteSeerX 10.1.1.343.9516 . doi : 10.1016/j.ijforecast.2007.03.004. S2CID  1550979. 
  86. ^ Касс, RE (1993). Факторы Байеса и неопределенность модели (PDF) (Отчет). Департамент статистики Вашингтонского университета.
  87. ^ Розебум, Уильям В. (1960). «Ошибочность теста значимости нулевой гипотезы» (PDF) . Психологический вестник . 57 (5): 416–428. CiteSeerX 10.1.1.398.9002 . дои : 10.1037/h0042040. ПМИД  13744252. «...правильное применение статистики к научным выводам безвозвратно связано с широким рассмотрением обратных [так называемых байесовских] вероятностей...» Было с сожалением признано, что априорные распределения вероятностей были доступны «только как субъективное ощущение, отличаться от одного человека к другому, «по крайней мере, в ближайшем будущем».
  88. ^ Бергер, Джеймс (2006). «Дело в пользу объективного байесовского анализа». Байесовский анализ . 1 (3): 385–402. дои : 10.1214/06-ba115 . Перечисляя конкурирующие определения «объективного» байесовского анализа, «Основная цель статистики (на самом деле науки) состоит в том, чтобы найти полностью последовательную объективную байесовскую методологию обучения на данных». Автор высказал мнение, что эта цель «недостижима».
  89. ^ Олдрич, Дж (2008). «РА Фишер о Байесе и теореме Байеса». Байесовский анализ . 3 (1): 161–170. дои : 10.1214/08-BA306 .

дальнейшее чтение

Внешние ссылки

Онлайн калькуляторы