В статистическом тестировании гипотез p-rep или p rep был предложен в качестве статистической альтернативы классическому p-значению . [1] В то время как p-значение представляет собой вероятность получения результата при нулевой гипотезе, p-rep подразумевает вычисление вероятности воспроизведения эффекта. Вывод p-rep содержал значительные математические ошибки.
Некоторое время Ассоциация психологических наук рекомендовала, чтобы статьи, направляемые в журнал Psychological Science и другие журналы, указывали p-rep, а не классическое p-значение [2] , но теперь это уже не так. [3]
Значение p-rep ( p rep ) можно приблизительно рассчитать на основе p-значения ( p ) следующим образом:
Вышеизложенное применимо к односторонним распределениям.
Тот факт, что p-rep имеет однозначное соответствие с p-значением, ясно показывает, что эта новая мера не несет никакой дополнительной информации, помимо той, что передается значимостью результата. Киллин признает этот недостаток информации, но предполагает, что p-rep лучше отражает способ, которым наивные экспериментаторы концептуализируют p-значения и статистическую проверку гипотез .
Среди критических замечаний к p-rep является тот факт, что, хотя он пытается оценить воспроизводимость, он игнорирует результаты других исследований, которые могут точно направлять эту оценку. [4] Например, эксперимент с каким-то маловероятным паранормальным явлением может дать p-rep 0,75. Большинство людей все равно не придут к выводу, что вероятность репликации составляет 75%. Скорее, они придут к выводу, что она гораздо ближе к 0: экстраординарные заявления требуют экстраординарных доказательств , и p-rep игнорирует это. Из-за этого p-rep на самом деле может быть сложнее интерпретировать, чем классическое p-значение. Тот факт, что p-rep требует предположений о априорных вероятностях для того, чтобы быть действительным, делает его интерпретацию сложной. Киллин утверждает, что новые результаты должны оцениваться сами по себе, без «бремени истории», с плоскими априорными данными: это то, что дает p-rep. Более прагматичная оценка воспроизводимости включала бы априорные знания, например, посредством метаанализа .
Критики также подчеркнули математические ошибки в оригинальной статье Килина. Например, формула, связывающая размеры эффекта от двух повторений данного эксперимента, ошибочно использует одну из этих случайных величин как параметр распределения вероятности другой , в то время как ранее он предполагал, что эти две переменные независимы , [5] критика рассмотрена в ответе Килина. [6]
Дальнейшая критика статистики p-rep касается логики эксперимента. Научная ценность воспроизводимых данных заключается в адекватном учете ранее неизмеренных факторов (например, неизмеренных переменных участников, предвзятости экспериментатора и т. д.). Идея о том, что одно исследование может охватить логическую вероятность таких неизмеренных факторов, влияющих на результат, и, таким образом, вероятность воспроизводимости, является логической ошибкой. [ необходима цитата ]