Кризис репликации

Кризис репликации ^[a] — это продолжающийся методологический кризис, при котором результаты многих научных исследований трудно или невозможно воспроизвести . Поскольку воспроизводимость эмпирических результатов является неотъемлемой частью научного метода , ^[2] такие неудачи подрывают достоверность теорий, построенных на них, и потенциально ставят под сомнение существенные части научного знания.

Кризис репликации часто обсуждается в связи с психологией и медициной , где были предприняты значительные усилия для повторного исследования классических результатов, чтобы определить, являются ли они надежными, и если они не являются таковыми, то причины неудачи. ^[3]^[4] Данные убедительно указывают на то, что другие естественные и социальные науки также затронуты. ^[5]

Термин «кризис репликации» был придуман в начале 2010-х годов ^[6] как часть растущего осознания проблемы. Рассмотрение причин и средств привело к появлению новой научной дисциплины, метанауки [ ^7] , которая использует методы эмпирического исследования для изучения практики эмпирического исследования. ^[8]

Соображения о воспроизводимости можно разделить на две категории. Воспроизводимость в узком смысле относится к повторному изучению и подтверждению анализа заданного набора данных. Репликация относится к повторению эксперимента или исследования для получения новых, независимых данных с целью достижения тех же или похожих выводов.

Фон

Репликация

Репликацию называют «краеугольным камнем науки». ^[9]^[10] Ученый в области охраны окружающей среды Стефан Шмидт начал обзор 2009 года с такого описания репликации:

Репликация является одним из центральных вопросов в любой эмпирической науке. Подтверждение результатов или гипотез процедурой повторения лежит в основе любой научной концепции. Эксперимент по репликации, демонстрирующий, что те же результаты могут быть получены в любом другом месте любым другим исследователем, рассматривается как операционализация объективности. Это доказательство того, что эксперимент отражает знание, которое можно отделить от конкретных обстоятельств (таких как время, место или люди), при которых оно было получено. ^[11]

Однако существует ограниченный консенсус относительно того, как определять репликацию и потенциально связанные с ней концепции. ^[12]^[13]^[11] Было выявлено несколько типов репликации:

Прямая или точная репликация , когда экспериментальная процедура повторяется настолько точно, насколько это возможно. ^[11]^[14]
Систематическое воспроизведение , при котором экспериментальная процедура в значительной степени повторяется с некоторыми преднамеренными изменениями. ^[14]
Концептуальная репликация , где вывод или гипотеза проверяются с использованием другой процедуры. ^[11]^[14] Концептуальная репликация позволяет проверить обобщаемость и достоверность результата или гипотезы. ^[14]

Воспроизводимость также можно отличить от репликации , как относящейся к воспроизведению тех же результатов с использованием того же набора данных. Воспроизводимость этого типа является причиной того, что многие исследователи делают свои данные доступными для тестирования другими. ^[15]

Кризис репликации не обязательно означает, что эти области ненаучны. ^[16]^[17]^[18] Скорее, этот процесс является частью научного процесса, в котором старые идеи или те, которые не выдерживают тщательного изучения, отсекаются, ^[19]^[20] хотя этот процесс отсекания не всегда эффективен. ^[21]^[22]

Гипотеза обычно считается подтвержденной, когда результаты соответствуют прогнозируемой модели, и эта модель результатов оказывается статистически значимой . Результаты считаются значимыми, когда относительная частота наблюдаемой модели падает ниже произвольно выбранного значения (т. е. уровня значимости ) при предположении, что нулевая гипотеза верна. Это обычно отвечает на вопрос о том, насколько маловероятными были бы результаты, если бы на уровне статистической популяции не существовало никакой разницы . Если вероятность, связанная с тестовой статистикой, превышает выбранное критическое значение , результаты считаются статистически значимыми. ^[23] Соответствующая вероятность превышения критического значения обозначается как p < 0,05, где p (обычно называемое « p -значением ») — это уровень вероятности. Это должно привести к тому, что 5% поддерживаемых гипотез окажутся ложноположительными (неверная гипотеза ошибочно признана верной), при условии, что исследования соответствуют всем статистическим предположениям. В некоторых областях используются меньшие p-значения, такие как p < 0,01 (вероятность ложноположительного результата 1%) или p < 0,001 (вероятность ложноположительного результата 0,1%). Но меньшая вероятность ложноположительного результата часто требует больших размеров выборки или большей вероятности ложноотрицательного результата (верная гипотеза ошибочно считается неверной) . Хотя тестирование p -значения является наиболее часто используемым методом, это не единственный метод.

Статистика

Некоторые термины, обычно используемые при обсуждении кризиса репликации, имеют технически точные значения, которые представлены здесь. ^[1]

В наиболее распространенном случае проверки нулевой гипотезы есть две гипотезы: нулевая гипотеза и альтернативная гипотеза . Нулевая гипотеза обычно имеет вид «X и Y статистически независимы ». Например, нулевая гипотеза может быть такой: «прием препарата X не изменяет годовой показатель выздоровления от болезни Y», а альтернативная гипотеза заключается в том, что он изменяет. $H_{0}$ $H_{1}$

Поскольку проверка полной статистической независимости затруднена, полная нулевая гипотеза часто упрощается до упрощенной нулевой гипотезы «размер эффекта равен 0», где « размер эффекта » — это действительное число, которое равно 0, если полная нулевая гипотеза верна, и чем больше размер эффекта, тем больше нулевая гипотеза ложна. ^[24] Например, если X является бинарным, то размер эффекта может быть определен как изменение ожидания Y при изменении X: Обратите внимание, что размер эффекта, как определено выше, может быть равен нулю, даже если X и Y не являются независимыми, например, когда . Поскольку разные определения «размера эффекта» охватывают разные способы зависимости X и Y, существует много разных определений размера эффекта. $({\text{effect size}})=\mathbb {E} [Y|X=1]-\mathbb {E} [Y|X=0]$ $Y\sim {\mathcal {N}}(0,1+X)$

На практике размеры эффекта нельзя наблюдать напрямую, а необходимо измерять статистическими оценщиками . Например, приведенное выше определение размера эффекта часто измеряется оценщиком Коэна . Один и тот же размер эффекта может иметь несколько оценщиков, поскольку они имеют компромиссы между эффективностью , смещением , дисперсией и т. д. Это еще больше увеличивает количество возможных статистических величин, которые можно вычислить на одном наборе данных. Когда оценщик размера эффекта используется для статистического тестирования, он называется тестовой статистикой .

Проверка нулевой гипотезы — это процедура принятия решения, которая принимает некоторые данные и выводит либо , либо . Если выводится , это обычно указывается как «существует статистически значимый эффект» или «нулевая гипотеза отвергается». $H_{0}$ $H_{1}$ $H_{1}$

Часто статистический тест представляет собой (односторонний) пороговый тест , который структурирован следующим образом:

Соберите данные . $D$
Вычислите тестовую статистику для данных. $t[D]$
Сравните статистику теста с критическим значением / порогом . Если , то вывести , иначе вывести . $t_{\text{threshold}}$ $t[D]>t_{\text{threshold}}$ $H_{1}$ $H_{0}$

Двусторонний пороговый тест аналогичен, но с двумя порогами, так что он выдает результат, если либо $H_{1}$ $t[D]<t_{\text{threshold}}^{-}$ $t[D]>t_{\text{threshold}}^{+}$

Существует 4 возможных результата проверки нулевой гипотезы: ложноотрицательный, истинноотрицательный, ложноположительный, истинноположительный. Ложноотрицательный означает, что это правда, но результат проверки ; истинноотрицательный означает, что это правда, и результат проверки , и т. д. $H_{0}$ $H_{1}$ $H_{0}$ $H_{0}$

Уровень значимости , уровень ложноположительных результатов или уровень альфа — это вероятность того, что альтернатива окажется истинной, когда верна нулевая гипотеза.Например, если тест представляет собой односторонний пороговый тест, тоозначает«данные взяты из». $({\text{significance}}):=\alpha :=Pr({\text{find }}H_{1}|H_{0})$ $\alpha =Pr_{D\sim H_{0}}(t[D]>t_{\text{threshold}})$ $D\sim H_{0}$ $H_{0}$

Статистическая мощность , истинно положительный показатель, это вероятность обнаружения альтернативы как истинной, когда альтернативная гипотеза истинна:гдетакже называется ложноотрицательным показателем. Например, когда тест является односторонним пороговым тестом, тогда. $({\text{power}}):=1-\beta :=Pr({\text{find }}H_{1}|H_{1})$ $\beta$ $1-\beta =Pr_{D\sim H_{1}}(t[D]>t_{\text{threshold}})$

При наличии статистического теста и набора данных соответствующее p-значение представляет собой вероятность того, что статистика теста по крайней мере столь же экстремальна, при условии . Например, для одностороннего порогового теста, если нулевая гипотеза верна, то p-значение распределено равномерно на . В противном случае оно обычно достигает пика при и примерно экспоненциально, хотя точная форма распределения p-значения зависит от того, какова альтернативная гипотеза. ^[25]^[26] $D$ $H_{0}$ $p[D]=Pr_{D'\sim H_{0}}(t[D']>t[D])$ $[0,1]$ $p=0.0$

Поскольку p-значение распределено равномерно при условии нулевой гипотезы, можно построить статистический тест с любым уровнем значимости , просто вычислив p-значение, а затем вывести , если . Обычно это обозначается как «нулевая гипотеза отвергается на уровне значимости », или « », например, «курение коррелирует с раком (p < 0,001)». $[0,1]$ $\alpha$ $H_{1}$ $p[D]<\alpha$ $\alpha$ $H_{1}\;(p<\alpha )$

История

Начало кризиса репликации можно проследить по ряду событий в начале 2010-х годов. Философ науки и социальный эпистемолог Фелипе Ромеро выделил четыре события, которые можно считать предшественниками текущего кризиса: ^[27]

Споры вокруг исследований социального прайминга: В начале 2010-х годов известное исследование «пожилых людей, идущих пешком» ^[28], проведенное социальным психологом Джоном Баргом и его коллегами, не удалось воспроизвести в двух прямых повторениях. ^[29] Этот эксперимент был частью серии из трех исследований, которые широко цитировались на протяжении многих лет, регулярно преподавались на университетских курсах и вдохновили большое количество концептуальных повторений. Неудачи в повторении исследования привели к большим противоречиям и жарким дебатам с участием первоначальных авторов. ^[30] Примечательно, что многие из концептуальных повторений первоначальных исследований также не удалось воспроизвести в последующих прямых повторениях. ^[31]^[32]^[33]^[34]
Споры вокруг экспериментов по экстрасенсорному восприятию: Социальный психолог Дэрил Бем провел серию экспериментов, предположительно предоставивших доказательства спорного явления экстрасенсорного восприятия . ^[35] Бем подвергся резкой критике за методологию своего исследования, и после повторного анализа данных не было найдено никаких доказательств существования экстрасенсорного восприятия. ^[36] Эксперимент также не удалось воспроизвести в последующих прямых повторениях. ^[37] По словам Ромеро, сообщество нашло особенно расстраивающим то, что многие из некорректных процедур и статистических инструментов, использованных в исследованиях Бема, были частью общей исследовательской практики в психологии.
Amgen и Bayer сообщают об отсутствии воспроизводимости в биомедицинских исследованиях: Ученые из биотехнологических компаний Amgen и Bayer Healthcare сообщили о тревожно низких показателях воспроизводимости (11–20%) важных результатов в доклинических онкологических исследованиях. ^[38]
Публикация исследований по p-хакингу и сомнительным исследовательским практикам : с конца 2000-х годов ряд исследований в области метанауки показал, как общепринятые практики во многих научных областях, такие как использование гибкости процесса сбора и представления данных, могут значительно увеличить вероятность ложноположительных результатов. ^[39]^[40]^[41] Эти исследования показали, что значительная часть опубликованной литературы в нескольких научных областях может быть невоспроизводимым исследованием.

Эта серия событий породила большой скептицизм относительно обоснованности существующих исследований в свете широко распространенных методологических недостатков и неудач в воспроизведении результатов. Это привело к тому, что видные ученые объявили о «кризисе доверия» в психологии и других областях, ^[42] и последующая ситуация стала известна как «кризис репликации».

Хотя начало кризиса репликации можно проследить до начала 2010-х годов, некоторые авторы указывают, что опасения по поводу воспроизводимости и исследовательских практик в социальных науках были выражены гораздо раньше. Ромеро отмечает, что авторы выражали обеспокоенность по поводу отсутствия прямых репликаций в психологических исследованиях в конце 1960-х и начале 1970-х годов. ^[43]^[44] Он также пишет, что некоторые исследования в 1990-х годах уже сообщали о том, что редакторы журналов и рецензенты, как правило, предвзяты против публикации исследований репликации. ^[45]^[46]

В социальных науках блог Data Colada (три автора которого ввели термин « p-hacking » в статье 2014 года) считается одним из тех, кто способствовал началу кризиса репликации. ^[47]^[48]^[49]

Профессор Университета Вирджинии и когнитивный психолог Барбара А. Спеллман написала, что многие критические замечания в отношении исследовательских практик и опасения по поводу воспроизводимости исследований не новы. ^[50] Она сообщает, что между концом 1950-х и 1990-ми годами ученые уже выражали обеспокоенность по поводу возможного кризиса репликации, ^[51] подозрительно высокого уровня положительных результатов, ^[52] сомнительных исследовательских практик (QRP), ^[53] последствий предвзятости публикаций, ^[54] проблем со статистической мощностью, ^[55]^[56] и плохих стандартов отчетности. ^[51]

Спеллман также определяет причины, по которым повторение этих критических замечаний и опасений в последние годы привело к полномасштабному кризису и проблемам статус-кво. Во-первых, технологические усовершенствования облегчили проведение и распространение исследований по репликации и анализ больших массивов литературы для системных проблем. Во-вторых, растущий размер и разнообразие исследовательского сообщества сделали работу признанных членов более легко поддающейся проверке другими членами сообщества, незнакомыми с ними. По словам Спеллмана, эти факторы в сочетании с все более ограниченными ресурсами и несогласованными стимулами для выполнения научной работы привели к кризису в психологии и других областях. ^[50]

По словам Эндрю Гельмана , ^[57] работы Пола Миля, Джейкоба Коэна, Тверски и Канемана в 1960-70-х годах были ранними предупреждениями о кризисе репликации. Обсуждая истоки проблемы, сам Канеман отметил исторические прецеденты в неудачах репликации подсознательного восприятия и снижения диссонанса . ^[58]

^{Начиная с 1962 года [55]} неоднократно указывалось , что большинство психологических исследований имеют низкую мощность (истинно положительный процент), но низкая мощность сохранялась на протяжении 50 лет, что указывает на структурную и постоянную проблему в психологических исследованиях. ^[59]^[60]

Распространенность

В психологии

Несколько факторов объединились, чтобы поставить психологию в центр обсуждения. ^[61]^[62] Некоторые области психологии, которые когда-то считались надежными, такие как социальное прайминг и истощение эго , ^[63] подверглись более пристальному вниманию из-за неудачных попыток воспроизведения. ^[64] Большая часть внимания была сосредоточена на социальной психологии , ^[65] хотя другие области психологии, такие как клиническая психология , ^[66]^[67]^[68] психология развития , ^[69]^[70]^[71] и образовательные исследования также были вовлечены. ^[72]^[73]^[74]^[75]^[76]

В августе 2015 года было опубликовано первое открытое эмпирическое исследование воспроизводимости в психологии под названием The Reproducibility Project: Psychology . Координируемое психологом Брайаном Носеком , исследователи переделали 100 исследований в области психологической науки из трех высокорейтинговых журналов по психологии ( Journal of Personality and Social Psychology , Journal of Experimental Psychology: Learning, Memory, and Cognition и Psychological Science ). 97 из исходных исследований имели значимые эффекты, но из этих 97 только 36% репликаций дали значимые результаты ( p -значение ниже 0,05). ^[12] Средний размер эффекта в репликациях был примерно в два раза меньше величины эффектов, о которых сообщалось в исходных исследованиях. В той же статье изучались показатели воспроизводимости и размеры эффектов по журналам и дисциплинам. Показатели повторения исследований составили 23% для Journal of Personality and Social Psychology , 48% для Journal of Experimental Psychology: Learning, Memory, and Cognition и 38% для Psychological Science . Исследования в области когнитивной психологии имели более высокий уровень повторения (50%), чем исследования в области социальной психологии (25%). ^[77]

Из 64% нерепликаций только 25% опровергли исходный результат (статистически значимо). Остальные 49% были неубедительными, не поддерживая и не опровергая исходный результат. Это связано с тем, что многие репликации были недостаточно мощными, с выборкой в 2,5 раза меньше исходной. ^[78]

Исследование, опубликованное в 2018 году в журнале Nature Human Behaviour, воспроизвело 21 статью по социальным и поведенческим наукам из журналов Nature and Science и обнаружило , что только около 62% смогли успешно воспроизвести оригинальные результаты. ^[79]^[80]

Аналогичным образом, в исследовании, проведенном под эгидой Центра открытой науки , группа из 186 исследователей из 60 различных лабораторий (представляющих 36 различных национальностей с шести различных континентов) провела репликации 28 классических и современных открытий в психологии. ^[81]^[82] Исследование было сосредоточено не только на том, были ли воспроизведены результаты оригинальных статей, но и на том, в какой степени результаты варьировались в зависимости от изменений в выборках и контекстах. В целом, 50% из 28 результатов не удалось воспроизвести, несмотря на огромные размеры выборки. Но если результат воспроизвелся, то он воспроизвелся в большинстве выборок. Если результат не был воспроизведен, то он не смог воспроизвестись с небольшими изменениями в разных выборках и контекстах. Эти доказательства не согласуются с предлагаемым объяснением, что неудачи в воспроизведении в психологии, вероятно, связаны с изменениями в выборке между оригинальным и повторным исследованием. ^[82]

Результаты исследования 2022 года показывают, что многие более ранние исследования фенотипа мозга ( «исследования ассоциаций на уровне мозга» (BWAS)) дали неверные выводы, поскольку для воспроизведения таких исследований требуются образцы от тысяч людей из-за малых размеров эффекта . ^[83]^[84]

В медицине

Из 49 медицинских исследований с 1990 по 2003 год с более чем 1000 ссылок, 92% обнаружили, что изученные методы лечения были эффективными. Из этих исследований 16% были опровергнуты последующими исследованиями, 16% обнаружили более сильные эффекты, чем последующие исследования, 44% были воспроизведены, а 24% остались в значительной степени неоспоренными. ^[85] Анализ 2011 года, проведенный исследователями фармацевтической компании Bayer, показал, что, самое большее, четверть внутренних результатов Bayer повторяли исходные результаты. ^[86] Но анализ результатов Bayer показал, что результаты, которые действительно повторялись, часто могли быть успешно использованы для клинических приложений. ^[87]

В статье 2012 года C. Glenn Begley , биотехнологический консультант, работающий в Amgen , и Lee Ellis, медицинский исследователь из Техасского университета, обнаружили, что только 11% из 53 доклинических исследований рака имели репликации, которые могли бы подтвердить выводы из первоначальных исследований. ^[38] В конце 2021 года The Reproducibility Project: Cancer Biology изучил 53 лучших статьи о раке, опубликованных в период с 2010 по 2012 год, и показал, что среди исследований, которые предоставили достаточно информации для повторного проведения, размеры эффекта были в среднем на 85% меньше, чем первоначальные результаты. ^[88]^[89] Опрос исследователей рака показал, что половина из них не смогла воспроизвести опубликованный результат. ^[90] В другом отчете подсчитано, что почти половина рандомизированных контролируемых испытаний содержала некорректные данные (на основе анализа анонимных данных индивидуальных участников (IPD) из более чем 150 испытаний). ^[91]

В других дисциплинах

В экономике

Экономика отстает от других социальных наук и психологии в своих попытках оценить показатели репликации и увеличить количество исследований, которые пытаются ее повторить. ^[13] Исследование 2016 года в журнале Science воспроизвело 18 экспериментальных исследований, опубликованных в двух ведущих экономических журналах, The American Economic Review и The Quarterly Journal of Economics , в период с 2011 по 2014 год. Было обнаружено, что около 39% не смогли воспроизвести первоначальные результаты. ^[92]^[93]^[94] Около 20% исследований, опубликованных в The American Economic Review, противоречат другим исследованиям, несмотря на то, что они опираются на те же или похожие наборы данных. ^[95] Исследование эмпирических результатов в Strategic Management Journal показало, что около 30% из 27 повторно проверенных статей показали статистически незначимые результаты для ранее значимых результатов, тогда как около 4% показали статистически значимые результаты для ранее незначимых результатов. ^[96]

В управлении водными ресурсами

Исследование, проведенное в 2019 году в журнале Scientific Data, с уверенностью в 95% оценило, что из 1989 статей по водным ресурсам и управлению ими, опубликованных в 2017 году, результаты исследований могут быть воспроизведены только для 0,6–6,8%, в основном потому, что статьи не содержали достаточной информации для воспроизведения. ^[97]

Через поля

Опрос журнала Nature 2016 года , в котором приняли участие 1576 исследователей, ответивших на краткий онлайн-опрос по воспроизводимости, показал, что более 70% исследователей пытались и не смогли воспроизвести результаты экспериментов других ученых (включая 87% химиков , 77% биологов , 69% физиков и инженеров , 67% исследователей-медиков , 64% ученых, изучающих Землю и окружающую среду , и 62% всех остальных), и более половины не смогли воспроизвести свои собственные эксперименты. Но менее 20% связывались с другими исследователями, неспособными воспроизвести их работу. Опрос показал, что менее 31% исследователей считают, что неспособность воспроизвести результаты означает, что исходный результат, вероятно, неверен, хотя 52% согласны с тем, что существует значительный кризис репликации. Большинство исследователей заявили, что по-прежнему доверяют опубликованной литературе. ^[5]^[98] В 2010 году Фанелли (2010) ^[99] обнаружил, что 91,5% исследований в области психиатрии/психологии подтвердили эффекты, которые они искали, и пришел к выводу, что вероятность этого (положительный результат) была примерно в пять раз выше, чем в таких областях, как астрономия или науки о Земле . Фанелли утверждал, что это происходит потому, что исследователи в «более мягких» науках имеют меньше ограничений для своих сознательных и бессознательных предубеждений.

Ранний анализ рецензирования слепых результатов , на которое меньше влияет предвзятость публикации, показал, что 61% исследований слепых результатов в области биомедицины и психологии привели к нулевым результатам , в отличие от предполагаемых 5–20% в более ранних исследованиях. ^[100]

В 2021 году исследование, проведенное Калифорнийским университетом в Сан-Диего, показало, что статьи, которые невозможно воспроизвести, с большей вероятностью будут цитироваться. ^[101] Невоспроизводимые публикации часто цитируются больше даже после публикации исследования по репликации. ^[102]

Причины

Существует множество предполагаемых причин кризиса репликации.

Исторические и социологические причины

Кризис репликации может быть вызван «генерацией новых данных и научных публикаций с беспрецедентной скоростью», что приводит к «отчаянному желанию опубликовать или погибнуть» и несоблюдению надлежащей научной практики. ^[103]

Предсказания о надвигающемся кризисе в механизме контроля качества науки можно проследить на протяжении нескольких десятилетий. Дерек де Солла Прайс , считающийся отцом наукометрии , количественного изучения науки, предсказал в 1963 году, что наука может достичь «старости» в результате своего собственного экспоненциального роста. ^[104] Некоторая современная литература, кажется, подтверждает это пророчество о «переполнении», сетуя на упадок как внимания, так и качества. ^[105]^[106]

Историк Филип Мировски утверждает, что снижение качества науки может быть связано с ее коммерциализацией, особенно вызванной решением крупных корпораций, ориентированным на получение прибыли, передавать свои исследования на аутсорсинг университетам и контрактным исследовательским организациям . ^[107]

Теория социальных систем , изложенная в работе немецкого социолога Никласа Лумана , вдохновляет на аналогичный диагноз. Эта теория утверждает, что каждая система, такая как экономика, наука, религия и СМИ, общается, используя свой собственный код: истина и ложь для науки, прибыль и убыток для экономики, новости и не-новости для СМИ и т. д. ^[108]^{[109] По мнению некоторых социологов,}медиатизация науки , ^[110] товаризация, ^[107] и политизация, ^[110]^[111] в результате структурной связи между системами, привели к путанице исходных системных кодов.

Проблемы с системой публикаций в науке

Предвзятость публикации

Основной причиной низкой воспроизводимости является смещение публикаций, вытекающее из того факта, что статистически незначимые результаты и, казалось бы, неоригинальные репликации публикуются редко. Только очень небольшая часть академических журналов по психологии и нейронаукам явно приветствовала подачу исследований по репликации в их цели и области применения или в инструкциях для авторов. ^[112]^[113] Это не поощряет сообщения об исследованиях по репликации или даже попытки их проведения. Среди 1576 исследователей, опрошенных Nature в 2016 году, только меньшинство когда-либо пытались опубликовать репликацию, а несколько респондентов, опубликовавших неудачные репликации, отметили, что редакторы и рецензенты требовали, чтобы они преуменьшали сравнения с оригинальными исследованиями. ^[5]^[98] Анализ 4270 эмпирических исследований в 18 деловых журналах с 1970 по 1991 год показал, что менее 10% статей по бухгалтерскому учету, экономике и финансам и 5% статей по менеджменту и маркетингу были исследованиями по репликации. ^[92]^[114] Предвзятость публикации усиливается давлением, связанным с необходимостью публикации , и предвзятостью подтверждения автором ^[b], и является неотъемлемой опасностью в этой области, требующей определенной степени скептицизма со стороны читателей. ^[41]

Ошибка публикации приводит к тому, что психолог Роберт Розенталь называет « эффектом картотечного ящика ». Эффект картотечного ящика заключается в том, что вследствие ошибки публикации значительное количество отрицательных результатов ^[c] не публикуется. По словам философа науки Фелипе Ромеро, это приводит к появлению «вводящей в заблуждение литературы и предвзятых метааналитических исследований» ^[27] , и когда ошибка публикации учитывается вместе с тем фактом, что большинство проверенных гипотез могут быть ложными априори , вполне вероятно, что значительная часть результатов исследований может быть ложноположительными, как показал метаученый Джон Иоаннидис. ^[1] В свою очередь, высокая доля ложноположительных результатов в опубликованной литературе может объяснить, почему многие результаты невоспроизводимы. ^[27]

Другим предубеждением публикации является то, что исследования, которые не отвергают нулевую гипотезу, рассматриваются асимметрично. Например, они, скорее всего, будут отклонены как трудные для интерпретации или имеющие ошибку типа II. Исследования, которые отвергают нулевую гипотезу, вряд ли будут отклонены по этим причинам. ^[116]

В популярных СМИ есть еще один элемент предвзятости публикации: желание сделать исследования доступными для общественности привело к чрезмерному упрощению и преувеличению результатов, создавая нереалистичные ожидания и усиливая влияние нерепликаций. Напротив, нулевые результаты и неудачи в репликации, как правило, остаются незамеченными. Это объяснение может быть применимо к кризису репликации властных поз . ^[117]

Математические ошибки

Даже высокоимпактные журналы имеют значительную долю математических ошибок в использовании статистики. Например, 11% статистических результатов, опубликованных в Nature и BMJ в 2001 году, являются «несоответствующими», что означает, что сообщенное p-значение математически отличается от того, каким оно должно быть, если бы оно было правильно рассчитано на основе сообщенной тестовой статистики. Эти ошибки, вероятно, были вызваны ошибками набора текста, округления и транскрипции. ^[118]

Среди 157 статей по нейронауке, опубликованных в пяти ведущих журналах, в которых делается попытка показать, что два экспериментальных эффекта различны, 78 ошибочно проверяли вместо этого, является ли один эффект значимым, а другой — нет, а 79 правильно проверяли, является ли их разница значительно отличной от 0. ^[119]

Культура «Опубликуй или погибни»

Последствия для воспроизводимости публикационной предвзятости усугубляются культурой академической среды «публикуйся или погибни». Как объяснил метаученый Даниэле Фанелли, культура «публикуйся или погибни» — это социологический аспект академической среды, в которой ученые работают в среде с очень высоким давлением, требующим публикации их работ в признанных журналах. Это является следствием того, что академическая рабочая среда является гиперконкурентной, а библиометрические параметры (например, количество публикаций) все чаще используются для оценки научной карьеры. ^[120] По словам Фанелли, это подталкивает ученых к использованию ряда стратегий, направленных на то, чтобы сделать результаты «публикуемыми». В контексте публикационной предвзятости это может означать принятие поведения, направленного на то, чтобы сделать результаты положительными или статистически значимыми, часто за счет их достоверности (см. QRP, раздел 4.3). ^[120]

По словам основателя Центра открытой науки Брайана Носека и его коллег, культура «публикуйся или погибни» создала ситуацию, в которой цели и ценности отдельных ученых (например, возможность публикации) не совпадают с общими целями науки (например, стремлением к научной истине). Это наносит ущерб обоснованности опубликованных результатов. ^[121]

Философ Брайан Д. Эрп и психолог Джим А. К. Эверетт утверждают, что, хотя воспроизведение отвечает наилучшим интересам ученых и исследователей как группы, особенности академической психологической культуры препятствуют воспроизведению отдельными исследователями. Они утверждают, что выполнение воспроизведений может быть трудоемким и отнимать ресурсы у проектов, которые отражают оригинальное мышление исследователя. Их сложнее публиковать, в основном потому, что они неоригинальны, и даже когда их можно опубликовать, они вряд ли будут рассматриваться как значительный вклад в эту область. Повторения «приносят меньше признания и вознаграждения, включая грантовые деньги, своим авторам». ^[122]

В своей книге 1971 года «Научное знание и его социальные проблемы » философ и историк науки Джером Р. Равец предсказал, что наука — в своем развитии от «малой» науки, состоящей из изолированных сообществ исследователей, к «большой» науке или «техно-науке» — будет страдать от серьезных проблем во внутренней системе контроля качества. Он признал, что структура стимулов для современных ученых может стать дисфункциональной, создавая извращенные стимулы для публикации любых результатов, какими бы сомнительными они ни были. По мнению Равеца, качество в науке поддерживается только тогда, когда есть сообщество ученых, связанных набором общих норм и стандартов, которые готовы и способны нести ответственность друг перед другом.

Стандарты отчетности

Определенные издательские практики также затрудняют проведение репликаций и мониторинг серьезности кризиса воспроизводимости, поскольку статьи часто поставляются с недостаточным описанием для того, чтобы другие ученые могли воспроизвести исследование. Проект «Воспроизводимость: биология рака» показал, что из 193 экспериментов из 53 лучших статей о раке, опубликованных в период с 2010 по 2012 год, только 50 экспериментов из 23 статей имеют авторов, которые предоставили достаточно информации для исследователей, чтобы повторить исследования, иногда с изменениями. Ни в одной из 193 рассмотренных статей экспериментальные протоколы не были полностью описаны, а для воспроизведения 70% экспериментов требовалось запрашивать ключевые реагенты. ^[88]^[89] Вышеупомянутое исследование эмпирических результатов в Strategic Management Journal показало, что 70% из 88 статей не могли быть воспроизведены из-за отсутствия достаточной информации для данных или процедур. ^[92]^[96] В области водных ресурсов и управления большинство из 1987 статей, опубликованных в 2017 году, не поддавались воспроизведению из-за отсутствия доступной информации, размещенной в Интернете. ^[97] В исследованиях потенциалов, связанных с событиями , только две трети информации, необходимой для воспроизведения исследования, были представлены в выборке из 150 исследований, что подчеркивает наличие существенных пробелов в отчетности. ^[123]

Процедурная предвзятость

Согласно тезису Дюгема-Куайна , научные результаты интерпретируются как содержательной теорией, так и теорией инструментов. Например, астрономические наблюдения зависят как от теории астрономических объектов, так и от теории телескопов. Большое количество невоспроизводимых исследований может накопиться, если есть предвзятость следующего рода: столкнувшись с нулевым результатом, ученый предпочитает рассматривать данные как говорящие о недостаточности инструмента; столкнувшись с ненулевым результатом, ученый предпочитает считать инструмент хорошим и рассматривать данные как говорящие о содержательной теории. ^[124]

Культурная эволюция

Смальдино и МакЭлрит ^[60] предложили простую модель культурной эволюции научной практики. Каждая лаборатория случайным образом решает проводить новые исследования или репликационные исследования с различными фиксированными уровнями ложноположительных результатов, истинноположительных результатов, репликационной скорости и производительности (ее «черт»). Лаборатория может использовать больше «усилий», делая кривую ROC более выпуклой, но снижая производительность. Лаборатория накапливает баллы за время своего существования, которые увеличиваются с публикациями и уменьшаются, когда другая лаборатория не может воспроизвести ее результаты. Через регулярные промежутки времени случайная лаборатория «умирает», а другая «воспроизводит» дочернюю лабораторию с аналогичными чертами, как у ее родителя. Лаборатории с более высокими баллами с большей вероятностью будут воспроизводиться. При определенных настройках параметров популяция лабораторий сходится к максимальной производительности даже ценой очень высоких ложноположительных показателей.

Сомнительные методы исследования и мошенничество

Сомнительные исследовательские практики (СИП) — это преднамеренное поведение, которое извлекает выгоду из серой зоны приемлемого научного поведения или эксплуатирует степени свободы исследователя (СИИ), что может способствовать невоспроизводимости результатов за счет увеличения вероятности ложноположительных результатов. ^[125]^[126]^[41] СИИ исследователя наблюдаются при формулировании гипотез , планировании экспериментов , сборе и анализе данных и представлении результатов исследований . ^[126] Некоторые примеры СИП — это выемка данных , ^[126]^[127]^[40]^[d]выборочная отчетность , ^[125]^[126]^[127]^[40]^[e] и HARKing (выдвижение гипотез после того, как результаты известны). ^[126]^[127]^[40]^[f] В медицине невоспроизводимые исследования имеют шесть общих черт. К ним относятся: отсутствие у исследователей осведомленности о различиях между экспериментальной и контрольной группами, неспособность повторить эксперименты, отсутствие положительных и отрицательных контролей , непредставление всех данных, ненадлежащее использование статистических тестов и использование реагентов, которые не были надлежащим образом проверены. ^[129]

QRP не включают в себя более явные нарушения научной целостности, такие как фальсификация данных. ^[125]^[126] Мошеннические исследования случаются, как в случае научного мошенничества социального психолога Дидерика Стапеля , ^[130]^[14] когнитивного психолога Марка Хаузера и социального психолога Лоуренса Санны, ^[14] но это, по-видимому, нечасто. ^[14]

Распространенность

По словам профессора IU Эрнеста О'Бойла и психолога Мартина Гётца, около 50% исследователей, опрошенных в ходе различных исследований, признались в участии в HARKing. ^[131] В опросе 2000 психологов, проведенном ученым-бихевиористом Лесли К. Джоном и его коллегами, около 94% психологов признались, что использовали по крайней мере один QRP. Более конкретно, 63% признались, что не сообщили обо всех зависимых мерах исследования, 28% сообщили обо всех условиях исследования и 46% выборочно сообщили об исследованиях, которые дали желаемую картину результатов. Кроме того, 56% признались, что собрали больше данных после проверки уже собранных данных, а 16% прекратили сбор данных, поскольку желаемый результат был уже виден. ^[40] По оценке исследователя биотехнологий Дж. Лесли Глика в 1992 году, от 10% до 20% исследований и разработок включали либо QRP, либо прямое мошенничество. ^[132] Методология, используемая для оценки QRP, была оспорена, и более поздние исследования показали более низкие показатели распространенности в среднем. ^[133]

Метаанализ 2009 года показал, что 2% ученых из разных областей признались в фальсификации исследований по крайней мере один раз, а 14% признались, что знали кого-то, кто это сделал. Согласно одному исследованию, о таком неправомерном поведении чаще сообщали медицинские исследователи, чем другие. ^[134]

Статистические вопросы

Низкая статистическая мощность

По словам профессора университета Дикина Тома Стэнли и его коллег, одной из вероятных причин, по которой исследования не воспроизводятся, является низкая статистическая мощность . Это происходит по трем причинам. Во-первых, исследование репликации с низкой мощностью вряд ли будет успешным, поскольку по определению у него низкая вероятность обнаружить истинный эффект. Во-вторых, если исходное исследование имеет низкую мощность, оно даст смещенные оценки размера эффекта . При проведении априорного анализа мощности для исследования репликации это приведет к недооценке необходимого размера выборки. В-третьих, если исходное исследование имеет низкую мощность, вероятность статистически значимого вывода, отражающего истинный эффект, после исследования довольно низкая. Поэтому вполне вероятно, что попытка репликации исходного исследования потерпит неудачу. ^[15]

Математически вероятность повторения предыдущей публикации, которая отвергла нулевую гипотезу в пользу альтернативы, предполагает , что значимость меньше мощности. Таким образом, низкая мощность подразумевает низкую вероятность повторения, независимо от того, как была разработана предыдущая публикация, и независимо от того, какая гипотеза действительно верна. ^[78] $H_{0}$ $H_{1}$ $({\text{significance}})Pr(H_{0}|{\text{publication}})+({\text{power}})Pr(H_{1}|{\text{publication}})\leq ({\text{power}})$

Стэнли и коллеги оценили среднюю статистическую мощность психологической литературы, проанализировав данные из 200 метаанализов . Они обнаружили, что в среднем исследования психологии имеют от 33,1% до 36,4% статистической мощности. Эти значения довольно низкие по сравнению с 80%, которые считаются адекватной статистической мощностью для эксперимента. Среди 200 метаанализов медиана исследований с адекватной статистической мощностью составляла от 7,7% до 9,1%, что подразумевает, что положительный результат будет воспроизводиться с вероятностью менее 10%, независимо от того, был ли положительный результат истинно положительным или ложноположительным. ^[15]

Статистическая мощность исследований нейронауки довольно низкая. Оценочная статистическая мощность исследований фМРТ составляет от .08 до .31, ^[135] , а оценка статистических мощностей исследований потенциалов, связанных с событиями , составляет .72‒.98 для больших размеров эффекта, .35‒.73 для средних эффектов и .10‒.18 для малых эффектов. ^[123]

В исследовании, опубликованном в журнале Nature , психолог Кэтрин Баттон и коллеги провели похожее исследование с 49 метаанализами в области нейронауки, оценив медианную статистическую мощность в 21%. ^[136] Метаученый Джон Иоаннидис и коллеги вычислили оценку средней мощности для эмпирических экономических исследований, найдя медианную мощность в 18% на основе литературы, опирающейся на 6700 исследований. ^[137] В свете этих результатов вполне вероятно, что основной причиной широко распространенных неудач в воспроизведении в нескольких научных областях может быть очень низкая статистическая мощность в среднем.

Тот же статистический тест с тем же уровнем значимости будет иметь меньшую статистическую мощность, если размер эффекта мал в соответствии с альтернативной гипотезой. Сложные наследуемые признаки обычно коррелируют с большим количеством генов, каждый из которых имеет небольшой размер эффекта, поэтому высокая мощность требует большого размера выборки. В частности, многие результаты из литературы о генах-кандидатах страдали от малых размеров эффекта и малых размеров выборки и не воспроизводились. Больше данных из исследований ассоциаций по всему геному (GWAS) приближаются к решению этой проблемы. ^[138]^[139] В качестве числового примера, большинство генов, связанных с риском шизофрении, имеют низкий размер эффекта (генотипический относительный риск, GRR). Статистическое исследование с 1000 случаев и 1000 контролей имеет мощность 0,03% для гена с GRR = 1,15, что уже велико для шизофрении. Напротив, самый большой на сегодняшний день GWAS имеет для него мощность ~100%. ^[140]

Положительное смещение размера эффекта

Даже когда исследование повторяется, повторение обычно имеет меньший размер эффекта. Недостаточно мощные исследования имеют большую погрешность размера эффекта. ^[141]

В исследованиях, которые статистически оценивают фактор регрессии, например , в , когда набор данных большой, шум имеет тенденцию вызывать недооценку фактора регрессии, но когда набор данных небольшой, шум имеет тенденцию вызывать переоценку фактора регрессии. ^[142] $k$ $Y=kX+b$

Проблемы метаанализа

Метаанализы имеют свои собственные методологические проблемы и споры, что приводит к отказу от метааналитического метода исследователями, чья теория оспаривается метаанализом. ^[116]

Розенталь предложил «безопасное число» (FSN) ^[54] , чтобы избежать предвзятости публикации в отношении нулевых результатов. Оно определяется следующим образом: предположим, что нулевая гипотеза верна; сколько публикаций потребуется, чтобы сделать текущий результат неотличимым от нулевой гипотезы?

Розенталь считает, что определенные размеры эффекта достаточно велики, так что даже если есть общая предвзятость публикации против нулевых результатов («проблема ящика с файлами»), количество неопубликованных нулевых результатов будет невыносимо большим, чтобы перекрыть размер эффекта. Таким образом, размер эффекта должен быть статистически значимым даже после учета неопубликованных нулевых результатов.

Одно из возражений против FSN заключается в том, что он рассчитывается так, как будто неопубликованные результаты являются несмещенными выборками из нулевой гипотезы. Но если проблема ящика с файлами верна, то неопубликованные результаты будут иметь размеры эффекта, сосредоточенные вокруг 0. Таким образом, для замены размера эффекта потребуется меньше неопубликованных нулевых результатов, и поэтому FSN является завышенной оценкой. ^[116]

Другая проблема метаанализа заключается в том, что плохие исследования «заразны» в том смысле, что одно плохое исследование может привести к переоценке статистической значимости всего метаанализа. ^[78]

P-хакинг

Различные статистические методы могут быть применены, чтобы заставить p-значение казаться меньше, чем оно есть на самом деле. Это не обязательно должно быть злонамеренным, так как умеренно гибкий анализ данных, рутинный в исследованиях, может увеличить частоту ложноположительных результатов до более чем 60%. ^[41]

Например, если собрать некоторые данные, применить к ним несколько различных тестов значимости и опубликовать только тот, который имеет p-значение меньше 0,05, то общее p-значение для «по крайней мере один тест значимости достигает p < 0,05» может быть намного больше 0,05, поскольку даже если бы нулевая гипотеза была верна, вероятность того, что один из многих тестов значимости является экстремальным, сама по себе не является экстремальной.

Обычно статистическое исследование состоит из нескольких шагов, с несколькими вариантами выбора на каждом шаге, например, во время сбора данных, отбрасывания выбросов, выбора тестовой статистики, выбора одностороннего или двустороннего теста и т. д. Эти варианты выбора в « саду расходящихся путей » множатся, создавая множество «степеней свободы исследователя». Эффект похож на проблему ящика с файлами, поскольку неиспользованные пути не публикуются. ^[143]

Рассмотрим простую иллюстрацию. Предположим, что нулевая гипотеза верна, и у нас есть 20 возможных тестов значимости для применения к набору данных. Также предположим, что результаты тестов значимости независимы. По определению «значимости» каждый тест имеет вероятность 0,05 пройти с уровнем значимости 0,05. Вероятность того, что по крайней мере 1 из 20 является значимым, составляет, по предположению независимости, . ^[144] $1-(1-0.05)^{20}=0.64$

Другая возможность — проблема множественных сравнений . В 2009 году дважды отмечалось, что исследования фМРТ дали подозрительное количество положительных результатов с большими размерами эффекта, больше, чем можно было бы ожидать, поскольку исследования имеют низкую мощность (в одном примере ^[145] было всего 13 субъектов). Было отмечено, что более половины исследований проверяли корреляцию между явлением и отдельными вокселями фМРТ и сообщали только о вокселях, превышающих выбранные пороговые значения. ^[146]

Необязательная остановка — это практика, при которой данные собираются до тех пор, пока не будет достигнут некоторый критерий остановки. Хотя это допустимая процедура, ее легко использовать неправильно. Проблема в том, что p-значение необязательно остановленного статистического теста больше, чем кажется. Интуитивно это происходит потому, что p-значение должно быть суммой всех событий, по крайней мере, столь же редких, как и наблюдаемое. При необязательной остановке есть еще более редкие события, которые трудно учесть, то есть не срабатывание необязательного правила остановки и сбор еще большего количества данных перед остановкой. Пренебрежение этими событиями приводит к слишком низкому p-значению. Фактически, если нулевая гипотеза верна, можно достичь любого уровня значимости, если разрешить продолжать собирать данные и остановиться, когда будет получено желаемое p-значение (рассчитанное так, как если бы вы всегда планировали собрать именно столько данных). ^[147] Для конкретного примера тестирования на честную монету см. p -value#optional stops .

Более кратко, правильный расчет p-значения требует учета контрфактуальностей, то есть того, что экспериментатор мог бы сделать в ответ на данные, которые могли бы быть. Учет того, что могло бы быть, сложен даже для честных исследователей. ^[147] Одним из преимуществ предварительной регистрации является учет всех контрфактуальностей, что позволяет правильно рассчитать p-значение. ^[148]

Проблема преждевременной остановки не ограничивается только неправомерными действиями исследователя. Часто возникает давление с целью преждевременной остановки, если стоимость сбора данных высока. Некоторые комиссии по этике животных даже требуют преждевременной остановки, если исследование получает значимый результат на полпути. ^[144]

Такие практики широко распространены в психологии. В опросе 2012 года 56% психологов признались в преждевременном прекращении, 46% — в сообщении только тех анализов, которые «работали», и 38% — в исключении постфактум , то есть в удалении некоторых данных после того , как анализ уже был выполнен, перед повторным анализом оставшихся данных (часто на основе «удаления выбросов»). ^[40]

Статистическая неоднородность

Как также сообщают Стэнли и коллеги, еще одной причиной, по которой исследования могут не воспроизводиться, является высокая гетерогенность воспроизводимых эффектов. В метаанализе «гетерогенность» относится к дисперсии в результатах исследований, которая возникает из-за отсутствия единого истинного размера эффекта. Вместо этого результаты в таких случаях лучше рассматривать как распределение истинных эффектов. ^[15] Статистическая гетерогенность рассчитывается с использованием статистики I-квадрат, ^[149] определяемой как «доля (или процент) наблюдаемой вариации среди сообщенных размеров эффекта, которая не может быть объяснена рассчитанными стандартными ошибками, связанными с этими сообщенными размерами эффекта». ^[15] Эта вариация может быть вызвана различиями в экспериментальных методах, популяциях, когортах и статистических методах между исследованиями репликации. Гетерогенность представляет собой проблему для исследований, пытающихся воспроизвести ранее найденные размеры эффекта . Когда гетерогенность высока, последующие репликации имеют высокую вероятность обнаружения размера эффекта, радикально отличающегося от размера исходного исследования. ^[g]

Важно отметить, что значительные уровни гетерогенности также обнаруживаются в прямых/точных репликациях исследования. Стэнли и коллеги обсуждают это, сообщая об исследовании количественного поведенческого ученого Ричарда Кляйна и коллег, в котором авторы попытались воспроизвести 15 психологических эффектов в 36 различных местах в Европе и США. В исследовании Кляйн и коллеги обнаружили значительные уровни гетерогенности в 8 из 16 эффектов (I-квадрат = 23% к 91%). Важно отметить, что хотя места репликации намеренно различались по различным характеристикам, такие различия могли объяснять очень небольшую гетерогенность. По словам Стэнли и коллег, это предполагает, что гетерогенность могла быть подлинной характеристикой изучаемых явлений. Например, на явления могли влиять так называемые «скрытые модераторы» — соответствующие факторы, которые ранее не считались важными для создания определенного эффекта.

В своем анализе 200 метаанализов психологических эффектов Стэнли и коллеги обнаружили медианный процент гетерогенности I-квадрат = 74%. По мнению авторов, этот уровень гетерогенности можно считать «огромным». Он в три раза больше, чем случайная дисперсия выборки размеров эффекта, измеренная в их исследовании. Если рассматривать его вдоль ошибки выборки , гетерогенность дает стандартное отклонение от одного исследования к другому, даже большее, чем медианный размер эффекта 200 исследованных ими метаанализов. ^[h] Авторы приходят к выводу, что если репликация определяется последующим исследованием, обнаруживающим достаточно схожий размер эффекта с оригиналом, успех репликации маловероятен, даже если репликации имеют очень большие размеры выборки. Важно, что это происходит даже если репликации являются прямыми или точными, поскольку гетерогенность тем не менее остается относительно высокой в этих случаях.

Другие

В экономике кризис репликации может также усугубляться, поскольку эконометрические результаты являются хрупкими: ^[150] использование различных, но правдоподобных процедур оценки или методов предварительной обработки данных может привести к противоречивым результатам. ^[151]^[152]^[153]

Контекстная чувствительность

Профессор Нью-Йоркского университета Джей Ван Бавел и его коллеги утверждают, что еще одной причиной, по которой результаты трудно воспроизвести, является чувствительность к контексту определенных психологических эффектов. С этой точки зрения, неудачи в воспроизведении могут быть объяснены контекстуальными различиями между исходным экспериментом и воспроизведением, часто называемыми «скрытыми модераторами ». ^[154] Ван Бавел и его коллеги проверили влияние контекстной чувствительности, повторно проанализировав данные широко цитируемого проекта Reproducibility Project, реализованного Open Science Collaboration. ^[12] Они перекодировали эффекты в соответствии с их чувствительностью к контекстным факторам, а затем проверили связь между контекстной чувствительностью и успешностью воспроизведения в различных регрессионных моделях .

Было обнаружено, что контекстная чувствительность отрицательно коррелирует с успешностью репликации, так что более высокие оценки контекстной чувствительности были связаны с более низкой вероятностью воспроизведения эффекта. ^[i] Важно, что контекстная чувствительность значительно коррелирует с успешностью репликации даже при корректировке с учетом других факторов, считающихся важными для воспроизведения результатов (например, размер эффекта и размер выборки оригинала, статистическая мощность репликации, методологическое сходство между оригиналом и репликацией). ^[j] В свете результатов авторы пришли к выводу, что попытка воспроизведения в другое время, месте или с другой выборкой может значительно изменить результаты эксперимента. Таким образом, контекстная чувствительность может быть причиной того, что определенные эффекты не воспроизводятся в психологии. ^[154]

Байесовское объяснение

В рамках байесовской вероятности, по теореме Байеса , отклонение нулевой гипотезы на уровне значимости 5% не означает, что апостериорная вероятность для альтернативной гипотезы составляет 95%, и апостериорная вероятность также отличается от вероятности репликации. ^[155]^[156] Рассмотрим упрощенный случай, когда есть только две гипотезы. Пусть априорная вероятность нулевой гипотезы будет , а альтернативы . Для данного статистического исследования пусть его ложноположительный уровень (уровень значимости) будет , а истинноположительный уровень (мощность) будет . Для иллюстративных целей пусть уровень значимости будет 0,05, а мощность будет 0,45 (недостаточная мощность). $Pr(H_{0})$ $Pr(H_{1})=1-Pr(H_{0})$ $Pr({\text{find }}H_{1}|H_{0})$ $Pr({\text{find }}H_{1}|H_{1})$

Теперь, по теореме Байеса, при условии, что результаты статистического исследования верны, апостериорная вероятность того, что это действительно так, не равна , а $H_{1}$ $H_{1}$ $1-Pr({\text{find }}H_{1}|H_{0})=0.95$

$Pr(H_{1}|{\text{ find }}H_{1})={\frac {Pr({\text{ find }}H_{1}|H_{1})Pr(H_{1})}{Pr({\text{ find }}H_{1}|H_{0})Pr(H_{0})+Pr({\text{ find }}H_{1}|H_{1})Pr(H_{1})}}$

и вероятность воспроизведения статистического исследования равна , что также отличается от . В частности, для фиксированного уровня значимости вероятность воспроизведения увеличивается с мощностью, а априорная вероятность для . Если априорная вероятность для мала, то для воспроизведения потребуется высокая мощность. $Pr({\text{replication}}|{\text{ find }}H_{1})=Pr({\text{find }}H_{1}|H_{1})Pr(H_{1}|{\text{ find }}H_{1})+Pr({\text{find }}H_{1}|H_{0})Pr(H_{0}|{\text{ find }}H_{1})$ $Pr(H_{1}|{\text{ find }}H_{1})$ $H_{1}$ $H_{1}$

Например, если априорная вероятность нулевой гипотезы равна , а исследование показало положительный результат, то апостериорная вероятность равна , а вероятность репликации равна . $Pr(H_{0})=0.9$ $H_{1}$ $Pr(H_{1}|{\text{ find }}H_{1})=0.50$ $Pr({\text{replication}}|{\text{ find }}H_{1})=0.25$

Проблема с проверкой нулевой гипотезы

Некоторые утверждают, что проверка нулевой гипотезы сама по себе нецелесообразна, особенно в «мягких науках», таких как социальная психология. ^[157]^[158]

Как неоднократно отмечали статистики, ^[159] в сложных системах, таких как социальная психология, «нулевая гипотеза всегда ложна» или «все коррелирует». Если это так, то если нулевая гипотеза не отвергается, это не показывает, что нулевая гипотеза верна, а просто то, что она была ложноотрицательной, как правило, из-за низкой мощности. ^[160] Низкая мощность особенно распространена в предметных областях, где размеры эффекта невелики, а получение данных обходится дорого, таких как социальная психология. ^[157]^[161]

Более того, когда нулевая гипотеза отвергается, это может не быть доказательством существенной альтернативной гипотезы. В гуманитарных науках многие гипотезы могут предсказать корреляцию между двумя переменными. Таким образом, доказательство против нулевой гипотезы «нет корреляции» не является доказательством одной из многих альтернативных гипотез, которые одинаково хорошо предсказывают «есть корреляция». Фишер разработал NHST для агрономии, где отклонение нулевой гипотезы обычно является хорошим доказательством альтернативной гипотезы, поскольку их не так много. Отклонение гипотезы «удобрение не помогает» является доказательством «удобрение помогает». Но в психологии существует много альтернативных гипотез для каждой нулевой гипотезы. ^[161]^[162]

В частности, когда статистические исследования экстрасенсорного восприятия отвергают нулевую гипотезу при крайне низком значении p (как в случае с Дэрилом Бемом ), это не подразумевает альтернативную гипотезу «ЭСВ существует». Гораздо более вероятно, что в экспериментальной установке был небольшой (не-ЭСВ) сигнал, который был точно измерен. ^[163]

Пол Мил отметил, что статистическая проверка гипотез используется по-разному в «мягкой» психологии (личностной, социальной и т. д.) и физике. В физике теория делает количественное предсказание и проверяется путем проверки того, попадает ли предсказание в статистически измеренный интервал. В мягкой психологии теория делает направленное предсказание и проверяется путем проверки того, отклоняется ли нулевая гипотеза в правильном направлении. Следовательно, улучшенная экспериментальная техника делает теории более склонными к фальсификации в физике, но менее склонными к фальсификации в мягкой психологии, поскольку нулевая гипотеза всегда ложна, поскольку любые две переменные коррелируют с «грубым фактором» около 0,30. Чистый эффект представляет собой накопление теорий, которые остаются нефальсифицированными , но без эмпирических доказательств предпочтения одной из них другим. ^[23]^[162]

Заблуждение о базовой ставке

По мнению философа Александра Берда , возможной причиной низких показателей воспроизводимости в некоторых научных областях является то, что большинство проверенных гипотез априори ложны . ^[164] С этой точки зрения низкие показатели воспроизводимости могут соответствовать качественной науке. Соответственно, ожидание того, что большинство результатов должны воспроизводиться, было бы ошибочным и, по мнению Берда, формой ошибки базовой ставки. Аргумент Берда работает следующим образом. Предполагая идеальную ситуацию проверки значимости, при которой вероятность неправильного отклонения нулевой гипотезы составляет 5% (т. е. ошибка типа I ), а вероятность правильного отклонения нулевой гипотезы составляет 80% (т. е. мощность ), в контексте, где большая доля проверенных гипотез ложна, можно предположить, что количество ложных положительных результатов будет высоким по сравнению с количеством истинно положительных результатов. ^[164] Например, в ситуации, когда только 10% проверенных гипотез на самом деле верны, можно подсчитать, что до 36% результатов будут ложными положительными. ^[к]

Утверждение о том, что ложность большинства проверенных гипотез может объяснить низкие показатели воспроизводимости, становится еще более актуальным, если учесть, что средняя мощность статистических тестов в некоторых областях может быть намного ниже 80%. Например, доля ложноположительных результатов увеличивается до значения между 55,2% и 57,6% при расчете с оценками средней мощности между 34,1% и 36,4% для психологических исследований, как это было предоставлено Стэнли и коллегами в их анализе 200 метаанализов в этой области. ^[15] Высокая доля ложноположительных результатов затем привела бы к тому, что многие результаты исследований были бы невоспроизводимыми.

Берд отмечает, что утверждение о том, что большинство проверенных гипотез являются ложными априори в определенных научных областях, может быть правдоподобным, учитывая такие факторы, как сложность изучаемых явлений, тот факт, что теории редко бывают бесспорными, «выводное расстояние» между теориями и гипотезами и легкость, с которой могут быть созданы гипотезы. В этом отношении Берд приводит в качестве примеров такие области, как клиническая медицина, генетическая и молекулярная эпидемиология и социальная психология. Эта ситуация радикально отличается в областях, где теории имеют выдающуюся эмпирическую основу и гипотезы могут быть легко выведены из теорий (например, экспериментальная физика). ^[164]

Последствия

Когда в литературе эффекты ошибочно указываются как значимые, неспособность обнаружить это путем репликации приведет к канонизации таких ложных фактов. ^[165]

Исследование 2021 года показало, что статьи в ведущих журналах по общим интересам, психологии и экономике с результатами, которые не удалось воспроизвести, как правило, цитируются больше с течением времени, чем воспроизводимые исследовательские статьи, вероятно, потому, что эти результаты удивительны или интересны. На эту тенденцию не влияет публикация неудачных воспроизведений, после чего только 12% статей, цитирующих оригинальное исследование, будут упоминать неудачное воспроизведение. ^[166]^[167] Кроме того, эксперты могут предсказать, какие исследования будут воспроизводимы, что привело авторов исследования 2021 года Марту Серра-Гарсия и Ури Гнизи к выводу, что эксперты применяют более низкие стандарты к интересным результатам при принятии решения об их публикации. ^[167]

Общественная осведомленность и восприятие

В научном сообществе высказывались опасения, что широкая общественность может считать науку менее заслуживающей доверия из-за неудачных репликаций. ^[168] Исследования, подтверждающие эту обеспокоенность, немногочисленны, но общенациональный репрезентативный опрос в Германии показал, что более 75% немцев не слышали о неудачных репликациях в науке. ^[169] Исследование также показало, что большинство немцев положительно воспринимают попытки репликации: только 18% считают, что невоспроизводимость показывает, что науке нельзя доверять, в то время как 65% считают, что исследования репликации показывают, что наука применяет контроль качества, и 80% согласны с тем, что ошибки и исправления являются частью науки. ^[169]

Реакция в академических кругах

С привлечением внимания к кризису репликации психологии психолог Принстонского университета Сьюзан Фиске вызвала споры, выступая против критиков психологии за то, что она назвала издевательством и подрывом науки. ^[170]^[171]^[172]^[173] Она назвала этих неопознанных «противников» такими именами, как «методологический террорист» и «самозванная полиция данных», заявив, что критика психологии должна выражаться только в частном порядке или путем обращения в журналы. ^[170] Статистик и политолог Колумбийского университета Эндрю Гельман ответил Фиске, заявив, что она обнаружила, что готова терпеть «мертвую парадигму» ошибочной статистики и отказывалась отзывать публикации, даже когда указывались на ошибки. ^[170] Он добавил, что ее пребывание на посту редактора было ужасным, и что ряд опубликованных ею статей, которые она редактировала, были признаны основанными на крайне слабых статистических данных; В одной из опубликованных работ самого Фиске была обнаружена серьезная статистическая ошибка и «невозможные» выводы. ^[170]

Революция доверия

Некоторые исследователи в области психологии указывают, что кризис репликации является основой для «революции доверия», где изменения в стандартах, по которым оценивается психологическая наука, могут включать подчеркивание прозрачности и открытости, предварительную регистрацию исследовательских проектов и репликацию исследований с более высокими стандартами доказательств для повышения силы научных заявлений. ^[174] Такие изменения могут снизить производительность отдельных исследователей, но этого эффекта можно избежать путем обмена данными и более тесного сотрудничества. ^[174] Революция доверия может быть полезна для исследовательской среды. ^[175]

Средства правовой защиты

Сосредоточение внимания на кризисе репликации привело к возобновлению усилий в психологии по повторной проверке важных результатов. ^[41]^[176] Специальный выпуск журнала Social Psychology за 2013 год был посвящен исследованиям репликации. ^[13]

Были предложены стандартизация, а также (требование) прозрачности используемых статистических и экспериментальных методов. ^[177] Тщательное документирование экспериментальной установки считается решающим для воспроизводимости экспериментов, и различные переменные могут не быть документированы и стандартизированы, например, рацион животных в исследованиях на животных. ^[178]

В статье Джона Иоаннидиса 2016 года подробно рассматривается тема «Почему большинство клинических исследований бесполезны». ^[179] Иоаннидис описывает то, что он считает некоторыми проблемами, и призывает к реформе, характеризуя определенные моменты, чтобы медицинские исследования снова стали полезными; одним из примеров, который он приводит, является необходимость того, чтобы медицина была ориентирована на пациента (например, в форме Института исследований результатов, ориентированных на пациента ) вместо текущей практики, когда в основном заботятся о «потребностях врачей, исследователей или спонсоров».

Реформа в научном издательстве

Метанаука

Метанаука — это использование научной методологии для изучения самой науки. Она стремится повысить качество научных исследований, одновременно сокращая отходы. Она также известна как «исследование исследований» и «наука науки», поскольку использует методы исследования для изучения того, как проводятся исследования и где можно внести улучшения. Метанаука касается всех областей исследований и была названа «взглядом на науку с высоты птичьего полета». ^[180] По словам Иоаннидиса, «Наука — это лучшее, что случилось с людьми... но мы можем сделать ее лучше». ^[181]

Продолжается проведение мета-исследований для выявления корней кризиса и их устранения. Методы устранения кризиса включают предварительную регистрацию научных исследований и клинических испытаний , а также создание организаций, таких как CONSORT и EQUATOR Network , которые выпускают руководящие принципы по методологии и отчетности. Продолжаются усилия по реформированию системы академических стимулов, улучшению процесса рецензирования , сокращению неправильного использования статистики , борьбе с предвзятостью в научной литературе и повышению общего качества и эффективности научного процесса.

Представление методологии

Некоторые авторы утверждают, что недостаточная коммуникация экспериментальных методов является основным фактором кризиса воспроизводимости и что лучшее представление экспериментального дизайна и статистического анализа улучшило бы ситуацию. Эти авторы склонны выступать как за широкое культурное изменение в научном сообществе того, как рассматриваются статистические данные, так и за более принудительный нажим со стороны научных журналов и финансирующих организаций. ^[182] Но были высказаны опасения относительно возможности неправильного применения стандартов прозрачности и воспроизводимости как к качественным, так и к количественным исследованиям. ^[183]

Журналы по бизнесу и менеджменту, которые ввели редакционную политику в отношении доступности данных, репликации и прозрачности, включают Strategic Management Journal , Journal of International Business Studies и Management and Organization Review . ^[92]

Рецензирование слепых результатов

В ответ на опасения в психологии по поводу предвзятости публикаций и подтасовки данных более 140 психологических журналов приняли слепое к результатам рецензирование. При этом подходе исследования принимаются не на основе их результатов и после завершения исследований, а до их проведения и на основе методологической строгости их экспериментальных проектов и теоретических обоснований их методов статистического анализа до сбора или анализа данных. ^[184] Ранний анализ этой процедуры показал, что 61% слепых к результатам исследований привели к нулевым результатам , в отличие от предполагаемых 5–20% в более ранних исследованиях. ^[100] Кроме того, в психологии стало гораздо более распространенным крупномасштабное сотрудничество между исследователями, работающими в нескольких лабораториях в разных странах, которые регулярно делают свои данные открытыми для оценки разными исследователями. ^[185]

Предварительная регистрация на исследования

Научные публикации начали использовать отчеты о предварительной регистрации для решения кризиса репликации. ^[186]^[187] Формат зарегистрированного отчета требует, чтобы авторы представляли описание методов исследования и анализов до сбора данных. После того, как метод и план анализа проверены путем рецензирования, публикация результатов временно гарантируется на основе того, следуют ли авторы предлагаемому протоколу. Одна из целей зарегистрированных отчетов — обойти предвзятость публикации в сторону значимых результатов, которая может привести к внедрению сомнительных исследовательских практик. Другая цель — поощрять публикацию исследований со строгими методами.

Журнал Psychological Science поощряет предварительную регистрацию исследований и сообщение о размерах эффекта и доверительных интервалах. ^[188] Главный редактор также отметил, что редакция будет просить о повторении исследований с неожиданными результатами, полученными в ходе обследований с использованием небольших выборок, прежде чем разрешить публикацию рукописей.

Метаданные и цифровые инструменты для отслеживания репликаций

Было высказано предположение, что необходим «простой способ проверки того, как часто повторялись исследования и подтверждаются ли первоначальные результаты». ^[166] Категоризации и рейтинги воспроизводимости на уровне исследования или результатов, а также добавление ссылок и рейтинг сторонних подтверждений могут проводиться рецензентами, научным журналом или читателями в сочетании с новыми цифровыми платформами или инструментами.

Статистическая реформа

Требуются меньшиеп-ценности

Многие публикации требуют p -значения p < 0,05 для утверждения статистической значимости . Статья «Переопределите статистическую значимость» ^[189], подписанная большим количеством ученых и математиков, предлагает, чтобы в «областях, где порог определения статистической значимости для новых открытий составляет p < 0,05, мы предлагаем изменить на p < 0,005. Этот простой шаг немедленно улучшил бы воспроизводимость научных исследований во многих областях». Их обоснование заключается в том, что «главной причиной невоспроизводимости (является то, что) статистические стандарты доказательств для утверждения новых открытий во многих областях науки просто слишком низки. Связывание «статистически значимых» результатов с p < 0,05 приводит к высокому уровню ложноположительных результатов даже при отсутствии других экспериментальных, процедурных и отчетных проблем». ^[189]

Этот призыв впоследствии подвергся критике со стороны другой большой группы, которая утверждала, что «переопределение» порога не решит текущие проблемы, а приведет к появлению новых, и что в конечном итоге все пороги должны быть обоснованы в каждом конкретном случае, а не следовать общим соглашениям. ^[190]

Борьба с неправильным толкованиемп-ценности

Хотя статистики единодушны в том, что использование « p < 0,05» в качестве стандарта значимости дает более слабые доказательства, чем обычно считается, нет единого мнения о том, что с этим следует делать. Некоторые выступают за то, чтобы байесовские методы заменили p -значения. Этого не произошло в широких масштабах, отчасти потому, что это сложно, а отчасти потому, что многие пользователи не доверяют спецификации априорных распределений при отсутствии жестких данных. Упрощенная версия байесовского аргумента, основанная на проверке точечной нулевой гипотезы, была предложена фармакологом Дэвидом Колкухоуном . ^[191]^[192] Логические проблемы индуктивного вывода обсуждались в «Проблеме с p-значениями» (2016). ^[193]

Опасность опоры на p -значения возникает отчасти потому, что даже наблюдение p = 0,001 не обязательно является сильным доказательством против нулевой гипотезы. ^[192] Несмотря на то, что отношение правдоподобия в пользу альтернативной гипотезы по сравнению с нулевой близко к 100, если бы гипотеза была неправдоподобной, с априорной вероятностью реального эффекта 0,1, даже наблюдение p = 0,001 имело бы ложноположительный риск в 8 процентов. Оно все равно не достигло бы уровня 5 процентов.

Было рекомендовано не использовать термины «значимый» и «незначимый». ^[192] p -значения и доверительные интервалы по-прежнему следует указывать, но они должны сопровождаться указанием риска ложного положительного результата. Было высказано предположение, что лучший способ сделать это — рассчитать априорную вероятность, в которую необходимо верить, чтобы достичь ложного положительного риска определенного уровня, например 5%. Расчеты можно выполнить с помощью различного компьютерного программного обеспечения. ^[192]^[194] Этот обратный байесовский подход, предложенный физиком Робертом Мэтьюзом в 2001 году, ^[195] является одним из способов избежать проблемы, заключающейся в том, что априорная вероятность редко известна.

Поощрение увеличения размеров выборки

Для улучшения качества репликаций часто требуются большие размеры выборки, чем те, которые использовались в оригинальном исследовании. ^[196] Большие размеры выборки необходимы, поскольку оценки размеров эффекта в опубликованных работах часто преувеличены из-за смещения публикации и большой изменчивости выборки, связанной с малыми размерами выборки в оригинальном исследовании. ^[197]^[198]^[199] Кроме того, использование порогов значимости обычно приводит к завышенным эффектам, поскольку, особенно при малых размерах выборки, только самые большие эффекты станут значимыми. ^[158]

Перекрестная проверка

Одной из распространенных статистических проблем является переобучение , то есть когда исследователи подгоняют регрессионную модель по большому количеству переменных, но небольшому количеству точек данных. Например, типичное исследование фМРТ эмоций, личности и социального познания имеет менее 100 субъектов, но у каждого субъекта есть 10 000 вокселей. Исследование подгоняло бы разреженную линейную регрессионную модель, которая использует воксели для прогнозирования интересующей переменной, такой как самооценка стресса. Но затем исследование сообщало бы о p-значении модели на тех же данных, к которым она была подобрана. Стандартный подход в статистике, где данные разделяются на обучающий и проверочный наборы , встречает сопротивление, поскольку приобретение испытуемых обходится дорого. ^[146]^[200]

Одним из возможных решений является перекрестная проверка , которая позволяет проводить проверку модели, а также использовать весь набор данных для подгонки модели. ^[201]

Попытки репликации

Финансирование

В июле 2016 года Нидерландская организация научных исследований выделила €3 млн на исследования по репликации. Финансирование предназначено для репликации на основе повторного анализа существующих данных и репликации путем сбора и анализа новых данных. Финансирование доступно в областях социальных наук, исследований в области здравоохранения и инноваций в области здравоохранения. ^[202]

В 2013 году Фонд Лоры и Джона Арнольда профинансировал запуск Центра открытой науки , выделив грант в размере 5,25 млн долларов. К 2017 году он предоставил дополнительно 10 млн долларов финансирования. ^[203] Он также профинансировал запуск Центра мета-исследований инноваций в Стэнфорде в Стэнфордском университете, которым руководят Иоаннидис и ученый-медик Стивен Гудман для изучения путей улучшения научных исследований. ^[203] Он также профинансировал инициативу AllTrials , частично возглавляемую ученым-медиком Беном Голдакром . ^[203]

Акцент на послевузовском образовании

На основе курсовых работ по экспериментальным методам в Массачусетском технологическом институте, Стэнфорде и Вашингтонском университете было высказано предположение, что курсы по методам в психологии и других областях должны делать акцент на попытках воспроизведения, а не на оригинальных исследованиях. ^[204]^[205]^[206] Такой подход поможет студентам изучить научную методологию и предоставит многочисленные независимые репликации значимых научных результатов, которые проверят воспроизводимость научных результатов. Некоторые рекомендовали, чтобы аспиранты были обязаны публиковать высококачественную попытку воспроизведения по теме, связанной с их докторским исследованием, до окончания учебы. ^[207]

Репликация базы данных

Была обеспокоенность тем, что попытки репликации растут. ^[208]^[209]^[210] В результате это может привести к потере исследовательского опыта. ^[211] В свою очередь, это привело к необходимости систематического отслеживания попыток репликации. В результате было создано несколько баз данных (например, ^[212] ^[213] ). Однако базы данных либо создали базу данных репликации, которая включает психологию, логопедию и другие дисциплины для продвижения теоретически обоснованных исследований и оптимизации использования академических и институциональных ресурсов, одновременно способствуя доверию к науке. ^[214]

Выпускная работа

Некоторые учреждения требуют от студентов бакалавриата представить выпускную работу, которая представляет собой оригинальное исследование. Дэниел Кинтана, психолог из Университета Осло в Норвегии, рекомендовал поощрять студентов проводить исследования по репликации в дипломных проектах, а также знакомить их с открытой наукой . ^[215]

Полуавтоматический

Исследователи продемонстрировали способ полуавтоматического тестирования на воспроизводимость: утверждения об экспериментальных результатах были извлечены из несемантических статей об экспрессии генов в 2022 году и впоследствии воспроизведены с помощью робота-ученого « Ева ». ^[216]^[217] Проблемы этого подхода включают в себя то, что он может быть неосуществим для многих областей исследований и что достаточные экспериментальные данные могут не быть извлечены из некоторых или многих статей, даже если они доступны.

Привлечение оригинальных авторов

Психолог Дэниел Канеман утверждал, что в психологии первоначальные авторы должны быть вовлечены в процесс воспроизведения, поскольку опубликованные методы часто слишком расплывчаты. ^[218]^[219] Другие, такие как психолог Эндрю Уилсон, не согласны, утверждая, что первоначальные авторы должны подробно описывать методы. ^[218] Исследование показателей репликации в психологии в 2012 году показало более высокие показатели успешности воспроизведения в исследованиях по репликации, когда имелось совпадение авторов с первоначальными авторами исследования ^[220] (91,7% успешных показателей репликации в исследованиях с совпадением авторов по сравнению с 64,6% успешных показателей репликации без совпадения авторов).

Большая командная наука

Кризис репликации привел к формированию и развитию различных крупномасштабных и совместных сообществ для объединения своих ресурсов для решения одного вопроса в разных культурах, странах и дисциплинах. ^[221] Основное внимание уделяется репликации, чтобы гарантировать, что эффект распространяется за пределы конкретной культуры, и исследовать, является ли эффект воспроизводимым и подлинным. ^[222] Это позволяет проводить междисциплинарные внутренние обзоры, использовать множественные точки зрения, использовать единые протоколы в разных лабораториях и привлекать более крупные и разнообразные выборки. ^[222] Исследователи могут сотрудничать, координируя сбор данных или финансировать сбор данных исследователями, которые могут не иметь доступа к средствам, что позволяет увеличить размеры выборки и повысить надежность выводов.

Более широкие изменения в научном подходе

Подчеркните важность триангуляции, а не только репликации

Психолог Маркус Р. Мунафо и эпидемиолог Джордж Дейви Смит утверждают в статье, опубликованной в Nature , что исследования должны подчеркивать триангуляцию , а не просто репликацию, чтобы защититься от ошибочных идей. Они утверждают, что,

Одна лишь репликация поможет нам лишь до определенной степени (и) может даже ухудшить ситуацию... [Триангуляция] — это стратегическое использование нескольких подходов для решения одного вопроса. У каждого подхода есть свои собственные не связанные между собой предположения, сильные и слабые стороны. Результаты, которые согласуются между различными методологиями, с меньшей вероятностью будут артефактами . ... Возможно, одной из причин, по которой репликация привлекла столько внимания, является часто повторяемая идея о том, что фальсификация лежит в основе научного предприятия. Эта идея была популяризирована максимой Карла Поппера 1950-х годов о том, что теории никогда не могут быть доказаны, а только фальсифицированы. Однако чрезмерный акцент на повторении экспериментов может дать необоснованное чувство уверенности в выводах, которые опираются на один подход. ... философы науки продвинулись дальше со времен Поппера. Более точное описание того, как на самом деле работают ученые, включает то, что эпистемолог Питер Липтон назвал в 1991 году «выводом к наилучшему объяснению». ^[223]

Парадигма сложных систем

Доминирующей научной и статистической моделью причинно-следственной связи является линейная модель. ^[224] Линейная модель предполагает, что ментальные переменные являются стабильными свойствами, которые независимы друг от друга. Другими словами, эти переменные не должны влиять друг на друга. Вместо этого модель предполагает, что переменные будут иметь независимое, линейное влияние на наблюдаемые результаты. ^[224]

Социологи Себастьян Валлот и Дамиан Келти-Стивен утверждают, что линейная модель не всегда подходит. ^[224] Альтернативой является сложная системная модель, которая предполагает, что ментальные переменные взаимозависимы. Эти переменные не считаются стабильными, скорее они будут взаимодействовать и адаптироваться к каждому конкретному контексту. ^[224] Они утверждают, что сложная системная модель часто более подходит в психологии, и что использование линейной модели, когда сложная системная модель более подходит, приведет к неудачным репликациям. ^[224]

...психология может надеяться на повторения в тех самых измерениях и в тех самых условиях, где растущий объем психологических доказательств явно препятствует прогнозированию повторения. Неудачи в повторении могут быть просто заложены в потенциально неполной, но широкомасштабной неспособности человеческого поведения соответствовать стандарту независимости [ce] ... ^[224]

Репликация должна стремиться пересмотреть теории

Репликация имеет основополагающее значение для научного прогресса, чтобы подтвердить исходные результаты. Однако одной репликации недостаточно для разрешения кризиса репликации. Усилия по репликации должны быть направлены не только на поддержку или сомнение исходных результатов, но и на замену их пересмотренными, более сильными теориями с большей объяснительной силой. Поэтому этот подход включает в себя сокращение существующих теорий, сравнение всех альтернативных теорий и повышение продуктивности усилий по репликации и вовлеченность в построение теорий. ^[225]^[226] Однако одной репликации недостаточно, важно оценить степень обобщения результатов в географических, исторических и социальных контекстах, что важно для нескольких научных областей, особенно для практиков и политиков, чтобы проводить анализы с целью принятия важных стратегических решений. Воспроизводимые и воспроизводимые результаты были лучшим предиктором обобщаемости за пределами исторических и географических контекстов, указывая на то, что для социальных наук результаты из определенного периода времени и места могут осмысленно определять то, что универсально присутствует у людей. ^[227]

Открытая наука

Открытые данные, программное обеспечение с открытым исходным кодом и оборудование с открытым исходным кодом — все это имеет решающее значение для обеспечения воспроизводимости в смысле проверки исходного анализа данных. Использование фирменного программного обеспечения, отсутствие публикации программного обеспечения для анализа и отсутствие открытых данных препятствует воспроизведению исследований. Если программное обеспечение, используемое в исследовании, не является программным обеспечением с открытым исходным кодом, воспроизведение результатов с различными конфигурациями программного обеспечения и оборудования невозможно. ^[228] У ЦЕРНа есть проекты как по открытым данным, так и по сохранению анализа ЦЕРНа для хранения данных, всей соответствующей информации, а также всего программного обеспечения и инструментов, необходимых для сохранения анализа в крупных экспериментах LHC . Помимо всего программного обеспечения и данных, сохраненные активы анализа включают метаданные, которые позволяют понять рабочий процесс анализа, связанное программное обеспечение, систематические неопределенности, статистические процедуры и значимые способы поиска анализа, а также ссылки на публикации и резервные материалы. ^[229] Программное обеспечение ЦЕРНа имеет открытый исходный код и доступно для использования за пределами физики элементарных частиц , и есть некоторые рекомендации для других областей по общим подходам и стратегиям, используемым для открытой науки в современной физике элементарных частиц. ^[230]

Онлайн-репозитории, где данные, протоколы и результаты могут храниться и оцениваться общественностью, стремятся улучшить целостность и воспроизводимость исследований. Примерами таких репозиториев являются Open Science Framework , Registry of Research Data Repositories и Psychfiledrawer.org. Такие сайты, как Open Science Framework, предлагают значки за использование открытых научных практик в целях стимулирования ученых. Однако существуют опасения, что те, кто с наибольшей вероятностью предоставит свои данные и код для анализа, — это исследователи, которые, скорее всего, являются наиболее искушенными. ^[231] Иоаннидис предположил, что «может возникнуть парадокс, что самые дотошные и искушенные, а также подкованные в методах и осторожные исследователи могут стать более восприимчивыми к критике и репутационным атакам со стороны реанализаторов, которые охотятся за ошибками, независимо от того, насколько незначительны эти ошибки». ^[231]

Смотрите также

Примечания

^ Также называется кризисом воспроизводимости , кризисом воспроизводимости , кризисом воспроизводства или кризисом невоспроизводимости .
^ Согласно словарю психологии Американской психологической ассоциации (APA) , предвзятость подтверждения — это «тенденция собирать доказательства, которые подтверждают уже существующие ожидания, как правило, путем подчеркивания или поиска подтверждающих доказательств, при этом игнорируя или не стремясь искать противоречащие им доказательства». ^[115]
^ В контексте проверки значимости нулевой гипотезы результаты, которые не являются статистически значимыми
^ Выемка данных, также известная как p -хакинг или p -фишинг , представляет собой неправильное использование данных с помощью множества методов для поиска поддержки гипотез, для которых данные неадекватны. ^[128]
^ Выборочная отчетность также известна как частичная публикация . Отчетность — это возможность раскрыть все использованные или эксплуатируемые степени свободы исследователя. Выборочная отчетность — это неспособность сообщить соответствующие детали или выбор, такие как некоторые независимые и зависимые переменные, отсутствующие данные, исключения данных и исключения выбросов. ^[126]
^ HARKing, также известный как post-hoc storytelling , — это когда исследовательский анализ оформляется как подтверждающий анализ. Он подразумевает изменение гипотезы после того, как исследование было проведено, так что новая гипотеза может быть подтверждена результатами эксперимента. ^[126]
^ Авторы приводят пример, в котором, предполагая, что истинная средняя корреляция, отражающая эффект, составляет 0,2, а стандартное отклонение распределения эффектов также составляет 0,2, исследование репликации будет иметь 62%-ную вероятность обнаружения либо среднего или большого истинного эффекта (r > 0,3), либо незначительного истинного эффекта (r < 0,1).
^ 0,412 против 0,389 в единицах стандартизированной средней разности (SMD).
^ Основной использованный DV был субъективным бинарным рейтингом (т.е. реплицировано/не реплицировано), который использовался в оригинальном исследовании OSC. Авторы также измерили корреляции с другими мерами воспроизводимости (например, доверительными интервалами) и обнаружили почти равные корреляции между контекстной чувствительностью и успешностью репликации
^ Независимый эффект контекстной чувствительности можно было наблюдать как в множественной логистической регрессии, так и в иерархической регрессионной модели. В последнем случае контекстная чувствительность была включена в шаг 2 иерархии, и изменение коэффициента множественной детерминации оказалось значимым
^
Следуя аргументу Берда, этот процент получается путем расчета вероятности ложноположительного результата (FPRP) следующим образом.
- FPRP = Количество ложноположительных результатов / Количество общих положительных результатов
- Количество ложноположительных результатов = Вероятность получения ложноположительного результата x Количество отрицательных тестов
- Количество истинно положительных результатов = Вероятность получения истинно положительного результата x Количество положительных тестов
Предполагая:
- Количество тестов = 1000
- Доля верных гипотез p = 0,10
- Вероятность получения ложноположительного результата a = 0,05
- Вероятность получения истинно положительного результата 1 – B = 0,8
Тогда FPRP = (0,05 x 900)/(0,05 x 900 + 0,8 x 100) = 0,36

Ссылки

^ abc Ioannidis JP (август 2005 г.). «Почему большинство опубликованных результатов исследований ложны». PLOS Medicine . 2 (8): e124. doi : 10.1371/journal.pmed.0020124 . PMC 1182327. PMID 16060722 .
^ Джон С. (8 декабря 2017 г.). Научный метод . Нью-Йорк, Нью-Йорк: Routledge. doi :10.4324/9781315100708. ISBN 978-1-315-10070-8. S2CID 201781341.
^ Лерер Дж. (13 декабря 2010 г.). «Истина стирается». The New Yorker . Получено 30 января 2020 г.
^ Маркус Г. (1 мая 2013 г.). «Кризис в социальной психологии, которого нет». The New Yorker . Получено 30 января 2020 г.
^ abc Baker M (май 2016 г.). «1500 ученых поднимают крышку воспроизводимости». Nature (новостная статья). 533 (7604). Springer Nature : 452–454. Bibcode :2016Natur.533..452B. doi : 10.1038/533452a . PMID 27225100. S2CID 4460617.(Опечатка: [1])
^ Pashler H, Harris CR (ноябрь 2012 г.). «Раздут ли кризис воспроизводимости? Рассмотрены три аргумента». Perspectives on Psychological Science . 7 (6): 531–536. doi :10.1177/1745691612463401. PMID 26168109. S2CID 1342421.
^ Fidler F , Wilcox J (2018). «Воспроизводимость научных результатов». Стэнфордская энциклопедия философии . Исследовательская лаборатория метафизики, Стэнфордский университет . Получено 19 мая 2019 г.
^ Korbmacher M, Azevedo F, Pennington CR, Hartmann H, Pownall M, Schmidt K и др. (25 июля 2023 г.). «Кризис репликации привел к позитивным структурным, процедурным и общественным изменениям». Communications Psychology . 1 (1): 3. doi :10.1038/s44271-023-00003-2. ISSN 2731-9121. PMC 11290608 . PMID 39242883.
^ Moonesinghe R, Khoury MJ, Janssens AC (февраль 2007 г.). «Большинство опубликованных результатов исследований ложны, но небольшое повторение имеет большое значение». PLOS Medicine . 4 (2): e28. doi : 10.1371/journal.pmed.0040028 . PMC 1808082 . PMID 17326704.
^ Саймонс DJ (январь 2014 г.). «Ценность прямой репликации». Перспективы психологической науки . 9 (1): 76–80. doi :10.1177/1745691613514755. PMID 26173243. S2CID 1149441.
^ abcd Шмидт С. (2009). «Неужели мы действительно сделаем это снова? Мощная концепция репликации игнорируется в социальных науках». Обзор общей психологии . 13 (2). Публикации SAGE: 90–100. doi :10.1037/a0015108. ISSN 1089-2680. S2CID 143855611.
^ abc Open Science Collaboration (август 2015 г.). "ПСИХОЛОГИЯ. Оценка воспроизводимости психологической науки" (PDF) . Science . 349 (6251): aac4716. doi :10.1126/science.aac4716. hdl : 10722/230596 . PMID 26315443. S2CID 218065162.
^ abc Duvendack M, Palmer-Jones R, Reed RW (май 2017 г.). «Что подразумевается под «репликацией» и почему она встречает сопротивление в экономике?». American Economic Review . 107 (5): 46–51. doi :10.1257/aer.p20171031. ISSN 0002-8282.
^ abcdefg Shrout PE, Rodgers JL (январь 2018 г.). «Психология, наука и построение знаний: расширение перспектив после кризиса репликации». Annual Review of Psychology . 69 (1). Annual Reviews: 487–510. doi : 10.1146/annurev-psych-122216-011845. PMID 29300688. S2CID 19593610.
^ abcdef Stanley TD, Carter EC, Doucouliagos H (декабрь 2018 г.). «Что метаанализы раскрывают о воспроизводимости психологических исследований». Psychological Bulletin . 144 (12): 1325–1346. doi :10.1037/bul0000169. PMID 30321017. S2CID 51951232.
^ Мейер С., Чабрис С. (31 июля 2014 г.). «Почему так важны пищевые драки психологов». Slate .
^ Aschwanden C (19 августа 2015 г.). «Наука не сломана». FiveThirtyEight . Получено 30 января 2020 г.
^ Aschwanden C (27 августа 2015 г.). «Психология начинает решать проблему воспроизводства». FiveThirtyEight . Получено 30 января 2020 г.
^ Этчеллс П. (28 мая 2014 г.). «Движение психологии к репликации: это не о вас». The Guardian .
^ Wagenmakers EJ, Wetzels R, Borsboom D, van der Maas HL, Kievit RA (ноябрь 2012 г.). «Программа чисто подтверждающих исследований». Perspectives on Psychological Science . 7 (6): 632–638. doi :10.1177/1745691612463078. PMID 26168122. S2CID 5096417.
^ Иоаннидис Дж. П. (ноябрь 2012 г.). «Почему наука не обязательно самокорректируется». Перспективы психологической науки . 7 (6): 645–654. doi :10.1177/1745691612464056. PMID 26168125. S2CID 11798785.
^ Pashler H, Harris CR (ноябрь 2012 г.). «Раздут ли кризис воспроизводимости? Рассмотрены три аргумента». Perspectives on Psychological Science . 7 (6): 531–536. doi :10.1177/1745691612463401. PMID 26168109. S2CID 1342421.
^ ab Meehl PE (1967). «Проверка теории в психологии и физике: методологический парадокс». Философия науки . 34 (2): 103–115. doi :10.1086/288135. ISSN 0031-8248. JSTOR 186099. S2CID 96422880.
^ Келли К, Проповедник КДж (июнь 2012). «О размере эффекта». Психологические методы . 17 (2): 137–152. doi :10.1037/a0028086. PMID 22545595.
^ Simonsohn U, Nelson LD, Simmons JP (ноябрь 2014 г.). «p-кривая и размер эффекта: коррекция смещения публикации с использованием только значимых результатов». Perspectives on Psychological Science . 9 (6): 666–681. doi :10.1177/1745691614553988. PMID 26186117.
^ Simonsohn U, Nelson LD, Simmons JP (апрель 2014 г.). «P-кривая: ключ к картотечному ящику». Журнал экспериментальной психологии. Общие сведения . 143 (2): 534–547. doi :10.1037/a0033242. PMID 23855496.
^ abc Romero F (ноябрь 2019 г.). «Философия науки и кризис воспроизводимости». Philosophy Compass . 14 (11). doi : 10.1111/phc3.12633 . ISSN 1747-9991. S2CID 202261836.
^ Bargh JA, Chen M, Burrows L (август 1996). «Автоматичность социального поведения: прямое влияние конструкции черты и активации стереотипа на действие». Журнал личности и социальной психологии . 71 (2): 230–244. doi :10.1037/0022-3514.71.2.230. PMID 8765481. S2CID 6654763.
^ Doyen S, Klein O, Pichon CL, Cleeremans A (18 января 2012 г.). Lauwereyns J (ред.). «Поведенческое прайминг: все в уме, но в чьем уме?». PLOS ONE . 7 (1): e29081. Bibcode : 2012PLoSO...729081D. doi : 10.1371/journal.pone.0029081 . PMC 3261136. PMID 22279526 .
^ Yong E (10 марта 2012 г.). «Неудачная репликация вызвала резкую личную атаку со стороны профессора психологии». National Geographic . Архивировано из оригинала 25.02.2021 . Получено 04.07.2023 .
^ Pashler H, Coburn N, Harris CR (29 августа 2012 г.). «Priming of social distance? Unoply to replying effects on social and food judgments». PLOS ONE . 7 (8): e42510. Bibcode : 2012PLoSO...742510P. doi : 10.1371/journal.pone.0042510 . PMC 3430642. PMID 22952597 .
^ Harris CR, Coburn N, Rohrer D, Pashler H (16 августа 2013 г.). «Две неудачи в воспроизведении эффектов подготовки к достижению высокой производительности». PLOS ONE . 8 (8): e72467. Bibcode :2013PLoSO...872467H. doi : 10.1371/journal.pone.0072467 . PMC 3745413 . PMID 23977304.
^ Shanks DR, Newell BR, Lee EH, Balakrishnan D, Ekelund L, Cenac Z, et al. (24 апреля 2013 г.). «Priming intelligence behavior: an elusive phenom». PLOS ONE . 8 (4): e56515. Bibcode :2013PLoSO...856515S. doi : 10.1371/journal.pone.0056515 . PMC 3634790 . PMID 23637732.
^ Klein RA, Ratliff KA, Vianello M, Adams RB, Bahník Š, Bernstein MJ и др. (май 2014 г.). «Исследование вариативности воспроизводимости». Социальная психология . 45 (3): 142–152. doi : 10.1027/1864-9335/a000178 . hdl : 2066/131506 . ISSN 1864-9335.
^ Bem DJ (март 2011 г.). «Ощущение будущего: экспериментальные доказательства аномальных ретроактивных влияний на познание и аффект». Журнал личности и социальной психологии . 100 (3): 407–425. doi :10.1037/a0021524. PMID 21280961. S2CID 1961013.
^ Wagenmakers EJ, Wetzels R, Borsboom D, van der Maas HL (март 2011 г.). «Почему психологи должны изменить способ анализа своих данных: случай psi: комментарий к Bem (2011)». Journal of Personality and Social Psychology . 100 (3): 426–432. doi :10.1037/a0022790. PMID 21280965.
^ Галак Дж., ЛеБёф РА., Нельсон LD, Симмонс Дж. П. (декабрь 2012 г.). «Исправление прошлого: неудачи в воспроизведении ψ». Журнал личности и социальной психологии . 103 (6): 933–948. doi :10.1037/a0029709. PMID 22924750.
^ ab Begley CG, Ellis LM (март 2012 г.). «Разработка лекарств: повышение стандартов доклинических исследований рака». Nature (Комментарий к статье). 483 (7391): 531–533. Bibcode :2012Natur.483..531B. doi : 10.1038/483531a . PMID 22460880. S2CID 4326966.(Исправление: doi :10.1038/485041e)
^ Иоаннидис JP (сентябрь 2008 г.). «Почему большинство обнаруженных истинных ассоциаций раздуты». Эпидемиология . 19 (5): 640–648. doi : 10.1097/EDE.0b013e31818131e7 . PMID 18633328. S2CID 15440816.
^ abcdef Джон Л.К., Левенштейн Г. , Прелек Д. (май 2012 г.). «Измерение распространенности сомнительных исследовательских практик с помощью стимулов для сообщения правды». Психологическая наука . 23 (5): 524–532. doi :10.1177/0956797611430953. PMID 22508865. S2CID 8400625.
^ abcde Simmons JP, Nelson LD, Simonsohn U (ноябрь 2011 г.). «Ложноположительная психология: нераскрытая гибкость в сборе и анализе данных позволяет представлять что угодно как значимое». Psychological Science . 22 (11): 1359–1366. doi :10.1177/0956797611417632. PMID 22006061. S2CID 13802986.
^ Pashler H, Wagenmakers EJ (ноябрь 2012 г.). «Введение редакторов в специальный раздел о воспроизводимости в психологической науке: кризис уверенности?». Perspectives on Psychological Science . 7 (6): 528–530. doi :10.1177/1745691612465253. PMID 26168108. S2CID 26361121.
^ Альгрен А. (апрель 1969 г.). «Скромное предложение по поощрению репликации». American Psychologist . 24 (4): 471. doi :10.1037/h0037798. ISSN 1935-990X.
^ Смит NC (октябрь 1970 г.). «Исследования репликации: забытый аспект психологического исследования». American Psychologist . 25 (10): 970–975. doi :10.1037/h0029774. ISSN 1935-990X.
^ Neuliep JW, Crandall R (1993). «Предвзятость рецензента против исследований по репликации». Журнал социального поведения и личности . 8 (6): 21–29. ProQuest 1292304227 – через ProQuest.
^ Neuliep JW, Crandall R (1990). «Редакционная предвзятость против исследований репликации». Журнал социального поведения и личности . 5 (4): 85–90 – через ProQuest.
^ Льюис-Краус Г. (30 сентября 2023 г.). «Они изучали нечестность. Была ли их работа ложью?». The New Yorker . ISSN 0028-792X . Получено 01.10.2023 .
^ Subbaraman N (24 сентября 2023 г.). «The Band of Debunkers Busting Bad Scientists». Wall Street Journal . Архивировано из оригинала 24.09.2023 . Получено 08.10.2023 .
^ "APA PsycNet". psycnet.apa.org . Проверено 8 октября 2023 г.
^ ab Spellman BA (ноябрь 2015 г.). «Краткая (личная) будущая история революции 2.0». Перспективы психологической науки . 10 (6): 886–899. doi : 10.1177/1745691615609918 . PMID 26581743. S2CID 206778431.
^ ab Greenwald AG, ed. (январь 1976). "Редакционная статья". Журнал личности и социальной психологии . 33 (1): 1–7. doi :10.1037/h0078635. ISSN 1939-1315.
^ Sterling TD (1959). «Решения о публикации и их возможное влияние на выводы, сделанные на основе тестов значимости — или наоборот». Журнал Американской статистической ассоциации . 54 (285): 30–34. doi :10.2307/2282137. ISSN 0162-1459. JSTOR 2282137.
^ Mills JL (октябрь 1993 г.). «Пытка данных». The New England Journal of Medicine . 329 (16): 1196–1199. doi :10.1056/NEJM199310143291613. PMID 8166792.
^ ab Rosenthal R (май 1979). «Проблема картотечного ящика и толерантность к нулевым результатам». Psychological Bulletin . 86 (3): 638–641. doi :10.1037/0033-2909.86.3.638. ISSN 1939-1455. S2CID 36070395.
^ ab Cohen J (сентябрь 1962 г.). «Статистическая сила аномально-социальных психологических исследований: обзор». Журнал ненормальной и социальной психологии . 65 : 145–153. doi : 10.1037/h0045186. PMID 13880271.
^ Sedlmeier P, Gigerenzer G (март 1989). «Влияют ли исследования статистической мощности на мощность исследований?». Psychological Bulletin . 105 (2): 309–316. doi : 10.1037/0033-2909.105.2.309. hdl : 21.11116/0000-0000-B883-C . ISSN 1939-1455.
^ Гельман А. (21 сентября 2016 г.). «То, что здесь произошло, — это то, что ветер изменился». Статистическое моделирование, причинно-следственные связи и социальные науки .
^ Yong E (3 октября 2012 г.). «Нобелевский лауреат призывает психологов навести порядок в своих действиях». Nature . doi :10.1038/nature.2012.11535. ISSN 1476-4687.
^ Vankov I, Bowers J, Munafò MR (май 2014 г.). «О сохранении малой мощности в психологической науке». Quarterly Journal of Experimental Psychology . 67 (5): 1037–1040. doi :10.1080/17470218.2014.885986. PMC 4961230. PMID 24528377 .
^ ab Smaldino PE, McElreath R (сентябрь 2016 г.). «Естественный отбор плохой науки». Royal Society Open Science . 3 (9): 160384. arXiv : 1605.09511 . Bibcode : 2016RSOS....360384S. doi : 10.1098/rsos.160384. PMC 5043322. PMID 27703703 .
^ Ахенбах Дж. «Нет, проблема воспроизводимости науки не ограничивается психологией». The Washington Post . Получено 10 сентября 2015 г.
^ Wiggins BJ, Christopherson C (2019). «Кризис репликации в психологии: обзор теоретической и философской психологии». Журнал теоретической и философской психологии . 39 (4): 202–217. doi :10.1037/teo0000137. ISSN 2151-3341. S2CID 210567289.
^ Hagger MS, Chatzisarantis NL, Alberts H, Anggono CO, Batailler C, Birt AR и др. (Июль 2016 г.). «Многолабораторная предварительная регистрация репликации эффекта истощения эго». Perspectives on Psychological Science . 11 (4): 546–573. doi : 10.1177/1745691616652873 . hdl : 20.500.11937/16871 . PMID 27474142.
^ Бартлетт Т. (30 января 2013 г.). «Сила внушения». Хроника высшего образования .
↑ Dominus S (18 октября 2017 г.). «Когда пришла революция для Эми Кадди». The New York Times . ISSN 0362-4331 . Получено 19 октября 2017 г.
^ Дункан LE, Келлер MC (октябрь 2011 г.). «Критический обзор первых 10 лет исследований взаимодействия генов-кандидатов с окружающей средой в психиатрии». Американский журнал психиатрии . 168 (10): 1041–1049. doi :10.1176/appi.ajp.2011.11020191. PMC 3222234. PMID 21890791 .
^ Leichsenring F, Abbass A , Hilsenroth MJ, Leweke F, Luyten P, Keefe JR и др. (апрель 2017 г.). «Предвзятость в исследовании: факторы риска невоспроизводимости в исследованиях психотерапии и фармакотерапии». Psychological Medicine . 47 (6): 1000–1011. doi :10.1017/S003329171600324X. PMID 27955715. S2CID 1872762.
^ Хенгартнер MP (28 февраля 2018 г.). «Повышение осведомленности о кризисе репликации в клинической психологии путем сосредоточения внимания на несоответствиях в исследованиях психотерапии: насколько мы можем полагаться на опубликованные результаты испытаний эффективности?». Frontiers in Psychology . 9. Frontiers Media : 256. doi : 10.3389/ fpsyg.2018.00256 . PMC 5835722. PMID 29541051 .
^ Frank MC , Bergelson E, Bergmann C, Cristia A, Floccia C, Gervain J и др. (9 марта 2017 г.). «Совместный подход к исследованию младенцев: содействие воспроизводимости, передовому опыту и построению теорий». Infancy . 22 (4): 421–435. doi : 10.1111 /infa.12182. hdl :10026.1/9942. PMC 6879177. PMID 31772509.
^ Harris JR (2009) [1998]. Предположение о воспитании: почему дети становятся такими, какие они есть (2-е изд.). Нью-Йорк: Free Press . ISBN 978-1439101650.
^ Harris HR (2006). Нет двух одинаковых: человеческая природа и человеческая индивидуальность . Нью-Йорк: WW Norton & Company . ISBN 978-0393329711.
^ Тайсон С. (14 августа 2014 г.). «Неспособность реплицироваться». Inside Higher Ed . Получено 19 декабря 2018 г.
^ Makel MC, Plucker JA (1 августа 2014 г.). «Факты важнее новизны: воспроизведение в образовательных науках». Educational Researcher . 43 (6): 304–316. doi :10.3102/0013189X14545513. S2CID 145571836 . Получено 19 декабря 2018 г.
^ Киршнер П.А., Суэллер Дж. , Кларк Р.Э. (2006). «Почему минимальное руководство во время обучения не работает: анализ провала конструктивистского, исследовательского, проблемно-ориентированного, экспериментального и исследовательского обучения». Педагогический психолог . 41 (2). Routledge : 75–86. doi :10.1207/s15326985ep4102_1. S2CID 17067829.
^ Основы успеха: Заключительный отчет Национальной консультативной группы по математике (PDF) (Отчет). Министерство образования США . 2008. С. 45–46. Архивировано (PDF) из оригинала 18.01.2018 . Получено 03.11.2020 .
^ Pashler H , McDaniel M , Rohrer D, Bjork R (декабрь 2008 г.). «Стили обучения: концепции и доказательства». Психологическая наука в интересах общества . 9 (3). SAGE Publications : 105–119. doi : 10.1111/j.1539-6053.2009.01038.x . PMID 26162104. S2CID 2112166.
^ Nosek BA, Cohoon J, Kidwell MC, Spies JR (2018) [2015]. "Резюме показателей воспроизводимости и размеров эффекта для оригинальных и повторных исследований в целом и по журналам/дисциплинам". Оценка воспроизводимости психологической науки (таблица). Проект по воспроизводимости: психология . Получено 16 октября 2019 г.
^ abc Nelson LD, Simmons J, Simonsohn U (январь 2018). «Возрождение психологии». Annual Review of Psychology . 69 (1): 511–534. doi :10.1146/annurev-psych-122216-011836. PMID 29068778.
^ Роджер А. (27 августа 2018 г.). «Наука, стоящая за социальными науками, снова потрясена». Wired . Получено 28.08.2018 .
^ Camerer CF , Dreber A, Holzmeister F, Ho TH, Huber J, Johannesson M и др. (сентябрь 2018 г.). «Оценка воспроизводимости экспериментов по социальным наукам в Nature and Science в период с 2010 по 2015 г.». Nature Human Behaviour . 2 (9): 637–644. doi :10.1038/s41562-018-0399-z. PMID 31346273. S2CID 52098703.
^ Klein RA (2018). «Многие лаборатории 2: исследование вариаций воспроизводимости в разных выборках и условиях». Достижения в методах и практиках психологической науки . 1 (4): 443–490. doi : 10.1177/2515245918810225 . hdl : 1854/LU-8637133 .
^ ab Witkowski T (2019). «Стакан наполовину пуст или наполовину полон? Последние результаты кризиса репликации в психологии» (PDF) . Skeptical Inquirer . Том 43, № 2. стр. 5–6. Архивировано из оригинала (PDF) 2020-01-30.
^ Richtel M (16 марта 2022 г.). «Исследования в области визуализации мозга затруднены малыми наборами данных, согласно результатам исследования». The New York Times .
^ Marek S, Tervo-Clemmens B, Calabro FJ, Montez DF, Kay BP, Hatoum AS и др. (март 2022 г.). «Воспроизводимые исследования ассоциаций в масштабах всего мозга требуют участия тысяч людей». Nature . 603 (7902): 654–660. Bibcode :2022Natur.603..654M. doi :10.1038/s41586-022-04492-9. PMC 8991999 . PMID 35296861.
^ Ioannidis JP (июль 2005 г.). «Противоречивые и изначально более сильные эффекты в часто цитируемых клинических исследованиях». JAMA . 294 (2): 218–228. doi :10.1001/jama.294.2.218. PMID 16014596. S2CID 16749356.
^ Prinz F, Schlange T, Asadullah K (август 2011 г.). «Хотите верьте, хотите нет: насколько мы можем полагаться на опубликованные данные о потенциальных мишенях для лекарств?». Nature Reviews. Drug Discovery . 10 (9): 712. doi : 10.1038/nrd3439-c1 . PMID 21892149.
^ Wheeling K (12 мая 2016 г.). «Большая фармацевтика раскрывает кризис биомедицинской репликации». Pacific Standard . Получено 30 января 2020 г.Обновлено 14 июня 2017 г.
^ ab Haelle T (7 декабря 2021 г.). «Десятки крупных исследований рака невозможно воспроизвести». Science News . Получено 19.01.2022 .
^ ab "Проект воспроизводимости: биология рака". www.cos.io . Центр открытой науки . Получено 19.01.2022 .
^ Mobley A, Linder SK, Braeuer R, Ellis LM, Zwelling L (2013). Arakawa H (ред.). «Обзор воспроизводимости данных в исследованиях рака дает представление о нашей ограниченной способности переносить результаты из лаборатории в клинику». PLOS ONE . 8 (5): e63221. Bibcode :2013PLoSO...863221M. doi : 10.1371/journal.pone.0063221 . PMC 3655010 . PMID 23691000.
^ Van Noorden R (июль 2023 г.). «Медицина страдает от ненадежных клинических испытаний. Сколько исследований поддельные или ошибочные?». Nature . 619 (7970): 454–458. Bibcode :2023Natur.619..454V. doi : 10.1038/d41586-023-02299-w . PMID 37464079.
^ abcd Tsui AS (21 января 2022 г.). «От традиционных исследований к ответственным исследованиям: необходимость научной свободы и научной ответственности для улучшения общества». Ежегодный обзор организационной психологии и организационного поведения . 9 (1): 1–32. doi : 10.1146/annurev-orgpsych-062021-021303 . ISSN 2327-0608. S2CID 244238570.
^ Camerer CF, Dreber A, Forsell E, Ho TH, Huber J, Johannesson M и др. (март 2016 г.). «Оценка воспроизводимости лабораторных экспериментов в экономике». Science . 351 (6280): 1433–1436. Bibcode :2016Sci...351.1433C. doi : 10.1126/science.aaf0918 . PMID 26940865.
^ Bohannon J (3 марта 2016 г.). «Около 40% экономических экспериментов не проходят повторный опрос». Science . doi :10.1126/science.aaf4141 . Получено 25.10.2017 .
↑ Goldfarb RS (1 декабря 1997 г.). «Теперь вы это видите, теперь нет: возникающие противоположные результаты в экономике». Journal of Economic Methodology . 4 (2): 221–244. doi :10.1080/13501789700000016. ISSN 1350-178X.
^ ab Bergh DD, Sharp BM, Aguinis H, Li M (6 апреля 2017 г.). «Есть ли кризис доверия к исследованиям стратегического менеджмента? Доказательства воспроизводимости результатов исследования». Strategic Organization . 15 (3): 423–436. doi : 10.1177/1476127017701076 . ISSN 1476-1270. S2CID 44024633.
^ ab Stagge JH, Rosenberg DE, Abdallah AM, Akbar H, Attallah NA, James R (февраль 2019 г.). «Оценка доступности данных и воспроизводимости исследований в области гидрологии и водных ресурсов». Scientific Data . 6 : 190030. Bibcode : 2019NatSD ...690030S. doi : 10.1038/sdata.2019.30. PMC 6390703. PMID 30806638.
^ ab Nature Video (28 мая 2016 г.). «Есть ли кризис воспроизводимости в науке?». Scientific American . Получено 15 августа 2019 г.
^ Fanelli D (апрель 2010 г.). Scalas E (ред.). ""Положительные" результаты увеличиваются вниз по иерархии наук". PLOS ONE . 5 (4): e10068. Bibcode :2010PLoSO...510068F. doi : 10.1371/journal.pone.0010068 . PMC 2850928 . PMID 20383332.
^ ab Allen C, Mehler DM (май 2019 г.). «Проблемы, преимущества и советы открытой науки в начале карьеры и после нее». PLOS Biology . 17 (5). Публичная научная библиотека: e3000246. doi : 10.1371/journal.pbio.3000246 . PMC 6513108. PMID 31042704 .
^ «Новый кризис репликации: исследования, которые с меньшей вероятностью соответствуют истине, цитируются чаще». Калифорнийский университет, Сан-Диего . 21 мая 2021 г. Архивировано из оригинала 13.04.2024.
^ Serra-Garcia M, Gneezy U (май 2021 г.). «Невоспроизводимые публикации цитируются чаще, чем воспроизводимые». Science Advances . 7 (21). Bibcode :2021SciA....7.1705S. doi :10.1126/sciadv.abd1705. PMC 8139580 . PMID 34020944.
^ Begley CG, Ioannidis JP (январь 2015 г.). «Воспроизводимость в науке: повышение стандарта для фундаментальных и доклинических исследований». Circulation Research . 116 (1): 116–126. doi : 10.1161/CIRCRESAHA.114.303819 . PMID 25552691. S2CID 3587510.
^ Прайс DJ (1963). Маленькая наука большая наука . Columbia University Press. стр. 32. ISBN 9780231085625.
^ Siebert S, Machesky LM, Insall RH (сентябрь 2015 г.). «Переполнение в науке и его последствия для доверия». eLife . 4 : e10825. doi : 10.7554/eLife.10825 . PMC 4563216 . PMID 26365552.
^ Делла Бриотта Пароло П., Пан Р. К., Гош Р., Хуберман Б. А., Каски К., Фортунато С. (2015). «Распад внимания в науке». Журнал Informetrics . 9 (4): 734–745. arXiv : 1503.01881 . Bibcode : 2015arXiv150301881D. doi : 10.1016/j.joi.2015.07.006. S2CID 10949754.
^ ab Mirowski P (2011). Science-Mart . Harvard University Press. стр. 2, 24. ISBN 978-0-674-06113-2.
^ Moeller HG (2006). Луман объяснил: от душ к системам . Чикаго: Open Court. стр. 25. ISBN 0-8126-9598-4. OCLC 68694011.
^ Луман Н. (1995). Социальные системы . Стэнфорд, Калифорния: Stanford University Press. стр. 288. ISBN 978-0-8047-2625-2. OCLC 31710315.
^ ab Scheufele DA (сентябрь 2014 г.). «Научная коммуникация как политическая коммуникация». Труды Национальной академии наук Соединенных Штатов Америки . 111 (Suppl 4): 13585–13592. Bibcode : 2014PNAS..111S3585S. doi : 10.1073/pnas.1317516111 . PMC 4183176. PMID 25225389 .
^ Pielke R (2007). Честный брокер: осмысление науки в политике и политике . Кембридж: Cambridge University Press. doi : 10.1017/CBO9780511818110. ISBN 978-0-511-81811-0. OCLC 162145073.
^ Мартин ГН, Кларк РМ (2017). «Являются ли психологические журналы антирепликаторами? Краткий обзор редакционной практики». Frontiers in Psychology . 8 : 523. doi : 10.3389/fpsyg.2017.00523 . PMC 5387793. PMID 28443044.
^ Yeung AW (2017). «Принимают ли журналы по нейронауке повторения? Обзор литературы». Frontiers in Human Neuroscience . 11 : 468. doi : 10.3389/fnhum.2017.00468 . PMC 5611708. PMID 28979201 .
^ Хаббард Р., Веттер Д. Э. (1 февраля 1996 г.). «Эмпирическое сравнение опубликованных исследований по репликации в области бухгалтерского учета, экономики, финансов, менеджмента и маркетинга». Журнал бизнес-исследований . 35 (2): 153–164. doi :10.1016/0148-2963(95)00084-4. ISSN 0148-2963.
^ «Предвзятость подтверждения». Словарь психологии APA . Вашингтон, округ Колумбия: Американская психологическая ассоциация . nd . Получено 2022-02-02 .{{cite encyclopedia}}: CS1 maint: year (link)
^ abc Ferguson CJ, Heene M (ноябрь 2012 г.). «Обширное кладбище теорий нежити: предвзятость публикаций и неприятие психологической наукой нулевого». Перспективы психологической науки . 7 (6): 555–561. doi :10.1177/1745691612459059. PMID 26168112.
↑ Dominus S (18 октября 2017 г.). «Когда пришла революция для Эми Кадди». New York Times Magazine .
^ García-Berthou E, Alcaraz C (май 2004 г.). «Несоответствие между статистикой тестов и значениями P в медицинских работах». BMC Medical Research Methodology . 4 (1): 13. doi : 10.1186/1471-2288-4-13 . PMC 443510. PMID 15169550 .
^ Nieuwenhuis S, Forstmann BU, Wagenmakers EJ (август 2011 г.). «Ошибочный анализ взаимодействий в нейронауке: проблема значимости». Nature Neuroscience . 14 (9): 1105–1107. doi :10.1038/nn.2886. PMID 21878926.
^ ab Fanelli D (апрель 2010 г.). «Увеличивает ли давление с целью публикации предвзятость ученых? Эмпирическая поддержка на основе данных по штатам США». PLOS ONE . 5 (4): e10271. Bibcode : 2010PLoSO ...510271F. doi : 10.1371/journal.pone.0010271 . PMC 2858206. PMID 20422014.
^ Nosek BA, Spies JR, Motyl M (ноябрь 2012 г.). «Научная утопия: II. Реструктуризация стимулов и практик для продвижения истины через публикаемость». Perspectives on Psychological Science . 7 (6): 615–631. arXiv : 1205.4251 . doi : 10.1177/1745691612459058. PMC 10540222. PMID 26168121. S2CID 23602412 .
^ Эверетт JA, Эрп BD (1 января 2015 г.). «Трагедия (академического) общего достояния: интерпретация кризиса репликации в психологии как социальной дилеммы для начинающих исследователей». Frontiers in Psychology . 6 : 1152. doi : 10.3389/fpsyg.2015.01152 . PMC 4527093. PMID 26300832 .
^ ab Clayson PE, Carbine KA, Baldwin SA, Larson MJ (ноябрь 2019 г.). «Методологическое поведение отчетности, размеры выборки и статистическая мощность в исследованиях потенциалов, связанных с событиями: барьеры для воспроизводимости и воспроизводимости». Психофизиология . 56 (11): e13437. doi :10.1111/psyp.13437. PMID 31322285.
^ LeBel EP, Peters KR (декабрь 2011 г.). «Опасаясь будущего эмпирической психологии: доказательства Бема (2011 г.) о пси как примере недостатков в практике модальных исследований». Review of General Psychology . 15 (4): 371–379. doi :10.1037/a0025172. ISSN 1089-2680.
^ abc "Нарушение правил проведения исследований – серая зона сомнительных исследовательских практик". www.vib.be . Vlaams Instituut voor Biotechnologie . 30 сентября 2013 г. Архивировано из оригинала 2014-10-31 . Получено 2015-11-13 .
^ abcdefgh Wicherts JM , Veldkamp CL, Augusteijn HE, Bakker M, van Aert RC, van Assen MA (2016). «Степени свободы в планировании, проведении, анализе и составлении отчетов о психологических исследованиях: контрольный список, позволяющий избежать взлома». Границы в психологии . 7 : 1832. doi : 10.3389/fpsyg.2016.01832 . ПМК 5122713 . ПМИД 27933012.
^ abc "Девять кругов научного ада". Перспективы психологической науки (мнение). 7 (6): 643–644. Ноябрь 2012. doi : 10.1177/1745691612459519 . PMID 26168124. S2CID 45328962.
^ "Data dredging". APA Dictionary of Psychology . Washington, DC: American Psychological Association . nd . Получено 2022-01-09 . Ненадлежащая практика поиска в больших файлах информации с целью подтверждения предвзятой гипотезы или убеждения без адекватного дизайна, который контролирует возможные помехи или альтернативные гипотезы. Data dredging может включать выбор частей большого набора данных, которые следует сохранить, чтобы получить конкретные желаемые результаты.{{cite encyclopedia}}: CS1 maint: year (link)
^ Begley CG (май 2013 г.). «Шесть красных флагов для подозрительной работы». Nature (Комментарий к статье). 497 (7450): 433–434. Bibcode :2013Natur.497..433B. doi : 10.1038/497433a . PMID 23698428. S2CID 4312732.
^ Shea C (13 ноября 2011 г.). «Скандал с мошенничеством разжигает дебаты о практиках социальной психологии». Хроника высшего образования .
^ O'Boyle EH, Götz M (2022). «Сомнительные исследовательские практики». Research Integrity: Best Practices for the Social and Behavioral Sciences . Oxford University Press. С. 261–294. ISBN 978-0190938550.
^ Glick JL (1992). «Аудит научных данных — ключевой инструмент управления». Accountability in Research . 2 (3): 153–168. doi :10.1080/08989629208573811.
^ Фидлер К, Шварц Н (19 октября 2015 г.). «Пересмотр сомнительных исследовательских практик». Социальная психология и наука о личности . 7 : 45–52. doi :10.1177/1948550615612150. ISSN 1948-5506. S2CID 146717227.
^ Fanelli D (май 2009). «Сколько ученых фабрикуют и фальсифицируют исследования? Систематический обзор и метаанализ данных опросов». PLOS ONE . 4 (5): e5738. Bibcode : 2009PLoSO...4.5738F. doi : 10.1371/journal.pone.0005738 . PMC 2685008. PMID 19478950 .
^ Button KS, Ioannidis JP, Mokrysz C, Nosek BA, Flint J, Robinson ES и др. (Май 2013 г.). «Отказ питания: почему малый размер выборки подрывает надежность нейронауки». Nature Reviews. Neuroscience . 14 (5): 365–376. doi :10.1038/nrn3475. PMID 23571845.
^ Button KS, Ioannidis JP, Mokrysz C, Nosek BA, Flint J, Robinson ES и др. (Май 2013 г.). «Отказ питания: почему малый размер выборки подрывает надежность нейронауки». Nature Reviews. Neuroscience . 14 (5): 365–376. doi : 10.1038/nrn3475 . PMID 23571845. S2CID 455476.
^ Иоаннидис JP, Стэнли TD, Дукулиагос H (1 октября 2017 г.). «Сила предвзятости в экономических исследованиях». The Economic Journal . 127 (605): F236–F265. doi : 10.1111/ecoj.12461 . ISSN 0013-0133. S2CID 158829482.
^ Flint J, Munafò MR (февраль 2013 г.). «Гены-кандидаты и некандидаты в генетике поведения». Current Opinion in Neurobiology . 23 (1): 57–61. doi :10.1016/j.conb.2012.07.005. PMC 3752971. PMID 22878161 .
^ Дюма-Малле Э., Баттон К. С., Боро Т., Гонон Ф., Мунафо М. Р. (февраль 2017 г.). «Низкая статистическая мощность в биомедицинской науке: обзор трех областей исследований человека». Royal Society Open Science . 4 (2): 160254. Bibcode :2017RSOS....460254D. doi :10.1098/rsos.160254. PMC 5367316 . PMID 28386409.
^ Farrell MS, Werge T, Sklar P, Owen MJ, Ophoff RA, O'Donovan MC и др. (май 2015 г.). «Оценка исторических генов-кандидатов на шизофрению». Молекулярная психиатрия . 20 (5): 555–562. doi :10.1038/mp.2015.16. PMC 4414705. PMID 25754081 .
^ Protzko J, Schooler JW (21 февраля 2017 г.), Lilienfeld SO, Waldman ID (ред.), «Эффекты упадка: типы, механизмы и личные размышления», Psychological Science Under Scrutiny (1-е изд.), Wiley, стр. 85–107, doi :10.1002/9781119095910.ch6, ISBN 978-1-118-66107-9, получено 2024-07-26
^ ab Loken E, Gelman A (февраль 2017 г.). «Ошибка измерения и кризис репликации». Science . 355 (6325): 584–585. Bibcode :2017Sci...355..584L. doi :10.1126/science.aal3618. PMID 28183939.
^ Гельман, Эндрю и Эрик Локен. «Сад расходящихся тропинок: почему множественные сравнения могут быть проблемой, даже когда нет «рыболовной экспедиции» или «p-хакинга», а исследовательская гипотеза была выдвинута заранее». Департамент статистики, Колумбийский университет 348.1-17 (2013): 3.
^ ab Head ML, Holman L, Lanfear R, Kahn AT, Jennions MD (март 2015 г.). «Масштабы и последствия p-хакинга в науке». PLOS Biology . 13 (3): e1002106. doi : 10.1371/journal.pbio.1002106 . PMC 4359000. PMID 25768323 .
^ Eisenberger NI, Lieberman MD, Williams KD (октябрь 2003 г.). «Вредит ли отвержение? Исследование социальной изоляции с помощью FMRI». Science . 302 (5643): 290–292. Bibcode :2003Sci...302..290E. doi :10.1126/science.1089134. PMID 14551436.
^ ab Vul E, Harris C, Winkielman P, Pashler H (май 2009). «Загадочно высокие корреляции в исследованиях эмоций, личности и социального познания с помощью фМРТ». Perspectives on Psychological Science . 4 (3): 274–290. doi :10.1111/j.1745-6924.2009.01125.x. PMID 26158964.
^ ab Wagenmakers EJ (октябрь 2007 г.). «Практическое решение распространенных проблем значений p». Psychonomic Bulletin & Review . 14 (5): 779–804. doi :10.3758/BF03194105. PMID 18087943.
↑ Вихертс Дж. М., Вельдкамп К. Л., Огюстейн Х. Э., Баккер М., ван Аэрт Р. К., ван Ассен М. А. (25 ноября 2016 г.). «Степени свободы в планировании, проведении, анализе и составлении отчетов о психологических исследованиях: контрольный список, позволяющий избежать взлома». Границы в психологии . 7 : 1832. doi : 10.3389/fpsyg.2016.01832 . ПМК 5122713 . ПМИД 27933012.
^ Хиггинс Дж. П., Томпсон SG (июнь 2002 г.). «Количественная оценка гетерогенности в метаанализе». Статистика в медицине . 21 (11): 1539–1558. doi :10.1002/sim.1186. PMID 12111919. S2CID 6319826.
^ Moosa IA (2 октября 2019 г.). «Хрупкость результатов и предвзятость эмпирических исследований: исследовательское изложение». Журнал экономической методологии . 26 (4): 347–360. doi : 10.1080/1350178X.2018.1556798. ISSN 1350-178X. S2CID 158504639.
^ Granger CW (1999). Эмпирическое моделирование в экономике: спецификация и оценка. Cambridge University Press. стр. 5. doi :10.1017/CBO9780511492327. ISBN 978-0-521-77825-1.
^ Maziarz M (1 декабря 2021 г.). «Разрешение эмпирических противоречий с помощью механистических доказательств». Synthese . 199 (3): 9957–9978. doi : 10.1007/s11229-021-03232-2 . ISSN 1573-0964. S2CID 236249427.
^ Морган М.С., Магнус Дж.Р. (сентябрь 1997 г.). «Эксперимент в прикладной эконометрике». Журнал прикладной эконометрики . 12 (5): 459–661. ISSN 1099-1255.
^ ab Van Bavel JJ, Mende-Siedlecki P, Brady WJ, Reinero DA (июнь 2016 г.). «Контекстная чувствительность в научной воспроизводимости». Труды Национальной академии наук Соединенных Штатов Америки . 113 (23): 6454–6459. Bibcode : 2016PNAS..113.6454V. doi : 10.1073/pnas.1521897113 . JSTOR 26470212. PMC 4988618. PMID 27217556.
^ Trafimow D (июль 2003 г.). «Проверка гипотез и оценка теорий на границах: удивительные открытия из теоремы Байеса». Psychological Review . 110 (3): 526–535. doi :10.1037/0033-295X.110.3.526. PMID 12885113.
^ Wagenmakers EJ (октябрь 2007 г.). «Практическое решение распространенных проблем значений p». Psychonomic Bulletin & Review . 14 (5): 779–804. doi :10.3758/BF03194105. PMID 18087943.
^ ab Cohen J (декабрь 1994 г.). «Земля круглая (p < .05)». American Psychologist . 49 (12): 997–1003. doi :10.1037/0003-066X.49.12.997. ISSN 1935-990X.
^ ab Amrhein V, Korner-Nievergelt F, Roth T (2017). «Земля плоская (p > 0,05): пороги значимости и кризис невоспроизводимых исследований». PeerJ . 5 : e3544. doi : 10.7717/peerj.3544 . PMC 5502092 . PMID 28698825.
^ Бранвен Г. (30 апреля 2023 г.). «Всё взаимосвязано». gwern.net .
^ Cohen J (1992). «То, чему я научился (пока).». В Kazdin AE (ред.). Методологические вопросы и стратегии в клинических исследованиях . Вашингтон: Американская психологическая ассоциация. стр. 315–333. doi :10.1037/10109-028. ISBN 978-1-55798-154-7. Получено 2024-07-26 .
^ ab Meehl PE (1992). «Теоретические риски и табличные звездочки: сэр Карл, сэр Рональд и медленный прогресс мягкой психологии». В Miller RB (ред.). Восстановление диалога: Чтения по философии клинической психологии . Вашингтон: Американская психологическая ассоциация. стр. 523–555. doi :10.1037/10112-043. ISBN 978-1-55798-157-8.
^ ab Paul Meehl (1986). Чего не понимают социальные ученые . В DW Fiske & RA Shweder (ред.), Метатеория в социальных науках: плюрализмы и субъективности (стр. 315-338). Чикаго: Издательство Чикагского университета.
^ Jaynes ET, Bretthorst GL (2003). "5. Необычное использование теории вероятностей". Теория вероятностей: логика науки . Кембридж, Великобритания; Нью-Йорк, Нью-Йорк: Cambridge University Press. ISBN 978-0-521-59271-0.
^ abc Bird A (1 декабря 2021 г.). «Понимание кризиса репликации как заблуждения базовой ставки». Британский журнал философии науки . 72 (4): 965–993. doi : 10.1093/bjps/axy051 . ISSN 0007-0882.
^ Nissen SB, Magidson T, Gross K, Bergstrom CT (декабрь 2016 г.). «Предвзятость публикации и канонизация ложных фактов». eLife . 5 : e21451. arXiv : 1609.00494 . doi : 10.7554/eLife.21451 . PMC 5173326 . PMID 27995896.
^ ab Калифорнийский университет в Сан-Диего (май 2021 г.). «Новый кризис репликации: исследования, которые с меньшей вероятностью соответствуют действительности, цитируются чаще». phys.org . Получено 14.06.2021 .
^ ab Serra-Garcia M, Gneezy U (май 2021 г.). «Невоспроизводимые публикации цитируются чаще, чем воспроизводимые». Science Advances . 7 (21): eabd1705. Bibcode :2021SciA....7.1705S. doi : 10.1126/sciadv.abd1705 . PMC 8139580 . PMID 34020944.
^ Białek M (январь 2018). «Репликации могут вызвать искаженную веру в научный прогресс». The Behavioral and Brain Sciences . 41 : e122. doi :10.1017/S0140525X18000584. PMID 31064528. S2CID 147705650.
^ ab Mede NG, Schäfer MS, Ziegler R, Weißkopf M (январь 2021 г.). «Кризис «репликации» в глазах общественности: осведомленность и восприятие немцами (не)воспроизводимости научных исследований». Public Understanding of Science . 30 (1): 91–102. doi :10.1177/0963662520954370. PMID 32924865. S2CID 221723269.
^ abcd Letzter R (22 сентября 2016 г.). «Ученые в ярости после того, как известный психолог обвинила своих коллег в «методологическом терроризме»». Business Insider . Получено 30.01.2020 .
^ «Черновик колонки Observer вызвал сильный отклик в социальных сетях». APS Observer . Ассоциация психологических наук. Сентябрь 2016 г. Получено 04.10.2017 .
^ Фиске СТ (31 октября 2016 г.). «Призыв изменить культуру позора в науке». APS Observer . 29 (9).
^ Singal J (12 октября 2016 г.). «Дебаты о «методологическом терроризме» в психологии изнутри». NY Mag . Получено 04.10.2017 .
^ ab Vazire S (июль 2018 г.). «Последствия революции доверия для производительности, креативности и прогресса». Перспективы психологической науки . 13 (4): 411–417. doi :10.1177/1745691617751884. PMID 29961410. S2CID 49647586.
^ Korbmacher M, Azevedo F, Pennington CR, Hartmann H, Pownall M, Schmidt K и др. (25 июля 2023 г.). «Кризис репликации привел к положительным структурным, процедурным и общественным изменениям». Communications Psychology . 1 (1): 3. doi : 10.1038/s44271-023-00003-2 . hdl : 10852/106350 . ISSN 2731-9121. PMC 11290608 . PMID 39242883.
^ Stroebe W, Strack F (январь 2014). «Предполагаемый кризис и иллюзия точной репликации». Perspectives on Psychological Science . 9 (1): 59–71. doi :10.1177/1745691613514450. PMID 26173241. S2CID 31938129.
^ Дженсен А. (7 мая 2019 г.). «Репликация как успешное и неуспешное воспроизведение». Колледж свободных искусств, кафедра философии . Университет Миннесоты . Получено 25.05.2022 .
^ Madhusoodanan J (май 2022 г.). «Упускаемая из виду переменная в исследованиях животных: почему диета имеет значение». Nature . 605 (7911): 778–779. Bibcode :2022Natur.605..778M. doi : 10.1038/d41586-022-01393-9 . PMID 35606524. S2CID 249015202.
^ Иоаннидис JP (июнь 2016 г.). «Почему большинство клинических исследований бесполезны». PLOS Medicine . 13 (6): e1002049. doi : 10.1371/journal.pmed.1002049 . PMC 4915619. PMID 27328301 .
^ Иоаннидис Дж. П., Фанелли Д., Данн Д. Д., Гудман СН. (октябрь 2015 г.). «Мета-исследование: оценка и улучшение исследовательских методов и практик». PLOS Biology . 13 (10): e1002264. doi : 10.1371/journal.pbio.1002264 . PMC 4592065. PMID 26431313 .
^ Бах Б. (8 декабря 2015 г.). «О коммуникации науки и неопределенности: подкаст с Джоном Иоаннидисом». Область действия . Получено 20 мая 2019 г.
^ Gosselin RD (январь 2020 г.). «Статистический анализ должен улучшиться для решения кризиса воспроизводимости: призыв к действию ACcess to Transparent Statistics (ACTS)». BioEssays . 42 (1): e1900189. doi :10.1002/bies.201900189. PMID 31755115. S2CID 208228664.
^ Pratt MG, Kaplan S, Whittington R (6 ноября 2019 г.). «Редакционное эссе: смятение по поводу прозрачности: отделение прозрачности от репликации при установлении надежных качественных исследований». Administrative Science Quarterly . 65 (1): 1–19. doi : 10.1177/0001839219887663 . ISSN 0001-8392. S2CID 210537501.
^ Aschwanden C (6 декабря 2018 г.). «Кризис репликации психологии сделал эту область лучше». FiveThirtyEight . Получено 19 декабря 2018 г.
^ Chartier C, Kline M, McCarthy R, Nuijten M, Dunleavy DJ, Ledgerwood A (декабрь 2018 г.), «Кооперативная революция делает психологическую науку лучше», Observer , 31 (10) , получено 19 декабря 2018 г.
^ "Зарегистрированные отчеты о репликации". Ассоциация психологических наук . Получено 13 ноября 2015 г.
↑ Chambers C (20 мая 2014 г.). «Революция регистрации в психологии». The Guardian . Получено 13 ноября 2015 г.
^ Линдси ДС (декабрь 2015 г.). «Репликация в психологической науке». Психологическая наука . 26 (12): 1827–1832. doi : 10.1177/0956797615616374 . PMID 26553013.
^ ab Benjamin DJ, Berger JO, Johannesson M, Nosek BA, Wagenmakers EJ, Berk R и др. (январь 2018 г.). «Переопределите статистическую значимость». Nature Human Behaviour . 2 (1): 6–10. doi : 10.1038/s41562-017-0189-z . hdl : 10281/184094 . PMID 30980045.
^ Lakens D, Adolfi FG, Albers CJ, Anvari F, Apps MA, Argamon SE и др. (март 2018 г.). «Оправдайте свою альфу». Nature Human Behaviour . 2 (3): 168–171. doi : 10.1038/s41562-018-0311-x. hdl : 21.11116/0000-0004-9413-F . ISSN 2397-3374. S2CID 3692182.
^ Colquhoun D (ноябрь 2014 г.). «Исследование частоты ложных открытий и неправильной интерпретации p-значений». Royal Society Open Science . 1 (3): 140216. arXiv : 1407.5296 . Bibcode :2014RSOS....140216C. doi :10.1098/rsos.140216. PMC 4448847 . PMID 26064558.
^ abcd Colquhoun D (декабрь 2017 г.). «Воспроизводимость исследований и неправильная интерпретация p-значений». Royal Society Open Science . 4 (12): 171085. doi :10.1098/rsos.171085. PMC 5750014 . PMID 29308247.
^ Colquhoun D (11 октября 2016 г.). «Проблема с p-значениями». Журнал Aeon . Получено 11 декабря 2016 г.
^ Лонгстафф К., Колкухун Д. «Калькулятор риска ложного положительного результата (FPR)». Университетский колледж Лондона. Версия 1.7.
^ Мэтьюз РА (2001). «Почему врачи должны заботиться о байесовских методах?». Журнал статистического планирования и вывода . 94 : 43–58. doi :10.1016/S0378-3758(00)00232-9.
^ Максвелл SE, Лау MY, Говард GS (сентябрь 2015 г.). «Страдает ли психология от кризиса репликации? Что на самом деле означает «неспособность реплицироваться»?». Американский психолог . 70 (6): 487–498. doi :10.1037/a0039400. PMID 26348332.
^ IntHout J, Ioannidis JP, Borm GF, Goeman JJ (август 2015 г.). «Небольшие исследования более гетерогенны, чем крупные: мета-мета-анализ». Журнал клинической эпидемиологии . 68 (8): 860–869. doi : 10.1016/j.jclinepi.2015.03.017 . hdl : 2066/153978 . PMID 25959635.
^ Button KS, Ioannidis JP, Mokrysz C, Nosek BA, Flint J, Robinson ES и др. (Май 2013 г.). «Отказ питания: почему малый размер выборки подрывает надежность нейронауки». Nature Reviews. Neuroscience . 14 (5): 365–376. doi : 10.1038/nrn3475 . PMID 23571845.
^ Гринвальд АГ (1975). «Последствия предубеждения против нулевой гипотезы» (PDF) . Психологический вестник . 82 (1): 1–20. doi :10.1037/h0076157.
^ Kriegeskorte N, Simmons WK, Bellgowan PS, Baker CI (май 2009). «Круговой анализ в системной нейронауке: опасности двойного погружения». Nature Neuroscience . 12 (5): 535–540. doi :10.1038/nn.2303. PMC 2841687 . PMID 19396166.
^ Yarkoni T, Westfall J (ноябрь 2017 г.). «Выбор прогноза вместо объяснения в психологии: уроки машинного обучения». Перспективы психологической науки . 12 (6): 1100–1122. doi :10.1177/1745691617693393. PMC 6603289. PMID 28841086 .
^ "NWO выделяет 3 миллиона на пилотный проект Replication Studies". Нидерландская организация научных исследований (пресс-релиз). Июль 2016 г. Архивировано из оригинала 22 июля 2016 г.
^ abc Apple S (22 января 2017 г.). «Молодой миллиардер, стоящий за войной против плохой науки». Wired .
^ Frank MC, Saxe R (ноябрь 2012 г.). «Обучение репликации». Perspectives on Psychological Science . 7 (6): 600–604. doi : 10.1177/1745691612460686 . PMID 26168118. S2CID 33661604.
^ Grahe JE, Reifman A, Hermann AD, Walker M, Oleson KC, Nario-Redmond M и др. (Ноябрь 2012 г.). «Использование неоткрытого ресурса студенческих исследовательских проектов». Perspectives on Psychological Science . 7 (6): 605–607. doi : 10.1177/1745691612459057 . PMID 26168119.
^ Марвик Б., Ван Л., Робинсон Р., Луазель Х. (22 октября 2019 г.). «Как использовать задания по репликации для обучения целостности в эмпирической археологии». Advances in Archaeological Practice . 8 : 78–86. doi : 10.1017/aap.2019.38 .
^ Эверетт JA, Эрп BD (1 января 2015 г.). «Трагедия (академического) общего достояния: интерпретация кризиса репликации в психологии как социальной дилеммы для начинающих исследователей». Frontiers in Psychology . 6 : 1152. doi : 10.3389/fpsyg.2015.01152 . PMC 4527093. PMID 26300832 .
^ Ziano I, Mok PY, Feldman G (август 2021 г.). «Повторение и расширение эффекта Alicke (1985) Better-Than-Average для желаемых и контролируемых черт». Social Psychological and Personality Science . 12 (6): 1005–1017. doi : 10.1177/1948550620948973. ISSN 1948-5506.
^ Korbmacher M, Azevedo F, Pennington CR, Hartmann H, Pownall M, Schmidt K и др. (25 июля 2023 г.). «Кризис репликации привел к позитивным структурным, процедурным и общественным изменениям». Communications Psychology . 1 (1): 3. doi :10.1038/s44271-023-00003-2. ISSN 2731-9121. PMC 11290608 . PMID 39242883.
^ Pennington CR (2023). Руководство для студентов по открытой науке: использование кризиса репликации для реформирования психологии . Maidenhead: Open University Press. ISBN 978-0-335-25117-9.
^ Kulke L, Rakoczy H (1 февраля 2018 г.). «Неявная теория разума – обзор текущих репликаций и нерепликаций». Data in Brief . 16 : 101–104. Bibcode :2018DIB....16..101K. doi :10.1016/j.dib.2017.11.016. ISSN 2352-3409. PMC 5694957 . PMID 29188228.
^ "Curate Science". curatescience.org . Получено 2024-09-19 .
^ LeBel EP, McCarthy RJ, Earp BD, Elson M, Vanpaemel W (сентябрь 2018 г.). «Унифицированная структура для количественной оценки достоверности научных результатов». Advances in Methods and Practices in Psychological Science . 1 (3): 389–402. doi :10.1177/2515245918787489. ISSN 2515-2459.
^ Röseler L, Kaiser L, Doetsch C, Klett N, Seida C, Schütz A и др. (11 сентября 2024 г.). «База данных репликации: документирование воспроизводимости психологической науки». Журнал открытых психологических данных . 12 (1): 8. doi : 10.5334/jopd.101 . ISSN 2050-9863.
^ Quintana DS (сентябрь 2021 г.). «Исследования по репликации для дипломных работ бакалавриата для улучшения науки и образования». Nature Human Behaviour (статья World View). 5 (9): 1117–1118. doi :10.1038/s41562-021-01192-8. PMID 34493847. S2CID 237439956.
^ Кембриджский университет (апрель 2022 г.). «Ученый-робот Ева обнаружил, что менее трети научных результатов воспроизводимы». Techxplore . Получено 15.05.2022 .
^ Roper K, Abdel-Rehim A, Hubbard S, Carpenter M, Rzhetsky A, Soldatova L, et al. (Апрель 2022 г.). «Проверка воспроизводимости и надежности литературы по биологии рака с помощью робота». Журнал Королевского общества, Интерфейс . 19 (189): 20210821. doi :10.1098/rsif.2021.0821. PMC 8984295. PMID 35382578 .
^ ab Chambers C (10 июня 2014 г.). «Физическая зависть: содержат ли «точные» науки решение кризиса репликации в психологии?». The Guardian .
^ Канеман Д. (2014). «Новый этикет для репликации». Социальная психология (комментарий). Комментарии и возражения. 45 (4): 310–311. doi :10.1027/1864-9335/a000202.
^ Makel MC, Plucker JA, Hegarty B (ноябрь 2012 г.). «Репликации в психологических исследованиях: как часто они действительно происходят?». Perspectives on Psychological Science . 7 (6): 537–542. doi : 10.1177/1745691612460688 . PMID 26168110.
^ Uhlmann EL, Ebersole CR, Chartier CR, Errington TM, Kidwell MC, Lai CK и др. (сентябрь 2019 г.). «Научная утопия III: краудсорсинговая наука». Перспективы психологической науки . 14 (5): 711–733. doi : 10.1177/1745691619850561 . PMID 31260639.
^ ab Forscher PS, Wagenmakers EJ, Coles NA, Silan MA, Dutra N, Basnight-Brown D и др. (май 2023 г.). «Преимущества, барьеры и риски науки в больших командах». Перспективы психологической науки . 18 (3): 607–623. doi :10.1177/17456916221082970. PMID 36190899. S2CID 236816530.
^ Munafò MR, Davey Smith G (январь 2018 г.). «Надежное исследование требует множества доказательств». Nature . 553 (7689): 399–401. Bibcode :2018Natur.553..399M. doi : 10.1038/d41586-018-01023-3 . PMID 29368721.
^ abcdef Wallot S, Kelty-Stephen DG (1 июня 2018 г.). «Интеракционно-доминантная причинность в разуме и мозге и ее значение для вопросов обобщения и репликации». Minds and Machines . 28 (2): 353–374. doi : 10.1007/s11023-017-9455-0 . hdl : 21.11116/0000-0001-AC9C-E . ISSN 1572-8641.
^ Tierney W, Hardy JH, Ebersole CR, Leavitt K, Viganola D, Clemente EG и др. (1 ноября 2020 г.). «Творческое разрушение в науке». Организационное поведение и процессы принятия решений человеком . 161 : 291–309. doi : 10.1016/j.obhdp.2020.07.002 . hdl : 2066/228242 . ISSN 0749-5978. S2CID 224979451.
^ Tierney W, Hardy J, Ebersole CR, Viganola D, Clemente EG, Gordon M и др. (1 марта 2021 г.). «Подход творческого разрушения к репликации: неявная работа и сексуальная мораль в разных культурах». Журнал экспериментальной социальной психологии . 93 : 104060. doi : 10.1016/j.jesp.2020.104060 . hdl : 10037/24275 . ISSN 0022-1031. S2CID 229028797.
^ Delios A, Clemente EG, Wu T, Tan H, Wang Y, Gordon M и др. (Июль 2022 г.). «Изучение генерализуемости результатов исследований на основе архивных данных». Труды Национальной академии наук Соединенных Штатов Америки . 119 (30): e2120377119. Bibcode : 2022PNAS..11920377D. doi : 10.1073/pnas.2120377119 . PMC 9335312. PMID 35858443 .
^ Ince DC, Hatton L, Graham-Cumming J (февраль 2012 г.). «Дело в пользу открытых компьютерных программ». Nature . 482 (7386): 485–488. Bibcode :2012Natur.482..485I. doi : 10.1038/nature10836 . PMID 22358837.
^ Vuong QH (январь 2018 г.). «(Ир)рациональное рассмотрение стоимости науки в странах с переходной экономикой». Nature Human Behaviour . 2 (1): 5. doi : 10.1038/s41562-017-0281-4 . PMID 30980055. S2CID 46878093.
^ Junk TR, Lyons L (21 декабря 2020 г.). «Воспроизводимость и репликация результатов экспериментальной физики частиц». Harvard Data Science Review . 2 (4). arXiv : 2009.06864 . doi : 10.1162/99608f92.250f995b. S2CID 221703733.
^ ab Ioannidis JP (февраль 2016 г.). «Ожидание последствий обмена необработанными данными и кодом и награждения значками за обмен». Журнал клинической эпидемиологии (комментарий). 70 : 258–260. doi :10.1016/j.jclinepi.2015.04.015. PMID 26163123.

Дальнейшее чтение

Bastian H (5 декабря 2016 г.). «Хронология кризиса воспроизводимости: вехи в борьбе с надежностью исследований». Absolutely Maybe . Получено 05.06.2019 .
Бонетт, Д. Г. (2021). Разработка и анализ исследований репликации. Организационные методы исследования, 24, 513–529. https://doi.org/10.1177/1094428120911088
Denworth L (октябрь 2019 г.). "Значительная проблема: стандартные научные методы подвергаются критике. Изменится ли что-нибудь?" (PDF) . Scientific American . Том 321, № 4. стр. 62–67. стр. 63: Использование значений p в течение почти столетия [с 1925 г.] для определения статистической значимости экспериментальных результатов способствовало возникновению иллюзии определенности и [ кризису] воспроизводимости во многих научных областях . Растет решимость реформировать статистический анализ... Некоторые [исследователи] предлагают изменить статистические методы, тогда как другие отказались бы от порогового значения для определения «значимых» результатов.
Harris R (2017). Трупное окоченение: как небрежная наука создает бесполезные лекарства, рушит надежды и тратит миллиарды . Нью-Йорк: Basic Books. ISBN 9780465097906.
Kafkafi N, Agassi J, Chesler EJ, Crabbe JC , Crusio WE , Eilam D и др. (апрель 2018 г.). «Воспроизводимость и воспроизводимость фенотипирования грызунов в доклинических исследованиях». Neuroscience and Biobehavioral Reviews . 87 : 218–232. doi : 10.1016 /j.neubiorev.2018.01.003. PMC 6071910. PMID 29357292.
Ричи С. (июль 2020 г.). Научная фантастика: как мошенничество, предвзятость, халатность и шумиха подрывают поиск истины . Нью-Йорк: Metropolitan Books. ISBN 9781250222695.Обзор книги (ноябрь 2020 г., The American Conservative )
Whitfield J (октябрь 2021 г.). «Кризис репликации». London Review of Books . 43 (19): 39–40.обзор Ritchie S (июль 2020 г.). Научная фантастика: разоблачение мошенничества, халатности и шумихи в науке . Лондон: Bodley Head. ISBN 978-1-84792-565-7.