Кризис репликации

Кризис репликации [ ^а] — это продолжающийся методологический кризис, при котором результаты многих научных исследований трудно или невозможно воспроизвести . Поскольку воспроизводимость эмпирических результатов является неотъемлемой частью научного метода , ^[2] такие неудачи подрывают доверие к теориям, основанным на них, и потенциально ставят под сомнение существенные части научных знаний.

Кризис репликации часто обсуждается в контексте психологии и медицины , где были предприняты значительные усилия для повторного исследования классических результатов, чтобы определить, надежны ли они, и, если они окажутся неправильными, причины неудачи. ^[3]^[4] Данные убедительно свидетельствуют о том, что другие естественные и социальные науки также страдают. ^[5]

Фраза « кризис репликации» была придумана в начале 2010-х годов ^[6] как часть растущего осознания этой проблемы. Рассмотрение причин и средств лечения привело к возникновению новой научной дисциплины — метанауки , ^[7] которая использует методы эмпирического исследования для изучения практики эмпирических исследований.

Соображения относительно воспроизводимости можно разделить на две категории. Воспроизводимость в узком смысле означает повторное изучение и проверку анализа данного набора данных. Репликация означает повторение эксперимента или исследования для получения новых независимых данных с целью достижения тех же или аналогичных выводов.

Фон

Репликация

Репликацию называют «краеугольным камнем науки». ^[8]^[9] Ученый по вопросам гигиены окружающей среды Стефан Шмидт начал обзор 2009 года с такого описания репликации:

Репликация — одна из центральных проблем любой эмпирической науки. Подтверждение результатов или гипотез методом повторения лежит в основе любой научной концепции. Повторный эксперимент, призванный продемонстрировать, что те же результаты могут быть получены в любом другом месте любым другим исследователем, задуман как операционализация объективности. Это доказательство того, что эксперимент отражает знание, которое можно отделить от конкретных обстоятельств (таких как время, место или люди), при которых оно было получено. ^[10]

Но существует ограниченный консенсус относительно того, как определять репликацию и потенциально связанные с ней концепции. ^[11]^[12]^[10] Был выявлен ряд типов репликации:

Прямая или точная репликация , при которой экспериментальная процедура повторяется как можно точнее. ^[10]^[13]
Систематическое повторение , при котором экспериментальная процедура в значительной степени повторяется с некоторыми преднамеренными изменениями. ^[13]
Концептуальная репликация , при которой открытие или гипотеза проверяются с использованием другой процедуры. ^[10]^[13] Концептуальная репликация позволяет проверить обобщаемость и достоверность результата или гипотезы. ^[13]

Воспроизводимость также можно отличить от репликации , поскольку она относится к воспроизведению одних и тех же результатов с использованием одного и того же набора данных. Воспроизводимость такого типа является причиной того, что многие исследователи предоставляют свои данные другим для тестирования. ^[14]

Кризис репликации не обязательно означает, что эти области ненаучны. ^[15]^[16]^[17] Скорее, этот процесс является частью научного процесса, в котором отсекаются старые идеи или те идеи, которые не выдерживают тщательного изучения, ^[18]^[19] хотя этот процесс обрезки не всегда эффективен. ^[20]^[21]

Гипотеза обычно считается подтвержденной, если результаты соответствуют предсказанному образцу и этот образец результатов оказывается статистически значимым . Результаты считаются значимыми, если относительная частота наблюдаемой закономерности падает ниже произвольно выбранного значения (т.е. уровня значимости ) при предположении, что нулевая гипотеза верна. В целом это отвечает на вопрос о том, насколько маловероятными были бы результаты, если бы на уровне статистической совокупности не существовало различий . Если вероятность, связанная со статистикой теста, превышает выбранное критическое значение , результаты считаются статистически значимыми. ^[22] Соответствующая вероятность превышения критического значения обозначается как p <0,05, где p (обычно называемое « p -значением ») — уровень вероятности. Это должно привести к тому, что 5% подтвержденных гипотез окажутся ложноположительными (неправильная гипотеза будет ошибочно признана правильной), при условии, что исследования соответствуют всем статистическим предположениям. В некоторых полях используются меньшие значения p, например p < 0,01 (вероятность ложноположительного результата 1%) или p < 0,001 (вероятность ложноположительного результата 0,1%). Но меньшая вероятность ложноположительного результата часто требует большего размера выборки или большей вероятности ложноотрицательного результата (верная гипотеза ошибочно оказывается неверной) . Хотя тестирование p -значения является наиболее часто используемым методом, это не единственный метод.

Статистика

Некоторые термины, обычно используемые при обсуждении кризиса репликации, имеют технически точные значения, которые представлены здесь. ^[1]

В наиболее распространенном случае проверки нулевой гипотезы существуют две гипотезы: нулевая гипотеза и альтернативная гипотеза . Нулевая гипотеза обычно имеет форму «X и Y статистически независимы ». Например, нулевая гипотеза может заключаться в том, что «прием препарата X не меняет годовую скорость выздоровления от болезни Y», а альтернативная гипотеза состоит в том, что она действительно меняется. $H_{0}$ $H_{1}$

Поскольку проверка полной статистической независимости затруднена, полную нулевую гипотезу часто упрощают до упрощенной нулевой гипотезы «размер эффекта равен 0», где « размер эффекта » — это действительное число, равное 0, если полная нулевая гипотеза верна, и чем больше размер эффекта, тем в большей степени ложна нулевая гипотеза. ^[23] Например, если X является двоичным, то размер эффекта можно определить как изменение ожидания Y при изменении X: Обратите внимание, что размер эффекта, как определено выше, может быть равен нулю, даже если X и Y не являются независимый, например, когда . Поскольку разные определения «размера эффекта» отражают разные способы зависимости X и Y, существует много разных определений размера эффекта. $({\text{размер эффекта}})=\mathbb {E} [Y|X=1]-\mathbb {E} [Y|X=0]$ $Y\sim {\mathcal {N}}(0,1+X)$

На практике размеры эффекта невозможно наблюдать напрямую, их необходимо измерять с помощью статистических оценок . Например, приведенное выше определение размера эффекта часто измеряется с помощью оценщика Коэна . Один и тот же размер эффекта может иметь несколько оценок, поскольку они имеют компромисс между эффективностью , смещением , дисперсией и т. д. Это еще больше увеличивает количество возможных статистических величин, которые можно вычислить на одном наборе данных. Когда для статистического тестирования используется оценщик размера эффекта, он называется тестовой статистикой .

Проверка нулевой гипотезы — это процедура принятия решения, которая принимает некоторые данные и выводит либо или . Если он выдает , это обычно указывается как «имеется статистически значимый эффект» или «нулевая гипотеза отклонена». $H_{0}$ $H_{1}$ $H_{1}$

Часто статистический тест представляет собой (односторонний) пороговый тест , который структурирован следующим образом:

Соберите данные . $D$
Вычислите тестовую статистику для данных. $т[D]$
Сравните статистику теста с критическим значением / порогом . Если , то вывести , иначе — вывести . $t_{\text{порог}}$ $t[D]>t_ {\text{порог}}$ $H_{1}$ $H_{0}$

Двусторонний пороговый тест аналогичен, но с двумя порогами, так что он выводит, если либо $H_{1}$ $t[D]<t_ {\text{порог}}^{-}$ $t[D]>t_ {\text{порог}}^{+}$

Существует 4 возможных результата проверки нулевой гипотезы: ложноотрицательный, истинно отрицательный, ложноположительный, истинно положительный. Ложноотрицательный результат означает, что это правда, но результат теста ; истинно отрицательный результат означает, что это правда, и результат теста равен и т. д. $H_{0}$ $H_{1}$ $H_{0}$ $H_{0}$

Уровень значимости , уровень ложных срабатываний или альфа-уровень — это вероятность того, что альтернатива окажется истинной, когда нулевая гипотеза верна:например, когда тест представляет собой односторонний пороговый тест,гдеозначает «данные взято из". $({\text{значение}}):=\alpha :=Pr({\text{find }}H_{1}|H_{0})$ $\alpha =Pr_{D\sim H_{0}}(t[D]>t_{\text{threshold}})$ $D\sim H_{0}$ $H_{0}$

Статистическая мощность , истинно положительный уровень, — это вероятность того, что альтернатива окажется истинной, когда альтернативная гипотеза верна:этотакже называется ложноотрицательным уровнем. Например, если тест представляет собой односторонний пороговый тест, то. $({\text{power}}):=1-\beta :=Pr({\text{find }}H_{1}|H_{1})$ $\бета$ $1-\beta =Pr_{D\sim H_{1}}(t[D]>t_{\text{threshold}})$

Учитывая статистический тест и набор данных , соответствующее значение p представляет собой вероятность того, что статистика теста будет, по крайней мере, столь же экстремальной, при условии . Например, для одностороннего порогового теста: если нулевая гипотеза верна, то значение p распределяется равномерно на . В противном случае оно обычно достигает максимума и примерно экспоненциально, хотя точная форма распределения значений p зависит от альтернативной гипотезы. ^[24]^[25] $D$ $H_{0}$ $p[D]=Pr_{D'\sim H_{0}}(t[D']>t[D])$ $[0,1]$ $p=0,0$

Поскольку значение p распределяется равномерно при условии выполнения нулевой гипотезы, можно построить статистический тест с любым уровнем значимости, просто вычислив значение p, а затем вывести if . Обычно это формулируется как «нулевая гипотеза отвергается на уровне значимости » или « », например, «курение коррелирует с раком (p <0,001)». $[0,1]$ $\альфа$ $H_{1}$ $p[D]<\alpha$ $\альфа$ $H_{1}\;(p<\alpha)$

История

Начало репликационного кризиса можно отнести к ряду событий начала 2010-х годов. Философ науки и социальный эпистемолог Фелипе Ромеро выделил четыре события, которые можно считать предвестниками продолжающегося кризиса: ^[26]

Споры вокруг исследования социального прайминга. В начале 2010-х годов известное исследование «ходьбы пожилых людей» ^[27] , проведенное социальным психологом Джоном Баргом и его коллегами, не удалось повторить в двух прямых повторах. ^[28] Этот эксперимент был частью серии из трех исследований, которые широко цитировались на протяжении многих лет, регулярно преподались на университетских курсах и вдохновили на большое количество концептуальных повторений. Неспособность повторить исследование привела к многочисленным спорам и жарким дебатам с участием первоначальных авторов. ^[29] Примечательно, что многие из концептуальных копий первоначальных исследований также не смогли воспроизвестися в последующих прямых репликациях. ^[30]^[31]^[32]^[33]
Споры вокруг экспериментов по экстрасенсорному восприятию: Социальный психолог Дэрил Бем провел серию экспериментов, предположительно доказывающих противоречивый феномен экстрасенсорного восприятия . ^[34] Бема подвергли резкой критике за методологию его исследования, и при повторном анализе данных не было обнаружено никаких доказательств существования экстрасенсорного восприятия. ^[35] Эксперимент также не удалось повторить в последующих прямых репликациях. ^[36] По словам Ромеро, что особенно расстроило сообщество, так это то, что многие ошибочные процедуры и статистические инструменты, использованные в исследованиях Бема, были частью обычной исследовательской практики в психологии.
Amgen и Bayer сообщают об отсутствии воспроизводимости биомедицинских исследований: ученые из биотехнологических компаний Amgen и Bayer Healthcare сообщили о тревожно низких показателях репликации (11–20%) важных результатов доклинических онкологических исследований. ^[37]
Публикация исследований по хакингу и сомнительным исследовательским практикам : с конца 2000-х годов ряд исследований в области метанауки показал, как широко распространенные практики во многих научных областях, такие как использование гибкости процесса сбора данных и отчетности, могут значительно повысить вероятность ложноположительных результатов. ^[38]^[39]^[40] Эти исследования показали, что значительная часть опубликованной литературы в нескольких научных областях может представлять собой невоспроизводимые исследования.

Эта серия событий породила большой скептицизм в отношении достоверности существующих исследований в свете широко распространенных методологических ошибок и неспособности воспроизвести результаты. Это побудило видных учёных объявить о «кризисе доверия» в психологии и других областях, ^[41] и возникшая ситуация стала известна как «кризис репликации».

Хотя начало кризиса репликации можно отнести к началу 2010-х годов, некоторые авторы отмечают, что опасения по поводу воспроизводимости и исследовательской практики в социальных науках были выражены гораздо раньше. Ромеро отмечает, что авторы выражали обеспокоенность по поводу отсутствия прямых повторов в психологических исследованиях конца 1960-х и начала 1970-х годов. ^[42]^[43] Он также пишет, что в некоторых исследованиях 1990-х годов уже сообщалось, что редакторы и рецензенты журналов, как правило, предвзято относятся к публикации повторных исследований. ^[44]^[45]

В социальных науках блог Data Colada (трое авторов которого в 2014 году ввели термин « p-хакинг ») считается вкладом в начало кризиса репликации. ^[46]^[47]^[48]

Профессор Университета Вирджинии и когнитивный психолог Барбара А. Спеллман написала, что многие критические замечания в отношении исследовательской практики и опасения по поводу воспроизводимости исследований не новы. ^[49] Она сообщает, что в период с конца 1950-х по 1990-е годы ученые уже выражали обеспокоенность по поводу возможного кризиса репликации, ^[50] подозрительно высокого уровня положительных результатов, ^[51] сомнительных исследовательских практик (QRP), ^[52] последствия предвзятости публикаций, ^[53] проблемы со статистической достоверностью, ^[54]^[55] и плохие стандарты отчетности. ^[50]

Спеллман также называет причины, по которым повторение этой критики и опасений в последние годы привело к полномасштабному кризису и изменению статус-кво. Во-первых, технологические усовершенствования облегчили проведение и распространение повторных исследований, а также анализ большого количества литературы по системным проблемам. Во-вторых, растущий размер и разнообразие исследовательского сообщества облегчили работу его авторитетных членов для более тщательного изучения другими членами сообщества, с ними незнакомыми. По мнению Спеллмана, эти факторы в сочетании со все более ограниченными ресурсами и несогласованными стимулами для занятий научной работой привели к кризису в психологии и других областях. ^[49]

По мнению Эндрю Гельмана , ^[56] работы Пола Миля, Джейкоба Коэна, Тверски и Канемана в 1960-70-е годы были ранними предупреждениями кризиса репликации. Исследование инфекционного ожирения, проведенное Кристакисом и Фаулером в 2007 году ^[57], было более свежим примером весьма влиятельного исследования, которое не удалось повторить. В электронном письме Канеман отметил исторические прецеденты неудачного восстановления подсознательного восприятия и уменьшения диссонанса . ^[58]

С тех пор неоднократно указывалось (Коэн, 1962) ^[54] , что большинство психологических исследований имеют низкую мощность (истинно положительный показатель), но низкая мощность сохранялась в течение 50 лет, что указывает на структурную и постоянную проблему в психологических исследованиях. ^[59]^[60]

Распространенность

В психологии

Сочетание нескольких факторов поставило психологию в центр разговора. ^[61]^[62] Некоторые области психологии, когда-то считавшиеся солидными, такие как социальная подготовка и истощение эго , ^[63] оказались под пристальным вниманием из-за неудачных попыток повторения. ^[64] Большое внимание уделялось социальной психологии , ^[65] хотя и другие области психологии, такие как клиническая психология , ^[66]^[67]^[68] психология развития , ^[69]^[70]^[71] и исследования в области образования. также были замешаны. ^[72]^[73]^[74]^[75]^[76]

В августе 2015 года было опубликовано первое открытое эмпирическое исследование воспроизводимости в психологии под названием « Проект воспроизводимости: психология» . Под руководством психолога Брайана Носека исследователи переделали 100 исследований по психологической науке из трёх высокорейтинговых журналов по психологии ( «Журнал личности и социальной психологии» , «Журнал экспериментальной психологии: обучение, память и познание» и «Психологическая наука »). 97 первоначальных исследований имели значительный эффект, но из этих 97 только 36% повторов дали значимые результаты ( значение p ниже 0,05). ^[11] Средний размер эффекта в повторениях был примерно вдвое меньше эффектов, о которых сообщалось в первоначальных исследованиях. В той же статье были рассмотрены показатели воспроизводимости и величины эффекта по журналам и дисциплинам. Коэффициент повторения исследования составил 23% для «Журнала личности и социальной психологии» , 48% для «Журнала экспериментальной психологии: обучение, память и познание » и 38% для «Психологической науки» . Исследования в области когнитивной психологии имели более высокий уровень репликации (50%), чем исследования в области социальной психологии (25%). ^[77]

Из 64% нерепликаций только 25% опровергли первоначальный результат (при статистической значимости). Остальные 49% не дали окончательных результатов, не подтверждая и не опровергая первоначальный результат. Это связано с тем, что многие репликации были недостаточно мощными: выборка была в 2,5 раза меньше исходной. ^[78]

Исследование, опубликованное в 2018 году в журнале Nature Human Behavior, воспроизвело 21 социальную и поведенческую научную статью из журнала Nature and Science , обнаружив, что только около 62% из них смогли успешно воспроизвести оригинальные результаты. ^[79]^[80]

Аналогичным образом, в исследовании, проведенном под эгидой Центра открытой науки , группа из 186 исследователей из 60 различных лабораторий (представляющих 36 разных национальностей с шести разных континентов) повторила 28 классических и современных открытий в области психологии. ^[81]^[82] В центре внимания исследования было не только то, повторяются ли выводы оригинальных статей, но и степень, в которой результаты различаются в зависимости от вариаций в выборках и контекстах. В целом, 50% из 28 результатов не удалось повторить, несмотря на огромные размеры выборки. Но если результат повторялся, то он воспроизводился в большинстве образцов. Если результат не был воспроизведен, значит, он не смог воспроизвестися с небольшими вариациями в разных образцах и контекстах. Эти данные не согласуются с предлагаемым объяснением того, что неудачи в воспроизведении в психологии, вероятно, связаны с изменениями в выборке между исходным и повторным исследованием. ^[82]

Результаты исследования 2022 года показывают, что многие более ранние исследования фенотипа мозга ( «исследования ассоциаций всего мозга» (BWAS)) привели к неверным выводам, поскольку для повторения таких исследований требуются образцы от тысяч людей из-за небольшой величины эффекта . ^[83]^[84]

В медицине

Из 49 медицинских исследований с 1990 по 2003 год, получивших более 1000 цитирований, 92% обнаружили, что изучаемые методы лечения эффективны. Из этих исследований 16% противоречили последующим исследованиям, 16% обнаружили более сильные эффекты, чем последующие исследования, 44% были повторены, а 24% остались практически неоспоримыми. ^[85] Анализ, проведенный в 2011 году исследователями фармацевтической компании Bayer, показал, что не более четверти собственных результатов Bayer повторяют первоначальные результаты. ^[86] Но анализ результатов Байера показал, что результаты, которые действительно воспроизводились, часто могут быть успешно использованы для клинических применений. ^[87]

В статье 2012 года К. Гленн Бегли , консультант по биотехнологиям, работающий в Amgen , и Ли Эллис, медицинский исследователь из Техасского университета, обнаружили, что только 11% из 53 доклинических исследований рака имели повторы, которые могли подтвердить выводы оригинальные исследования. ^[37] В конце 2021 года проект «Проект воспроизводимости: биология рака» изучил 53 ведущие статьи о раке, опубликованные в период с 2010 по 2012 год, и показал, что среди исследований, которые предоставили достаточно информации для переделки, размеры эффекта были в среднем на 85% меньше, чем первоначальные результаты. . ^[88]^[89] Опрос исследователей рака показал, что половина из них не смогла воспроизвести опубликованный результат. ^[90] В другом отчете подсчитано, что почти половина рандомизированных контролируемых исследований содержала ошибочные данные (на основе анализа анонимных данных отдельных участников (IPD) из более чем 150 исследований). ^[91]

По другим дисциплинам

В экономике

Экономика отстала от других социальных наук и психологии в своих попытках оценить скорость повторения и увеличить количество исследований, пытающихся повторить. ^[12] Исследование 2016 года, опубликованное в журнале Science, воспроизвело 18 экспериментальных исследований , опубликованных в двух ведущих экономических журналах, The American Economic Review и Quarterly Journal of Economics , в период с 2011 по 2014 год. Было обнаружено, что около 39% из них не смогли воспроизвести исходные результаты. ^[92]^[93]^[94] Около 20% исследований, опубликованных в The American Economic Review, противоречат другим исследованиям, несмотря на то, что они опираются на те же или похожие наборы данных. ^[95] Исследование эмпирических результатов, опубликованное в журнале Strategic Management Journal, показало, что около 30% из 27 повторно проверенных статей показали статистически незначимые результаты для ранее значимых результатов, тогда как около 4% показали статистически значимые результаты для ранее незначимых результатов. ^[96]

В управлении водными ресурсами

Исследование, проведенное в журнале Scientific Data в 2019 году , с уверенностью 95% подсчитало, что из 1989 статей по водным ресурсам и управлению, опубликованных в 2017 году, результаты исследования могут быть воспроизведены только в 0,6–6,8%, даже если каждая из этих статей предоставит достаточную информацию, которая позволит для репликации. ^[97]

По полям

Опрос, проведенный Nature в 2016 году среди 1576 исследователей, заполнивших краткую онлайн-анкету о воспроизводимости, показал, что более 70% исследователей пытались, но не смогли воспроизвести результаты экспериментов другого ученого (в том числе 87% химиков , 77% биологов , 69% физиков) . инженеров , 67% исследователей-медиков , 64% учёных, занимающихся землей и окружающей средой , и 62 % всех остальных), и более половины не смогли воспроизвести свои собственные эксперименты. Но менее чем с 20% связались с другими исследователями, которые не смогли воспроизвести их работу. Опрос показал, что менее 31% исследователей считают, что неспособность воспроизвести результаты означает, что первоначальный результат, вероятно, неверен, хотя 52% согласны с тем, что существует серьезный кризис репликации. Большинство исследователей заявили, что по-прежнему доверяют опубликованной литературе. ^[5]^[98] В 2010 году Фанелли (2010) ^[99] обнаружил, что 91,5% психиатрических/психологических исследований подтвердили эффекты, которые они искали, и пришел к выводу, что вероятность того, что это произойдет (положительный результат), была примерно в пять раз выше. выше, чем в таких областях, как астрономия или геонауки . Фанелли утверждал, что это происходит потому, что исследователи «мягких» наук меньше ограничивают свои сознательные и бессознательные предубеждения.

Ранний анализ экспертной оценки без учета результатов , на которую меньше влияет предвзятость публикаций, показал, что 61% слепых исследований в области биомедицины и психологии привели к нулевым результатам , в отличие от примерно 5–20% в более ранних исследованиях. . ^[100]

В 2021 году исследование, проведенное Калифорнийским университетом в Сан-Диего, показало, что статьи, которые невозможно воспроизвести, цитируются в 153 раза чаще. Среди статей, опубликованных в журнале Nature Science , нереплицируемые статьи цитировались в 300 раз чаще, чем тиражируемые. ^[101] Нереплицируемые публикации часто цитируются чаще даже после публикации повторного исследования. ^[102]

Причины

Существует множество предполагаемых причин кризиса репликации.

Исторические и социологические причины

Кризис репликации может быть вызван «генерацией новых данных и научных публикаций с беспрецедентной скоростью», что приводит к «отчаянию опубликовать или погибнуть» и неспособности придерживаться хорошей научной практики. ^[103]

Предсказания о надвигающемся кризисе механизма контроля качества науки можно проследить уже несколько десятилетий. Дерек де Солла Прайс , считающийся отцом наукометрики , количественного исследования науки, предсказал в 1963 году, что наука может достичь «старости» в результате своего собственного экспоненциального роста. ^[104] Некоторая современная литература, кажется, подтверждает это пророчество о «переполнении», сокрушаясь об упадке как внимания, так и качества. ^[105]^[106]

Историк Филип Мировски утверждает, что снижение качества науки может быть связано с ее коммерциализацией, особенно вызванное решением крупных корпораций, ориентированным на получение прибыли, передать свои исследования на аутсорсинг университетам и контрактным исследовательским организациям . ^[107]

Теория социальных систем , изложенная в работах немецкого социолога Никласа Лумана , позволяет поставить аналогичный диагноз. Эта теория утверждает, что каждая система, такая как экономика, наука, религия и средства массовой информации, общается, используя свой собственный код: истинный и ложный для науки, прибыли и убытки для экономики, новости и неновости для средств массовой информации и так далее. ^[108]^{[109] По мнению некоторых социологов,}медиатизация науки , ^[110] коммодификация, ^[107] и политизация, ^[110]^[111] в результате структурной связи между системами привели к путанице исходной системы. коды.

Проблемы с системой публикаций в науке

Предвзятость публикации

Основной причиной низкой воспроизводимости является систематическая ошибка публикации, возникающая из-за того, что статистически незначимые результаты и, казалось бы, неоригинальные повторы публикуются редко. Лишь очень небольшая часть академических журналов по психологии и нейробиологии открыто приветствовала представление повторных исследований с указанием их целей и масштабов или инструкций для авторов. ^[112]^[113] Это не поощряет отчеты или даже попытки провести повторные исследования. Среди 1576 исследователей, опрошенных Nature в 2016 году, лишь меньшинство когда-либо пытались опубликовать повторные исследования, а несколько респондентов, опубликовавших неудачные повторения, отметили, что редакторы и рецензенты требовали, чтобы они преуменьшали сравнение с оригинальными исследованиями. ^[5]^[98] Анализ 4270 эмпирических исследований в 18 деловых журналах с 1970 по 1991 год показал, что менее 10% статей по бухгалтерскому учету, экономике и финансам и 5% статей по менеджменту и маркетингу были повторными исследованиями. ^[92]^[114] Предвзятость публикации усиливается давлением с целью публикации и собственной предвзятостью подтверждения автора , ^[b] и представляет собой неотъемлемую опасность в этой области, требующую определенной степени скептицизма со стороны читателей. ^[40]

Предвзятость публикации приводит к тому, что психолог Роберт Розенталь называет « эффектом ящика с папками ». Эффект ящика с файлами заключается в том, что из-за предвзятости публикации значительное количество отрицательных результатов ^[c] не публикуется. По мнению философа науки Фелипе Ромеро, это имеет тенденцию создавать «вводящую в заблуждение литературу и предвзятые метааналитические исследования» ^[26] , и когда предвзятость публикаций учитывается наряду с тем фактом, что большинство проверенных гипотез могут быть ложными априори , это вполне вероятно, что значительная часть результатов исследований может быть ложноположительной, как показал метаученый Джон Иоаннидис. ^[1] В свою очередь, высокая доля ложноположительных результатов в опубликованной литературе может объяснить, почему многие результаты невоспроизводимы. ^[26]

Еще одна предвзятость публикаций заключается в том, что исследования, которые не отвергают нулевую гипотезу, изучаются асимметрично. Например, они, скорее всего, будут отклонены как трудные для интерпретации или что они могут быть ошибкой второго рода. Хотя исследования, которые отвергают нулевую гипотезу, вряд ли будут отвергнуты, поскольку их также трудно интерпретировать или что они могут быть ошибкой I рода. ^[116]

В популярных средствах массовой информации существует еще один элемент предвзятости публикаций: желание сделать исследования доступными для общественности привело к чрезмерному упрощению и преувеличению результатов, создавая нереалистичные ожидания и усиливая влияние неповторения. Напротив, о нулевых результатах и неудачах при воспроизведении, как правило, не сообщается. Это объяснение может быть применимо и к кризису репликации власти . ^[117]

Математические ошибки

Даже влиятельные журналы имеют значительную долю математических ошибок при использовании статистики. Например, 11% статистических результатов, опубликованных в журналах Nature и BMJ в 2001 году, являются «неконгруэнтными», что означает, что заявленное значение p математически отличается от того, каким оно должно быть, если бы оно было правильно рассчитано на основе сообщенной статистики теста. Эти ошибки, вероятно, были вызваны ошибками набора, округления и транскрипции. ^[118]

Среди 157 нейробиологических статей, опубликованных в пяти ведущих журналах и пытающихся показать, что два экспериментальных эффекта различны, 78 вместо этого ошибочно проверяли, является ли один эффект значимым, а другой нет, а 79 правильно проверяли, существенно ли их различие отличается от 0. ^[119]

Культура «Публикуй или погибни»

Последствия для воспроизводимости предвзятости публикаций усугубляются академической культурой «опубликуй или погибни». Как объяснил метаученый Даниэле Фанелли, культура «публикуй или погибни» — это социологический аспект академических кругов, в соответствии с которым ученые работают в среде с очень высоким давлением, требующим публикации их работ в признанных журналах. Это является следствием сверхконкурентной среды академической работы и того, что библиометрические параметры (например, количество публикаций) все чаще используются для оценки научной карьеры. ^[120] По мнению Фанелли, это подталкивает ученых к использованию ряда стратегий, направленных на то, чтобы сделать результаты «доступными для публикации». В контексте предвзятости публикаций это может означать принятие поведения, направленного на получение положительных или статистически значимых результатов, часто в ущерб их достоверности (см. QRP, раздел 4.3). ^[120]

По словам основателя Центра открытой науки Брайана Носека и его коллег, культура «публикуй или погибни» создала ситуацию, в которой цели и ценности отдельных ученых (например, возможность публикации) не совпадают с общими целями науки (например, поиск научной истины). ). Это наносит ущерб достоверности опубликованных результатов. ^[121]

Философ Брайан Д. Эрп и психолог Джим Эверетт утверждают, что, хотя копирование отвечает интересам ученых и исследователей как группы, особенности академической психологической культуры препятствуют воспроизведению отдельными исследователями. Они утверждают, что выполнение репликаций может занять много времени и отнять ресурсы у проектов, которые отражают оригинальное мышление исследователя. Их сложнее публиковать, главным образом потому, что они неоригинальны, и даже когда их можно будет опубликовать, они вряд ли будут рассматриваться как важный вклад в эту область. Реплики «приносят меньше признания и вознаграждений, в том числе грантов, своим авторам». ^[122]

В своей книге 1971 года «Научное знание и его социальные проблемы» философ и историк науки Джером Р. Равец предсказал, что наука — в ее развитии от «маленькой» науки, состоящей из изолированных сообществ исследователей, к «большой» науке или «технонауке» — столкнется с серьезными проблемами во внутренней системе контроля качества. Он признал, что структура стимулов для современных ученых может стать дисфункциональной, создавая извращенные стимулы для публикации любых результатов, какими бы сомнительными они ни были. По мнению Равеца, качество науки поддерживается только тогда, когда существует сообщество ученых, связанных набором общих норм и стандартов, которые хотят и могут привлекать друг друга к ответственности.

Стандарты отчетности

Определенная издательская практика также затрудняет воспроизведение и отслеживание серьезности кризиса воспроизводимости, поскольку статьи часто содержат недостаточно описаний, чтобы другие ученые могли воспроизвести исследование. Проект воспроизводимости: биология рака показал, что из 193 экспериментов из 53 ведущих статей о раке, опубликованных в период с 2010 по 2012 год, только у 50 экспериментов из 23 статей есть авторы, которые предоставили исследователям достаточно информации, чтобы переделать исследования, иногда с изменениями. Ни в одной из 193 рассмотренных статей не были полностью описаны протоколы экспериментов, а для воспроизведения 70% экспериментов требовалось запросить ключевые реагенты. ^[88]^[89] Вышеупомянутое исследование эмпирических результатов в журнале «Стратегический менеджмент» показало, что 70% из 88 статей не могут быть воспроизведены из-за отсутствия достаточной информации для данных или процедур. ^[92]^[96] В сфере водных ресурсов и управления большинство из 1987 статей, опубликованных в 2017 году, не удалось воспроизвести из-за отсутствия доступной информации, размещенной в Интернете. ^[97] В исследованиях потенциалов, связанных с событиями , только две трети информации, необходимой для воспроизведения исследования, были представлены в выборке из 150 исследований, что подчеркивает наличие существенных пробелов в отчетности. ^[123]

Процедурная предвзятость

Согласно тезису Дюэма-Куайна , научные результаты интерпретируются как содержательной теорией, так и теорией инструментов. Например, астрономические наблюдения зависят как от теории астрономических объектов, так и от теории телескопов. Большой объем невоспроизводимых исследований может накопиться, если существует предвзятость следующего типа: столкнувшись с нулевым результатом, ученый предпочитает рассматривать данные так, будто инструмент недостаточен; Столкнувшись с ненулевым результатом, учёный предпочитает признать прибор хорошим и рассматривать данные как говорящие что-то об основной теории. ^[124]

Культурная эволюция

Смальдино ^[60] предложил простую модель культурной эволюции научной практики. Каждая лаборатория случайным образом решает провести новое исследование или повторное исследование с разными фиксированными уровнями ложноположительных результатов, истинно положительных результатов, уровня репликации и продуктивности (ее «характеристик»). Лаборатория может приложить больше «усилий», что сделает кривую ROC более выпуклой, но снизит производительность. Лаборатория накапливает баллы в течение своего существования, которые увеличиваются с появлением публикаций и уменьшаются, когда другая лаборатория не может воспроизвести ее результаты. Через определенные промежутки времени одна случайная лаборатория «умирает», а другая «воспроизводит» дочернюю лабораторию с такой же чертой, как и ее родительская. Лаборатории с более высокими оценками имеют больше шансов на воспроизводство. При определенных настройках параметров совокупность лабораторий достигает максимальной производительности даже ценой очень высокого уровня ложноположительных результатов.

Сомнительные исследовательские практики и мошенничество

Сомнительные исследовательские практики (QRP) — это преднамеренное поведение, которое извлекает выгоду из серой зоны приемлемого научного поведения или использует степени свободы исследователя (исследователь DF), что может способствовать невоспроизводимости результатов за счет увеличения вероятности ложноположительных результатов. ^[125]^[126]^[40] Исследователь DF проявляется в формулировании гипотез , планировании экспериментов , сборе и анализе данных , а также составлении отчетов об исследованиях . ^[126] Некоторыми примерами QRP являются сбор данных , ^[126]^[127]^[39]^[d] выборочная отчетность , ^[125]^[126]^[127]^[39]^[e] и выдвижение гипотез (выдвижение гипотез после того, как станут известны результаты) . ^[126]^[127]^[39]^[f] В медицине невоспроизводимые исследования имеют шесть общих черт. К ним относятся исследователи, которые не закрывают глаза на экспериментальные группы по сравнению с контрольной группой, отказ от повторения экспериментов, отсутствие положительного и отрицательного контроля , неспособность сообщить все данные, ненадлежащее использование статистических тестов и использование реагентов, которые не были должным образом проверены. . ^[129]

QRP не включает более явные нарушения научной честности, такие как фальсификация данных. ^[125]^[126] Мошеннические исследования действительно случаются, как в случае научного мошенничества со стороны социального психолога Дидерика Стапеля , ^[130]^[13] когнитивного психолога Марка Хаузера и социального психолога Лоуренса Санны, ^[13] но это, кажется, редкость. ^[13]

Распространенность

По словам профессора Международного университета Эрнеста О'Бойла и психолога Мартина Гетца, около 50% исследователей, опрошенных в ходе различных исследований, признались, что занимаются HARKing. ^[131] В опросе 2000 психологов, проведенном ученым-бихевиористом Лесли К. Джоном и его коллегами, около 94% психологов признались, что использовали хотя бы один QRP. В частности, 63% признались, что не сообщили обо всех зависимых показателях исследования, 28% сообщили обо всех условиях исследования и 46% выборочно сообщили об исследованиях, которые дали желаемую картину результатов. Кроме того, 56% признались, что собрали больше данных после проверки уже собранных данных, а 16% — что прекратили сбор данных, поскольку желаемый результат уже был виден. ^[39] По оценкам исследователя биотехнологий Дж. Лесли Глика в 1992 году, от 10% до 20% исследований и разработок включали либо QRP, либо откровенное мошенничество. ^[132] Методика, используемая для оценки QRP, оспаривается, и более поздние исследования показали, что в среднем уровень распространенности ниже. ^[133]

Метаанализ 2009 года показал, что 2% ученых в разных областях хотя бы один раз признались в фальсификации исследований, а 14% признались, что знали кого-то, кто это сделал. Согласно одному исследованию, о таких нарушениях чаще сообщали медицинские исследователи, чем другие. ^[134]

Статистические вопросы

Низкая статистическая мощность

По мнению профессора Университета Дикина Тома Стэнли и его коллег, одной из вероятных причин, по которой исследования не воспроизводятся, является низкая статистическая мощность . Это происходит по трем причинам. Во-первых, повторное исследование с низкой мощностью вряд ли будет успешным, поскольку по определению оно имеет низкую вероятность обнаружить истинный эффект. Во-вторых, если исходное исследование имеет низкую мощность, оно даст необъективные оценки размера эффекта . При проведении априорного анализа мощности для исследования репликации это приведет к недооценке необходимого размера выборки. В-третьих, если исходное исследование имеет низкую мощность, вероятность того, что после исследования будет получен статистически значимый результат, отражающий истинный эффект, довольно низка. Поэтому вполне вероятно, что попытка повторить оригинальное исследование потерпит неудачу. ^[14]

Математически вероятность повторения предыдущей публикации, в которой отклонялась нулевая гипотеза в пользу альтернативы, предполагает , что значимость меньше мощности. Таким образом, низкая мощность подразумевает низкую вероятность повторения, независимо от того, как была разработана предыдущая публикация, и независимо от того, какая гипотеза действительно верна. ^[78] $H_{0}$ $H_{1}$ $({\text{значение}})Pr(H_{0}|{\text{публикация}})+({\text{power}})Pr(H_{1}|{\text{публикация} })\leq ({\text{power}})$

Стэнли и его коллеги оценили среднюю статистическую мощность психологической литературы, проанализировав данные 200 метаанализов . Они обнаружили, что в среднем статистические данные психологических исследований составляют от 33,1% до 36,4%. Эти значения довольно низкие по сравнению с 80%, которые считаются адекватной статистической мощностью для эксперимента. Среди 200 метаанализов медиана исследований с адекватной статистической мощностью составляла от 7,7% до 9,1%, что означает, что положительный результат будет воспроизводиться с вероятностью менее 10%, независимо от того, был ли положительный результат истинно положительным или ложным. позитивный. ^[14]

Статистическая мощность нейробиологических исследований довольно низка. Расчетная статистическая мощность исследований фМРТ составляет от 0,08 до 0,31 ^[135] , а статистическая мощность исследований связанных с событиями потенциалов оценивалась как 0,72–0,98 для больших размеров эффекта, 0,35–0,73 для средних эффектов и 0,10–0,18 для небольших эффектов. ^[123]

В исследовании, опубликованном в журнале Nature , психолог Кэтрин Баттон и ее коллеги провели аналогичное исследование с 49 метаанализами в области нейробиологии, оценивая медианную статистическую мощность в 21%. ^[136] Метаученый Джон Иоаннидис и его коллеги рассчитали оценку средней мощности для эмпирических экономических исследований, найдя медианную мощность 18% на основе литературы, основанной на 6700 исследованиях. ^[137] В свете этих результатов вполне вероятно, что основной причиной широко распространенных неудач в воспроизведении в нескольких научных областях может быть очень низкая статистическая мощность в среднем.

Тот же статистический тест с тем же уровнем значимости будет иметь меньшую статистическую мощность, если размер эффекта невелик согласно альтернативной гипотезе. Сложные наследуемые признаки обычно коррелируют с большим количеством генов, каждый из которых имеет небольшой размер эффекта, поэтому высокая мощность требует большого размера выборки. В частности, многие результаты из литературы по генам-кандидатам страдали от небольшого размера эффекта и небольшого размера выборки и не могли быть воспроизведены. Дополнительные данные полногеномных ассоциативных исследований (GWAS) приближаются к решению этой проблемы. ^[138]^[139] В качестве числового примера: большинство генов, связанных с риском шизофрении, имеют низкую величину эффекта (генотипический относительный риск, GRR). Статистическое исследование с 1000 случаями и 1000 контрольными группами имеет мощность 0,03% для гена с GRR = 1,15, что уже много для шизофрении. Напротив, самый крупный на сегодняшний день GWAS имеет мощность ~ 100%. ^[140]

Положительная ошибка размера эффекта

Даже когда исследование повторяется, повторение обычно имеет меньший размер эффекта. Исследования с недостаточной мощностью имеют большую погрешность в размере эффекта. ^[141]

В исследованиях, которые статистически оценивают коэффициент регрессии, таких как in , когда набор данных большой, шум имеет тенденцию вызывать недооценку фактора регрессии, но когда набор данных небольшой, шум имеет тенденцию вызывать переоценку фактора регрессии. ^[142] $k$ $Y=kX+b$

Проблемы метаанализа

Метаанализ имеет свои методологические проблемы и споры, что приводит к неприятию метааналитического метода исследователями, чья теория подвергается сомнению со стороны метаанализа. ^[116]

Розенталь предложил «число безопасности» (FSN) ^[53], чтобы избежать предвзятости публикации в отношении нулевых результатов. Оно определяется следующим образом: Предположим, что нулевая гипотеза верна; сколько публикаций потребуется, чтобы сделать текущий результат неотличимым от нулевой гипотезы?

Точка зрения Розенталя заключается в том, что определенные размеры эффекта достаточно велики, так что даже если существует полное предвзятое отношение публикации к нулевым результатам («проблема с ящиком для файлов»), количество неопубликованных нулевых результатов будет невероятно большим, чтобы заглушить размер эффекта. Таким образом, размер эффекта должен быть статистически значимым даже после учета неопубликованных нулевых результатов.

Одним из возражений против FSN является то, что он рассчитывается так, как будто неопубликованные результаты представляют собой несмещенные выборки из нулевой гипотезы. Но если проблема с файловым ящиком верна, то неопубликованные результаты будут иметь размеры эффекта, сосредоточенные вокруг 0. Таким образом, для замены размера эффекта потребуется меньше неопубликованных нулевых результатов, и поэтому FSN является завышенной оценкой. ^[116]

Другая проблема метаанализа заключается в том, что плохие исследования «заразительны» в том смысле, что одно плохое исследование может привести к переоценке статистической значимости всего метаанализа. ^[78]

П-хакерство

Можно применять различные статистические методы, чтобы значение p казалось меньшим, чем оно есть на самом деле. Это не обязательно должно быть злонамеренным, поскольку умеренно гибкий анализ данных, рутинный в исследованиях, может увеличить уровень ложноположительных результатов до уровня выше 60%. ^[40]

Например, если кто-то собирает некоторые данные, применяет к ним несколько разных тестов значимости и публикует только тот, значение p которого меньше 0,05, то общее значение p для «хотя бы одного теста значимости достигает p < 0,05" может быть намного больше, чем 0,05, потому что даже если бы нулевая гипотеза была верна, вероятность того, что один из многих тестов значимости является экстремальным, сама по себе не является экстремальной.

Как правило, статистическое исследование состоит из нескольких этапов, с несколькими вариантами выбора на каждом этапе, например, во время сбора данных, отбраковка выбросов, выбор статистики теста, выбор одностороннего или двустороннего критерия и т. д . разветвления «размножаются», создавая множество «исследовательских степеней свободы». Эффект аналогичен проблеме с ящиком файлов, поскольку непройденные пути не публикуются. ^[143]

Рассмотрим простую иллюстрацию. Предположим, что нулевая гипотеза верна, и у нас есть 20 возможных тестов значимости, которые можно применить к набору данных. Также предположим, что результаты тестов значимости независимы. По определению «значимости» каждый тест имеет вероятность прохождения 0,05 с уровнем значимости 0,05. Вероятность того, что хотя бы 1 из 20 является значимым, в предположении независимости равна . ^[144] $1-(1-0,05)^{20}=0,64$

Другая возможность – проблема множественных сравнений . В 2009 году дважды было отмечено, что исследования фМРТ дали подозрительное количество положительных результатов с большой величиной эффекта, больше, чем можно было ожидать, поскольку исследования имеют низкую мощность (в одном примере ^[145] участвовало только 13 субъектов). Он отметил, что более половины исследований будут проверять корреляцию между явлением и отдельными вокселами фМРТ и сообщать только о вокселах, превышающих выбранные пороговые значения. ^[146]

Необязательная остановка — это практика, при которой данные собираются до тех пор, пока не будет достигнут некоторый критерий остановки. Несмотря на то, что это действительная процедура, ее легко использовать неправильно. Проблема в том, что значение p необязательно остановленного статистического теста больше, чем кажется. Интуитивно это происходит потому, что значение p должно быть суммой всех событий, по крайней мере столь же редких, как и те, которые наблюдаются. При необязательной остановке возникают еще более редкие события, которые сложно учесть, например, не активируется правило необязательной остановки и перед остановкой собирается еще больше данных. Игнорирование этих событий приводит к слишком низкому значению p. Фактически, если нулевая гипотеза верна, любой уровень значимости может быть достигнут, если разрешено продолжать сбор данных и остановиться, когда будет получено желаемое значение p (рассчитанное так, как если бы вы всегда планировали собрать именно такой объем данных). . ^[147] Конкретный пример проверки честной монеты см. в p -value#optional stop .

Короче говоря, правильный расчет значения p требует учета контрфактов, то есть того, что экспериментатор мог бы сделать в ответ на данные, которые могли бы быть такими. Объяснить то, что могло бы быть, сложно даже честным исследователям. ^[147] Одним из преимуществ предварительной регистрации является учет всех несоответствий, что позволяет правильно рассчитать значение p. ^[148]

Проблема ранней остановки не ограничивается только неправомерными действиями исследователей. Часто возникает необходимость прекратить работу раньше, если стоимость сбора данных высока. Некоторые советы по этике животных даже требуют досрочного прекращения исследования, если в середине исследования получен значительный результат. ^[144]

Подобные практики широко распространены в психологии. В опросе 2012 года 56% психологов признались в раннем прекращении анализа, 46% в сообщении только о том анализе, который «сработал», и 38% в исключении post hoc , то есть удалении некоторых данных после того, как анализ данных уже был проведен. ^[39]

Статистическая неоднородность

Как также сообщили Стэнли и его коллеги, еще одной причиной, по которой исследования могут не воспроизвестися, является высокая гетерогенность эффектов, которые предстоит воспроизвести. В метаанализе «гетерогенность» относится к расхождениям в результатах исследований, возникающим в результате отсутствия единого истинного размера эффекта. Вместо этого результаты в таких случаях лучше рассматривать как распределение истинных эффектов. ^[14] Статистическая неоднородность рассчитывается с использованием статистики I-квадрат, ^[149] определяемой как «доля (или процент) наблюдаемых различий между сообщаемыми размерами эффекта, которые не могут быть объяснены рассчитанными стандартными ошибками, связанными с этими сообщенными размерами эффекта». ^[14] Эти различия могут быть связаны с различиями в экспериментальных методах, популяциях, когортах и статистических методах между повторными исследованиями. Гетерогенность представляет собой проблему для исследований, пытающихся воспроизвести ранее обнаруженные размеры эффекта . Когда гетерогенность высока, последующие повторы имеют высокую вероятность обнаружить размер эффекта, радикально отличающийся от исходного исследования. ^[г]

Важно отметить, что значительные уровни гетерогенности также обнаруживаются при прямой/точной репликации исследования. Стэнли и его коллеги обсуждают это, сообщая об исследовании количественного поведенческого ученого Ричарда Кляйна и его коллег, в котором авторы попытались воспроизвести 15 психологических эффектов в 36 различных местах в Европе и США. из 16 эффектов (I-квадрат = от 23% до 91%). Важно отметить, что хотя сайты репликации намеренно различались по ряду характеристик, такие различия могли объяснить очень небольшую гетерогенность. По мнению Стэнли и его коллег, это предполагает, что гетерогенность могла быть подлинной характеристикой исследуемых явлений. Например, на явления могут влиять так называемые «скрытые модераторы» — соответствующие факторы, которые ранее не считались важными для достижения определенного эффекта.

В своем анализе 200 метаанализов психологических эффектов Стэнли и его коллеги обнаружили средний процент гетерогенности I-квадрата = 74%. По мнению авторов, такой уровень неоднородности можно считать «огромным». Это в три раза больше, чем дисперсия величины эффекта случайной выборки, измеренная в их исследовании. Если рассматривать ошибку выборки , гетерогенность дает стандартное отклонение от одного исследования к другому, даже превышающее средний размер эффекта 200 метаанализов, которые они исследовали. ^[h] Авторы приходят к выводу, что если репликация определяется последующим исследованием, обнаружившим размер эффекта, достаточно похожий на исходный, успех репликации маловероятен, даже если репликации имеют очень большие размеры выборки. Важно отметить, что это происходит, даже если репликации являются прямыми или точными, поскольку гетерогенность, тем не менее, в этих случаях остается относительно высокой.

Другие

В экономике кризис репликации также может усугубляться из-за хрупкости эконометрических результатов: ^[150] использование различных, но правдоподобных процедур оценки или методов предварительной обработки данных может привести к противоречивым результатам. ^[151]^[152]^[153]

Контекстная чувствительность

Профессор Нью-Йоркского университета Джей Ван Бавел и его коллеги утверждают, что еще одна причина, по которой результаты трудно воспроизвести, — это чувствительность к контексту определенных психологических эффектов. С этой точки зрения, неудачи при воспроизведении могут быть объяснены контекстуальными различиями между исходным экспериментом и репликацией, часто называемыми «скрытыми модераторами ». ^[154] Ван Бавел и его коллеги проверили влияние контекстной чувствительности, повторно проанализировав данные широко цитируемого проекта воспроизводимости, реализованного Open Science Collaboration. ^[11] Они перекодировали эффекты в соответствии с их чувствительностью к контекстуальным факторам, а затем проверили взаимосвязь между контекстной чувствительностью и успехом репликации в различных регрессионных моделях .

Было обнаружено, что чувствительность к контексту отрицательно коррелирует с успехом репликации, так что более высокие оценки чувствительности к контексту были связаны с более низкой вероятностью воспроизведения эффекта. ^[i] Важно отметить, что чувствительность к контексту значительно коррелировала с успехом репликации даже с поправкой на другие факторы, считающиеся важными для воспроизведения результатов (например, размер эффекта и размер выборки оригинала, статистическая мощность репликации, методологическое сходство между оригиналом и репликацией). ^[j] В свете полученных результатов авторы пришли к выводу, что попытка репликации в другое время, в другом месте или с другим образцом может существенно изменить результаты эксперимента. Таким образом, чувствительность к контексту может быть причиной того, что некоторые эффекты не воспроизводятся в психологии. ^[154]

Байесовское объяснение

В рамках байесовской вероятности по теореме Байеса отклонение нулевой гипотезы на уровне значимости 5% не означает, что апостериорная вероятность альтернативной гипотезы равна 95%, а апостериорная вероятность также отличается от вероятности репликации. ^[155]^[156] Рассмотрим упрощенный случай, когда имеется только две гипотезы. Пусть априорная вероятность нулевой гипотезы равна , а альтернатива . Для данного статистического исследования пусть его ложноположительный уровень (уровень значимости) будет , а истинно положительный уровень (степень) будет . Для наглядности пусть уровень значимости будет 0,05, а мощность — 0,45 (недостаточная мощность). $Pr(H_{0})$ $Pr(H_{1})=1-Pr(H_{0})$ $Pr({\text{найти }}H_{1}|H_{0})$ $Pr({\text{найти }}H_{1}|H_{1})$

Теперь, согласно теореме Байеса, при условии, что статистические исследования верны, апостериорная вероятность того, что это действительно так, не равна , а $H_{1}$ $H_{1}$ $1-Pr({\text{find }}H_{1}|H_{0})=0,95$

$Pr(H_{1}|{\text{найти }}H_{1})={\frac {Pr({\text{найти }}H_{1}|H_{1})Pr(H_{ 1})}{Pr({\text{ найти }}H_{1}|H_{0})Pr(H_{0})+Pr({\text{ найти }}H_{1}|H_{1} )Pr(H_{1})}}$

и вероятность повторения статистического исследования также отличается от . В частности, для фиксированного уровня значимости вероятность репликации увеличивается с увеличением мощности, а априорная вероятность для . Если априорная вероятность мала, то для репликации потребуется большая мощность. $Pr({\text{replication}}|{\text{найти }}H_{1})=Pr({\text{найти }}H_{1}|H_{1})Pr(H_{1) }|{\text{ найти }}H_{1})+Pr({\text{найти }}H_{1}|H_{0})Pr(H_{0}|{\text{ найти }}H_{ 1})$ $Pr(H_{1}|{\text{найти }}H_{1})$ $H_{1}$ $H_{1}$

Например, если априорная вероятность нулевой гипотезы равна , и исследование выявило положительный результат, то апостериорная вероятность равна , а вероятность репликации равна . $Pr(H_{0})=0,9$ $H_{1}$ $Pr(H_{1}|{\text{ find }}H_{1})=0.50$ $Pr({\text{replication}}|{\text{ find }}H_{1})=0.25$

Проблема с проверкой нулевой гипотезы

Некоторые утверждают, что проверка нулевых гипотез сама по себе неуместна, особенно в «мягких науках», таких как социальная психология. ^[157]^[158]

Как неоднократно отмечали статистики ^[159] в сложных системах, таких как социальная психология, «нулевая гипотеза всегда ложна» или «все коррелирует». Если да, то если нулевая гипотеза не отвергается, это не означает, что нулевая гипотеза верна, а просто означает, что она была ложноотрицательной, обычно из-за низкой мощности. ^[160] Низкая мощность особенно распространена в предметных областях, где размеры эффекта невелики, а сбор данных дорог, например, в социальной психологии. ^[157]^[161]

Более того, когда нулевая гипотеза отвергается, это может не служить доказательством существенной альтернативной гипотезы. В мягких науках многие гипотезы могут предсказать корреляцию между двумя переменными. Таким образом, доказательства против нулевой гипотезы «нет корреляции» не являются доказательствами в пользу одной из многих альтернативных гипотез, которые одинаково хорошо предсказывают «существует корреляция». ^[161] В частности, когда статистические исследования экстрасенсорного восприятия отвергают нулевую гипотезу при чрезвычайно низком значении p, это не подразумевает альтернативную гипотезу «существование экстрасенсорного восприятия». Гораздо более вероятно, что в точно измеряемой экспериментальной установке имело место небольшое (не экстрасенсорное) смещение. ^[162]

Ошибка базовой ставки

По мнению философа Александра Берда , возможная причина низких показателей воспроизводимости в некоторых научных областях заключается в том, что большинство проверенных гипотез априори ложны . ^[163] С этой точки зрения, низкие показатели воспроизводимости могут соответствовать качеству науки. Кроме того, ожидание того, что большинство результатов должны быть повторены, было бы ошибочным и, по мнению Берда, является формой ошибки базовой ставки. Аргумент Берда работает следующим образом. Предполагая идеальную ситуацию теста значимости, при которой вероятность неправильного отклонения нулевой гипотезы составляет 5% (т.е. ошибка типа I ), а вероятность правильного отклонения нулевой гипотезы составляет 80% (т.е. мощность ), в контексте, где высокая доля проверенных гипотез оказывается ложной, вполне возможно, что количество ложноположительных результатов будет выше, чем истинно положительных. ^[163] Например, в ситуации, когда только 10% проверенных гипотез на самом деле верны, можно подсчитать, что до 36% результатов будут ложноположительными. ^[к]

Утверждение о том, что ложность большинства проверенных гипотез может объяснить низкие показатели воспроизводимости, становится еще более актуальным, если учесть, что средняя мощность статистических тестов в определенных областях может быть намного ниже 80%. Например, доля ложноположительных результатов увеличивается до значения от 55,2% до 57,6% при расчете с оценками средней мощности от 34,1% до 36,4% для психологических исследований, как это предоставили Стэнли и его коллеги в своем анализе 200 мета-положительных результатов. анализы в полевых условиях. ^[14] Высокая доля ложноположительных результатов приведет к тому, что многие результаты исследований станут невоспроизводимыми.

Бёрд отмечает, что утверждение о том, что большинство проверенных гипотез априори ложны в определенных научных областях, может быть правдоподобным, учитывая такие факторы, как сложность исследуемых явлений, тот факт, что теории редко являются бесспорными, «дистанция вывода» между теориями и гипотезы и легкость, с которой можно генерировать гипотезы. В этом отношении Берд приводит в качестве примера клиническую медицину, генетическую и молекулярную эпидемиологию и социальную психологию. Эта ситуация радикально отличается в областях, где теории имеют выдающуюся эмпирическую основу и гипотезы могут быть легко выведены из теорий (например, экспериментальная физика). ^[163]

Последствия

Когда в литературе эффекты ошибочно указываются как релевантные, неспособность обнаружить это путем репликации приведет к канонизации таких ложных фактов. ^[164]

Исследование 2021 года показало, что статьи в ведущих журналах по общей тематике, психологии и экономике с выводами, которые невозможно воспроизвести, с течением времени имеют тенденцию цитироваться чаще, чем воспроизводимые исследовательские статьи, вероятно, потому, что эти результаты неожиданны или интересны. На эту тенденцию не влияет публикация неудачных репродукций, после чего только 12% статей, цитирующих оригинальные исследования, будут упоминать о неудачных репликациях. ^[165]^[166] Кроме того, эксперты могут предсказать, какие исследования будут воспроизводиться, что привело авторов исследования 2021 года, Марту Серра-Гарсия и Ури Гнизи , к выводу, что эксперты применяют более низкие стандарты к интересным результатам при принятии решения о публикации. их. ^[166]

Осведомленность и восприятие общественности

В научном сообществе были выражены опасения, что широкая общественность может считать науку менее заслуживающей доверия из-за неудачных попыток повторения. ^[167] Исследования, подтверждающие эту обеспокоенность, редки, но общенациональное репрезентативное исследование в Германии показало, что более 75% немцев не слышали о неудачах в науке. ^[168] Исследование также показало, что большинство немцев положительно воспринимают усилия по тиражированию: только 18% считают, что отсутствие тиражирования показывает, что науке нельзя доверять, в то время как 65% считают, что исследования тиражирования показывают, что наука применяет контроль качества, и 80% согласны с этим. что ошибки и исправления являются частью науки. ^[168]

Ответ в академических кругах

В связи с тем, что кризис репликации психологии привлек внимание, психолог из Принстонского университета Сьюзен Фиск вызвала споры за то, что выступила против критиков психологии за то, что она назвала издевательствами и подрывом науки. ^[169]^[170]^[171]^[172] Она назвала этих неопознанных «противников» такими именами, как «методологический террорист» и «самопровозглашенная полиция данных», заявив, что критику психологии следует высказывать только в частном порядке или путем обращения к журналы. ^[169] Статистик и политолог Колумбийского университета Эндрю Гельман ответил Фиске, заявив, что она обнаружила, что готова терпеть «мертвую парадигму» ошибочной статистики и отказывалась отозвать публикации, даже когда были указаны ошибки. ^[169] Он добавил, что ее пребывание на посту редактора было ужасным и что ряд опубликованных статей, которые она редактировала, были основаны на крайне слабых статистических данных; одна из опубликованных самим Фиске статей содержала серьезную статистическую ошибку и «невозможные» выводы. ^[169]

Революция доверия

Некоторые исследователи в области психологии указывают, что кризис репликации является основой для «революции доверия», когда изменения в стандартах, по которым оценивается психологическая наука, могут включать в себя акцент на прозрачности и открытости, предварительную регистрацию исследовательских проектов и тиражирование исследований с более высокими стандартами для улучшения доказательств. Сила научных утверждений. ^[173] Такие изменения могут снизить продуктивность отдельных исследователей, но этого эффекта можно избежать путем обмена данными и более тесного сотрудничества. ^[173] Революция доверия могла бы пойти на пользу исследовательской среде. ^[174]

Средства

Сосредоточение внимания на кризисе репликации привело к возобновлению усилий в психологии по повторной проверке важных результатов. ^[40]^[175] Специальный выпуск журнала «Социальная психология» за 2013 год был посвящен исследованиям репликации. ^[12]

Предложены стандартизация , а также (требование) прозрачности используемых статистических и экспериментальных методов. ^[176] Тщательное документирование экспериментальной установки считается решающим для воспроизводимости экспериментов, и различные переменные не могут быть документированы и стандартизированы, например, рационы животных в исследованиях на животных. ^[177]

В статье Джона Иоаннидиса 2016 года подробно обсуждалась тема «Почему большинство клинических исследований бесполезны». ^[178] Иоаннидис описывает то, что он считает некоторыми проблемами, и призывает к реформе, характеризуя определенные моменты, позволяющие медицинским исследованиям снова стать полезными; Одним из примеров, который он приводит, является необходимость того, чтобы медицина была ориентирована на пациента (например, в форме Института исследования результатов, ориентированных на пациента ), а не в нынешней практике, которая в основном заботится о «потребностях врачей, исследователей или спонсоров».

Реформа научных публикаций

Метанаука

Метанаука — это использование научной методологии для изучения самой науки. Он стремится повысить качество научных исследований при одновременном сокращении отходов. Он также известен как «исследовательские исследования» и «наука о науке», поскольку он использует методы исследования для изучения того, как проводятся исследования и где можно внести улучшения. Метанаука касается всех областей исследований, и ее называют «взглядом на науку с высоты птичьего полета». ^[179] По словам Иоаннидиса: «Наука — это лучшее, что случилось с людьми… но мы можем сделать это лучше». ^[180]

Мета-исследования продолжают проводиться для выявления причин кризиса и их устранения. Методы преодоления кризиса включают предварительную регистрацию научных исследований и клинических испытаний , а также создание таких организаций, как CONSORT и EQUATOR Network , которые выпускают рекомендации по методологии и отчетности. Продолжаются усилия по реформированию системы академических стимулов, совершенствованию процесса рецензирования , сокращению злоупотреблений статистикой , борьбе с предвзятостью в научной литературе, а также повышению общего качества и эффективности научного процесса.

Презентация методологии

Некоторые авторы утверждают, что недостаточное информирование об экспериментальных методах является основной причиной кризиса воспроизводимости и что лучшее сообщение о планировании эксперимента и статистическом анализе могло бы улучшить ситуацию. Эти авторы склонны выступать за широкие культурные изменения в научном сообществе в том, как рассматривать статистику, и за более принудительное давление со стороны научных журналов и финансирующих организаций. ^[181] Однако были высказаны опасения по поводу возможности неправильного применения стандартов прозрачности и тиражирования как к качественным, так и к количественным исследованиям. ^[182]

К журналам о бизнесе и менеджменте, которые ввели редакционную политику в отношении доступности, репликации и прозрачности данных, относятся журнал «Стратегический менеджмент» , «Журнал международных бизнес-исследований » и «Обзор менеджмента и организации» . ^[92]

Экспертная оценка без учета результатов

В ответ на обеспокоенность психологов по поводу предвзятости публикаций и сбора данных более 140 психологических журналов приняли рецензирование без учета результатов. При таком подходе исследования принимаются не на основе их результатов и после завершения исследований, а до их проведения, а также на основе методологической строгости их экспериментальных планов и теоретического обоснования методов статистического анализа до того, как данные будут получены. проводится сбор или анализ. ^[183] Ранний анализ этой процедуры показал, что 61% слепых исследований привели к нулевым результатам , в отличие от примерно 5–20% в более ранних исследованиях. ^[100] Кроме того, в психологии стало гораздо более распространенным явлением крупномасштабное сотрудничество между исследователями, работающими в нескольких лабораториях в разных странах, которые регулярно делают свои данные открытыми для оценки различными исследователями. ^[184]

Предварительная запись на обучение

Научные издания начали использовать отчеты предварительной регистрации , чтобы справиться с кризисом репликации. ^[185]^[186] Формат зарегистрированного отчета требует от авторов предоставить описание методов исследования и анализа до сбора данных. После того как метод и план анализа проходят рецензирование, публикация результатов предварительно гарантируется в зависимости от того, соблюдают ли авторы предложенный протокол. Одна из целей зарегистрированных отчетов — избежать предвзятости публикаций в отношении важных результатов, которые могут привести к использованию сомнительных исследовательских практик. Другой вариант — поощрять публикацию исследований с использованием строгих методов.

Журнал Psychoological Science поощряет предварительную регистрацию исследований и сообщение о величине эффекта и доверительных интервалах. ^[187] Главный редактор также отметил, что редакция будет просить повторить исследования с неожиданными результатами экспертиз с использованием небольших размеров выборки, прежде чем разрешить публикацию рукописей.

Метаданные и цифровые инструменты для отслеживания репликаций

Было высказано предположение, что необходим «простой способ проверить, как часто исследования повторялись и подтверждаются ли первоначальные результаты». ^[165] Категоризация и рейтинг воспроизводимости на уровне исследования или результатов, а также добавление ссылок и рейтинг сторонних подтверждений могут проводиться рецензентами, научным журналом или читателями в сочетании с новыми цифровые платформы или инструменты.

Статистическая реформа

Требуется меньшеп-ценности

Многие публикации требуют, чтобы значение p было < 0,05, чтобы заявить о статистической значимости . В документе «Переопределить статистическую значимость» ^[188] , подписанном большим количеством ученых и математиков, предлагается, чтобы «в областях, где порог для определения статистической значимости для новых открытий составляет р < 0,05, мы предлагаем изменение до р < 0,005. Этот простой шаг немедленно улучшит воспроизводимость научных исследований во многих областях». Их обоснование заключается в том , что «основная причина невоспроизводимости заключается в том, что статистические стандарты доказательности для заявлений о новых открытиях во многих областях науки просто слишком низки . ложных срабатываний даже при отсутствии других экспериментальных, процедурных проблем и проблем с отчетностью». ^[188]

Этот призыв впоследствии подвергся критике со стороны другой большой группы, которая утверждала, что «переопределение» пороговых значений не решит текущие проблемы, а приведет к появлению некоторых новых, и что, в конечном итоге, все пороговые значения необходимо обосновывать в каждом конкретном случае, а не следуя общим соглашениям. ^[189]

Решение проблемы неправильного толкованияп-ценности

Хотя статистики единодушны в том, что использование « p < 0,05» в качестве стандарта значимости дает более слабые доказательства, чем принято считать, отсутствует единодушие в отношении того, что следует с этим делать. Некоторые выступают за то, чтобы байесовские методы заменили p -значения. Этого не произошло в широком масштабе, отчасти потому, что это сложно, а отчасти потому, что многие пользователи не доверяют спецификациям предыдущих дистрибутивов из-за отсутствия точных данных. Упрощенная версия байесовского аргумента, основанная на проверке нулевой гипотезы, была предложена фармакологом Дэвидом Колкухоном . ^[190]^[191] Логические проблемы индуктивного вывода обсуждались в «Проблеме с p-значениями» (2016). ^[192]

Опасность зависимости от значений p возникает отчасти потому, что даже наблюдение p = 0,001 не обязательно является убедительным доказательством против нулевой гипотезы. ^[191] Несмотря на то, что отношение правдоподобия в пользу альтернативной гипотезы по сравнению с нулевой близко к 100, если бы гипотеза была неправдоподобной, с априорной вероятностью реального эффекта, равной 0,1, даже наблюдение p = 0,001 имело бы ложноположительный риск составляет 8 процентов. Ему все равно не удастся достичь уровня 5 процентов.

Было рекомендовано не использовать термины «значительный» и «незначительный». ^{[191] Значения} p и доверительные интервалы по-прежнему должны быть указаны, но они должны сопровождаться указанием риска ложноположительных результатов. Было высказано предположение, что лучший способ сделать это — вычислить априорную вероятность, в которую необходимо поверить, чтобы достичь ложноположительного риска определенного уровня, например 5%. Расчеты можно производить с помощью различных компьютерных программ. ^[191]^[193] Этот обратный байесовский подход, который физик Роберт Мэтьюз предложил в 2001 году, ^[194] является одним из способов избежать проблемы, заключающейся в том, что априорная вероятность редко известна.

Поощрение увеличения размера выборки

Чтобы улучшить качество репликации, часто необходимы более крупные размеры выборки , чем те, которые использовались в исходном исследовании. ^[195] Необходимы большие размеры выборки, поскольку оценки размеров эффекта в опубликованных работах часто преувеличены из-за систематической ошибки публикации и большой вариативности выборки, связанной с небольшими размерами выборки в оригинальном исследовании. ^[196]^[197]^[198] Кроме того, использование порогов значимости обычно приводит к завышенным эффектам, поскольку, особенно при небольших размерах выборки, только самые большие эффекты станут значимыми. ^[158]

Перекрестная проверка

Одной из распространенных статистических проблем является переоснащение , то есть когда исследователи подгоняют модель регрессии по большому количеству переменных, но небольшому количеству точек данных. Например, в типичном фМРТ-исследовании эмоций, личности и социального познания участвуют менее 100 субъектов, но каждый субъект имеет 10 000 вокселей. Исследование соответствует разреженной модели линейной регрессии, которая использует вокселы для прогнозирования интересующей переменной, такой как самооценка стресса. Но тогда исследование сообщит о p-значении модели на тех же данных, к которым она была адаптирована. Стандартный подход в статистике, при котором данные разделяются на обучающий и проверочный наборы , вызывает сопротивление, поскольку приобретение испытуемых дорого. ^[146]^[199]

Одним из возможных решений является перекрестная проверка , которая позволяет проверять модель, а также позволяет использовать весь набор данных для подбора модели. ^[200]

Усилия по репликации

Финансирование

В июле 2016 года Нидерландская организация научных исследований выделила 3 миллиона евро на повторные исследования. Финансирование предназначено для тиражирования на основе повторного анализа существующих данных и тиражирования путем сбора и анализа новых данных. Финансирование доступно в области социальных наук, медицинских исследований и инноваций в области здравоохранения. ^[201]

В 2013 году Фонд Лоры и Джона Арнольдов профинансировал запуск Центра открытой науки, выделив грант в размере 5,25 миллиона долларов. К 2017 году он предоставил дополнительно 10 миллионов долларов финансирования. ^[202] Он также профинансировал запуск Инновационного центра мета-исследований в Стэнфорде при Стэнфордском университете, которым руководят Иоаннидис и ученый-медик Стивен Гудман для изучения способов улучшения научных исследований. ^[202] Он также обеспечил финансирование инициативы AllTrials , частично возглавляемой ученым-медиком Беном Голдакром . ^[202]

Упор на послесреднее образование

На основании курсовой работы по экспериментальным методам в Массачусетском технологическом институте, Стэнфорде и Вашингтонском университете было высказано предположение, что курсы по психологии и другим областям должны делать упор на попытках воспроизведения, а не на оригинальных исследованиях. ^[203]^[204]^[205] Такой подход поможет студентам изучить научную методологию и обеспечить многочисленные независимые повторы значимых научных результатов, которые проверят воспроизводимость научных результатов. Некоторые рекомендовали обязать аспирантов опубликовать попытку высококачественного воспроизведения темы, связанной с их докторским исследованием, до окончания учебы. ^[206]

Диссертация за последний год

Некоторые учебные заведения требуют, чтобы студенты бакалавриата представили дипломную работу за последний год, состоящую из оригинального исследования. Дэниел Кинтана, психолог из Университета Осло в Норвегии, рекомендовал поощрять студентов к повторным исследованиям в дипломных проектах, а также обучать их открытой науке . ^[207]

Полуавтоматический

Исследователи продемонстрировали способ полуавтоматического тестирования на воспроизводимость: утверждения об экспериментальных результатах были извлечены по состоянию на 2022 год из несемантических статей по исследованию экспрессии генов рака и впоследствии воспроизведены с помощью робота-ученого « Ева ». ^[208]^[209] Проблемы этого подхода заключаются в том, что он может быть неосуществим для многих областей исследований и что достаточные экспериментальные данные не могут быть извлечены из некоторых или многих статей, даже если они доступны.

Привлечение оригинальных авторов

Психолог Дэниел Канеман утверждал, что в психологии к повторению следует привлекать первоначальных авторов, поскольку опубликованные методы часто слишком расплывчаты. ^[210]^[211] Другие, такие как психолог Эндрю Уилсон, не согласны с этим, утверждая, что первоначальные авторы должны подробно описать методы. ^[210] Исследование показателей репликации в психологии в 2012 году показало более высокие показатели успеха репликации в исследованиях репликации, когда авторы пересекались с первоначальными авторами исследования ^[212] (91,7% успешных показателей репликации в исследованиях с дублированием авторов по сравнению с 64,6 % успешных показателей репликации без дублирования авторов).

Большая командная наука

Кризис репликации привел к формированию и развитию различных крупномасштабных и совместных сообществ, объединяющих свои ресурсы для решения одного вопроса в разных культурах, странах и дисциплинах. ^[213] Основное внимание уделяется репликации, чтобы гарантировать, что эффект распространяется за пределы конкретной культуры, и выяснить, является ли этот эффект воспроизводимым и подлинным. ^[214] Это позволяет проводить междисциплинарные внутренние проверки, использовать различные точки зрения, использовать единые протоколы во всех лабораториях и набирать более крупные и разнообразные образцы. ^[214] Исследователи могут сотрудничать, координируя сбор данных или финансируя сбор данных исследователями, которые могут не иметь доступа к средствам, что позволяет увеличить размер выборки и повысить надежность выводов.

Более широкие изменения в научном подходе

Уделяйте особое внимание триангуляции, а не просто репликации

Психолог Маркус Р. Мунафо и эпидемиолог Джордж Дэйви Смит в статье, опубликованной в журнале Nature , утверждают, что исследования должны делать упор на триангуляцию , а не только на репликацию, чтобы защититься от ошибочных идей. Они утверждают, что

одна только репликация приведет нас лишь к определенному результату (и) может фактически усугубить ситуацию ... [Триангуляция] - это стратегическое использование нескольких подходов для решения одного вопроса. Каждый подход имеет свои собственные несвязанные предположения, сильные и слабые стороны. Результаты, согласующиеся при использовании различных методологий, с меньшей вероятностью будут артефактами . ... Возможно, одной из причин, по которой копирование вызвало такой большой интерес, является часто повторяемая идея о том, что фальсификация лежит в основе научной деятельности. Эта идея была популяризирована максимой Карла Поппера 1950-х годов о том, что теории невозможно доказать, а только фальсифицировать. Тем не менее, чрезмерный акцент на повторении экспериментов может создать необоснованное чувство уверенности в результатах, основанных на одном подходе. ... философы науки пошли дальше со времен Поппера. Лучшие описания того, как на самом деле работают ученые, включают то, что эпистемолог Питер Липтон в 1991 году назвал «выводом к лучшему объяснению». ^[215]

Парадигма сложных систем

Доминирующей научной и статистической моделью причинно-следственной связи является линейная модель. ^[216] Линейная модель предполагает, что ментальные переменные — это стабильные свойства, независимые друг от друга. Другими словами, ожидается, что эти переменные не будут влиять друг на друга. Вместо этого модель предполагает, что переменные будут иметь независимое линейное влияние на наблюдаемые результаты. ^[216]

Социологи Себастьян Уоллот и Дамиан Келти-Стивен утверждают, что линейная модель не всегда подходит. ^[216] Альтернативой является модель сложной системы, которая предполагает, что ментальные переменные взаимозависимы. Эти переменные не считаются стабильными, скорее, они будут взаимодействовать и адаптироваться к каждому конкретному контексту. ^[216] Они утверждают, что модель сложной системы часто более уместна в психологии, и что использование линейной модели, когда модель сложной системы более уместна, приведет к неудачным повторениям. ^[216]

...психология, возможно, надеется на повторение в тех самых измерениях и в тех самых условиях, когда растущее количество психологических данных явно препятствует прогнозированию повторения. Неспособность воспроизвести может быть явно связана с потенциально неполной, но широкомасштабной неспособностью человеческого поведения соответствовать стандарту независимости... ^[216]

Репликация должна быть направлена на пересмотр теорий

Воспроизведение имеет основополагающее значение для научного прогресса и позволяет подтвердить оригинальные результаты. Однако одной лишь репликации недостаточно для разрешения кризиса репликации. Усилия по воспроизведению должны быть направлены не только на поддержку или сомнение в первоначальных результатах, но и на замену их пересмотренными, более сильными теориями с большей объяснительной силой. Таким образом, этот подход предполагает сокращение существующих теорий, сравнение всех альтернативных теорий, а также придание усилиям по воспроизведению более продуктивного характера и участие в построении теорий. ^[217]^[218] Однако одного лишь повторения недостаточно. Важно оценить степень обобщения результатов в географических, исторических и социальных контекстах. Важно, чтобы некоторые научные области, особенно практики и политики, проводили анализ, чтобы направлять важные стратегические решения. Воспроизводимые и воспроизводимые результаты были лучшим предиктором возможности обобщения за пределами исторического и географического контекста, указывая на то, что для социальных наук результаты, полученные в определенный период времени и в определенном месте, могут значимо влиять на то, что универсально присутствует у людей. ^[219]

Открытая наука

Открытые данные, программное обеспечение с открытым исходным кодом и аппаратное обеспечение с открытым исходным кодом имеют решающее значение для обеспечения воспроизводимости в смысле проверки исходного анализа данных. Использование проприетарного программного обеспечения, отсутствие публикации аналитического программного обеспечения и отсутствие открытых данных препятствуют тиражированию исследований. Если программное обеспечение, используемое в исследованиях, не является открытым исходным кодом, воспроизведение результатов с использованием различных конфигураций программного и аппаратного обеспечения невозможно. ^[220] В ЦЕРН есть проекты «Открытые данные» и «Сохранение анализа» ЦЕРН для хранения данных, всей соответствующей информации, а также всего программного обеспечения и инструментов, необходимых для сохранения анализа в ходе крупных экспериментов БАК . Помимо всего программного обеспечения и данных, сохраненные активы анализа включают метаданные, которые позволяют понять рабочий процесс анализа, соответствующее программное обеспечение, систематические неопределенности, статистические процедуры и значимые способы поиска анализа, а также ссылки на публикации и резервные материалы. ^[221] Программное обеспечение ЦЕРН имеет открытый исходный код и доступно для использования за пределами физики элементарных частиц , а для других областей предоставляются некоторые рекомендации по широким подходам и стратегиям, используемым для открытой науки в современной физике элементарных частиц. ^[222]

Онлайн-хранилища, в которых данные, протоколы и результаты могут храниться и оцениваться общественностью, стремятся улучшить целостность и воспроизводимость исследований. Примеры таких репозиториев включают Open Science Framework , Registry of Research Data Repositories и Psychfiledrawer.org. Такие сайты, как Open Science Framework, предлагают значки за использование практик открытой науки, чтобы стимулировать ученых. Однако существуют опасения, что те, кто, скорее всего, предоставят свои данные и код для анализа, являются наиболее опытными исследователями. ^[223] Иоаннидис предположил, что «может возникнуть парадокс: самые дотошные, изощренные, методически подкованные и осторожные исследователи могут стать более восприимчивыми к критике и атакам на репутацию со стороны реанализаторов, которые охотятся за ошибками, независимо от того, насколько незначительными являются эти ошибки». ^[223]

Смотрите также

Примечания

^ Также называется кризисом воспроизводимости , кризисом воспроизводимости , кризисом воспроизводства или кризисом невоспроизводимости .
^ Согласно Психологическому словарю APA , предвзятость подтверждения - это «тенденция собирать доказательства, подтверждающие ранее существовавшие ожидания, обычно путем подчеркивания или поиска подтверждающих доказательств, одновременно отклоняя или не ища противоречивые доказательства». ^[115]
^ В контексте проверки значимости нулевой гипотезы результаты, которые не являются статистически значимыми
^ Извлечение данных, также известное как p- хакинг или p -рыбалка , представляет собой неправильное использование данных с помощью множества методов для поиска поддержки гипотез, для которых данные недостаточны. ^[128]
^ Выборочная отчетность также известна как частичная публикация . Отчетность — это возможность раскрыть все использованные или эксплуатируемые степени свободы исследователя. Выборочная отчетность — это неспособность сообщить соответствующие детали или варианты выбора, такие как некоторые независимые и зависимые переменные, недостающие данные, исключения данных и исключения выбросов. ^[126]
^ HARKing, также известный как апостериорное повествование , - это когда исследовательский анализ оформляется как подтверждающий анализ. Он предполагает изменение гипотезы после проведения исследования, чтобы новая гипотеза могла быть подтверждена результатами эксперимента. ^[126]
^ Авторы приводят пример, в котором, предполагая, что истинная средняя корреляция, отражающая эффект, равна 0,2, а стандартное отклонение распределения эффектов также составляет 0,2, повторное исследование будет иметь 62% вероятность обнаружения истинного значения от среднего до большого. эффект (r > 0,3) или незначительный истинный эффект (r < 0,1).
^ 0,412 против 0,389 в единицах стандартизированных средних разностей (SMD).
^ Основным используемым DV был субъективный бинарный рейтинг (т. е. реплицированный/не реплицируемый), использованный в исходном исследовании OSC. Авторы также измерили корреляции с другими показателями воспроизводимости (например, доверительными интервалами) и обнаружили почти равные корреляции между контекстной чувствительностью и успехом репликации.
^ Независимый эффект контекстной чувствительности можно наблюдать как в множественной логистической регрессии, так и в модели иерархической регрессии. В последнем случае контекстная чувствительность была включена во вторую ступень иерархии и изменение коэффициента множественной детерминации оказалось значимым.
^
Следуя аргументу Берда, этот процент получается путем расчета вероятности ложноположительного отчета (FPRP) следующим образом.
- FPRP = Количество ложных срабатываний / Общее количество срабатываний
- Количество ложноположительных результатов = Вероятность получения ложноположительного результата x Количество отрицательных тестов.
- Количество истинно положительных результатов = Вероятность получения истинно положительного результата x Количество положительных тестов.
Предполагая:
- Количество тестов = 1000
- Доля истинных гипотез p = 0,10
- Вероятность получения ложноположительного результата а = 0,05.
- Вероятность получения истинно положительного результата 1 – B = 0,8.
Тогда ФППР = (0,05 х 900)/(0,05 х 900 + 0,8 х 100) = 0,36.

дальнейшее чтение

Бастиан Х (5 декабря 2016 г.). «Хронология кризиса воспроизводимости: вехи в обеспечении надежности исследований». Абсолютно возможно . Проверено 5 июня 2019 г.
Бонетт, генеральный директор (2021). Планирование и анализ повторных исследований. Методы организационных исследований, 24, 513–529. https://doi.org/10.1177/1094428120911088
Денворт Л. (октябрь 2019 г.). «Значительная проблема: стандартные научные методы подвергаются критике. Изменится ли что-нибудь?» (PDF) . Научный американец . Том. 321, нет. 4. С. 62–67. п. 63: Использование значений p в течение почти столетия [с 1925 года] для определения статистической значимости экспериментальных результатов способствовало возникновению иллюзии уверенности и [ к ] кризисам воспроизводимости во многих научных областях . Растет решимость реформировать статистический анализ... Некоторые [исследователи] предлагают изменить статистические методы, тогда как другие готовы отказаться от порога для определения «значимых» результатов.
Харрис Р. (2017). Трупное окоченение: как небрежная наука создает бесполезные лекарства, разрушает надежду и тратит миллиарды . Нью-Йорк: Основные книги. ISBN 9780465097906.
Кафкафи Н., Агасси Дж., Чеслер Э.Дж., Крэбб Дж.К. , Крузио В.Е. , Эйлам Д. и др. (апрель 2018 г.). «Воспроизводимость и воспроизводимость фенотипирования грызунов в доклинических исследованиях». Неврологические и биоповеденческие обзоры . 87 : 218–232. doi :10.1016/j.neubiorev.2018.01.003. ПМК 6071910 . ПМИД 29357292.
Ричи С. (июль 2020 г.). Научная фантастика: как мошенничество, предвзятость, халатность и шумиха подрывают поиск истины . Нью-Йорк: Метрополитен Букс. ISBN 9781250222695.Рецензия на книгу (ноябрь 2020 г., The American Conservative )
Уитфилд Дж. (октябрь 2021 г.). «Кризис репликации». Лондонское обозрение книг . 43 (19): 39–40.обзор Ritchie S (июль 2020 г.). Научная фантастика: разоблачение мошенничества, халатности и обмана в науке . Лондон: Бодли Хед. ISBN 978-1-84792-565-7.

Кризис репликации

Фон

Репликация

Статистика

История

Распространенность

В психологии

В медицине

По другим дисциплинам

В экономике

В управлении водными ресурсами

По полям

Причины

Исторические и социологические причины

Проблемы с системой публикаций в науке

Предвзятость публикации

Математические ошибки

Культура «Публикуй или погибни»

Стандарты отчетности

Процедурная предвзятость

Культурная эволюция

Сомнительные исследовательские практики и мошенничество

Распространенность

Статистические вопросы

Низкая статистическая мощность

Положительная ошибка размера эффекта

Проблемы метаанализа

П-хакерство

Статистическая неоднородность

Другие

Контекстная чувствительность

Байесовское объяснение

Проблема с проверкой нулевой гипотезы

Ошибка базовой ставки

Последствия

Осведомленность и восприятие общественности

Ответ в академических кругах

Революция доверия

Средства

Реформа научных публикаций

Метанаука

Презентация методологии

Экспертная оценка без учета результатов

Предварительная запись на обучение

Метаданные и цифровые инструменты для отслеживания репликаций

Статистическая реформа

Требуется меньшеп-ценности

Решение проблемы неправильного толкованияп-ценности

Поощрение увеличения размера выборки

Перекрестная проверка

Усилия по репликации

Финансирование

Упор на послесреднее образование

Диссертация за последний год

Полуавтоматический

Привлечение оригинальных авторов

Большая командная наука

Более широкие изменения в научном подходе

Уделяйте особое внимание триангуляции, а не просто репликации

Парадигма сложных систем

Репликация должна быть направлена ​​на пересмотр теорий

Открытая наука

Смотрите также

Примечания

Рекомендации

дальнейшее чтение

Репликация должна быть направлена на пересмотр теорий