Кризис репликации (также называемый кризисом репликации и кризисом воспроизводимости ) — это продолжающийся методологический кризис, при котором результаты многих научных исследований трудно или невозможно воспроизвести . Поскольку воспроизводимость эмпирических результатов является неотъемлемой частью научного метода , [2] такие неудачи подрывают доверие к теориям, основанным на них, и потенциально ставят под сомнение существенные части научных знаний.
Кризис репликации часто обсуждается в контексте психологии и медицины , где были предприняты значительные усилия для повторного исследования классических результатов, чтобы определить, надежны ли они, и, если они окажутся неправильными, причины неудачи. [3] [4] Данные убедительно свидетельствуют о том, что другие естественные и социальные науки также затронуты. [5]
Фраза « кризис репликации» была придумана в начале 2010-х годов [6] как часть растущего осознания этой проблемы. Рассмотрение причин и средств лечения привело к возникновению новой научной дисциплины — метанауки , [7] которая использует методы эмпирического исследования для изучения практики эмпирических исследований.
Соображения относительно воспроизводимости делятся на две категории. Воспроизводимость в узком смысле означает повторное изучение и проверку анализа данного набора данных. Репликация означает повторение эксперимента или исследования для получения новых независимых данных с целью достижения тех же или аналогичных выводов.
Репликацию называют «краеугольным камнем науки». [8] [9] Ученый по вопросам гигиены окружающей среды Стефан Шмидт начал обзор 2009 года с такого описания репликации:
Репликация — одна из центральных проблем любой эмпирической науки. Подтверждение результатов или гипотез методом повторения лежит в основе любой научной концепции. Повторный эксперимент, призванный продемонстрировать, что те же результаты могут быть получены в любом другом месте любым другим исследователем, задуман как операционализация объективности. Это доказательство того, что эксперимент отражает знание, которое можно отделить от конкретных обстоятельств (таких как время, место или люди), при которых оно было получено. [10]
Но существует ограниченный консенсус относительно того, как определять репликацию и потенциально связанные с ней концепции. [11] [12] [10] Был выявлен ряд типов репликации:
Воспроизводимость также можно отличить от репликации , поскольку она относится к воспроизведению одних и тех же результатов с использованием одного и того же набора данных. Воспроизводимость этого типа является причиной того, что многие исследователи предоставляют свои данные другим для тестирования. [14]
Кризис репликации не обязательно означает, что эти области ненаучны. [15] [16] [17] Скорее, этот процесс является частью научного процесса, в котором отсекаются старые идеи или те идеи, которые не выдерживают тщательного изучения, [18] [19] хотя этот процесс обрезки не всегда эффективен. [20] [21]
Гипотеза обычно считается подтвержденной, если результаты соответствуют предсказанному образцу и этот образец результатов оказывается статистически значимым . Результаты считаются значимыми, если относительная частота наблюдаемой закономерности падает ниже произвольно выбранного значения (т.е. уровня значимости ) при предположении, что нулевая гипотеза верна. В целом это отвечает на вопрос о том, насколько маловероятными были бы результаты, если бы на уровне статистической совокупности не существовало различий . Если вероятность, связанная со статистикой теста , превышает выбранное критическое значение , результаты считаются статистически значимыми. [22] Соответствующая вероятность превышения критического значения обозначается как p <0,05, где p (обычно называемое « p -значением ») — уровень вероятности. Это должно привести к тому, что 5% подтвержденных гипотез окажутся ложноположительными (неправильная гипотеза будет ошибочно признана правильной), при условии, что исследования соответствуют всем статистическим предположениям. В некоторых полях используются меньшие значения p, например p < 0,01 (вероятность ложноположительного результата 1%) или p < 0,001 (вероятность ложноположительного результата 0,1%). Но меньшая вероятность ложноположительного результата часто требует большего размера выборки или большей вероятности ложноотрицательного результата (верная гипотеза ошибочно оказывается неверной) . Хотя тестирование p -значения является наиболее часто используемым методом, это не единственный метод.
Начало репликационного кризиса можно отнести к ряду событий начала 2010-х годов. Философ науки и социальный эпистемолог Фелипе Ромеро выделил четыре события, которые можно считать предвестниками продолжающегося кризиса: [23]
Эта серия событий породила большой скептицизм по поводу достоверности существующих исследований в свете широко распространенных методологических ошибок и неспособности воспроизвести результаты. Это побудило видных учёных объявить о «кризисе доверия» в психологии и других областях [39] , и возникшая ситуация стала известна как «кризис репликации».
Хотя начало кризиса репликации можно отнести к началу 2010-х годов, некоторые авторы отмечают, что опасения по поводу воспроизводимости и исследовательской практики в социальных науках были выражены гораздо раньше. Ромеро отмечает, что авторы выражали обеспокоенность по поводу отсутствия прямых повторов в психологических исследованиях конца 1960-х — начала 1970-х годов. [40] [41] Он также пишет, что в некоторых исследованиях 1990-х годов уже сообщалось, что редакторы и рецензенты журналов, как правило, предвзято относятся к публикации повторных исследований. [42] [43]
В социальных науках блог Data Colada (трое авторов которого в 2014 году ввели термин « p-хакинг ») считается вкладом в начало кризиса репликации. [44] [45] [46]
Профессор Университета Вирджинии и когнитивный психолог Барбара А. Спеллман написала, что многие критические замечания в отношении исследовательской практики и опасения по поводу воспроизводимости исследований не новы. [47] Она сообщает, что в период с конца 1950-х по 1990-е годы ученые уже выражали обеспокоенность по поводу возможного кризиса репликации, [48] подозрительно высокого уровня положительных результатов, [49] сомнительных исследовательских практик (QRP), [50] последствия предвзятости публикаций, [51] проблемы со статистической достоверностью, [52] [53] и плохие стандарты отчетности. [48]
Спеллман также называет причины, по которым повторение этой критики и опасений в последние годы привело к полномасштабному кризису и изменению статус-кво. Во-первых, технологические усовершенствования облегчили проведение и распространение повторных исследований, а также анализ большого количества литературы по системным проблемам. Во-вторых, растущий размер и разнообразие исследовательского сообщества облегчили возможность тщательного изучения работы его авторитетных членов другими членами сообщества, с ними незнакомыми. По мнению Спеллмана, эти факторы в сочетании со все более ограниченными ресурсами и несогласованными стимулами для занятий научной работой привели к кризису в психологии и других областях. [47]
Сочетание нескольких факторов поставило психологию в центр разговора. [54] [55] Некоторые области психологии, когда-то считавшиеся солидными, такие как социальный прайминг , оказались под пристальным вниманием из-за неудачных повторений. [56] Большое внимание уделялось области социальной психологии , [57] хотя и другие области психологии, такие как клиническая психология , [58] [59] [60] психология развития , [61] [62 ] [63] и образовательные исследования также были замешаны. [64] [65] [66] [67] [68]
В августе 2015 года было опубликовано первое открытое эмпирическое исследование воспроизводимости в психологии под названием « Проект воспроизводимости: психология» . Под руководством психолога Брайана Носека исследователи переделали 100 исследований по психологической науке из трёх высокорейтинговых журналов по психологии (« Журнал личности и социальной психологии» , «Журнал экспериментальной психологии: обучение, память и познание » и «Психологическая наука »). 97 первоначальных исследований имели значительный эффект, но из этих 97 только 36% повторов дали значимые результаты ( значение p ниже 0,05). [11] Средний размер эффекта в повторениях был примерно вдвое меньше эффектов, о которых сообщалось в первоначальных исследованиях. В той же статье были рассмотрены показатели воспроизводимости и величины эффекта по журналам и дисциплинам. Коэффициент повторения исследования составил 23% для журнала «Личность и социальная психология» , 48% для журнала «Экспериментальная психология: обучение, память и познание » и 38% для «Психологические науки» . Исследования в области когнитивной психологии имели более высокий уровень репликации (50%), чем исследования в области социальной психологии (25%). [69]
Исследование, опубликованное в 2018 году в журнале Nature Human Behavior, воспроизвело 21 социальную и поведенческую научную статью из журнала Nature and Science , обнаружив, что только около 62% из них смогли успешно воспроизвести оригинальные результаты. [70] [71]
Аналогичным образом, в исследовании, проведенном под эгидой Центра открытой науки , группа из 186 исследователей из 60 различных лабораторий (представляющих 36 разных национальностей с шести разных континентов) повторила 28 классических и современных открытий в области психологии. [72] [73] В центре внимания исследования было не только то, повторяются ли выводы оригинальных статей, но и степень, в которой результаты различаются в зависимости от вариаций в выборках и контекстах. В целом, 50% из 28 результатов не удалось повторить, несмотря на огромные размеры выборки. Но если результат повторялся, то он воспроизводился в большинстве образцов. Если результат не был воспроизведен, значит, он не смог воспроизвестися с небольшими вариациями в разных образцах и контекстах. Эти данные не согласуются с предлагаемым объяснением того, что неудачи в воспроизведении в психологии, вероятно, связаны с изменениями в выборке между исходным и повторным исследованием. [73]
Результаты исследования 2022 года показывают, что многие более ранние исследования фенотипа мозга ( «исследования ассоциаций всего мозга» (BWAS)) привели к неверным выводам, поскольку для повторения таких исследований требуются образцы от тысяч людей из-за небольшой величины эффекта . [74] [75]
Из 49 медицинских исследований с 1990 по 2003 год, получивших более 1000 цитирований, 92% обнаружили, что изучаемые методы лечения эффективны. Из этих исследований 16% противоречили последующим исследованиям, 16% обнаружили более сильные эффекты, чем последующие исследования, 44% были повторены, а 24% остались практически неоспоримыми. [76] Анализ, проведенный в 2011 году исследователями фармацевтической компании Bayer , показал, что не более четверти собственных результатов Bayer повторяют первоначальные результаты. [77] Но анализ результатов Байера показал, что результаты, которые действительно воспроизводились, часто могут быть успешно использованы для клинических применений. [78]
В статье 2012 года К. Гленн Бегли , консультант по биотехнологиям, работающий в Amgen , и Ли Эллис, медицинский исследователь из Техасского университета, обнаружили, что только 11% из 53 доклинических исследований рака имели повторы, которые могли подтвердить выводы оригинальные исследования. [79] В конце 2021 года проект «Проект воспроизводимости: биология рака» изучил 53 ведущие статьи о раке, опубликованные в период с 2010 по 2012 год, и показал, что среди исследований, которые предоставили достаточно информации для переделки, размеры эффекта были в среднем на 85% меньше, чем первоначальные результаты. . [80] [81] Опрос исследователей рака показал, что половина из них не смогла воспроизвести опубликованный результат. [82] В другом отчете подсчитано, что почти половина рандомизированных контролируемых исследований содержала ошибочные данные (на основе анализа анонимных данных отдельных участников (IPD) из более чем 150 исследований). [83]
Экономика отстала от других социальных наук и психологии в своих попытках оценить скорость повторения и увеличить количество исследований, пытающихся повторить. [12] Исследование 2016 года, опубликованное в журнале Science , воспроизвело 18 экспериментальных исследований, опубликованных в двух ведущих экономических журналах, The American Economic Review и Quarterly Journal of Economics , в период с 2011 по 2014 год. Было обнаружено, что около 39% из них не смогли воспроизвести исходные результаты. [84] [85] [86] Около 20% исследований, опубликованных в The American Economic Review, противоречат другим исследованиям, несмотря на то, что они опираются на те же или похожие наборы данных. [87] Исследование эмпирических результатов, опубликованное в журнале Strategic Management Journal, показало, что около 30% из 27 повторно проверенных статей показали статистически незначимые результаты для ранее значимых результатов, тогда как около 4% показали статистически значимые результаты для ранее незначимых результатов. [88]
Исследование, проведенное в журнале Scientific Data в 2019 году, с уверенностью 95% подсчитало, что из 1989 статей по водным ресурсам и управлению, опубликованных в 2017 году, результаты исследования могут быть воспроизведены только в 0,6–6,8%, даже если каждая из этих статей предоставит достаточную информацию, которая позволит для репликации. [89]
Опрос, проведенный в 2016 году журналом Nature среди 1576 исследователей, которые заполнили краткую онлайн-анкету о воспроизводимости, показал, что более 70% исследователей пытались, но не смогли воспроизвести результаты экспериментов другого ученого (в том числе 87% химиков , 77% биологов , 69% физиков) . инженеров , 67% исследователей-медиков , 64% учёных, занимающихся землей и окружающей средой , и 62 % всех остальных), и более половины не смогли воспроизвести свои собственные эксперименты. Но менее чем с 20% связались с другими исследователями, которые не смогли воспроизвести их работу. Опрос показал, что менее 31% исследователей считают, что неспособность воспроизвести результаты означает, что первоначальный результат, вероятно, неверен, хотя 52% согласны с тем, что существует серьезный кризис репликации. Большинство исследователей заявили, что по-прежнему доверяют опубликованной литературе. [5] [90] В 2010 году Фанелли (2010) [91] обнаружил, что 91,5% психиатрических/психологических исследований подтвердили эффекты, которые они искали, и пришел к выводу, что вероятность того, что это произойдет (положительный результат), была примерно в пять раз выше. выше, чем в таких областях, как астрономия или геонауки . Фанелли утверждал, что это происходит потому, что исследователи «мягких» наук меньше ограничивают свои сознательные и бессознательные предубеждения.
Ранний анализ экспертной оценки без учета результатов , на которую меньше влияет предвзятость публикаций, показал, что 61% слепых исследований в биомедицине и психологии привели к нулевым результатам , в отличие от примерно 5–20% в более ранних исследованиях. . [92]
Кризис репликации может быть вызван «генерацией новых данных и научных публикаций с беспрецедентной скоростью», что приводит к «отчаянию опубликовать или погибнуть» и неспособности придерживаться хорошей научной практики. [93]
Прогнозы о надвигающемся кризисе механизма контроля качества науки прослеживаются уже несколько десятилетий. Дерек де Солла Прайс , считающийся отцом наукометрии , количественного исследования науки, предсказал в 1963 году, что наука может достичь «старости» в результате своего собственного экспоненциального роста. [94] Некоторая современная литература, похоже, подтверждает это пророчество о «переполнении», жалуясь на упадок как внимания, так и качества. [95] [96]
Историк Филип Мировски утверждает, что снижение качества науки может быть связано с ее коммерциализацией, особенно вызванное движимым прибылью решением крупных корпораций передать свои исследования на аутсорсинг университетам и контрактным исследовательским организациям . [97]
Теория социальных систем , изложенная в работах немецкого социолога Никласа Лумана , позволяет поставить аналогичный диагноз. Эта теория утверждает, что каждая система, такая как экономика, наука, религия или средства массовой информации, коммуницирует, используя свой собственный код: истинный и ложный для науки, прибыли и убытки для экономики, новости и неновости для средств массовой информации и так далее. [98] [99] По мнению некоторых социологов, медиатизация науки , [100] ее коммодификация [97] и ее политизация, [100] [101] в результате структурной связи между системами привели к путанице исходных системные коды.
Основной причиной низкой воспроизводимости является систематическая ошибка публикации, возникающая из-за того, что статистически незначимые результаты и, казалось бы, неоригинальные повторения публикуются редко. Лишь очень небольшая часть академических журналов по психологии и нейробиологии открыто приветствовала представление повторных исследований с указанием их целей и масштабов или инструкций для авторов. [102] [103] Это не поощряет отчеты или даже попытки провести повторные исследования. Среди 1576 исследователей , опрошенных Nature в 2016 году, лишь меньшинство когда-либо пытались опубликовать повторные исследования, а несколько респондентов, опубликовавших неудачные повторы, отметили, что редакторы и рецензенты требовали, чтобы они преуменьшали сравнение с оригинальными исследованиями. [5] [90] Анализ 4270 эмпирических исследований в 18 деловых журналах с 1970 по 1991 год показал, что менее 10% статей по бухгалтерскому учету, экономике и финансам и 5% статей по менеджменту и маркетингу были повторными исследованиями. [84] [104] Предвзятость публикации усугубляется давлением публикации и собственной предвзятостью подтверждения автора , [a] и представляет собой неотъемлемую опасность в этой области, требующую определенной степени скептицизма со стороны читателей. [38]
Предвзятость публикации приводит к тому, что психолог Роберт Розенталь называет « эффектом ящика с папками ». Эффект ящика с файлами заключается в том, что из-за предвзятости публикации значительное количество отрицательных результатов [b] не публикуется. По мнению философа науки Фелипе Ромеро, это имеет тенденцию создавать «вводящую в заблуждение литературу и предвзятые метааналитические исследования» [23] , и когда предвзятость публикации учитывается наряду с тем фактом, что большинство проверенных гипотез могут быть ложными априори , это вполне вероятно, что значительная часть результатов исследований может быть ложноположительной, как показал метаученый Джон Иоаннидис. [1] В свою очередь, высокая доля ложноположительных результатов в опубликованной литературе может объяснить, почему многие результаты невоспроизводимы. [23]
Последствия для воспроизводимости предвзятости публикаций усугубляются академической культурой «опубликуй или погибни». Как объяснил метаученый Даниэле Фанелли, культура «публикуй или погибни» — это социологический аспект академических кругов, в соответствии с которым ученые работают в среде с очень высоким давлением, требующим публикации их работ в признанных журналах. Это является следствием гиперконкурентной среды академической работы и того, что библиометрические параметры (например, количество публикаций) все чаще используются для оценки научной карьеры. [106] По мнению Фанелли, это подталкивает ученых к использованию ряда стратегий, направленных на то, чтобы сделать результаты «доступными для публикации». В контексте предвзятости публикаций это может означать принятие поведения, направленного на получение положительных или статистически значимых результатов, часто в ущерб их достоверности (см. QRP, раздел 4.3). [106]
По словам основателя Центра открытой науки Брайана Носека и его коллег, культура «публикуй или погибни» создала ситуацию, в которой цели и ценности отдельных ученых (например, возможность публикации) не совпадают с общими целями науки (например, поиск научной истины). ). Это наносит ущерб достоверности опубликованных результатов. [107]
Философ Брайан Д. Эрп и психолог Джим Эверетт утверждают, что, хотя копирование отвечает интересам ученых и исследователей как группы, особенности академической психологической культуры препятствуют воспроизведению отдельными исследователями. Они утверждают, что выполнение репликаций может занять много времени и отнять ресурсы у проектов, которые отражают оригинальное мышление исследователя. Их труднее публиковать, главным образом потому, что они неоригинальны, и даже когда их можно будет опубликовать, они вряд ли будут рассматриваться как важный вклад в эту область. Реплики «приносят меньше признания и вознаграждений, в том числе грантов, своим авторам». [108]
В своей книге 1971 года «Научное знание и его социальные проблемы» философ и историк науки Джером Р. Равец предсказал, что наука — в ее развитии от «маленькой» науки, состоящей из изолированных сообществ исследователей, к «большой» науке или «технонауке» — столкнется с серьезными проблемами во внутренней системе контроля качества. Он признал, что структура стимулов для современных ученых может стать дисфункциональной, создавая извращенные стимулы для публикации любых результатов, какими бы сомнительными они ни были. По мнению Равеца, качество науки поддерживается только тогда, когда существует сообщество ученых, связанных набором общих норм и стандартов, которые хотят и могут привлекать друг друга к ответственности.
Определенная издательская практика также затрудняет воспроизведение и отслеживание серьезности кризиса воспроизводимости, поскольку статьи часто содержат недостаточно описаний, чтобы другие ученые могли воспроизвести исследование. Проект воспроизводимости: биология рака показал, что из 193 экспериментов из 53 ведущих статей о раке, опубликованных в период с 2010 по 2012 год, только у 50 экспериментов из 23 статей есть авторы, которые предоставили исследователям достаточно информации, чтобы переделать исследования, иногда с изменениями. Ни в одной из 193 рассмотренных статей не были полностью описаны протоколы экспериментов, а для воспроизведения 70% экспериментов требовалось запросить ключевые реагенты. [80] [81] Вышеупомянутое исследование эмпирических результатов в журнале «Стратегический менеджмент» показало, что 70% из 88 статей не могут быть воспроизведены из-за отсутствия достаточной информации для данных или процедур. [84] [88] В сфере водных ресурсов и управления большинство из 1987 статей, опубликованных в 2017 году, не удалось воспроизвести из-за отсутствия доступной информации, размещенной в Интернете. [89]
Сомнительные исследовательские практики (QRP) — это преднамеренное поведение, которое извлекает выгоду из серой зоны приемлемого научного поведения или использует степени свободы исследователя (исследователь DF), что может способствовать невоспроизводимости результатов за счет увеличения вероятности ложноположительных результатов. [109] [110] [38] Исследователь DF проявляется в формулировании гипотез , планировании экспериментов , сборе и анализе данных , а также составлении отчетов об исследованиях . [110] Некоторыми примерами QRP являются сбор данных , [110] [111] [37] [c] выборочное сообщение , [109] [110] [111] [37] [d] и выдвижение гипотез (выдвижение гипотез после того, как станут известны результаты) . [110] [111] [37] [e] В медицине невоспроизводимые исследования имеют шесть общих черт. К ним относятся исследователи, которые не закрывают глаза на экспериментальную группу по сравнению с контрольной группой, неспособность повторить эксперименты, отсутствие положительного и отрицательного контроля , неспособность сообщить все данные, ненадлежащее использование статистических тестов и использование реагентов, которые не были должным образом проверены. . [113]
QRP не включает более явные нарушения научной честности, такие как фальсификация данных. [109] [110] Мошеннические исследования действительно случаются, как в случае с научным мошенничеством со стороны социального психолога Дидерика Стапеля , [114] [13] когнитивного психолога Марка Хаузера и социального психолога Лоуренса Санны, [13] но это, похоже, редкость. [13]
По словам профессора Международного университета Эрнеста О'Бойла и психолога Мартина Гетца, около 50% исследователей, опрошенных в ходе различных исследований, признались, что занимаются HARKing. [115] В опросе 2000 психологов, проведенном ученым-бихевиористом Лесли К. Джоном и его коллегами, около 94% психологов признались, что использовали хотя бы один QRP. В частности, 63% признались, что не сообщили обо всех зависимых показателях исследования, 28% сообщили обо всех условиях исследования и 46% выборочно сообщили об исследованиях, которые дали желаемую картину результатов. Кроме того, 56% признались, что собрали больше данных после проверки уже собранных данных, а 16% — что прекратили сбор данных, поскольку желаемый результат уже был виден. [37] По оценкам исследователя биотехнологии Дж. Лесли Глика в 1992 году, от 10% до 20% исследований и разработок включали либо QRP, либо откровенное мошенничество. [116] Методика, используемая для оценки QRP, оспаривается, и более поздние исследования показали, что в среднем уровень распространенности ниже. [117]
Метаанализ 2009 года показал, что 2% ученых в разных областях хотя бы один раз признались в фальсификации исследований, а 14% признались, что знали кого-то, кто это сделал. Согласно одному исследованию, о таких нарушениях чаще сообщали медицинские исследователи, чем другие. [118]
По мнению профессора Университета Дикина Тома Стэнли и его коллег, одной из вероятных причин, по которой исследования не воспроизводятся, является низкая статистическая мощность . Это происходит по трем причинам. Во-первых, повторное исследование с низкой мощностью вряд ли будет успешным, поскольку по определению оно имеет низкую вероятность обнаружить истинный эффект. Во-вторых, если исходное исследование имеет низкую мощность, оно даст необъективные оценки размера эффекта . При проведении априорного анализа мощности для исследования репликации это приведет к недооценке необходимого размера выборки. В-третьих, если исходное исследование имеет низкую мощность, вероятность того, что после исследования будет получен статистически значимый результат, отражающий истинный эффект, довольно низка. Поэтому вполне вероятно, что попытка повторить оригинальное исследование потерпит неудачу. [14]
Стэнли и его коллеги оценили среднюю статистическую мощность психологической литературы, проанализировав данные 200 метаанализов . Они обнаружили, что в среднем статистические данные психологических исследований составляют от 33,1% до 36,4%. Эти значения довольно низкие по сравнению с 80%, которые считаются адекватной статистической мощностью для эксперимента. По данным 200 метаанализов медиана исследований с адекватной статистической мощностью составляла от 7,7% до 9,1%. [14]
В исследовании, опубликованном в журнале Nature , психолог Кэтрин Баттон и ее коллеги провели аналогичное исследование с 49 метаанализами в области нейробиологии, оценивая медианную статистическую мощность в 21%. [119] Метаученый Джон Иоаннидис и его коллеги рассчитали оценку средней мощности для эмпирических экономических исследований, найдя медианную мощность 18% на основе литературы, основанной на 6700 исследованиях. [120] В свете этих результатов вполне вероятно, что основной причиной широко распространенных неудач в воспроизведении в нескольких научных областях может быть очень низкая статистическая мощность в среднем.
Как также сообщили Стэнли и его коллеги, еще одной причиной, по которой исследования могут не воспроизвестися, является высокая гетерогенность эффектов, которые предстоит воспроизвести. В метаанализе «гетерогенность» относится к расхождениям в результатах исследований, возникающим в результате отсутствия единого истинного размера эффекта. Вместо этого результаты в таких случаях лучше рассматривать как распределение истинных эффектов. [14] Статистическая неоднородность рассчитывается с использованием статистики I-квадрат, [121] определяемой как «доля (или процент) наблюдаемых различий между сообщаемыми размерами эффекта, которые не могут быть объяснены рассчитанными стандартными ошибками, связанными с этими сообщенными размерами эффекта». [14] Эти различия могут быть связаны с различиями в экспериментальных методах, популяциях, когортах и статистических методах между повторными исследованиями. Гетерогенность представляет собой проблему для исследований, пытающихся воспроизвести ранее обнаруженные размеры эффекта . Когда гетерогенность высока, последующие повторы имеют высокую вероятность обнаружить размер эффекта, радикально отличающийся от исходного исследования. [ф]
Важно отметить, что значительные уровни гетерогенности также обнаруживаются при прямой/точной репликации исследования. Стэнли и его коллеги обсуждают это, сообщая об исследовании количественного поведенческого ученого Ричарда Кляйна и его коллег, в котором авторы попытались воспроизвести 15 психологических эффектов в 36 различных местах в Европе и США. из 16 эффектов (I-квадрат = от 23% до 91%). Важно отметить, что хотя сайты репликации намеренно различались по ряду характеристик, такие различия могли объяснить очень небольшую гетерогенность. По мнению Стэнли и его коллег, это предполагает, что гетерогенность могла быть подлинной характеристикой исследуемых явлений. Например, на явления могут влиять так называемые «скрытые модераторы» — соответствующие факторы, которые ранее не считались важными для производства определенного эффекта.
В своем анализе 200 метаанализов психологических эффектов Стэнли и его коллеги обнаружили, что средний процент гетерогенности I-квадрата = 74%. По мнению авторов, такой уровень неоднородности можно считать «огромным». Это в три раза больше, чем дисперсия величины эффекта случайной выборки, измеренная в их исследовании. Если рассматривать ошибку выборки , гетерогенность дает стандартное отклонение от одного исследования к другому, даже превышающее медианный размер эффекта 200 метаанализов, которые они исследовали. [g] Авторы приходят к выводу, что если репликация определяется последующим исследованием, обнаружившим размер эффекта, достаточно похожий на исходный, успех репликации маловероятен, даже если репликации имеют очень большие размеры выборки. Важно отметить, что это происходит, даже если репликации являются прямыми или точными, поскольку гетерогенность, тем не менее, в этих случаях остается относительно высокой.
В экономике кризис репликации также может усугубляться из-за хрупкости эконометрических результатов: [122] использование различных, но правдоподобных процедур оценки или методов предварительной обработки данных может привести к противоречивым результатам. [123] [124] [125]
Профессор Нью-Йоркского университета Джей Ван Бавел и его коллеги утверждают, что еще одна причина, по которой результаты трудно воспроизвести, — это чувствительность к контексту определенных психологических эффектов. С этой точки зрения, неудачи в репликации могут быть объяснены контекстуальными различиями между исходным экспериментом и репликацией, часто называемыми «скрытыми модераторами ». [126] Ван Бавел и его коллеги проверили влияние контекстной чувствительности, повторно проанализировав данные широко цитируемого проекта воспроизводимости, реализованного Open Science Collaboration. [11] Они перекодировали эффекты в соответствии с их чувствительностью к контекстуальным факторам, а затем проверили взаимосвязь между контекстной чувствительностью и успехом репликации в различных регрессионных моделях .
Было обнаружено, что чувствительность к контексту отрицательно коррелирует с успехом репликации, так что более высокие оценки чувствительности к контексту были связаны с более низкой вероятностью воспроизведения эффекта. [h] Важно отметить, что чувствительность к контексту значительно коррелировала с успехом репликации даже с поправкой на другие факторы, считающиеся важными для воспроизведения результатов (например, размер эффекта и размер выборки оригинала, статистическая мощность репликации, методологическое сходство между оригиналом и репликацией). [i] В свете результатов авторы пришли к выводу, что попытка репликации в другое время, в другом месте или с другим образцом может существенно изменить результаты эксперимента. Таким образом, чувствительность к контексту может быть причиной того, что некоторые эффекты не воспроизводятся в психологии. [126]
По мнению философа Александра Берда, возможная причина низких показателей воспроизводимости в некоторых научных областях заключается в том, что большинство проверенных гипотез априори ложны . [127] С этой точки зрения, низкие показатели воспроизводимости могут соответствовать качеству науки. Кроме того, ожидание того, что большинство результатов должны быть воспроизведены, было бы ошибочным и, по мнению Бёрда, является формой ошибки базовой ставки. Аргумент Берда работает следующим образом. Предполагая идеальную ситуацию теста значимости, при которой вероятность неправильного отклонения нулевой гипотезы составляет 5% (т.е. ошибка типа I ), а вероятность правильного отклонения нулевой гипотезы составляет 80% (т.е. мощность ), в контексте, где высокая доля проверенных гипотез оказывается ложной, вполне возможно, что количество ложноположительных результатов будет большим по сравнению с числом истинноположительных результатов. [127] Например, в ситуации, когда только 10% проверенных гипотез на самом деле верны, можно подсчитать, что до 36% результатов будут ложноположительными. [Дж]
Утверждение о том, что ложность большинства проверенных гипотез может объяснить низкие показатели воспроизводимости, становится еще более актуальным, если учесть, что средняя мощность статистических тестов в определенных областях может быть намного ниже 80%. Например, доля ложноположительных результатов возрастает до значения от 55,2% до 57,6% при расчете с оценками средней мощности от 34,1% до 36,4% для психологических исследований, как это предоставили Стэнли и его коллеги в своем анализе 200 мета-положительных результатов. анализы в полевых условиях. [14] Высокая доля ложноположительных результатов приведет к тому, что многие результаты исследований станут невоспроизводимыми.
Бёрд отмечает, что утверждение о том, что большинство проверенных гипотез априори ложны в определенных научных областях, может быть правдоподобным, учитывая такие факторы, как сложность исследуемых явлений, тот факт, что теории редко являются бесспорными, «дистанция вывода» между теориями и гипотезы и легкость, с которой можно генерировать гипотезы. В этом отношении Берд приводит в качестве примера клиническую медицину, генетическую и молекулярную эпидемиологию и социальную психологию. Эта ситуация радикально отличается в областях, где теории имеют выдающуюся эмпирическую основу и гипотезы могут быть легко выведены из теорий (например, экспериментальная физика). [127]
Когда в литературе эффекты ошибочно указываются как релевантные, неспособность обнаружить это путем репликации приведет к канонизации таких ложных фактов. [128]
Исследование 2021 года показало, что статьи в ведущих журналах по общей тематике, психологии и экономике с выводами, которые невозможно воспроизвести, с течением времени имеют тенденцию цитироваться чаще, чем воспроизводимые исследовательские статьи, вероятно, потому, что эти результаты неожиданны или интересны. На эту тенденцию не влияет публикация неудачных репродукций, после чего только 12% статей, цитирующих оригинальные исследования, будут упоминать о неудачных репликациях. [129] [130] Кроме того, эксперты могут предсказать, какие исследования будут воспроизводиться, что привело авторов исследования 2021 года Марту Серра-Гарсия и Ури Гнизи к выводу, что эксперты применяют более низкие стандарты к интересным результатам при принятии решения о публикации. их. [130]
В научном сообществе были выражены опасения, что широкая общественность может считать науку менее заслуживающей доверия из-за неудачных попыток повторения. [131] Исследования, подтверждающие эту обеспокоенность, редки, но общенациональное репрезентативное исследование в Германии показало, что более 75% немцев не слышали о неудачах в науке. [132] Исследование также показало, что большинство немцев положительно воспринимают усилия по тиражированию: только 18% считают, что отсутствие тиражирования показывает, что науке нельзя доверять, в то время как 65% считают, что исследования тиражирования показывают, что наука применяет контроль качества, и 80% согласны с этим. что ошибки и исправления являются частью науки. [132]
Поскольку кризис репликации психологии привлек внимание, психолог из Принстонского университета Сьюзен Фиск вызвала споры за то, что выступила против критиков психологии за то, что она назвала издевательствами и подрывом науки. [133] [134] [135] [136] Она назвала этих неопознанных «противников» такими именами, как «методологический террорист» и «самопровозглашенная полиция данных», заявив, что критику психологии следует высказывать только в частном порядке или путем обращения к журналы. [133] Статистик и политолог Колумбийского университета Эндрю Гельман ответил Фиске, заявив, что она обнаружила, что готова терпеть «мертвую парадигму» ошибочной статистики и отказывалась отозвать публикации, даже когда были указаны ошибки. [133] Он добавил, что ее пребывание на посту редактора было ужасным и что ряд опубликованных статей, которые она редактировала, были основаны на крайне слабых статистических данных; одна из опубликованных самим Фиске статей содержала серьезную статистическую ошибку и «невозможные» выводы. [133]
Некоторые исследователи в области психологии указывают, что кризис репликации является основой «революции доверия», когда изменения в стандартах, по которым оценивается психологическая наука, могут включать в себя акцент на прозрачности и открытости, предварительную регистрацию исследовательских проектов и тиражирование исследований с более высокими стандартами для улучшения доказательств. Сила научных утверждений. [137] Такие изменения могут снизить продуктивность отдельных исследователей, но этого эффекта можно избежать путем обмена данными и более тесного сотрудничества. [137] Революция доверия могла бы пойти на пользу исследовательской среде. [138]
Сосредоточение внимания на кризисе репликации привело к возобновлению усилий в психологии по повторной проверке важных результатов. [38] [139] Специальный выпуск журнала «Социальная психология» за 2013 год был посвящен исследованиям репликации. [12]
Предложены стандартизация , а также (требование) прозрачности используемых статистических и экспериментальных методов. [140] Тщательное документирование экспериментальной установки считается решающим для воспроизводимости экспериментов, и различные переменные не могут быть документированы и стандартизированы, например, рационы животных в исследованиях на животных. [141]
В статье Джона Иоаннидиса 2016 года подробно обсуждалась тема «Почему большинство клинических исследований бесполезны». [142] Иоаннидис описывает то, что он считает некоторыми проблемами, и призывает к реформе, характеризуя определенные моменты, позволяющие медицинским исследованиям снова стать полезными; Одним из примеров, который он приводит, является необходимость того, чтобы медицина была ориентирована на пациента (например, в форме Института исследования результатов, ориентированных на пациента ), а не в нынешней практике, которая в основном заботится о «потребностях врачей, исследователей или спонсоров».
Метанаука — это использование научной методологии для изучения самой науки. Он стремится повысить качество научных исследований при одновременном сокращении отходов. Он также известен как «исследовательские исследования» и «наука о науке», поскольку он использует методы исследования для изучения того, как проводятся исследования и где можно внести улучшения. Метанаука касается всех областей исследований, и ее называют «взглядом на науку с высоты птичьего полета». [143] По словам Иоаннидиса: «Наука — это лучшее, что случилось с людьми… но мы можем сделать это лучше». [144]
Мета-исследования продолжают проводиться для выявления причин кризиса и их устранения. Методы преодоления кризиса включают предварительную регистрацию научных исследований и клинических испытаний , а также создание таких организаций, как CONSORT и EQUATOR Network , которые выпускают рекомендации по методологии и отчетности. Продолжаются усилия по реформированию системы академического стимулирования, совершенствованию процесса рецензирования , сокращению злоупотреблений статистикой , борьбе с предвзятостью в научной литературе, а также повышению общего качества и эффективности научного процесса.
Некоторые авторы утверждают, что недостаточное информирование об экспериментальных методах является основной причиной кризиса воспроизводимости и что лучшее сообщение о планировании эксперимента и статистическом анализе могло бы улучшить ситуацию. Эти авторы склонны выступать за широкие культурные изменения в научном сообществе в том, как рассматривать статистику, и за более принудительное давление со стороны научных журналов и финансирующих организаций. [145] Однако были высказаны опасения по поводу возможности неправильного применения стандартов прозрачности и тиражирования как к качественным, так и к количественным исследованиям. [146]
К журналам о бизнесе и менеджменте, которые ввели редакционную политику в отношении доступности, репликации и прозрачности данных, относятся журнал «Стратегический менеджмент» , « Журнал международных бизнес-исследований» и « Обзор менеджмента и организации ». [84]
В ответ на обеспокоенность психологов по поводу предвзятости публикаций и сбора данных более 140 психологических журналов приняли рецензирование без учета результатов. При таком подходе исследования принимаются не на основе их результатов и после завершения исследований, а до их проведения, а также на основе методологической строгости их экспериментальных планов и теоретического обоснования методов статистического анализа до того, как данные будут получены. проводится сбор или анализ. [147] Ранний анализ этой процедуры показал, что 61% слепых исследований привели к нулевым результатам , в отличие от примерно 5–20% в более ранних исследованиях. [92] Кроме того, в психологии стало гораздо более распространенным явлением крупномасштабное сотрудничество между исследователями, работающими в нескольких лабораториях в разных странах, которые регулярно делают свои данные открытыми для оценки различными исследователями. [148]
Научные публикации начали использовать отчеты предварительной регистрации , чтобы справиться с кризисом репликации. [149] [150] Зарегистрированный формат отчета требует от авторов предоставить описание методов исследования и анализа до сбора данных. После того как метод и план анализа проходят рецензирование, публикация результатов предварительно гарантируется в зависимости от того, соблюдают ли авторы предложенный протокол. Одна из целей зарегистрированных отчетов — избежать предвзятости публикаций в отношении важных результатов, которые могут привести к использованию сомнительных исследовательских практик. Другой вариант — поощрять публикацию исследований с использованием строгих методов.
Журнал Psychoological Science поощряет предварительную регистрацию исследований и сообщение о величине эффекта и доверительных интервалах. [151] Главный редактор также отметил, что редакция будет просить повторить исследования с неожиданными результатами экспертиз с использованием небольших размеров выборки, прежде чем разрешить публикацию рукописей.
Было высказано предположение, что необходим «простой способ проверить, как часто исследования повторялись и подтверждаются ли первоначальные результаты». [129] Категоризация и рейтинг воспроизводимости на уровне исследования или результатов, а также добавление ссылок и рейтинг сторонних подтверждений могут проводиться рецензентами, научным журналом или читателями в сочетании с новыми цифровые платформы или инструменты.
Многие публикации требуют, чтобы значение p было < 0,05 , чтобы заявить о статистической значимости . В документе «Переопределить статистическую значимость» [152] , подписанном большим количеством ученых и математиков, предлагается, чтобы «в областях, где порог для определения статистической значимости для новых открытий составляет р < 0,05, мы предлагаем изменение до р < 0,005. Этот простой шаг немедленно улучшит воспроизводимость научных исследований во многих областях». Их обоснование заключается в том, что «основная причина невоспроизводимости заключается в том, что статистические стандарты доказательности для заявлений о новых открытиях во многих областях науки просто слишком низки . ложных срабатываний даже при отсутствии других экспериментальных, процедурных проблем и проблем с отчетностью». [152]
Этот призыв впоследствии подвергся критике со стороны другой большой группы, которая утверждала, что «переопределение» пороговых значений не решит существующие проблемы, а приведет к появлению некоторых новых, и что, в конечном итоге, все пороговые значения необходимо обосновывать в каждом конкретном случае, а не следуя общим соглашениям. [153]
Хотя статистики единодушны в том, что использование « p < 0,05» в качестве стандарта значимости дает более слабые доказательства, чем обычно принято считать, отсутствует единодушие в отношении того, что следует с этим делать. Некоторые выступают за то, чтобы байесовские методы заменили p -значения. Это не произошло в широком масштабе, отчасти потому, что это сложно, а отчасти потому, что многие пользователи не доверяют спецификациям предыдущих дистрибутивов в отсутствие точных данных. Упрощенную версию байесовского аргумента, основанную на проверке нулевой гипотезы точки, предложил фармаколог Дэвид Колкухун . [154] [155] Логические проблемы индуктивного вывода обсуждались в «Проблеме с p-значениями» (2016). [156]
Опасность зависимости от значений p возникает отчасти потому, что даже наблюдение p = 0,001 не обязательно является убедительным доказательством против нулевой гипотезы. [155] Несмотря на то, что отношение правдоподобия в пользу альтернативной гипотезы по сравнению с нулевой близко к 100, если бы гипотеза была неправдоподобной, с априорной вероятностью реального эффекта, равной 0,1, даже наблюдение p = 0,001 имело бы ложноположительный риск составляет 8 процентов. Ему все равно не удастся достичь уровня 5 процентов.
Было рекомендовано не использовать термины «значительный» и «незначительный». [155] Значения p и доверительные интервалы по-прежнему должны быть указаны, но они должны сопровождаться указанием риска ложноположительных результатов. Было высказано предположение, что лучший способ сделать это — вычислить априорную вероятность, в которую необходимо поверить, чтобы достичь ложноположительного риска определенного уровня, например 5%. Расчеты можно производить с помощью различных компьютерных программ. [155] [157] Этот обратный байесовский подход, который физик Роберт Мэтьюз предложил в 2001 году, [158] является одним из способов избежать проблемы, заключающейся в том, что априорная вероятность редко известна.
Чтобы улучшить качество репликации, часто необходимы более крупные размеры выборки , чем те, которые использовались в исходном исследовании. [159] Необходимы большие размеры выборки, поскольку оценки размеров эффекта в опубликованных работах часто преувеличены из-за систематической ошибки публикации и большой вариативности выборки, связанной с небольшими размерами выборки в оригинальном исследовании. [160] [161] [162] Кроме того, использование порогов значимости обычно приводит к завышенным эффектам, поскольку, особенно при небольших размерах выборки, только самые большие эффекты станут значимыми. [163]
В июле 2016 года Нидерландская организация научных исследований выделила 3 миллиона евро на повторные исследования. Финансирование предназначено для тиражирования на основе повторного анализа существующих данных и тиражирования путем сбора и анализа новых данных. Финансирование доступно в области социальных наук, медицинских исследований и инноваций в области здравоохранения. [164]
В 2013 году Фонд Лоры и Джона Арнольдов профинансировал запуск Центра открытой науки, выделив грант в размере 5,25 миллиона долларов. К 2017 году он предоставил дополнительно 10 миллионов долларов финансирования. [165] Он также профинансировал запуск Инновационного центра мета-исследований в Стэнфорде при Стэнфордском университете, которым руководят Иоаннидис и ученый-медик Стивен Гудман для изучения способов улучшения научных исследований. [165] Он также обеспечил финансирование инициативы AllTrials , частично возглавляемой ученым-медиком Беном Голдакром . [165]
На основе курсовой работы по экспериментальным методам в Массачусетском технологическом институте, Стэнфорде и Вашингтонском университете было высказано предположение, что курсы по психологии и другим областям должны делать упор на попытках воспроизведения, а не на оригинальных исследованиях. [166] [167] [168] Такой подход поможет студентам изучить научную методологию и обеспечить многочисленные независимые повторы значимых научных результатов, которые проверят воспроизводимость научных результатов. Некоторые рекомендовали обязать аспирантов опубликовать попытку высококачественного воспроизведения темы, связанной с их докторским исследованием, до окончания учебы. [169]
Некоторые учебные заведения требуют, чтобы студенты бакалавриата представили дипломную работу за последний год, состоящую из оригинального исследования. Дэниел Кинтана, психолог из Университета Осло в Норвегии, рекомендовал поощрять студентов к повторным исследованиям в дипломных проектах, а также обучать их открытой науке . [170]
Исследователи продемонстрировали способ полуавтоматического тестирования на воспроизводимость: утверждения об экспериментальных результатах были извлечены по состоянию на 2022 год из несемантических статей по исследованию экспрессии генов рака и впоследствии воспроизведены с помощью робота-ученого « Ева ». [171] [172] Проблемы этого подхода заключаются в том, что он может быть неосуществим для многих областей исследований и что достаточные экспериментальные данные не могут быть извлечены из некоторых или многих статей, даже если они доступны.
Психолог Дэниел Канеман утверждал, что в психологии к повторению следует привлекать первоначальных авторов, поскольку опубликованные методы часто слишком расплывчаты. [173] [174] Другие, такие как психолог Эндрю Уилсон, не согласны с этим, утверждая, что первоначальные авторы должны подробно описать методы. [173] Исследование показателей репликации в психологии в 2012 году показало более высокие показатели успеха репликации в исследованиях репликации, когда авторы пересекались с первоначальными авторами исследования [175] (91,7% успешных показателей репликации в исследованиях с дублированием авторов по сравнению с 64,6 % успешных показателей репликации без дублирования авторов).
Кризис репликации привел к формированию и развитию различных крупномасштабных и совместных сообществ, объединяющих свои ресурсы для решения одного вопроса в разных культурах, странах и дисциплинах. [176] Основное внимание уделяется репликации, чтобы гарантировать, что эффект распространяется за пределы конкретной культуры, и выяснить, является ли этот эффект воспроизводимым и подлинным. [177] Это позволяет проводить междисциплинарные внутренние обзоры, использовать различные точки зрения, использовать единые протоколы во всех лабораториях и набирать более крупные и разнообразные образцы. [177] Исследователи могут сотрудничать, координируя сбор данных или финансируя сбор данных исследователями, которые могут не иметь доступа к средствам, что позволяет увеличить размер выборки и повысить надежность выводов.
Психолог Маркус Р. Мунафо и эпидемиолог Джордж Дэйви Смит в статье, опубликованной в журнале Nature , утверждают, что исследования должны делать упор на триангуляцию , а не просто на репликацию, чтобы защититься от ошибочных идей. Они утверждают, что
одна только репликация приведет нас лишь к определенному результату (и) на самом деле может усугубить ситуацию ... [Триангуляция] - это стратегическое использование нескольких подходов для решения одного вопроса. Каждый подход имеет свои собственные несвязанные предположения, сильные и слабые стороны. Результаты, согласующиеся при использовании различных методологий, с меньшей вероятностью будут артефактами . ... Возможно, одной из причин, по которой копирование вызвало такой большой интерес, является часто повторяемая идея о том, что фальсификация лежит в основе научной деятельности. Эта идея была популяризирована максимой Карла Поппера 1950-х годов о том, что теории невозможно доказать, а только фальсифицировать. Тем не менее, чрезмерный упор на повторение экспериментов может создать необоснованное чувство уверенности в результатах, основанных на одном подходе. ... философы науки пошли дальше со времен Поппера. Лучшие описания того, как на самом деле работают ученые, включают то, что эпистемолог Питер Липтон в 1991 году назвал «выводом к лучшему объяснению». [178]
Доминирующей научной и статистической моделью причинно-следственной связи является линейная модель. [179] Линейная модель предполагает, что ментальные переменные — это стабильные свойства, независимые друг от друга. Другими словами, ожидается, что эти переменные не будут влиять друг на друга. Вместо этого модель предполагает, что переменные будут иметь независимое линейное влияние на наблюдаемые результаты. [179]
Социологи Себастьян Уоллот и Дамиан Келти-Стивен утверждают, что линейная модель не всегда подходит. [179] Альтернативой является модель сложной системы, которая предполагает, что ментальные переменные взаимозависимы. Эти переменные не считаются стабильными, скорее, они будут взаимодействовать и адаптироваться к каждому конкретному контексту. [179] Они утверждают, что модель сложной системы часто более уместна в психологии, и что использование линейной модели, когда модель сложной системы более уместна, приведет к неудачным повторениям. [179]
...психология, возможно, надеется на повторение в тех самых измерениях и в тех самых условиях, когда растущее количество психологических данных явно препятствует прогнозированию повторения. Неспособность воспроизвести может быть явно связана с потенциально неполной, но широкомасштабной неспособностью человеческого поведения соответствовать стандарту независимости... [179]
Воспроизведение имеет основополагающее значение для научного прогресса и позволяет подтвердить оригинальные результаты. Однако одной лишь репликации недостаточно для разрешения кризиса репликации. Усилия по воспроизведению должны быть направлены не только на поддержку или сомнение в первоначальных результатах, но и на замену их пересмотренными, более сильными теориями с большей объяснительной силой. Таким образом, этот подход предполагает сокращение существующих теорий, сравнение всех альтернативных теорий, а также придание усилиям по воспроизведению более продуктивного характера и участие в построении теорий. [180] [181] Однако одного лишь повторения недостаточно. Важно оценить степень обобщения результатов в географических, исторических и социальных контекстах. Важно, чтобы некоторые научные области, особенно практики и политики, проводили анализ, чтобы направлять важные стратегические решения. Воспроизводимые и воспроизводимые результаты оказались лучшим показателем возможности обобщения за пределами исторического и географического контекста, указывая на то, что для социальных наук результаты, полученные в определенный период времени и в определенном месте, могут существенно влиять на то, что универсально присутствует у людей. [182]
Открытые данные, программное обеспечение с открытым исходным кодом и аппаратное обеспечение с открытым исходным кодом имеют решающее значение для обеспечения воспроизводимости в смысле проверки исходного анализа данных. Использование проприетарного программного обеспечения, отсутствие публикации аналитического программного обеспечения и отсутствие открытых данных препятствуют тиражированию исследований. Если программное обеспечение, используемое в исследованиях, не является открытым исходным кодом, воспроизведение результатов с использованием различных конфигураций программного и аппаратного обеспечения невозможно. [183] В ЦЕРН есть проекты «Открытые данные» и «Сохранение анализа» ЦЕРН для хранения данных, всей соответствующей информации, а также всего программного обеспечения и инструментов, необходимых для сохранения анализа в ходе крупных экспериментов БАК . Помимо всего программного обеспечения и данных, сохраненные аналитические активы включают метаданные, которые позволяют понять рабочий процесс анализа, соответствующее программное обеспечение, систематические неопределенности, статистические процедуры и значимые способы поиска анализа, а также ссылки на публикации и резервные материалы. [184] Программное обеспечение ЦЕРН имеет открытый исходный код и доступно для использования за пределами физики элементарных частиц , а для других областей предоставляются некоторые рекомендации по широким подходам и стратегиям, используемым для открытой науки в современной физике элементарных частиц. [185]
Онлайн-хранилища, в которых данные, протоколы и выводы могут храниться и оцениваться общественностью, стремятся улучшить целостность и воспроизводимость исследований. Примеры таких репозиториев включают Open Science Framework , Registry of Research Data Repositories и Psychfiledrawer.org. Такие сайты, как Open Science Framework, предлагают значки за использование практик открытой науки, чтобы стимулировать ученых. Однако существуют опасения, что те, кто, скорее всего, предоставят свои данные и код для анализа, являются наиболее опытными исследователями. [186] Иоаннидис предположил, что «может возникнуть парадокс: самые дотошные, изощренные, методически подкованные и осторожные исследователи могут стать более восприимчивыми к критике и атакам на репутацию со стороны реанализаторов, которые охотятся за ошибками, независимо от того, насколько незначительными являются эти ошибки». [186]
Неуместная практика поиска в больших массивах информации в попытке подтвердить предвзятую гипотезу или убеждение без адекватного дизайна, который исключает возможные сбивающие с толку или альтернативные гипотезы.
Извлечение данных может включать выбор частей большого набора данных, которые следует сохранить, чтобы получить конкретные желаемые результаты.
Использование значений p в течение почти столетия [с 1925 года] для определения статистической значимости экспериментальных результатов способствовало возникновению иллюзии уверенности и [к] кризисам воспроизводимости во многих научных областях . Растет решимость реформировать статистический анализ... Некоторые [исследователи] предлагают изменить статистические методы, тогда как другие готовы отказаться от порога для определения «значимых» результатов.