stringtranslate.com

Кризис репликации

первая страница исследовательской работы
Иоаннидис (2005): « Почему большинство опубликованных результатов исследований ложны ». [1]

Кризис репликации [ а] — это продолжающийся методологический кризис, при котором результаты многих научных исследований трудно или невозможно воспроизвести . Поскольку воспроизводимость эмпирических результатов является неотъемлемой частью научного метода , [2] такие неудачи подрывают доверие к теориям, основанным на них, и потенциально ставят под сомнение существенные части научных знаний.

Кризис репликации часто обсуждается в контексте психологии и медицины , где были предприняты значительные усилия для повторного исследования классических результатов, чтобы определить, надежны ли они, и, если они окажутся неправильными, причины неудачи. [3] [4] Данные убедительно свидетельствуют о том, что другие естественные и социальные науки также страдают. [5]

Фраза « кризис репликации» была придумана в начале 2010-х годов [6] как часть растущего осознания этой проблемы. Рассмотрение причин и средств лечения привело к возникновению новой научной дисциплины — метанауки , [7] которая использует методы эмпирического исследования для изучения практики эмпирических исследований.

Соображения относительно воспроизводимости можно разделить на две категории. Воспроизводимость в узком смысле означает повторное изучение и проверку анализа данного набора данных. Репликация означает повторение эксперимента или исследования для получения новых независимых данных с целью достижения тех же или аналогичных выводов.

Фон

Репликация

Репликацию называют «краеугольным камнем науки». [8] [9] Ученый по вопросам гигиены окружающей среды Стефан Шмидт начал обзор 2009 года с такого описания репликации:

Репликация — одна из центральных проблем любой эмпирической науки. Подтверждение результатов или гипотез методом повторения лежит в основе любой научной концепции. Повторный эксперимент, призванный продемонстрировать, что те же результаты могут быть получены в любом другом месте любым другим исследователем, задуман как операционализация объективности. Это доказательство того, что эксперимент отражает знание, которое можно отделить от конкретных обстоятельств (таких как время, место или люди), при которых оно было получено. [10]

Но существует ограниченный консенсус относительно того, как определять репликацию и потенциально связанные с ней концепции. [11] [12] [10] Был выявлен ряд типов репликации:

  1. Прямая или точная репликация , при которой экспериментальная процедура повторяется как можно точнее. [10] [13]
  2. Систематическое повторение , при котором экспериментальная процедура в значительной степени повторяется с некоторыми преднамеренными изменениями. [13]
  3. Концептуальная репликация , при которой открытие или гипотеза проверяются с использованием другой процедуры. [10] [13] Концептуальная репликация позволяет проверить обобщаемость и достоверность результата или гипотезы. [13]

Воспроизводимость также можно отличить от репликации , поскольку она относится к воспроизведению одних и тех же результатов с использованием одного и того же набора данных. Воспроизводимость такого типа является причиной того, что многие исследователи предоставляют свои данные другим для тестирования. [14]

Кризис репликации не обязательно означает, что эти области ненаучны. [15] [16] [17] Скорее, этот процесс является частью научного процесса, в котором отсекаются старые идеи или те идеи, которые не выдерживают тщательного изучения, [18] [19] хотя этот процесс обрезки не всегда эффективен. [20] [21]

Гипотеза обычно считается подтвержденной, если результаты соответствуют предсказанному образцу и этот образец результатов оказывается статистически значимым . Результаты считаются значимыми, если относительная частота наблюдаемой закономерности падает ниже произвольно выбранного значения (т.е. уровня значимости ) при предположении, что нулевая гипотеза верна. В целом это отвечает на вопрос о том, насколько маловероятными были бы результаты, если бы на уровне статистической совокупности не существовало различий . Если вероятность, связанная со статистикой теста, превышает выбранное критическое значение , результаты считаются статистически значимыми. [22] Соответствующая вероятность превышения критического значения обозначается как p  <0,05, где p (обычно называемое « p -значением ») — уровень вероятности. Это должно привести к тому, что 5% подтвержденных гипотез окажутся ложноположительными (неправильная гипотеза будет ошибочно признана правильной), при условии, что исследования соответствуют всем статистическим предположениям. В некоторых полях используются меньшие значения p, например p  < 0,01 (вероятность ложноположительного результата 1%) или p  < 0,001 (вероятность ложноположительного результата 0,1%). Но меньшая вероятность ложноположительного результата часто требует большего размера выборки или большей вероятности ложноотрицательного результата (верная гипотеза ошибочно оказывается неверной) . Хотя тестирование p -значения является наиболее часто используемым методом, это не единственный метод.

Статистика

Некоторые термины, обычно используемые при обсуждении кризиса репликации, имеют технически точные значения, которые представлены здесь. [1]

В наиболее распространенном случае проверки нулевой гипотезы существуют две гипотезы: нулевая гипотеза и альтернативная гипотеза . Нулевая гипотеза обычно имеет форму «X и Y статистически независимы ». Например, нулевая гипотеза может заключаться в том, что «прием препарата X не меняет годовую скорость выздоровления от болезни Y», а альтернативная гипотеза состоит в том, что она действительно меняется.

Поскольку проверка полной статистической независимости затруднена, полную нулевую гипотезу часто упрощают до упрощенной нулевой гипотезы «размер эффекта равен 0», где « размер эффекта » — это действительное число, равное 0, если полная нулевая гипотеза верна, и чем больше размер эффекта, тем в большей степени ложна нулевая гипотеза. [23] Например, если X является двоичным, то размер эффекта можно определить как изменение ожидания Y при изменении X: Обратите внимание, что размер эффекта, как определено выше, может быть равен нулю, даже если X и Y не являются независимый, например, когда . Поскольку разные определения «размера эффекта» отражают разные способы зависимости X и Y, существует много разных определений размера эффекта.

На практике размеры эффекта невозможно наблюдать напрямую, их необходимо измерять с помощью статистических оценок . Например, приведенное выше определение размера эффекта часто измеряется с помощью оценщика Коэна . Один и тот же размер эффекта может иметь несколько оценок, поскольку они имеют компромисс между эффективностью , смещением , дисперсией и т. д. Это еще больше увеличивает количество возможных статистических величин, которые можно вычислить на одном наборе данных. Когда для статистического тестирования используется оценщик размера эффекта, он называется тестовой статистикой .

Иллюстрация 4 возможных результатов проверки нулевой гипотезы: ложноотрицательный, истинно отрицательный, ложноположительный, истинно положительный. На этой иллюстрации проверка гипотезы представляет собой односторонний пороговый тест.

Проверка нулевой гипотезы — это процедура принятия решения, которая принимает некоторые данные и выводит либо или . Если он выдает , это обычно указывается как «имеется статистически значимый эффект» или «нулевая гипотеза отклонена».

Часто статистический тест представляет собой (односторонний) пороговый тест , который структурирован следующим образом:

  1. Соберите данные .
  2. Вычислите тестовую статистику для данных.
  3. Сравните статистику теста с критическим значением / порогом . Если , то вывести , иначе — вывести .

Двусторонний пороговый тест аналогичен, но с двумя порогами, так что он выводит, если либо

Существует 4 возможных результата проверки нулевой гипотезы: ложноотрицательный, истинно отрицательный, ложноположительный, истинно положительный. Ложноотрицательный результат означает, что это правда, но результат теста ; истинно отрицательный результат означает, что это правда, и результат теста равен и т. д.

Взаимодействие между размером выборки, размером эффекта и статистической мощностью. Показаны распределения выборочных средних при нулевой (θ=0) и альтернативной гипотезах. Заштрихованная красная область представляет значимость (α), постоянную на уровне 0,05, а заштрихованная зеленая область представляет статистическую мощность (1-β). По мере увеличения размера выборки распределения сужаются, что приводит к более четкому разделению между гипотезами и более высокой степенью мощности. Аналогичным образом, больший размер эффекта увеличивает расстояние между распределениями, что приводит к большей мощности.

Уровень значимости , уровень ложных срабатываний или альфа-уровень — это вероятность того, что альтернатива окажется истинной, когда нулевая гипотеза верна:например, когда тест представляет собой односторонний пороговый тест,гдеозначает «данные взято из".

Статистическая мощность , истинно положительный уровень, — это вероятность того, что альтернатива окажется истинной, когда альтернативная гипотеза верна:этотакже называется ложноотрицательным уровнем. Например, если тест представляет собой односторонний пороговый тест, то.

Учитывая статистический тест и набор данных , соответствующее значение p представляет собой вероятность того, что статистика теста будет, по крайней мере, столь же экстремальной, при условии . Например, для одностороннего порогового теста: если нулевая гипотеза верна, то значение p распределяется равномерно на . В противном случае оно обычно достигает максимума и примерно экспоненциально, хотя точная форма распределения значений p зависит от альтернативной гипотезы. [24] [25]

Поскольку значение p распределяется равномерно при условии выполнения нулевой гипотезы, можно построить статистический тест с любым уровнем значимости, просто вычислив значение p, а затем вывести if . Обычно это формулируется как «нулевая гипотеза отвергается на уровне значимости » или « », например, «курение коррелирует с раком (p <0,001)».

История

Начало репликационного кризиса можно отнести к ряду событий начала 2010-х годов. Философ науки и социальный эпистемолог Фелипе Ромеро выделил четыре события, которые можно считать предвестниками продолжающегося кризиса: [26]

Эта серия событий породила большой скептицизм в отношении достоверности существующих исследований в свете широко распространенных методологических ошибок и неспособности воспроизвести результаты. Это побудило видных учёных объявить о «кризисе доверия» в психологии и других областях, [41] и возникшая ситуация стала известна как «кризис репликации».

Хотя начало кризиса репликации можно отнести к началу 2010-х годов, некоторые авторы отмечают, что опасения по поводу воспроизводимости и исследовательской практики в социальных науках были выражены гораздо раньше. Ромеро отмечает, что авторы выражали обеспокоенность по поводу отсутствия прямых повторов в психологических исследованиях конца 1960-х и начала 1970-х годов. [42] [43] Он также пишет, что в некоторых исследованиях 1990-х годов уже сообщалось, что редакторы и рецензенты журналов, как правило, предвзято относятся к публикации повторных исследований. [44] [45]

В социальных науках блог Data Colada (трое авторов которого в 2014 году ввели термин « p-хакинг ») считается вкладом в начало кризиса репликации. [46] [47] [48]

Профессор Университета Вирджинии и когнитивный психолог Барбара А. Спеллман написала, что многие критические замечания в отношении исследовательской практики и опасения по поводу воспроизводимости исследований не новы. [49] Она сообщает, что в период с конца 1950-х по 1990-е годы ученые уже выражали обеспокоенность по поводу возможного кризиса репликации, [50] подозрительно высокого уровня положительных результатов, [51] сомнительных исследовательских практик (QRP), [52] последствия предвзятости публикаций, [53] проблемы со статистической достоверностью, [54] [55] и плохие стандарты отчетности. [50]

Спеллман также называет причины, по которым повторение этой критики и опасений в последние годы привело к полномасштабному кризису и изменению статус-кво. Во-первых, технологические усовершенствования облегчили проведение и распространение повторных исследований, а также анализ большого количества литературы по системным проблемам. Во-вторых, растущий размер и разнообразие исследовательского сообщества облегчили работу его авторитетных членов для более тщательного изучения другими членами сообщества, с ними незнакомыми. По мнению Спеллмана, эти факторы в сочетании со все более ограниченными ресурсами и несогласованными стимулами для занятий научной работой привели к кризису в психологии и других областях. [49]

По мнению Эндрю Гельмана , [56] работы Пола Миля, Джейкоба Коэна, Тверски и Канемана в 1960-70-е годы были ранними предупреждениями кризиса репликации. Исследование инфекционного ожирения, проведенное Кристакисом и Фаулером в 2007 году [57], было более свежим примером весьма влиятельного исследования, которое не удалось повторить. В электронном письме Канеман отметил исторические прецеденты неудачного восстановления подсознательного восприятия и уменьшения диссонанса . [58]

С тех пор неоднократно указывалось (Коэн, 1962) [54] , что большинство психологических исследований имеют низкую мощность (истинно положительный показатель), но низкая мощность сохранялась в течение 50 лет, что указывает на структурную и постоянную проблему в психологических исследованиях. [59] [60]

Распространенность

В психологии

Сочетание нескольких факторов поставило психологию в центр разговора. [61] [62] Некоторые области психологии, когда-то считавшиеся солидными, такие как социальная подготовка и истощение эго , [63] оказались под пристальным вниманием из-за неудачных попыток повторения. [64] Большое внимание уделялось социальной психологии , [65] хотя и другие области психологии, такие как клиническая психология , [66] [67] [68] психология развития , [69] [70] [71] и исследования в области образования. также были замешаны. [72] [73] [74] [75] [76]

В августе 2015 года было опубликовано первое открытое эмпирическое исследование воспроизводимости в психологии под названием « Проект воспроизводимости: психология» . Под руководством психолога Брайана Носека исследователи переделали 100 исследований по психологической науке из трёх высокорейтинговых журналов по психологии ( «Журнал личности и социальной психологии» , «Журнал экспериментальной психологии: обучение, память и познание» и «Психологическая наука »). 97 первоначальных исследований имели значительный эффект, но из этих 97 только 36% повторов дали значимые результаты ( значение p ниже 0,05). [11] Средний размер эффекта в повторениях был примерно вдвое меньше эффектов, о которых сообщалось в первоначальных исследованиях. В той же статье были рассмотрены показатели воспроизводимости и величины эффекта по журналам и дисциплинам. Коэффициент повторения исследования составил 23% для «Журнала личности и социальной психологии» , 48% для «Журнала экспериментальной психологии: обучение, память и познание » и 38% для «Психологической науки» . Исследования в области когнитивной психологии имели более высокий уровень репликации (50%), чем исследования в области социальной психологии (25%). [77]

Из 64% нерепликаций только 25% опровергли первоначальный результат (при статистической значимости). Остальные 49% не дали окончательных результатов, не подтверждая и не опровергая первоначальный результат. Это связано с тем, что многие репликации были недостаточно мощными: выборка была в 2,5 раза меньше исходной. [78]

Исследование, опубликованное в 2018 году в журнале Nature Human Behavior, воспроизвело 21 социальную и поведенческую научную статью из журнала Nature and Science , обнаружив, что только около 62% из них смогли успешно воспроизвести оригинальные результаты. [79] [80]

Аналогичным образом, в исследовании, проведенном под эгидой Центра открытой науки , группа из 186 исследователей из 60 различных лабораторий (представляющих 36 разных национальностей с шести разных континентов) повторила 28 классических и современных открытий в области психологии. [81] [82] В центре внимания исследования было не только то, повторяются ли выводы оригинальных статей, но и степень, в которой результаты различаются в зависимости от вариаций в выборках и контекстах. В целом, 50% из 28 результатов не удалось повторить, несмотря на огромные размеры выборки. Но если результат повторялся, то он воспроизводился в большинстве образцов. Если результат не был воспроизведен, значит, он не смог воспроизвестися с небольшими вариациями в разных образцах и контекстах. Эти данные не согласуются с предлагаемым объяснением того, что неудачи в воспроизведении в психологии, вероятно, связаны с изменениями в выборке между исходным и повторным исследованием. [82]

Результаты исследования 2022 года показывают, что многие более ранние исследования фенотипа мозга ( «исследования ассоциаций всего мозга» (BWAS)) привели к неверным выводам, поскольку для повторения таких исследований требуются образцы от тысяч людей из-за небольшой величины эффекта . [83] [84]

В медицине

График результатов и барьеров. Было спроектировано 193 эксперимента, начато 87 и завершено 50.
Результаты проекта «Воспроизводимость: биология рака» предполагают, что большинство исследований в области исследования рака не могут быть воспроизведены.

Из 49 медицинских исследований с 1990 по 2003 год, получивших более 1000 цитирований, 92% обнаружили, что изучаемые методы лечения эффективны. Из этих исследований 16% противоречили последующим исследованиям, 16% обнаружили более сильные эффекты, чем последующие исследования, 44% были повторены, а 24% остались практически неоспоримыми. [85] Анализ, проведенный в 2011 году исследователями фармацевтической компании Bayer, показал, что не более четверти собственных результатов Bayer повторяют первоначальные результаты. [86] Но анализ результатов Байера показал, что результаты, которые действительно воспроизводились, часто могут быть успешно использованы для клинических применений. [87]

В статье 2012 года К. Гленн Бегли , консультант по биотехнологиям, работающий в Amgen , и Ли Эллис, медицинский исследователь из Техасского университета, обнаружили, что только 11% из 53 доклинических исследований рака имели повторы, которые могли подтвердить выводы оригинальные исследования. [37] В конце 2021 года проект «Проект воспроизводимости: биология рака» изучил 53 ведущие статьи о раке, опубликованные в период с 2010 по 2012 год, и показал, что среди исследований, которые предоставили достаточно информации для переделки, размеры эффекта были в среднем на 85% меньше, чем первоначальные результаты. . [88] [89] Опрос исследователей рака показал, что половина из них не смогла воспроизвести опубликованный результат. [90] В другом отчете подсчитано, что почти половина рандомизированных контролируемых исследований содержала ошибочные данные (на основе анализа анонимных данных отдельных участников (IPD) из более чем 150 исследований). [91]

По другим дисциплинам

В экономике

Экономика отстала от других социальных наук и психологии в своих попытках оценить скорость повторения и увеличить количество исследований, пытающихся повторить. [12] Исследование 2016 года, опубликованное в журнале Science, воспроизвело 18 экспериментальных исследований , опубликованных в двух ведущих экономических журналах, The American Economic Review и Quarterly Journal of Economics , в период с 2011 по 2014 год. Было обнаружено, что около 39% из них не смогли воспроизвести исходные результаты. [92] [93] [94] Около 20% исследований, опубликованных в The American Economic Review, противоречат другим исследованиям, несмотря на то, что они опираются на те же или похожие наборы данных. [95] Исследование эмпирических результатов, опубликованное в журнале Strategic Management Journal, показало, что около 30% из 27 повторно проверенных статей показали статистически незначимые результаты для ранее значимых результатов, тогда как около 4% показали статистически значимые результаты для ранее незначимых результатов. [96]

В управлении водными ресурсами

Исследование, проведенное в журнале Scientific Data в 2019 году , с уверенностью 95% подсчитало, что из 1989 статей по водным ресурсам и управлению, опубликованных в 2017 году, результаты исследования могут быть воспроизведены только в 0,6–6,8%, даже если каждая из этих статей предоставит достаточную информацию, которая позволит для репликации. [97]

По полям

Опрос, проведенный Nature в 2016 году среди 1576 исследователей, заполнивших краткую онлайн-анкету о воспроизводимости, показал, что более 70% исследователей пытались, но не смогли воспроизвести результаты экспериментов другого ученого (в том числе 87% химиков , 77% биологов , 69% физиков) . инженеров , 67% исследователей-медиков , 64% учёных, занимающихся землей и окружающей средой , и 62 % всех остальных), и более половины не смогли воспроизвести свои собственные эксперименты. Но менее чем с 20% связались с другими исследователями, которые не смогли воспроизвести их работу. Опрос показал, что менее 31% исследователей считают, что неспособность воспроизвести результаты означает, что первоначальный результат, вероятно, неверен, хотя 52% согласны с тем, что существует серьезный кризис репликации. Большинство исследователей заявили, что по-прежнему доверяют опубликованной литературе. [5] [98] В 2010 году Фанелли (2010) [99] обнаружил, что 91,5% психиатрических/психологических исследований подтвердили эффекты, которые они искали, и пришел к выводу, что вероятность того, что это произойдет (положительный результат), была примерно в пять раз выше. выше, чем в таких областях, как астрономия или геонауки . Фанелли утверждал, что это происходит потому, что исследователи «мягких» наук меньше ограничивают свои сознательные и бессознательные предубеждения.

Ранний анализ экспертной оценки без учета результатов , на которую меньше влияет предвзятость публикаций, показал, что 61% слепых исследований в области биомедицины и психологии привели к нулевым результатам , в отличие от примерно 5–20% в более ранних исследованиях. . [100]

В 2021 году исследование, проведенное Калифорнийским университетом в Сан-Диего, показало, что статьи, которые невозможно воспроизвести, цитируются в 153 раза чаще. Среди статей, опубликованных в журнале Nature Science , нереплицируемые статьи цитировались в 300 раз чаще, чем тиражируемые. [101] Нереплицируемые публикации часто цитируются чаще даже после публикации повторного исследования. [102]

Причины

Существует множество предполагаемых причин кризиса репликации.

Исторические и социологические причины

Кризис репликации может быть вызван «генерацией новых данных и научных публикаций с беспрецедентной скоростью», что приводит к «отчаянию опубликовать или погибнуть» и неспособности придерживаться хорошей научной практики. [103]

Предсказания о надвигающемся кризисе механизма контроля качества науки можно проследить уже несколько десятилетий. Дерек де Солла Прайс , считающийся отцом наукометрики , количественного исследования науки, предсказал в 1963 году, что наука может достичь «старости» в результате своего собственного экспоненциального роста. [104] Некоторая современная литература, кажется, подтверждает это пророчество о «переполнении», сокрушаясь об упадке как внимания, так и качества. [105] [106]

Историк Филип Мировски утверждает, что снижение качества науки может быть связано с ее коммерциализацией, особенно вызванное решением крупных корпораций, ориентированным на получение прибыли, передать свои исследования на аутсорсинг университетам и контрактным исследовательским организациям . [107]

Теория социальных систем , изложенная в работах немецкого социолога Никласа Лумана , позволяет поставить аналогичный диагноз. Эта теория утверждает, что каждая система, такая как экономика, наука, религия и средства массовой информации, общается, используя свой собственный код: истинный и ложный для науки, прибыли и убытки для экономики, новости и неновости для средств массовой информации и так далее. [108] [109] По мнению некоторых социологов, медиатизация науки , [110] коммодификация, [107] и политизация, [110] [111] в результате структурной связи между системами привели к путанице исходной системы. коды.

Проблемы с системой публикаций в науке

Предвзятость публикации

Основной причиной низкой воспроизводимости является систематическая ошибка публикации, возникающая из-за того, что статистически незначимые результаты и, казалось бы, неоригинальные повторы публикуются редко. Лишь очень небольшая часть академических журналов по психологии и нейробиологии открыто приветствовала представление повторных исследований с указанием их целей и масштабов или инструкций для авторов. [112] [113] Это не поощряет отчеты или даже попытки провести повторные исследования. Среди 1576 исследователей, опрошенных Nature в 2016 году, лишь меньшинство когда-либо пытались опубликовать повторные исследования, а несколько респондентов, опубликовавших неудачные повторения, отметили, что редакторы и рецензенты требовали, чтобы они преуменьшали сравнение с оригинальными исследованиями. [5] [98] Анализ 4270 эмпирических исследований в 18 деловых журналах с 1970 по 1991 год показал, что менее 10% статей по бухгалтерскому учету, экономике и финансам и 5% статей по менеджменту и маркетингу были повторными исследованиями. [92] [114] Предвзятость публикации усиливается давлением с целью публикации и собственной предвзятостью подтверждения автора , [b] и представляет собой неотъемлемую опасность в этой области, требующую определенной степени скептицизма со стороны читателей. [40]

Предвзятость публикации приводит к тому, что психолог Роберт Розенталь называет « эффектом ящика с папками ». Эффект ящика с файлами заключается в том, что из-за предвзятости публикации значительное количество отрицательных результатов [c] не публикуется. По мнению философа науки Фелипе Ромеро, это имеет тенденцию создавать «вводящую в заблуждение литературу и предвзятые метааналитические исследования» [26] , и когда предвзятость публикаций учитывается наряду с тем фактом, что большинство проверенных гипотез могут быть ложными априори , это вполне вероятно, что значительная часть результатов исследований может быть ложноположительной, как показал метаученый Джон Иоаннидис. [1] В свою очередь, высокая доля ложноположительных результатов в опубликованной литературе может объяснить, почему многие результаты невоспроизводимы. [26]

Еще одна предвзятость публикаций заключается в том, что исследования, которые не отвергают нулевую гипотезу, изучаются асимметрично. Например, они, скорее всего, будут отклонены как трудные для интерпретации или что они могут быть ошибкой второго рода. Хотя исследования, которые отвергают нулевую гипотезу, вряд ли будут отвергнуты, поскольку их также трудно интерпретировать или что они могут быть ошибкой I рода. [116]

В популярных средствах массовой информации существует еще один элемент предвзятости публикаций: желание сделать исследования доступными для общественности привело к чрезмерному упрощению и преувеличению результатов, создавая нереалистичные ожидания и усиливая влияние неповторения. Напротив, о нулевых результатах и ​​неудачах при воспроизведении, как правило, не сообщается. Это объяснение может быть применимо и к кризису репликации власти . [117]

Математические ошибки

Даже влиятельные журналы имеют значительную долю математических ошибок при использовании статистики. Например, 11% статистических результатов, опубликованных в журналах Nature и BMJ в 2001 году, являются «неконгруэнтными», что означает, что заявленное значение p математически отличается от того, каким оно должно быть, если бы оно было правильно рассчитано на основе сообщенной статистики теста. Эти ошибки, вероятно, были вызваны ошибками набора, округления и транскрипции. [118]

Среди 157 нейробиологических статей, опубликованных в пяти ведущих журналах и пытающихся показать, что два экспериментальных эффекта различны, 78 вместо этого ошибочно проверяли, является ли один эффект значимым, а другой нет, а 79 правильно проверяли, существенно ли их различие отличается от 0. [119]

Культура «Публикуй или погибни»

Последствия для воспроизводимости предвзятости публикаций усугубляются академической культурой «опубликуй или погибни». Как объяснил метаученый Даниэле Фанелли, культура «публикуй или погибни» — это социологический аспект академических кругов, в соответствии с которым ученые работают в среде с очень высоким давлением, требующим публикации их работ в признанных журналах. Это является следствием сверхконкурентной среды академической работы и того, что библиометрические параметры (например, количество публикаций) все чаще используются для оценки научной карьеры. [120] По мнению Фанелли, это подталкивает ученых к использованию ряда стратегий, направленных на то, чтобы сделать результаты «доступными для публикации». В контексте предвзятости публикаций это может означать принятие поведения, направленного на получение положительных или статистически значимых результатов, часто в ущерб их достоверности (см. QRP, раздел 4.3). [120]

По словам основателя Центра открытой науки Брайана Носека и его коллег, культура «публикуй или погибни» создала ситуацию, в которой цели и ценности отдельных ученых (например, возможность публикации) не совпадают с общими целями науки (например, поиск научной истины). ). Это наносит ущерб достоверности опубликованных результатов. [121]

Философ Брайан Д. Эрп и психолог Джим Эверетт утверждают, что, хотя копирование отвечает интересам ученых и исследователей как группы, особенности академической психологической культуры препятствуют воспроизведению отдельными исследователями. Они утверждают, что выполнение репликаций может занять много времени и отнять ресурсы у проектов, которые отражают оригинальное мышление исследователя. Их сложнее публиковать, главным образом потому, что они неоригинальны, и даже когда их можно будет опубликовать, они вряд ли будут рассматриваться как важный вклад в эту область. Реплики «приносят меньше признания и вознаграждений, в том числе грантов, своим авторам». [122]

В своей книге 1971 года «Научное знание и его социальные проблемы» философ и историк науки Джером Р. Равец предсказал, что наука — в ее развитии от «маленькой» науки, состоящей из изолированных сообществ исследователей, к «большой» науке или «технонауке» — столкнется с серьезными проблемами во внутренней системе контроля качества. Он признал, что структура стимулов для современных ученых может стать дисфункциональной, создавая извращенные стимулы для публикации любых результатов, какими бы сомнительными они ни были. По мнению Равеца, качество науки поддерживается только тогда, когда существует сообщество ученых, связанных набором общих норм и стандартов, которые хотят и могут привлекать друг друга к ответственности.

Стандарты отчетности

Определенная издательская практика также затрудняет воспроизведение и отслеживание серьезности кризиса воспроизводимости, поскольку статьи часто содержат недостаточно описаний, чтобы другие ученые могли воспроизвести исследование. Проект воспроизводимости: биология рака показал, что из 193 экспериментов из 53 ведущих статей о раке, опубликованных в период с 2010 по 2012 год, только у 50 экспериментов из 23 статей есть авторы, которые предоставили исследователям достаточно информации, чтобы переделать исследования, иногда с изменениями. Ни в одной из 193 рассмотренных статей не были полностью описаны протоколы экспериментов, а для воспроизведения 70% экспериментов требовалось запросить ключевые реагенты. [88] [89] Вышеупомянутое исследование эмпирических результатов в журнале «Стратегический менеджмент» показало, что 70% из 88 статей не могут быть воспроизведены из-за отсутствия достаточной информации для данных или процедур. [92] [96] В сфере водных ресурсов и управления большинство из 1987 статей, опубликованных в 2017 году, не удалось воспроизвести из-за отсутствия доступной информации, размещенной в Интернете. [97] В исследованиях потенциалов, связанных с событиями , только две трети информации, необходимой для воспроизведения исследования, были представлены в выборке из 150 исследований, что подчеркивает наличие существенных пробелов в отчетности. [123]

Процедурная предвзятость

Согласно тезису Дюэма-Куайна , научные результаты интерпретируются как содержательной теорией, так и теорией инструментов. Например, астрономические наблюдения зависят как от теории астрономических объектов, так и от теории телескопов. Большой объем невоспроизводимых исследований может накопиться, если существует предвзятость следующего типа: столкнувшись с нулевым результатом, ученый предпочитает рассматривать данные так, будто инструмент недостаточен; Столкнувшись с ненулевым результатом, учёный предпочитает признать прибор хорошим и рассматривать данные как говорящие что-то об основной теории. [124]

Культурная эволюция

Смальдино [60] предложил простую модель культурной эволюции научной практики. Каждая лаборатория случайным образом решает провести новое исследование или повторное исследование с разными фиксированными уровнями ложноположительных результатов, истинно положительных результатов, уровня репликации и продуктивности (ее «характеристик»). Лаборатория может приложить больше «усилий», что сделает кривую ROC более выпуклой, но снизит производительность. Лаборатория накапливает баллы в течение своего существования, которые увеличиваются с появлением публикаций и уменьшаются, когда другая лаборатория не может воспроизвести ее результаты. Через определенные промежутки времени одна случайная лаборатория «умирает», а другая «воспроизводит» дочернюю лабораторию с такой же чертой, как и ее родительская. Лаборатории с более высокими оценками имеют больше шансов на воспроизводство. При определенных настройках параметров совокупность лабораторий достигает максимальной производительности даже ценой очень высокого уровня ложноположительных результатов.

Сомнительные исследовательские практики и мошенничество

Сомнительные исследовательские практики (QRP) — это преднамеренное поведение, которое извлекает выгоду из серой зоны приемлемого научного поведения или использует степени свободы исследователя (исследователь DF), что может способствовать невоспроизводимости результатов за счет увеличения вероятности ложноположительных результатов. [125] [126] [40] Исследователь DF проявляется в формулировании гипотез , планировании экспериментов , сборе и анализе данных , а также составлении отчетов об исследованиях . [126] Некоторыми примерами QRP являются сбор данных , [126] [127] [39] [d] выборочная отчетность , [125] [126] [127] [39] [e] и выдвижение гипотез (выдвижение гипотез после того, как станут известны результаты) . [126] [127] [39] [f] В медицине невоспроизводимые исследования имеют шесть общих черт. К ним относятся исследователи, которые не закрывают глаза на экспериментальные группы по сравнению с контрольной группой, отказ от повторения экспериментов, отсутствие положительного и отрицательного контроля , неспособность сообщить все данные, ненадлежащее использование статистических тестов и использование реагентов, которые не были должным образом проверены. . [129]

QRP не включает более явные нарушения научной честности, такие как фальсификация данных. [125] [126] Мошеннические исследования действительно случаются, как в случае научного мошенничества со стороны социального психолога Дидерика Стапеля , [130] [13] когнитивного психолога Марка Хаузера и социального психолога Лоуренса Санны, [13] но это, кажется, редкость. [13]

Распространенность

По словам профессора Международного университета Эрнеста О'Бойла и психолога Мартина Гетца, около 50% исследователей, опрошенных в ходе различных исследований, признались, что занимаются HARKing. [131] В опросе 2000 психологов, проведенном ученым-бихевиористом Лесли К. Джоном и его коллегами, около 94% психологов признались, что использовали хотя бы один QRP. В частности, 63% признались, что не сообщили обо всех зависимых показателях исследования, 28% сообщили обо всех условиях исследования и 46% выборочно сообщили об исследованиях, которые дали желаемую картину результатов. Кроме того, 56% признались, что собрали больше данных после проверки уже собранных данных, а 16% — что прекратили сбор данных, поскольку желаемый результат уже был виден. [39] По оценкам исследователя биотехнологий Дж. Лесли Глика в 1992 году, от 10% до 20% исследований и разработок включали либо QRP, либо откровенное мошенничество. [132] Методика, используемая для оценки QRP, оспаривается, и более поздние исследования показали, что в среднем уровень распространенности ниже. [133]

Метаанализ 2009 года показал, что 2% ученых в разных областях хотя бы один раз признались в фальсификации исследований, а 14% признались, что знали кого-то, кто это сделал. Согласно одному исследованию, о таких нарушениях чаще сообщали медицинские исследователи, чем другие. [134]

Статистические вопросы

Низкая статистическая мощность

По мнению профессора Университета Дикина Тома Стэнли и его коллег, одной из вероятных причин, по которой исследования не воспроизводятся, является низкая статистическая мощность . Это происходит по трем причинам. Во-первых, повторное исследование с низкой мощностью вряд ли будет успешным, поскольку по определению оно имеет низкую вероятность обнаружить истинный эффект. Во-вторых, если исходное исследование имеет низкую мощность, оно даст необъективные оценки размера эффекта . При проведении априорного анализа мощности для исследования репликации это приведет к недооценке необходимого размера выборки. В-третьих, если исходное исследование имеет низкую мощность, вероятность того, что после исследования будет получен статистически значимый результат, отражающий истинный эффект, довольно низка. Поэтому вполне вероятно, что попытка повторить оригинальное исследование потерпит неудачу. [14]

Математически вероятность повторения предыдущей публикации, в которой отклонялась нулевая гипотеза в пользу альтернативы, предполагает , что значимость меньше мощности. Таким образом, низкая мощность подразумевает низкую вероятность повторения, независимо от того, как была разработана предыдущая публикация, и независимо от того, какая гипотеза действительно верна. [78]

Стэнли и его коллеги оценили среднюю статистическую мощность психологической литературы, проанализировав данные 200 метаанализов . Они обнаружили, что в среднем статистические данные психологических исследований составляют от 33,1% до 36,4%. Эти значения довольно низкие по сравнению с 80%, которые считаются адекватной статистической мощностью для эксперимента. Среди 200 метаанализов медиана исследований с адекватной статистической мощностью составляла от 7,7% до 9,1%, что означает, что положительный результат будет воспроизводиться с вероятностью менее 10%, независимо от того, был ли положительный результат истинно положительным или ложным. позитивный. [14]

Статистическая мощность нейробиологических исследований довольно низка. Расчетная статистическая мощность исследований фМРТ составляет от 0,08 до 0,31 [135] , а статистическая мощность исследований связанных с событиями потенциалов оценивалась как 0,72–0,98 для больших размеров эффекта, 0,35–0,73 для средних эффектов и 0,10–0,18 для небольших эффектов. [123]

В исследовании, опубликованном в журнале Nature , психолог Кэтрин Баттон и ее коллеги провели аналогичное исследование с 49 метаанализами в области нейробиологии, оценивая медианную статистическую мощность в 21%. [136] Метаученый Джон Иоаннидис и его коллеги рассчитали оценку средней мощности для эмпирических экономических исследований, найдя медианную мощность 18% на основе литературы, основанной на 6700 исследованиях. [137] В свете этих результатов вполне вероятно, что основной причиной широко распространенных неудач в воспроизведении в нескольких научных областях может быть очень низкая статистическая мощность в среднем.

Тот же статистический тест с тем же уровнем значимости будет иметь меньшую статистическую мощность, если размер эффекта невелик согласно альтернативной гипотезе. Сложные наследуемые признаки обычно коррелируют с большим количеством генов, каждый из которых имеет небольшой размер эффекта, поэтому высокая мощность требует большого размера выборки. В частности, многие результаты из литературы по генам-кандидатам страдали от небольшого размера эффекта и небольшого размера выборки и не могли быть воспроизведены. Дополнительные данные полногеномных ассоциативных исследований (GWAS) приближаются к решению этой проблемы. [138] [139] В качестве числового примера: большинство генов, связанных с риском шизофрении, имеют низкую величину эффекта (генотипический относительный риск, GRR). Статистическое исследование с 1000 случаями и 1000 контрольными группами имеет мощность 0,03% для гена с GRR = 1,15, что уже много для шизофрении. Напротив, самый крупный на сегодняшний день GWAS имеет мощность ~ 100%. [140]

Положительная ошибка размера эффекта

Даже когда исследование повторяется, повторение обычно имеет меньший размер эффекта. Исследования с недостаточной мощностью имеют большую погрешность в размере эффекта. [141]

В исследованиях, которые статистически оценивают коэффициент регрессии, таких как in , когда набор данных большой, шум имеет тенденцию вызывать недооценку фактора регрессии, но когда набор данных небольшой, шум имеет тенденцию вызывать переоценку фактора регрессии. [142]

Проблемы метаанализа

Метаанализ имеет свои методологические проблемы и споры, что приводит к неприятию метааналитического метода исследователями, чья теория подвергается сомнению со стороны метаанализа. [116]

Розенталь предложил «число безопасности» (FSN) [53], чтобы избежать предвзятости публикации в отношении нулевых результатов. Оно определяется следующим образом: Предположим, что нулевая гипотеза верна; сколько публикаций потребуется, чтобы сделать текущий результат неотличимым от нулевой гипотезы?

Точка зрения Розенталя заключается в том, что определенные размеры эффекта достаточно велики, так что даже если существует полное предвзятое отношение публикации к нулевым результатам («проблема с ящиком для файлов»), количество неопубликованных нулевых результатов будет невероятно большим, чтобы заглушить размер эффекта. Таким образом, размер эффекта должен быть статистически значимым даже после учета неопубликованных нулевых результатов.

Одним из возражений против FSN является то, что он рассчитывается так, как будто неопубликованные результаты представляют собой несмещенные выборки из нулевой гипотезы. Но если проблема с файловым ящиком верна, то неопубликованные результаты будут иметь размеры эффекта, сосредоточенные вокруг 0. Таким образом, для замены размера эффекта потребуется меньше неопубликованных нулевых результатов, и поэтому FSN является завышенной оценкой. [116]

Другая проблема метаанализа заключается в том, что плохие исследования «заразительны» в том смысле, что одно плохое исследование может привести к переоценке статистической значимости всего метаанализа. [78]

П-хакерство

Можно применять различные статистические методы, чтобы значение p казалось меньшим, чем оно есть на самом деле. Это не обязательно должно быть злонамеренным, поскольку умеренно гибкий анализ данных, рутинный в исследованиях, может увеличить уровень ложноположительных результатов до уровня выше 60%. [40]

Например, если кто-то собирает некоторые данные, применяет к ним несколько разных тестов значимости и публикует только тот, значение p которого меньше 0,05, то общее значение p для «хотя бы одного теста значимости достигает p < 0,05" может быть намного больше, чем 0,05, потому что даже если бы нулевая гипотеза была верна, вероятность того, что один из многих тестов значимости является экстремальным, сама по себе не является экстремальной.

Как правило, статистическое исследование состоит из нескольких этапов, с несколькими вариантами выбора на каждом этапе, например, во время сбора данных, отбраковка выбросов, выбор статистики теста, выбор одностороннего или двустороннего критерия и т. д . разветвления «размножаются», создавая множество «исследовательских степеней свободы». Эффект аналогичен проблеме с ящиком файлов, поскольку непройденные пути не публикуются. [143]

Рассмотрим простую иллюстрацию. Предположим, что нулевая гипотеза верна, и у нас есть 20 возможных тестов значимости, которые можно применить к набору данных. Также предположим, что результаты тестов значимости независимы. По определению «значимости» каждый тест имеет вероятность прохождения 0,05 с уровнем значимости 0,05. Вероятность того, что хотя бы 1 из 20 является значимым, в предположении независимости равна . [144]

Другая возможность – проблема множественных сравнений . В 2009 году дважды было отмечено, что исследования фМРТ дали подозрительное количество положительных результатов с большой величиной эффекта, больше, чем можно было ожидать, поскольку исследования имеют низкую мощность (в одном примере [145] участвовало только 13 субъектов). Он отметил, что более половины исследований будут проверять корреляцию между явлением и отдельными вокселами фМРТ и сообщать только о вокселах, превышающих выбранные пороговые значения. [146]

На рисунке показано изменение значений p, вычисленных с помощью t-критерия, по мере увеличения размера выборки, а также то, как ранняя остановка может позволить провести p-хакинг, даже если нулевая гипотеза абсолютно верна. Данные взяты из двух идентичных нормальных распределений . Для каждого размера выборки в диапазоне от 5 до , на первых выборках из каждого распределения выполняется t-критерий , и полученное значение p отображается на графике. Красная пунктирная линия указывает обычно используемый уровень значимости 0,05. Если бы сбор или анализ данных остановился в точке, где значение p упало ниже уровня значимости, можно было бы сообщить о ложной статистически значимой разнице.

Необязательная остановка — это практика, при которой данные собираются до тех пор, пока не будет достигнут некоторый критерий остановки. Несмотря на то, что это действительная процедура, ее легко использовать неправильно. Проблема в том, что значение p необязательно остановленного статистического теста больше, чем кажется. Интуитивно это происходит потому, что значение p должно быть суммой всех событий, по крайней мере столь же редких, как и те, которые наблюдаются. При необязательной остановке возникают еще более редкие события, которые сложно учесть, например, не активируется правило необязательной остановки и перед остановкой собирается еще больше данных. Игнорирование этих событий приводит к слишком низкому значению p. Фактически, если нулевая гипотеза верна, любой уровень значимости может быть достигнут, если разрешено продолжать сбор данных и остановиться, когда будет получено желаемое значение p (рассчитанное так, как если бы вы всегда планировали собрать именно такой объем данных). . [147] Конкретный пример проверки честной монеты см. в p -value#optional stop .

Короче говоря, правильный расчет значения p требует учета контрфактов, то есть того, что экспериментатор мог бы сделать в ответ на данные, которые могли бы быть такими. Объяснить то, что могло бы быть, сложно даже честным исследователям. [147] Одним из преимуществ предварительной регистрации является учет всех несоответствий, что позволяет правильно рассчитать значение p. [148]

Проблема ранней остановки не ограничивается только неправомерными действиями исследователей. Часто возникает необходимость прекратить работу раньше, если стоимость сбора данных высока. Некоторые советы по этике животных даже требуют досрочного прекращения исследования, если в середине исследования получен значительный результат. [144]

Подобные практики широко распространены в психологии. В опросе 2012 года 56% психологов признались в раннем прекращении анализа, 46% в сообщении только о том анализе, который «сработал», и 38% в исключении post hoc , то есть удалении некоторых данных после того, как анализ данных уже был проведен. [39]

Статистическая неоднородность

Как также сообщили Стэнли и его коллеги, еще одной причиной, по которой исследования могут не воспроизвестися, является высокая гетерогенность эффектов, которые предстоит воспроизвести. В метаанализе «гетерогенность» относится к расхождениям в результатах исследований, возникающим в результате отсутствия единого истинного размера эффекта. Вместо этого результаты в таких случаях лучше рассматривать как распределение истинных эффектов. [14] Статистическая неоднородность рассчитывается с использованием статистики I-квадрат, [149] определяемой как «доля (или процент) наблюдаемых различий между сообщаемыми размерами эффекта, которые не могут быть объяснены рассчитанными стандартными ошибками, связанными с этими сообщенными размерами эффекта». [14] Эти различия могут быть связаны с различиями в экспериментальных методах, популяциях, когортах и ​​статистических методах между повторными исследованиями. Гетерогенность представляет собой проблему для исследований, пытающихся воспроизвести ранее обнаруженные размеры эффекта . Когда гетерогенность высока, последующие повторы имеют высокую вероятность обнаружить размер эффекта, радикально отличающийся от исходного исследования. [г]

Важно отметить, что значительные уровни гетерогенности также обнаруживаются при прямой/точной репликации исследования. Стэнли и его коллеги обсуждают это, сообщая об исследовании количественного поведенческого ученого Ричарда Кляйна и его коллег, в котором авторы попытались воспроизвести 15 психологических эффектов в 36 различных местах в Европе и США. из 16 эффектов (I-квадрат = от 23% до 91%). Важно отметить, что хотя сайты репликации намеренно различались по ряду характеристик, такие различия могли объяснить очень небольшую гетерогенность. По мнению Стэнли и его коллег, это предполагает, что гетерогенность могла быть подлинной характеристикой исследуемых явлений. Например, на явления могут влиять так называемые «скрытые модераторы» — соответствующие факторы, которые ранее не считались важными для достижения определенного эффекта.

В своем анализе 200 метаанализов психологических эффектов Стэнли и его коллеги обнаружили средний процент гетерогенности I-квадрата = 74%. По мнению авторов, такой уровень неоднородности можно считать «огромным». Это в три раза больше, чем дисперсия величины эффекта случайной выборки, измеренная в их исследовании. Если рассматривать ошибку выборки , гетерогенность дает стандартное отклонение от одного исследования к другому, даже превышающее средний размер эффекта 200 метаанализов, которые они исследовали. [h] Авторы приходят к выводу, что если репликация определяется последующим исследованием, обнаружившим размер эффекта, достаточно похожий на исходный, успех репликации маловероятен, даже если репликации имеют очень большие размеры выборки. Важно отметить, что это происходит, даже если репликации являются прямыми или точными, поскольку гетерогенность, тем не менее, в этих случаях остается относительно высокой.

Другие

В экономике кризис репликации также может усугубляться из-за хрупкости эконометрических результатов: [150] использование различных, но правдоподобных процедур оценки или методов предварительной обработки данных может привести к противоречивым результатам. [151] [152] [153]

Контекстная чувствительность

Профессор Нью-Йоркского университета Джей Ван Бавел и его коллеги утверждают, что еще одна причина, по которой результаты трудно воспроизвести, — это чувствительность к контексту определенных психологических эффектов. С этой точки зрения, неудачи при воспроизведении могут быть объяснены контекстуальными различиями между исходным экспериментом и репликацией, часто называемыми «скрытыми модераторами ». [154] Ван Бавел и его коллеги проверили влияние контекстной чувствительности, повторно проанализировав данные широко цитируемого проекта воспроизводимости, реализованного Open Science Collaboration. [11] Они перекодировали эффекты в соответствии с их чувствительностью к контекстуальным факторам, а затем проверили взаимосвязь между контекстной чувствительностью и успехом репликации в различных регрессионных моделях .

Было обнаружено, что чувствительность к контексту отрицательно коррелирует с успехом репликации, так что более высокие оценки чувствительности к контексту были связаны с более низкой вероятностью воспроизведения эффекта. [i] Важно отметить, что чувствительность к контексту значительно коррелировала с успехом репликации даже с поправкой на другие факторы, считающиеся важными для воспроизведения результатов (например, размер эффекта и размер выборки оригинала, статистическая мощность репликации, методологическое сходство между оригиналом и репликацией). [j] В свете полученных результатов авторы пришли к выводу, что попытка репликации в другое время, в другом месте или с другим образцом может существенно изменить результаты эксперимента. Таким образом, чувствительность к контексту может быть причиной того, что некоторые эффекты не воспроизводятся в психологии. [154]

Байесовское объяснение

В рамках байесовской вероятности по теореме Байеса отклонение нулевой гипотезы на уровне значимости 5% не означает, что апостериорная вероятность альтернативной гипотезы равна 95%, а апостериорная вероятность также отличается от вероятности репликации. [155] [156] Рассмотрим упрощенный случай, когда имеется только две гипотезы. Пусть априорная вероятность нулевой гипотезы равна , а альтернатива . Для данного статистического исследования пусть его ложноположительный уровень (уровень значимости) будет , а истинно положительный уровень (степень) будет . Для наглядности пусть уровень значимости будет 0,05, а мощность — 0,45 (недостаточная мощность).

Теперь, согласно теореме Байеса, при условии, что статистические исследования верны, апостериорная вероятность того, что это действительно так, не равна , а

и вероятность повторения статистического исследования также отличается от . В частности, для фиксированного уровня значимости вероятность репликации увеличивается с увеличением мощности, а априорная вероятность для . Если априорная вероятность мала, то для репликации потребуется большая мощность.

Например, если априорная вероятность нулевой гипотезы равна , и исследование выявило положительный результат, то апостериорная вероятность равна , а вероятность репликации равна .

Проблема с проверкой нулевой гипотезы

Некоторые утверждают, что проверка нулевых гипотез сама по себе неуместна, особенно в «мягких науках», таких как социальная психология. [157] [158]

Как неоднократно отмечали статистики [159] в сложных системах, таких как социальная психология, «нулевая гипотеза всегда ложна» или «все коррелирует». Если да, то если нулевая гипотеза не отвергается, это не означает, что нулевая гипотеза верна, а просто означает, что она была ложноотрицательной, обычно из-за низкой мощности. [160] Низкая мощность особенно распространена в предметных областях, где размеры эффекта невелики, а сбор данных дорог, например, в социальной психологии. [157] [161]

Более того, когда нулевая гипотеза отвергается, это может не служить доказательством существенной альтернативной гипотезы. В мягких науках многие гипотезы могут предсказать корреляцию между двумя переменными. Таким образом, доказательства против нулевой гипотезы «нет корреляции» не являются доказательствами в пользу одной из многих альтернативных гипотез, которые одинаково хорошо предсказывают «существует корреляция». [161] В частности, когда статистические исследования экстрасенсорного восприятия отвергают нулевую гипотезу при чрезвычайно низком значении p, это не подразумевает альтернативную гипотезу «существование экстрасенсорного восприятия». Гораздо более вероятно, что в точно измеряемой экспериментальной установке имело место небольшое (не экстрасенсорное) смещение. [162]

Ошибка базовой ставки

По мнению философа Александра Берда , возможная причина низких показателей воспроизводимости в некоторых научных областях заключается в том, что большинство проверенных гипотез априори ложны . [163] С этой точки зрения, низкие показатели воспроизводимости могут соответствовать качеству науки. Кроме того, ожидание того, что большинство результатов должны быть повторены, было бы ошибочным и, по мнению Берда, является формой ошибки базовой ставки. Аргумент Берда работает следующим образом. Предполагая идеальную ситуацию теста значимости, при которой вероятность неправильного отклонения нулевой гипотезы составляет 5% (т.е. ошибка типа I ), а вероятность правильного отклонения нулевой гипотезы составляет 80% (т.е. мощность ), в контексте, где высокая доля проверенных гипотез оказывается ложной, вполне возможно, что количество ложноположительных результатов будет выше, чем истинно положительных. [163] Например, в ситуации, когда только 10% проверенных гипотез на самом деле верны, можно подсчитать, что до 36% результатов будут ложноположительными. [к]

Утверждение о том, что ложность большинства проверенных гипотез может объяснить низкие показатели воспроизводимости, становится еще более актуальным, если учесть, что средняя мощность статистических тестов в определенных областях может быть намного ниже 80%. Например, доля ложноположительных результатов увеличивается до значения от 55,2% до 57,6% при расчете с оценками средней мощности от 34,1% до 36,4% для психологических исследований, как это предоставили Стэнли и его коллеги в своем анализе 200 мета-положительных результатов. анализы в полевых условиях. [14] Высокая доля ложноположительных результатов приведет к тому, что многие результаты исследований станут невоспроизводимыми.

Бёрд отмечает, что утверждение о том, что большинство проверенных гипотез априори ложны в определенных научных областях, может быть правдоподобным, учитывая такие факторы, как сложность исследуемых явлений, тот факт, что теории редко являются бесспорными, «дистанция вывода» между теориями и гипотезы и легкость, с которой можно генерировать гипотезы. В этом отношении Берд приводит в качестве примера клиническую медицину, генетическую и молекулярную эпидемиологию и социальную психологию. Эта ситуация радикально отличается в областях, где теории имеют выдающуюся эмпирическую основу и гипотезы могут быть легко выведены из теорий (например, экспериментальная физика). [163]

Последствия

Когда в литературе эффекты ошибочно указываются как релевантные, неспособность обнаружить это путем репликации приведет к канонизации таких ложных фактов. [164]

Исследование 2021 года показало, что статьи в ведущих журналах по общей тематике, психологии и экономике с выводами, которые невозможно воспроизвести, с течением времени имеют тенденцию цитироваться чаще, чем воспроизводимые исследовательские статьи, вероятно, потому, что эти результаты неожиданны или интересны. На эту тенденцию не влияет публикация неудачных репродукций, после чего только 12% статей, цитирующих оригинальные исследования, будут упоминать о неудачных репликациях. [165] [166] Кроме того, эксперты могут предсказать, какие исследования будут воспроизводиться, что привело авторов исследования 2021 года, Марту Серра-Гарсия и Ури Гнизи , к выводу, что эксперты применяют более низкие стандарты к интересным результатам при принятии решения о публикации. их. [166]

Осведомленность и восприятие общественности

В научном сообществе были выражены опасения, что широкая общественность может считать науку менее заслуживающей доверия из-за неудачных попыток повторения. [167] Исследования, подтверждающие эту обеспокоенность, редки, но общенациональное репрезентативное исследование в Германии показало, что более 75% немцев не слышали о неудачах в науке. [168] Исследование также показало, что большинство немцев положительно воспринимают усилия по тиражированию: только 18% считают, что отсутствие тиражирования показывает, что науке нельзя доверять, в то время как 65% считают, что исследования тиражирования показывают, что наука применяет контроль качества, и 80% согласны с этим. что ошибки и исправления являются частью науки. [168]

Ответ в академических кругах

В связи с тем, что кризис репликации психологии привлек внимание, психолог из Принстонского университета Сьюзен Фиск вызвала споры за то, что выступила против критиков психологии за то, что она назвала издевательствами и подрывом науки. [169] [170] [171] [172] Она назвала этих неопознанных «противников» такими именами, как «методологический террорист» и «самопровозглашенная полиция данных», заявив, что критику психологии следует высказывать только в частном порядке или путем обращения к журналы. [169] Статистик и политолог Колумбийского университета Эндрю Гельман ответил Фиске, заявив, что она обнаружила, что готова терпеть «мертвую парадигму» ошибочной статистики и отказывалась отозвать публикации, даже когда были указаны ошибки. [169] Он добавил, что ее пребывание на посту редактора было ужасным и что ряд опубликованных статей, которые она редактировала, были основаны на крайне слабых статистических данных; одна из опубликованных самим Фиске статей содержала серьезную статистическую ошибку и «невозможные» выводы. [169]

Революция доверия

Некоторые исследователи в области психологии указывают, что кризис репликации является основой для «революции доверия», когда изменения в стандартах, по которым оценивается психологическая наука, могут включать в себя акцент на прозрачности и открытости, предварительную регистрацию исследовательских проектов и тиражирование исследований с более высокими стандартами для улучшения доказательств. Сила научных утверждений. [173] Такие изменения могут снизить продуктивность отдельных исследователей, но этого эффекта можно избежать путем обмена данными и более тесного сотрудничества. [173] Революция доверия могла бы пойти на пользу исследовательской среде. [174]

Средства

Сосредоточение внимания на кризисе репликации привело к возобновлению усилий в психологии по повторной проверке важных результатов. [40] [175] Специальный выпуск журнала «Социальная психология» за 2013 год был посвящен исследованиям репликации. [12]

Предложены стандартизация , а также (требование) прозрачности используемых статистических и экспериментальных методов. [176] Тщательное документирование экспериментальной установки считается решающим для воспроизводимости экспериментов, и различные переменные не могут быть документированы и стандартизированы, например, рационы животных в исследованиях на животных. [177]

В статье Джона Иоаннидиса 2016 года подробно обсуждалась тема «Почему большинство клинических исследований бесполезны». [178] Иоаннидис описывает то, что он считает некоторыми проблемами, и призывает к реформе, характеризуя определенные моменты, позволяющие медицинским исследованиям снова стать полезными; Одним из примеров, который он приводит, является необходимость того, чтобы медицина была ориентирована на пациента (например, в форме Института исследования результатов, ориентированных на пациента ), а не в нынешней практике, которая в основном заботится о «потребностях врачей, исследователей или спонсоров».

Реформа научных публикаций

Метанаука

Метанаука — это использование научной методологии для изучения самой науки. Он стремится повысить качество научных исследований при одновременном сокращении отходов. Он также известен как «исследовательские исследования» и «наука о науке», поскольку он использует методы исследования для изучения того, как проводятся исследования и где можно внести улучшения. Метанаука касается всех областей исследований, и ее называют «взглядом на науку с высоты птичьего полета». [179] По словам Иоаннидиса: «Наука — это лучшее, что случилось с людьми… но мы можем сделать это лучше». [180]

Мета-исследования продолжают проводиться для выявления причин кризиса и их устранения. Методы преодоления кризиса включают предварительную регистрацию научных исследований и клинических испытаний , а также создание таких организаций, как CONSORT и EQUATOR Network , которые выпускают рекомендации по методологии и отчетности. Продолжаются усилия по реформированию системы академических стимулов, совершенствованию процесса рецензирования , сокращению злоупотреблений статистикой , борьбе с предвзятостью в научной литературе, а также повышению общего качества и эффективности научного процесса.

Презентация методологии

Некоторые авторы утверждают, что недостаточное информирование об экспериментальных методах является основной причиной кризиса воспроизводимости и что лучшее сообщение о планировании эксперимента и статистическом анализе могло бы улучшить ситуацию. Эти авторы склонны выступать за широкие культурные изменения в научном сообществе в том, как рассматривать статистику, и за более принудительное давление со стороны научных журналов и финансирующих организаций. [181] Однако были высказаны опасения по поводу возможности неправильного применения стандартов прозрачности и тиражирования как к качественным, так и к количественным исследованиям. [182]

К журналам о бизнесе и менеджменте, которые ввели редакционную политику в отношении доступности, репликации и прозрачности данных, относятся журнал «Стратегический менеджмент» , «Журнал международных бизнес-исследований » и «Обзор менеджмента и организации» . [92]

Экспертная оценка без учета результатов

В ответ на обеспокоенность психологов по поводу предвзятости публикаций и сбора данных более 140 психологических журналов приняли рецензирование без учета результатов. При таком подходе исследования принимаются не на основе их результатов и после завершения исследований, а до их проведения, а также на основе методологической строгости их экспериментальных планов и теоретического обоснования методов статистического анализа до того, как данные будут получены. проводится сбор или анализ. [183] ​​Ранний анализ этой процедуры показал, что 61% слепых исследований привели к нулевым результатам , в отличие от примерно 5–20% в более ранних исследованиях. [100] Кроме того, в психологии стало гораздо более распространенным явлением крупномасштабное сотрудничество между исследователями, работающими в нескольких лабораториях в разных странах, которые регулярно делают свои данные открытыми для оценки различными исследователями. [184]

Предварительная запись на обучение

Научные издания начали использовать отчеты предварительной регистрации , чтобы справиться с кризисом репликации. [185] [186] Формат зарегистрированного отчета требует от авторов предоставить описание методов исследования и анализа до сбора данных. После того как метод и план анализа проходят рецензирование, публикация результатов предварительно гарантируется в зависимости от того, соблюдают ли авторы предложенный протокол. Одна из целей зарегистрированных отчетов — избежать предвзятости публикаций в отношении важных результатов, которые могут привести к использованию сомнительных исследовательских практик. Другой вариант — поощрять публикацию исследований с использованием строгих методов.

Журнал Psychoological Science поощряет предварительную регистрацию исследований и сообщение о величине эффекта и доверительных интервалах. [187] Главный редактор также отметил, что редакция будет просить повторить исследования с неожиданными результатами экспертиз с использованием небольших размеров выборки, прежде чем разрешить публикацию рукописей.

Метаданные и цифровые инструменты для отслеживания репликаций

Было высказано предположение, что необходим «простой способ проверить, как часто исследования повторялись и подтверждаются ли первоначальные результаты». [165] Категоризация и рейтинг воспроизводимости на уровне исследования или результатов, а также добавление ссылок и рейтинг сторонних подтверждений могут проводиться рецензентами, научным журналом или читателями в сочетании с новыми цифровые платформы или инструменты.

Статистическая реформа

Требуется меньшеп-ценности

Многие публикации требуют, чтобы значение p было <  0,05, чтобы заявить о статистической значимости . В документе «Переопределить статистическую значимость» [188] , подписанном большим количеством ученых и математиков, предлагается, чтобы «в областях, где порог для определения статистической значимости для новых открытий составляет р  < 0,05, мы предлагаем изменение до р  < 0,005. Этот простой шаг немедленно улучшит воспроизводимость научных исследований во многих областях». Их обоснование заключается в том , что «основная причина невоспроизводимости заключается в том, что статистические стандарты доказательности для заявлений о новых открытиях во многих областях науки просто слишком низки  . ложных срабатываний даже при отсутствии других экспериментальных, процедурных проблем и проблем с отчетностью». [188]

Этот призыв впоследствии подвергся критике со стороны другой большой группы, которая утверждала, что «переопределение» пороговых значений не решит текущие проблемы, а приведет к появлению некоторых новых, и что, в конечном итоге, все пороговые значения необходимо обосновывать в каждом конкретном случае, а не следуя общим соглашениям. [189]

Решение проблемы неправильного толкованияп-ценности

Хотя статистики единодушны в том, что использование « p  < 0,05» в качестве стандарта значимости дает более слабые доказательства, чем принято считать, отсутствует единодушие в отношении того, что следует с этим делать. Некоторые выступают за то, чтобы байесовские методы заменили p -значения. Этого не произошло в широком масштабе, отчасти потому, что это сложно, а отчасти потому, что многие пользователи не доверяют спецификациям предыдущих дистрибутивов из-за отсутствия точных данных. Упрощенная версия байесовского аргумента, основанная на проверке нулевой гипотезы, была предложена фармакологом Дэвидом Колкухоном . [190] [191] Логические проблемы индуктивного вывода обсуждались в «Проблеме с p-значениями» (2016). [192]

Опасность зависимости от значений p возникает отчасти потому, что даже наблюдение p  = 0,001 не обязательно является убедительным доказательством против нулевой гипотезы. [191] Несмотря на то, что отношение правдоподобия в пользу альтернативной гипотезы по сравнению с нулевой близко к 100, если бы гипотеза была неправдоподобной, с априорной вероятностью реального эффекта, равной 0,1, даже наблюдение p  = 0,001 имело бы ложноположительный риск составляет 8 процентов. Ему все равно не удастся достичь уровня 5 процентов.

Было рекомендовано не использовать термины «значительный» и «незначительный». [191] Значения p и доверительные интервалы по-прежнему должны быть указаны, но они должны сопровождаться указанием риска ложноположительных результатов. Было высказано предположение, что лучший способ сделать это — вычислить априорную вероятность, в которую необходимо поверить, чтобы достичь ложноположительного риска определенного уровня, например 5%. Расчеты можно производить с помощью различных компьютерных программ. [191] [193] Этот обратный байесовский подход, который физик Роберт Мэтьюз предложил в 2001 году, [194] является одним из способов избежать проблемы, заключающейся в том, что априорная вероятность редко известна.

Поощрение увеличения размера выборки

Чтобы улучшить качество репликации, часто необходимы более крупные размеры выборки , чем те, которые использовались в исходном исследовании. [195] Необходимы большие размеры выборки, поскольку оценки размеров эффекта в опубликованных работах часто преувеличены из-за систематической ошибки публикации и большой вариативности выборки, связанной с небольшими размерами выборки в оригинальном исследовании. [196] [197] [198] Кроме того, использование порогов значимости обычно приводит к завышенным эффектам, поскольку, особенно при небольших размерах выборки, только самые большие эффекты станут значимыми. [158]

Перекрестная проверка

Одной из распространенных статистических проблем является переоснащение , то есть когда исследователи подгоняют модель регрессии по большому количеству переменных, но небольшому количеству точек данных. Например, в типичном фМРТ-исследовании эмоций, личности и социального познания участвуют менее 100 субъектов, но каждый субъект имеет 10 000 вокселей. Исследование соответствует разреженной модели линейной регрессии, которая использует вокселы для прогнозирования интересующей переменной, такой как самооценка стресса. Но тогда исследование сообщит о p-значении модели на тех же данных, к которым она была адаптирована. Стандартный подход в статистике, при котором данные разделяются на обучающий и проверочный наборы , вызывает сопротивление, поскольку приобретение испытуемых дорого. [146] [199]

Одним из возможных решений является перекрестная проверка , которая позволяет проверять модель, а также позволяет использовать весь набор данных для подбора модели. [200]

Усилия по репликации

Финансирование

В июле 2016 года Нидерландская организация научных исследований выделила 3 ​​миллиона евро на повторные исследования. Финансирование предназначено для тиражирования на основе повторного анализа существующих данных и тиражирования путем сбора и анализа новых данных. Финансирование доступно в области социальных наук, медицинских исследований и инноваций в области здравоохранения. [201]

В 2013 году Фонд Лоры и Джона Арнольдов профинансировал запуск Центра открытой науки, выделив грант в размере 5,25 миллиона долларов. К 2017 году он предоставил дополнительно 10 миллионов долларов финансирования. [202] Он также профинансировал запуск Инновационного центра мета-исследований в Стэнфорде при Стэнфордском университете, которым руководят Иоаннидис и ученый-медик Стивен Гудман для изучения способов улучшения научных исследований. [202] Он также обеспечил финансирование инициативы AllTrials , частично возглавляемой ученым-медиком Беном Голдакром . [202]

Упор на послесреднее образование

На основании курсовой работы по экспериментальным методам в Массачусетском технологическом институте, Стэнфорде и Вашингтонском университете было высказано предположение, что курсы по психологии и другим областям должны делать упор на попытках воспроизведения, а не на оригинальных исследованиях. [203] [204] [205] Такой подход поможет студентам изучить научную методологию и обеспечить многочисленные независимые повторы значимых научных результатов, которые проверят воспроизводимость научных результатов. Некоторые рекомендовали обязать аспирантов опубликовать попытку высококачественного воспроизведения темы, связанной с их докторским исследованием, до окончания учебы. [206]

Диссертация за последний год

Некоторые учебные заведения требуют, чтобы студенты бакалавриата представили дипломную работу за последний год, состоящую из оригинального исследования. Дэниел Кинтана, психолог из Университета Осло в Норвегии, рекомендовал поощрять студентов к повторным исследованиям в дипломных проектах, а также обучать их открытой науке . [207]

Полуавтоматический
«Общий процесс проверки воспроизводимости и надежности литературы по биологии рака с помощью робота. Сначала анализ текста используется для извлечения утверждений о влиянии лекарств на экспрессию генов при раке молочной железы. Затем две разные команды полуавтоматически проверяли эти утверждения, используя два разных протокола и две разные клеточные линии (MCF7 и MDA-MB-231) с использованием системы автоматизации лабораторий Eve».

Исследователи продемонстрировали способ полуавтоматического тестирования на воспроизводимость: утверждения об экспериментальных результатах были извлечены по состоянию на 2022 год из несемантических статей по исследованию экспрессии генов рака и впоследствии воспроизведены с помощью робота-ученого « Ева ». [208] [209] Проблемы этого подхода заключаются в том, что он может быть неосуществим для многих областей исследований и что достаточные экспериментальные данные не могут быть извлечены из некоторых или многих статей, даже если они доступны.

Привлечение оригинальных авторов

Психолог Дэниел Канеман утверждал, что в психологии к повторению следует привлекать первоначальных авторов, поскольку опубликованные методы часто слишком расплывчаты. [210] [211] Другие, такие как психолог Эндрю Уилсон, не согласны с этим, утверждая, что первоначальные авторы должны подробно описать методы. [210] Исследование показателей репликации в психологии в 2012 году показало более высокие показатели успеха репликации в исследованиях репликации, когда авторы пересекались с первоначальными авторами исследования [212] (91,7% успешных показателей репликации в исследованиях с дублированием авторов по сравнению с 64,6 % успешных показателей репликации без дублирования авторов).

Большая командная наука

Кризис репликации привел к формированию и развитию различных крупномасштабных и совместных сообществ, объединяющих свои ресурсы для решения одного вопроса в разных культурах, странах и дисциплинах. [213] Основное внимание уделяется репликации, чтобы гарантировать, что эффект распространяется за пределы конкретной культуры, и выяснить, является ли этот эффект воспроизводимым и подлинным. [214] Это позволяет проводить междисциплинарные внутренние проверки, использовать различные точки зрения, использовать единые протоколы во всех лабораториях и набирать более крупные и разнообразные образцы. [214] Исследователи могут сотрудничать, координируя сбор данных или финансируя сбор данных исследователями, которые могут не иметь доступа к средствам, что позволяет увеличить размер выборки и повысить надежность выводов.

Более широкие изменения в научном подходе

Уделяйте особое внимание триангуляции, а не просто репликации

Психолог Маркус Р. Мунафо и эпидемиолог Джордж Дэйви Смит в статье, опубликованной в журнале Nature , утверждают, что исследования должны делать упор на триангуляцию , а не только на репликацию, чтобы защититься от ошибочных идей. Они утверждают, что

одна только репликация приведет нас лишь к определенному результату (и) может фактически усугубить ситуацию ... [Триангуляция] - это стратегическое использование нескольких подходов для решения одного вопроса. Каждый подход имеет свои собственные несвязанные предположения, сильные и слабые стороны. Результаты, согласующиеся при использовании различных методологий, с меньшей вероятностью будут артефактами . ... Возможно, одной из причин, по которой копирование вызвало такой большой интерес, является часто повторяемая идея о том, что фальсификация лежит в основе научной деятельности. Эта идея была популяризирована максимой Карла Поппера 1950-х годов о том, что теории невозможно доказать, а только фальсифицировать. Тем не менее, чрезмерный акцент на повторении экспериментов может создать необоснованное чувство уверенности в результатах, основанных на одном подходе. ... философы науки пошли дальше со времен Поппера. Лучшие описания того, как на самом деле работают ученые, включают то, что эпистемолог Питер Липтон в 1991 году назвал «выводом к лучшему объяснению». [215]

Парадигма сложных систем

Доминирующей научной и статистической моделью причинно-следственной связи является линейная модель. [216] Линейная модель предполагает, что ментальные переменные — это стабильные свойства, независимые друг от друга. Другими словами, ожидается, что эти переменные не будут влиять друг на друга. Вместо этого модель предполагает, что переменные будут иметь независимое линейное влияние на наблюдаемые результаты. [216]

Социологи Себастьян Уоллот и Дамиан Келти-Стивен утверждают, что линейная модель не всегда подходит. [216] Альтернативой является модель сложной системы, которая предполагает, что ментальные переменные взаимозависимы. Эти переменные не считаются стабильными, скорее, они будут взаимодействовать и адаптироваться к каждому конкретному контексту. [216] Они утверждают, что модель сложной системы часто более уместна в психологии, и что использование линейной модели, когда модель сложной системы более уместна, приведет к неудачным повторениям. [216]

...психология, возможно, надеется на повторение в тех самых измерениях и в тех самых условиях, когда растущее количество психологических данных явно препятствует прогнозированию повторения. Неспособность воспроизвести может быть явно связана с потенциально неполной, но широкомасштабной неспособностью человеческого поведения соответствовать стандарту независимости... [216]

Репликация должна быть направлена ​​на пересмотр теорий

Воспроизведение имеет основополагающее значение для научного прогресса и позволяет подтвердить оригинальные результаты. Однако одной лишь репликации недостаточно для разрешения кризиса репликации. Усилия по воспроизведению должны быть направлены не только на поддержку или сомнение в первоначальных результатах, но и на замену их пересмотренными, более сильными теориями с большей объяснительной силой. Таким образом, этот подход предполагает сокращение существующих теорий, сравнение всех альтернативных теорий, а также придание усилиям по воспроизведению более продуктивного характера и участие в построении теорий. [217] [218] Однако одного лишь повторения недостаточно. Важно оценить степень обобщения результатов в географических, исторических и социальных контекстах. Важно, чтобы некоторые научные области, особенно практики и политики, проводили анализ, чтобы направлять важные стратегические решения. Воспроизводимые и воспроизводимые результаты были лучшим предиктором возможности обобщения за пределами исторического и географического контекста, указывая на то, что для социальных наук результаты, полученные в определенный период времени и в определенном месте, могут значимо влиять на то, что универсально присутствует у людей. [219]

Открытая наука

Вокруг слов «Принципы открытой науки» расположены шесть цветных шестиугольников с текстом. Начиная сверху справа и двигаясь по часовой стрелке, текст на шестиугольниках гласит: Воспроизводимость результатов; Научная честность; Гражданская наука; содействие совместной работе; Простота доступа к знаниям для всех; и стимулирование инноваций. Под шестиугольниками находится большой восклицательный знак и текст «Плюс: повышение цитируемости статей в открытом доступе и данных исследований».
Принципы открытой науки

Открытые данные, программное обеспечение с открытым исходным кодом и аппаратное обеспечение с открытым исходным кодом имеют решающее значение для обеспечения воспроизводимости в смысле проверки исходного анализа данных. Использование проприетарного программного обеспечения, отсутствие публикации аналитического программного обеспечения и отсутствие открытых данных препятствуют тиражированию исследований. Если программное обеспечение, используемое в исследованиях, не является открытым исходным кодом, воспроизведение результатов с использованием различных конфигураций программного и аппаратного обеспечения невозможно. [220] В ЦЕРН есть проекты «Открытые данные» и «Сохранение анализа» ЦЕРН для хранения данных, всей соответствующей информации, а также всего программного обеспечения и инструментов, необходимых для сохранения анализа в ходе крупных экспериментов БАК . Помимо всего программного обеспечения и данных, сохраненные активы анализа включают метаданные, которые позволяют понять рабочий процесс анализа, соответствующее программное обеспечение, систематические неопределенности, статистические процедуры и значимые способы поиска анализа, а также ссылки на публикации и резервные материалы. [221] Программное обеспечение ЦЕРН имеет открытый исходный код и доступно для использования за пределами физики элементарных частиц , а для других областей предоставляются некоторые рекомендации по широким подходам и стратегиям, используемым для открытой науки в современной физике элементарных частиц. [222]

Онлайн-хранилища, в которых данные, протоколы и результаты могут храниться и оцениваться общественностью, стремятся улучшить целостность и воспроизводимость исследований. Примеры таких репозиториев включают Open Science Framework , Registry of Research Data Repositories и Psychfiledrawer.org. Такие сайты, как Open Science Framework, предлагают значки за использование практик открытой науки, чтобы стимулировать ученых. Однако существуют опасения, что те, кто, скорее всего, предоставят свои данные и код для анализа, являются наиболее опытными исследователями. [223] Иоаннидис предположил, что «может возникнуть парадокс: самые дотошные, изощренные, методически подкованные и осторожные исследователи могут стать более восприимчивыми к критике и атакам на репутацию со стороны реанализаторов, которые охотятся за ошибками, независимо от того, насколько незначительными являются эти ошибки». [223]

Смотрите также

Примечания

  1. ^ Также называется кризисом воспроизводимости , кризисом воспроизводимости , кризисом воспроизводства или кризисом невоспроизводимости .
  2. ^ Согласно Психологическому словарю APA , предвзятость подтверждения - это «тенденция собирать доказательства, подтверждающие ранее существовавшие ожидания, обычно путем подчеркивания или поиска подтверждающих доказательств, одновременно отклоняя или не ища противоречивые доказательства». [115]
  3. ^ В контексте проверки значимости нулевой гипотезы результаты, которые не являются статистически значимыми
  4. ^ Извлечение данных, также известное как p- хакинг или p -рыбалка , представляет собой неправильное использование данных с помощью множества методов для поиска поддержки гипотез, для которых данные недостаточны. [128]
  5. ^ Выборочная отчетность также известна как частичная публикация . Отчетность — это возможность раскрыть все использованные или эксплуатируемые степени свободы исследователя. Выборочная отчетность — это неспособность сообщить соответствующие детали или варианты выбора, такие как некоторые независимые и зависимые переменные, недостающие данные, исключения данных и исключения выбросов. [126]
  6. ^ HARKing, также известный как апостериорное повествование , - это когда исследовательский анализ оформляется как подтверждающий анализ. Он предполагает изменение гипотезы после проведения исследования, чтобы новая гипотеза могла быть подтверждена результатами эксперимента. [126]
  7. ^ Авторы приводят пример, в котором, предполагая, что истинная средняя корреляция, отражающая эффект, равна 0,2, а стандартное отклонение распределения эффектов также составляет 0,2, повторное исследование будет иметь 62% вероятность обнаружения истинного значения от среднего до большого. эффект (r > 0,3) или незначительный истинный эффект (r < 0,1).
  8. ^ 0,412 против 0,389 в единицах стандартизированных средних разностей (SMD).
  9. ^ Основным используемым DV был субъективный бинарный рейтинг (т. е. реплицированный/не реплицируемый), использованный в исходном исследовании OSC. Авторы также измерили корреляции с другими показателями воспроизводимости (например, доверительными интервалами) и обнаружили почти равные корреляции между контекстной чувствительностью и успехом репликации.
  10. ^ Независимый эффект контекстной чувствительности можно наблюдать как в множественной логистической регрессии, так и в модели иерархической регрессии. В последнем случае контекстная чувствительность была включена во вторую ступень иерархии и изменение коэффициента множественной детерминации оказалось значимым.
  11. ^ Следуя аргументу Берда, этот процент получается путем расчета вероятности ложноположительного отчета (FPRP) следующим образом.
    • FPRP = Количество ложных срабатываний / Общее количество срабатываний
    • Количество ложноположительных результатов = Вероятность получения ложноположительного результата x Количество отрицательных тестов.
    • Количество истинно положительных результатов = Вероятность получения истинно положительного результата x Количество положительных тестов.
    Предполагая:
    • Количество тестов = 1000
    • Доля истинных гипотез p = 0,10
    • Вероятность получения ложноположительного результата а = 0,05.
    • Вероятность получения истинно положительного результата 1 – B = 0,8.
    Тогда ФППР = (0,05 х 900)/(0,05 х 900 + 0,8 х 100) = 0,36.

Рекомендации

  1. ^ abc Иоаннидис JP (август 2005 г.). «Почему большинство опубликованных результатов исследований ложны». ПЛОС Медицина . 2 (8): е124. дои : 10.1371/journal.pmed.0020124 . ПМЦ  1182327 . ПМИД  16060722.
  2. ^ Джон С. (8 декабря 2017 г.). Научный метод . Нью-Йорк, штат Нью-Йорк: Рутледж. дои : 10.4324/9781315100708. ISBN 978-1-315-10070-8. S2CID  201781341.
  3. ^ Лерер Дж. (13 декабря 2010 г.). «Правда проходит». Житель Нью-Йорка . Проверено 30 января 2020 г.
  4. ^ Маркус Дж. (1 мая 2013 г.). «Кризис социальной психологии, которого нет». Житель Нью-Йорка . Проверено 30 января 2020 г.
  5. ^ abc Baker M (май 2016 г.). «1500 ученых приоткрывают крышку воспроизводимости». Природа (новостной сюжет). 533 (7604). Спрингер Природа : 452–454. Бибкод : 2016Natur.533..452B. дои : 10.1038/533452а . PMID  27225100. S2CID  4460617.(Ошибка: [1])
  6. ^ Пашлер Х., Харрис CR (ноябрь 2012 г.). «Раздут ли кризис воспроизводимости? Рассмотрены три аргумента». Перспективы психологической науки . 7 (6): 531–536. дои : 10.1177/1745691612463401. PMID  26168109. S2CID  1342421.
  7. ^ Фидлер Ф , Уилкокс Дж (2018). «Воспроизводимость научных результатов». Стэнфордская энциклопедия философии . Лаборатория метафизических исследований Стэнфордского университета . Проверено 19 мая 2019 г.
  8. ^ Moonesinghe R, Khoury MJ, Janssens AC (февраль 2007 г.). «Большинство опубликованных результатов исследований являются ложными, но небольшое повторение имеет большое значение». ПЛОС Медицина . 4 (2): е28. doi : 10.1371/journal.pmed.0040028 . ПМК 1808082 . ПМИД  17326704. 
  9. ^ Simons DJ (январь 2014 г.). «Ценность прямой репликации». Перспективы психологической науки . 9 (1): 76–80. дои : 10.1177/1745691613514755. PMID  26173243. S2CID  1149441.
  10. ^ abcd Шмидт С (2009). «Действительно ли мы сделаем это снова? Мощная концепция репликации игнорируется в социальных науках». Обзор общей психологии . 13 (2). Публикации SAGE: 90–100. дои : 10.1037/a0015108. ISSN  1089-2680. S2CID  143855611.
  11. ^ abc Открытое научное сотрудничество (август 2015 г.). «ПСИХОЛОГИЯ. Оценка воспроизводимости психологической науки». Наука . 349 (6251): аас4716. doi : 10.1126/science.aac4716. hdl : 10722/230596 . PMID  26315443. S2CID  218065162.
  12. ^ abc Дювендак М., Палмер-Джонс Р., Рид Р.В. (май 2017 г.). «Что подразумевается под «репликацией» и почему она встречает сопротивление в экономике?». Американский экономический обзор . 107 (5): 46–51. doi : 10.1257/aer.p20171031. ISSN  0002-8282.
  13. ^ abcdefg Shrout PE, Роджерс Дж. Л. (январь 2018 г.). «Психология, наука и построение знаний: расширение перспектив благодаря кризису репликации». Ежегодный обзор психологии . 69 (1). Годовые обзоры: 487–510. doi : 10.1146/annurev-psych-122216-011845. PMID  29300688. S2CID  19593610.
  14. ^ abcdef Стэнли Т.Д., Картер ЕС, Дукульягос Х. (декабрь 2018 г.). «Что метаанализ показывает о воспроизводимости психологических исследований». Психологический вестник . 144 (12): 1325–1346. дои : 10.1037/bul0000169. PMID  30321017. S2CID  51951232.
  15. Мейер С., Шабри С. (31 июля 2014 г.). «Почему борьба психологов за еду имеет значение». Сланец .
  16. ^ Ашванден C (19 августа 2015 г.). «Наука не сломана». ПятьТридцатьВосемь . Проверено 30 января 2020 г.
  17. Ашванден C (27 августа 2015 г.). «Психология начинает решать проблему репликации». ПятьТридцатьВосемь . Проверено 30 января 2020 г.
  18. ^ Этчеллс П. (28 мая 2014 г.). «Движение репликации психологии: дело не в вас». Хранитель .
  19. ^ Вагенмейкерс Э.Дж., Ветцелс Р., Борсбум Д., ван дер Маас Х.Л., Киевит РА (ноябрь 2012 г.). «Программа чисто подтверждающих исследований». Перспективы психологической науки . 7 (6): 632–638. дои : 10.1177/1745691612463078. PMID  26168122. S2CID  5096417.
  20. ^ Иоаннидис JP (ноябрь 2012 г.). «Почему наука не обязательно самокорректируется». Перспективы психологической науки . 7 (6): 645–654. дои : 10.1177/1745691612464056. PMID  26168125. S2CID  11798785.
  21. ^ Пашлер Х., Харрис CR (ноябрь 2012 г.). «Раздут ли кризис воспроизводимости? Рассмотрены три аргумента». Перспективы психологической науки . 7 (6): 531–536. дои : 10.1177/1745691612463401. PMID  26168109. S2CID  1342421.
  22. ^ Мил PE (1967). «Проверка теории в психологии и физике: методологический парадокс». Философия науки . 34 (2): 103–115. дои : 10.1086/288135. ISSN  0031-8248. JSTOR  186099. S2CID  96422880.
  23. ^ Келли, Кен; Проповедник, Кристофер Дж. (2012). «О величине эффекта». Психологические методы . 17 (2): 137–152. дои : 10.1037/a0028086. ISSN  1939-1463.
  24. ^ Симонсон, Ури; Нельсон, Лейф Д.; Симмонс, Джозеф П. (ноябрь 2014 г.). «p-кривая и размер эффекта: коррекция систематической ошибки публикации с использованием только значимых результатов». Перспективы психологической науки . 9 (6): 666–681. дои : 10.1177/1745691614553988. ISSN  1745-6916. ПМИД  26186117.
  25. ^ Симонсон, Ури; Нельсон, Лейф Д; Симмонс, Джозеф П. (1 апреля 2014 г.). «П-кривая: ключ к ящику с файлами». Журнал общей экспериментальной психологии . 143 (2): 534–547. дои : 10.1037/a0033242. ISSN  1939-2222. ПМИД  23855496.
  26. ^ abc Ромеро Ф (ноябрь 2019 г.). «Философия науки и кризис воспроизводимости». Философский компас . 14 (11). дои : 10.1111/phc3.12633 . ISSN  1747-9991. S2CID  202261836.
  27. ^ Барг Дж. А., Чен М., Берроуз Л. (август 1996 г.). «Автоматичность социального поведения: прямое влияние конструкции черт и активации стереотипов на действия». Журнал личности и социальной психологии . 71 (2): 230–244. дои : 10.1037/0022-3514.71.2.230. PMID  8765481. S2CID  6654763.
  28. Дойен С., Кляйн О., Пишон С.Л., Клиреманс А. (18 января 2012 г.). Лауверейнс Дж. (ред.). «Поведенческий прайминг: все дело в уме, но в чьем уме?». ПЛОС Один . 7 (1): e29081. Бибкод : 2012PLoSO...729081D. дои : 10.1371/journal.pone.0029081 . ПМЦ 3261136 . ПМИД  22279526. 
  29. ^ Ён Э (10 марта 2012 г.). «Неудачная репликация вызывает резкие личные нападки со стороны профессора психологии». Национальная география . Архивировано из оригинала 25 февраля 2021 г. Проверено 4 июля 2023 г.
  30. Пашлер Х., Коберн Н., Харрис CR (29 августа 2012 г.). «Усиление социальной дистанции? Неспособность воспроизвести влияние на социальные и пищевые суждения». ПЛОС Один . 7 (8): е42510. Бибкод : 2012PLoSO...742510P. дои : 10.1371/journal.pone.0042510 . ПМЦ 3430642 . ПМИД  22952597. 
  31. ^ Харрис CR, Коберн Н., Рорер Д., Пашлер Х. (16 августа 2013 г.). «Две неудачи в воспроизведении эффектов прайминга для достижения высоких результатов». ПЛОС Один . 8 (8): е72467. Бибкод : 2013PLoSO...872467H. дои : 10.1371/journal.pone.0072467 . ПМЦ 3745413 . ПМИД  23977304. 
  32. ^ Шанкс Д.Р., Ньюэлл Б.Р., Ли Э.Х., Балакришнан Д., Экелунд Л., Сенак З. и др. (24 апреля 2013 г.). «Настройка разумного поведения: неуловимое явление». ПЛОС Один . 8 (4): е56515. Бибкод : 2013PLoSO...856515S. дои : 10.1371/journal.pone.0056515 . ПМЦ 3634790 . ПМИД  23637732. 
  33. ^ Кляйн Р.А., Рэтлифф К.А., Вианелло М., Адамс Р.Б., Бахник Ш., Бернштейн М.Дж., Боциан К., Брандт М.Дж., Брукс Б., Брамбо CC, Семалджилар З., Чендлер Дж., Чеонг В., Дэвис М.Е., Девос Т. (май 2014 г.). «Исследование изменений в воспроизводимости». Социальная психология . 45 (3): 142–152. дои : 10.1027/1864-9335/a000178 . hdl : 2066/131506 . ISSN  1864-9335.
  34. ^ Бем DJ (март 2011 г.). «Чувство будущего: экспериментальные доказательства аномального ретроактивного влияния на познание и аффект». Журнал личности и социальной психологии . 100 (3): 407–425. дои : 10.1037/a0021524. PMID  21280961. S2CID  1961013.
  35. ^ Вагенмейкерс Э.Дж., Ветцелс Р., Борсбум Д., ван дер Маас Х.Л. (март 2011 г.). «Почему психологи должны изменить способ анализа своих данных: случай пси: комментарий Бема (2011)». Журнал личности и социальной психологии . 100 (3): 426–432. дои : 10.1037/a0022790. ПМИД  21280965.
  36. ^ Галак Дж., ЛеБёф Р.А., Нельсон Л.Д., Симмонс Дж.П. (декабрь 2012 г.). «Исправление прошлого: неудачи в воспроизведении ψ». Журнал личности и социальной психологии . 103 (6): 933–948. дои : 10.1037/a0029709. ПМИД  22924750.
  37. ^ аб Бегли К.Г., Эллис Л.М. (март 2012 г.). «Разработка лекарств: повысить стандарты доклинических исследований рака». Природа (Комментарий к статье). 483 (7391): 531–533. Бибкод : 2012Natur.483..531B. дои : 10.1038/483531a . PMID  22460880. S2CID  4326966.(Ошибка:  doi : 10.1038/485041e)
  38. ^ Иоаннидис JP (сентябрь 2008 г.). «Почему большинство обнаруженных истинных ассоциаций завышены». Эпидемиология . 19 (5): 640–648. дои : 10.1097/EDE.0b013e31818131e7 . PMID  18633328. S2CID  15440816.
  39. ^ abcdef Джон Л.К., Левенштейн Г. , Прелек Д. (май 2012 г.). «Измерение распространенности сомнительных исследовательских практик со стимулами для высказывания правды». Психологическая наука . 23 (5): 524–532. дои : 10.1177/0956797611430953. PMID  22508865. S2CID  8400625.
  40. ^ abcde Simmons JP, Нельсон LD, Simonson U (ноябрь 2011 г.). «Ложноположительная психология: нераскрытая гибкость в сборе и анализе данных позволяет представить все как значимое». Психологическая наука . 22 (11): 1359–1366. дои : 10.1177/0956797611417632. PMID  22006061. S2CID  13802986.
  41. ^ Пашлер Х., Wagenmakers EJ (ноябрь 2012 г.). «Введение редактора в специальный раздел, посвященный воспроизводимости в психологической науке: кризис доверия?». Перспективы психологической науки . 7 (6): 528–530. дои : 10.1177/1745691612465253. PMID  26168108. S2CID  26361121.
  42. ^ Альгрен, Эндрю (апрель 1969 г.). «Скромное предложение для поощрения тиражирования». Американский психолог . 24 (4): 471. doi : 10.1037/h0037798. ISSN  1935-990Х.
  43. ^ Смит, Натаниэль К. (октябрь 1970 г.). «Исследования репликации: игнорируемый аспект психологических исследований». Американский психолог . 25 (10): 970–975. дои : 10.1037/h0029774. ISSN  1935-990Х.
  44. ^ Нойлип, JW; Крэндалл, Р. (1993). «Предвзятость рецензента против исследования репликации». Журнал социального поведения и личности . 8 (6): 21–29. ProQuest  1292304227 – через ProQuest.
  45. ^ Нойлип, JW; Крэндалл, Р. (1990). «Редакционная предвзятость в отношении исследований по репликации». Журнал социального поведения и личности . 5 (4): 85–90 – через ProQuest.
  46. Льюис-Краус, Гидеон (30 сентября 2023 г.). «Они изучали нечестность. Была ли их работа ложью?». Житель Нью-Йорка . ISSN  0028-792X . Проверено 1 октября 2023 г.
  47. Суббараман, Нидхи (24 сентября 2023 г.). «Группа разоблачителей, уничтожающая плохих ученых». Уолл Стрит Джорнал . Архивировано из оригинала 24 сентября 2023 г. Проверено 8 октября 2023 г.
  48. ^ "APA PsycNet". psycnet.apa.org . Проверено 8 октября 2023 г.
  49. ^ аб Спеллман, Барбара А. (ноябрь 2015 г.). «Краткая (личная) будущая история революции 2.0». Перспективы психологической науки . 10 (6): 886–899. дои : 10.1177/1745691615609918 . ISSN  1745-6916. PMID  26581743. S2CID  206778431.
  50. ^ аб Гринвальд, Энтони Г., изд. (январь 1976 г.). «Редакционная статья». Журнал личности и социальной психологии . 33 (1): 1–7. дои : 10.1037/h0078635. ISSN  1939-1315.
  51. ^ Стерлинг, Теодор Д. (1959). «Решения о публикации и их возможное влияние на выводы, сделанные на основе тестов значимости, или наоборот». Журнал Американской статистической ассоциации . 54 (285): 30–34. дои : 10.2307/2282137. ISSN  0162-1459. JSTOR  2282137.
  52. Миллс, Дж.Л. (14 октября 1993 г.). «Пытка данных». Медицинский журнал Новой Англии . 329 (16): 1196–1199. дои : 10.1056/NEJM199310143291613. ISSN  0028-4793. ПМИД  8166792.
  53. ^ аб Розенталь, Роберт (май 1979 г.). «Проблема с файловым ящиком и допуск нулевых результатов». Психологический вестник . 86 (3): 638–641. дои : 10.1037/0033-2909.86.3.638. ISSN  1939-1455. S2CID  36070395.
  54. ^ Аб Коэн, Дж. (сентябрь 1962 г.). «Статистическая сила аномально-социальных психологических исследований: обзор». Журнал аномальной и социальной психологии . 65 : 145–153. дои : 10.1037/h0045186. ISSN  0096-851X. ПМИД  13880271.
  55. ^ Седльмайер, Питер; Гигеренцер, Герд (март 1989 г.). «Влияют ли исследования статистической мощности на мощность исследований?». Психологический вестник . 105 (2): 309–316. дои : 10.1037/0033-2909.105.2.309. hdl : 21.11116/0000-0000-B883-C . ISSN  1939-1455.
  56. Гельман, Эндрю (21 сентября 2016 г.). «Здесь произошло то, что ветер изменился». Статистическое моделирование, причинный вывод и социальные науки .
  57. ^ Кристакис, Николас А.; Фаулер, Джеймс Х. (26 июля 2007 г.). «Распространение ожирения в большой социальной сети за 32 года». Медицинский журнал Новой Англии . 357 (4): 370–379. doi : 10.1056/NEJMsa066082. ISSN  0028-4793.
  58. Йонг, Эд (3 октября 2012 г.). «Нобелевский лауреат призывает психологов навести порядок в своих действиях». Природа . дои : 10.1038/nature.2012.11535. ISSN  1476-4687.
  59. ^ Ваньков, Иван; Бауэрс, Джеффри; Мунафо, Маркус Р. (2014–05). «Комментарий к статье: о сохранении низкой власти в психологической науке». Ежеквартальный журнал экспериментальной психологии . 67 (5): 1037–1040. дои : 10.1080/17470218.2014.885986. ISSN  1747-0218. ПМЦ 4961230 . ПМИД  24528377.  {{cite journal}}: Проверьте значения даты в: |date=( помощь )CS1 maint: PMC format (link)
  60. ^ аб Смальдино, Пол Э.; МакЭлрит, Ричард (июнь 2016 г.). «Естественный отбор плохой науки». Королевское общество открытой науки . 3 (9): 160384. doi :10.1098/rsos.160384. ISSN  2054-5703. ПМК 5043322 . ПМИД  27703703. 
  61. ^ Ахенбах Дж. «Нет, проблема воспроизводимости науки не ограничивается психологией». Вашингтон Пост . Проверено 10 сентября 2015 г.
  62. ^ Виггинс Б.Дж., Кристоферсон С. (2019). «Кризис репликации в психологии: обзор теоретической и философской психологии». Журнал теоретической и философской психологии . 39 (4): 202–217. дои : 10.1037/teo0000137. ISSN  2151-3341. S2CID  210567289.
  63. ^ Хаггер, М.С.; Чацисарантис, НЛД; Альбертс, Х.; и другие. (2016). «Предварительно зарегистрированная в Multilab репликация эффекта истощения эго». Перспективы психологической науки . 11 (4): 546–573. дои : 10.1177/1745691616652873 . hdl : 20.500.11937/16871 . ПМИД  27474142.
  64. ^ Бартлетт Т. (30 января 2013 г.). «Сила внушения». Хроника высшего образования .
  65. Dominus S (18 октября 2017 г.). «Когда для Эми Кадди пришла революция». Нью-Йорк Таймс . ISSN  0362-4331 . Проверено 19 октября 2017 г.
  66. ^ Дункан Л.Е., Келлер MC (октябрь 2011 г.). «Критический обзор первых 10 лет исследований взаимодействия генов и окружающей среды в психиатрии». Американский журнал психиатрии . 168 (10): 1041–1049. дои : 10.1176/appi.ajp.2011.11020191. ПМЦ 3222234 . ПМИД  21890791. 
  67. ^ Лейхсенринг Ф., Аббасс А. , Хилсенрот М.Дж., Левеке Ф., Луйтен П., Киф Дж.Р. и др. (апрель 2017 г.). «Предвзятость в исследованиях: факторы риска невоспроизводимости исследований в области психотерапии и фармакотерапии». Психологическая медицина . 47 (6): 1000–1011. дои : 10.1017/S003329171600324X. PMID  27955715. S2CID  1872762.
  68. Член парламента Хенгартнера (28 февраля 2018 г.). «Повышение осведомленности о кризисе репликации в клинической психологии путем сосредоточения внимания на несоответствиях в исследованиях в области психотерапии: насколько мы можем полагаться на опубликованные результаты испытаний эффективности?». Границы в психологии . 9 . Frontiers Media : 256. doi : 10.3389/fpsyg.2018.00256 . ПМЦ 5835722 . ПМИД  29541051. 
  69. ^ Фрэнк MC , Бергельсон Э, Бергманн С, Кристиа А, Флоксия С, Жервен Дж и др. (9 марта 2017 г.). «Совместный подход к исследованиям младенцев: содействие воспроизводимости, передовой опыт и построение теории». Младенчество . 22 (4): 421–435. дои :10.1111/инфа.12182. hdl : 10026.1/9942. ПМК 6879177 . ПМИД  31772509. 
  70. ^ Харрис-младший (2009) [1998]. Предположение о воспитании: почему дети становятся такими, какими они есть (2-е изд.). Нью-Йорк: Свободная пресса . ISBN 978-1439101650.
  71. ^ Харрис HR (2006). Нет двух одинаковых: человеческая природа и человеческая индивидуальность . Нью-Йорк: WW Norton & Company . ISBN 978-0393329711.
  72. Тайсон С (14 августа 2014 г.). «Неспособность воспроизвести». Внутри высшего образования . Проверено 19 декабря 2018 г.
  73. ^ Makel MC, Plucker JA (1 августа 2014 г.). «Факты важнее новизны: тиражирование в сфере педагогических наук». Исследователь образования . 43 (6): 304–316. дои : 10.3102/0013189X14545513. S2CID  145571836 . Проверено 19 декабря 2018 г.
  74. ^ Киршнер П.А., Свеллер Дж. , Кларк Р.Э. (2006). «Почему минимальное руководство во время обучения не работает: анализ неудач конструктивистского, исследовательского, проблемного, экспериментального и исследовательского обучения». Педагогический психолог . 41 (2). Рутледж : 75–86. дои : 10.1207/s15326985ep4102_1. S2CID  17067829.
  75. ^ Основы успеха: Заключительный отчет Национальной консультативной группы по математике (PDF) (Отчет). Министерство образования США . 2008. стр. 45–46. Архивировано (PDF) из оригинала 18 января 2018 г. Проверено 3 ноября 2020 г.
  76. ^ Пашлер Х. , МакДэниел М. , Рорер Д., Бьорк Р. (декабрь 2008 г.). «Стили обучения: концепции и доказательства». Психологическая наука в общественных интересах . 9 (3). Публикации SAGE : 105–119. дои : 10.1111/j.1539-6053.2009.01038.x . PMID  26162104. S2CID  2112166.
  77. ^ Носек Б.А., Кохун Дж., Кидвелл MC, Шпионы JR (2018) [2015]. «Сводка показателей воспроизводимости и величины эффекта для оригинальных и повторных исследований в целом, а также по журналам / дисциплинам». Оценка воспроизводимости психологической науки (таблица). Проект воспроизводимости: Психология . Проверено 16 октября 2019 г.
  78. ^ abc Ошибка Cite: именованная ссылка :5была вызвана, но так и не определена (см. страницу справки ).
  79. Роджер А. (27 августа 2018 г.). «Наука, лежащая в основе социальных наук, снова потрясена». Проводной . Проверено 28 августа 2018 г.
  80. ^ Камерер К.Ф. , Дребер А., Хольцмайстер Ф., Хо Т.Х., Хубер Дж., Йоханнессон М. и др. (сентябрь 2018 г.). «Оценка воспроизводимости социальных научных экспериментов в области природы и науки в период с 2010 по 2015 год». Природа человеческого поведения . 2 (9): 637–644. doi : 10.1038/s41562-018-0399-z. PMID  31346273. S2CID  52098703.
  81. ^ Кляйн РА (2018). «Множество лабораторий 2: исследование различий в воспроизводимости образцов и настроек». Достижения в методах и практике психологической науки . 1 (4): 443–490. дои : 10.1177/2515245918810225 . hdl : 1854/LU-8637133 .
  82. ^ аб Витковский Т (2019). «Стакан наполовину пуст или наполовину полон? Последние результаты кризиса репликации в психологии» (PDF) . Скептический исследователь . Том. 43, нет. 2. С. 5–6. Архивировано из оригинала (PDF) 30 января 2020 г.
  83. Рихтель М (16 марта 2022 г.). «Исследования изображений мозга затруднены из-за небольших наборов данных, результаты исследования». Нью-Йорк Таймс .
  84. ^ Марек С., Терво-Клемменс Б., Калабро Ф.Дж., Монтес Д.Ф., Кей Б.П., Хатум А.С. и др. (март 2022 г.). «Для воспроизводимых исследований ассоциаций всего мозга требуются тысячи людей». Природа . 603 (7902): 654–660. Бибкод : 2022Natur.603..654M. дои : 10.1038/s41586-022-04492-9. ПМК 8991999 . ПМИД  35296861. 
  85. ^ Иоаннидис JP (июль 2005 г.). «Противоречивые и изначально более сильные эффекты в широко цитируемых клинических исследованиях». ДЖАМА . 294 (2): 218–228. дои : 10.1001/jama.294.2.218. PMID  16014596. S2CID  16749356.
  86. ^ Принц Ф, Шланге Т, Асадулла К (август 2011 г.). «Хотите верьте, хотите нет: насколько мы можем полагаться на опубликованные данные о потенциальных мишенях для наркотиков?». Обзоры природы. Открытие наркотиков . 10 (9): 712. дои : 10.1038/nrd3439-c1 . ПМИД  21892149.
  87. ^ Уилинг К. (12 мая 2016 г.). «Большая фармацевтика обнаруживает кризис биомедицинской репликации». Тихоокеанский стандарт . Проверено 30 января 2020 г.Обновлено 14 июня 2017 г.
  88. ^ ab Haelle T (7 декабря 2021 г.). «Десятки крупных исследований рака невозможно повторить». Новости науки . Проверено 19 января 2022 г.
  89. ^ ab «Проект воспроизводимости: биология рака». www.cos.io.Центр открытой науки . Проверено 19 января 2022 г.
  90. ^ Мобли А., Линдер С.К., Бройер Р., Эллис Л.М., Цвеллинг Л. (2013). Аракава Х (ред.). «Опрос по воспроизводимости данных в исследованиях рака дает представление о наших ограниченных возможностях перенести результаты из лаборатории в клинику». ПЛОС Один . 8 (5): e63221. Бибкод : 2013PLoSO...863221M. дои : 10.1371/journal.pone.0063221 . ПМК 3655010 . ПМИД  23691000. 
  91. Ван Ноорден, Ричард (18 июля 2023 г.). «Медицина страдает от ненадежных клинических испытаний. Сколько исследований фальсифицированы или ошибочны?». Природа . 619 (7970): 454–458. Бибкод : 2023Natur.619..454V. дои : 10.1038/d41586-023-02299-w . ПМИД  37464079.
  92. ^ abcd Цуй А.С. (21 января 2022 г.). «От традиционных исследований к ответственным исследованиям: необходимость научной свободы и научной ответственности для лучшего общества». Ежегодный обзор организационной психологии и организационного поведения . 9 (1): 1–32. doi : 10.1146/annurev-orgpsych-062021-021303 . ISSN  2327-0608. S2CID  244238570.
  93. ^ Камерер К.Ф., Дребер А., Форселл Э., Хо Т.Х., Хубер Дж., Йоханнессон М. и др. (март 2016 г.). «Оценка воспроизводимости лабораторных экспериментов в экономике». Наука . 351 (6280): 1433–1436. Бибкод : 2016Sci...351.1433C. doi : 10.1126/science.aaf0918 . ПМИД  26940865.
  94. ^ Боханнон Дж (3 марта 2016 г.). «Около 40% экономических экспериментов не удается повторить исследование». Наука . doi : 10.1126/science.aaf4141 . Проверено 25 октября 2017 г.
  95. ^ Гольдфарб РС (1 декабря 1997 г.). «Теперь вы это видите, теперь нет: появление противоположных результатов в экономике». Журнал экономической методологии . 4 (2): 221–244. дои : 10.1080/13501789700000016. ISSN  1350-178X.
  96. ↑ ab Bergh DD, Sharp BM, Aguinis H, Li M (6 апреля 2017 г.). «Существует ли кризис доверия к исследованиям в области стратегического управления? Доказательства воспроизводимости результатов исследования». Стратегическая организация . 15 (3): 423–436. дои : 10.1177/1476127017701076 . ISSN  1476-1270. S2CID  44024633.
  97. ^ аб Стэгге Дж. Х., Розенберг Д. Е., Абдалла А. М., Акбар Х., Атталла Н. А., Джеймс Р. (февраль 2019 г.). «Оценка доступности данных и воспроизводимости исследований в области гидрологии и водных ресурсов». Научные данные . 6 : 190030. Бибкод : 2019NatSD...690030S. дои : 10.1038/sdata.2019.30. ПМК 6390703 . ПМИД  30806638. 
  98. ^ ab Nature Video (28 мая 2016 г.). «Существует ли кризис воспроизводимости в науке?». Научный американец . Проверено 15 августа 2019 г.
  99. ^ Фанелли, Даниэле (2010). Энрико Скалас (ред.). «Положительные» результаты поднимаются вниз по иерархии наук». ПЛОС Один . 5 (4): e10068. Бибкод : 2010PLoSO...510068F. дои : 10.1371/journal.pone.0010068 . ПМЦ 2850928 . ПМИД  20383332. 
  100. ^ аб Аллен С., Мелер Д.М. (май 2019 г.). «Проблемы, преимущества и советы открытой науки в начале карьеры и за ее пределами». ПЛОС Биология . 17 (5). Публичная научная библиотека: e3000246. дои : 10.1371/journal.pbio.3000246 . ПМК 6513108 . ПМИД  31042704. 
  101. ^ «Новый кризис репликации: исследования, которые с меньшей вероятностью являются правдой, цитируются чаще» . Калифорнийский университет, Сан-Диего . 21 мая 2021 г. Архивировано из оригинала 13 апреля 2024 г.
  102. ^ Серра-Гарсия, Марта; Гнизи, Ури (21 мая 2021 г.). «Нереплицируемые публикации цитируются чаще, чем тиражируемые». Достижения науки . 7 (21). Бибкод : 2021SciA....7.1705S. doi : 10.1126/sciadv.abd1705. ПМЦ 8139580 . ПМИД  34020944. 
  103. ^ Бегли К.Г., Иоаннидис Дж.П. (январь 2015 г.). «Воспроизводимость в науке: улучшение стандартов фундаментальных и доклинических исследований». Исследование кровообращения . 116 (1): 116–126. дои : 10.1161/CIRCRESAHA.114.303819 . PMID  25552691. S2CID  3587510.
  104. ^ Прайс-ди-джей (1963). Маленькая наука, большая наука . Издательство Колумбийского университета. п. 32. ISBN 9780231085625.
  105. ^ Зиберт С., Мачески Л.М., Инсолл Р.Х. (сентябрь 2015 г.). «Переизбыток в науке и его последствия для доверия». электронная жизнь . 4 : е10825. дои : 10.7554/eLife.10825 . ПМК 4563216 . ПМИД  26365552. 
  106. ^ Делла Бриотта Пароло П., Пан РК, Гош Р., Хуберман Б.А., Каски К., Фортунато С. (2015). «Распад внимания в науке». Журнал информаметрики . 9 (4): 734–745. arXiv : 1503.01881 . Бибкод : 2015arXiv150301881D. дои : 10.1016/j.joi.2015.07.006. S2CID  10949754.
  107. ^ аб Мировски П. (2011). Наука-Март . Издательство Гарвардского университета. стр. 2, 24. ISBN 978-0-674-06113-2.
  108. ^ Мёллер Х.Г. (2006). Луман объяснил: от души к системам . Чикаго: Открытый суд. п. 25. ISBN 0-8126-9598-4. ОСЛК  68694011.
  109. ^ Луман Н (1995). Социальные системы . Стэнфорд, Калифорния: Издательство Стэнфордского университета. п. 288. ИСБН 978-0-8047-2625-2. ОСЛК  31710315.
  110. ^ ab Scheufele DA (сентябрь 2014 г.). «Научная коммуникация как политическая коммуникация». Труды Национальной академии наук Соединенных Штатов Америки . 111 (Приложение 4): 13585–13592. Бибкод : 2014PNAS..111S3585S. дои : 10.1073/pnas.1317516111 . ПМЦ 4183176 . ПМИД  25225389. 
  111. ^ Пилке Р. (2007). Честный посредник: смысл науки в политике и политике . Кембридж: Издательство Кембриджского университета. дои : 10.1017/CBO9780511818110. ISBN 978-0-511-81811-0. ОСЛК  162145073.
  112. ^ Мартин Г.Н., Кларк Р.М. (2017). «Являются ли психологические журналы антирепликацией? Снимок редакционной практики». Границы в психологии . 8 : 523. дои : 10.3389/fpsyg.2017.00523 . ПМЦ 5387793 . ПМИД  28443044. 
  113. ^ Юнг AW (2017). «Принимают ли журналы по неврологии репликации? Обзор литературы». Границы человеческой неврологии . 11 : 468. дои : 10.3389/fnhum.2017.00468 . ПМК 5611708 . ПМИД  28979201. 
  114. ^ Хаббард Р., Веттер Д.Е. (1 февраля 1996 г.). «Эмпирическое сравнение опубликованных повторных исследований в области бухгалтерского учета, экономики, финансов, менеджмента и маркетинга». Журнал бизнес-исследований . 35 (2): 153–164. дои : 10.1016/0148-2963(95)00084-4. ISSN  0148-2963.
  115. ^ «Предвзятость подтверждения». Психологический словарь APA . Вашингтон, округ Колумбия: Американская психологическая ассоциация . нд . Проверено 2 февраля 2022 г.
  116. ^ abc Фергюсон, Кристофер Дж.; Хин, Мориц (ноябрь 2012 г.). «Огромное кладбище теорий нежити: предвзятость публикаций и отвращение психологической науки к нулю». Перспективы психологической науки . 7 (6): 555–561. дои : 10.1177/1745691612459059. ISSN  1745-6916.
  117. Доминус, Сьюзен (18 октября 2017 г.). «Когда для Эми Кадди пришла революция». Журнал Нью-Йорк Таймс .
  118. ^ Гарсия-Берту, Эмили; Алькарас, Карлес (28 мая 2004 г.). «Несоответствие между статистикой испытаний и значениями P в медицинских статьях». Методология медицинских исследований BMC . 4 (1): 13. дои : 10.1186/1471-2288-4-13 . ISSN  1471-2288. ПМК 443510 . ПМИД  15169550. 
  119. ^ Ньювенхейс, Сандер; Форстманн, Бирте У.; Вагенмейкерс, Эрик-Ян (сентябрь 2011 г.). «Ошибочный анализ взаимодействий в нейробиологии: проблема значимости». Природная неврология . 14 (9): 1105–1107. дои : 10.1038/nn.2886. ISSN  1546-1726. ПМИД  21878926.
  120. ^ аб Фанелли Д. (апрель 2010 г.). «Усиливает ли давление с целью публикации предвзятость ученых? Эмпирическая поддержка со стороны данных штатов США». ПЛОС Один . 5 (4): е10271. Бибкод : 2010PLoSO...510271F. дои : 10.1371/journal.pone.0010271 . ПМК 2858206 . ПМИД  20422014. 
  121. ^ Носек Б.А., Шпионы-младшие, Мотыль М. (ноябрь 2012 г.). «Научная утопия: II. Реструктуризация стимулов и практик для продвижения истины, а не публикации». Перспективы психологической науки . 7 (6): 615–631. arXiv : 1205.4251 . дои : 10.1177/1745691612459058. ПМЦ 10540222 . PMID  26168121. S2CID  23602412. 
  122. ^ Эверетт Дж. А., Эрп Б. Д. (1 января 2015 г.). «Трагедия (академического) достояния: интерпретация кризиса репликации в психологии как социальной дилеммы для начинающих исследователей». Границы в психологии . 6 : 1152. doi : 10.3389/fpsyg.2015.01152 . ПМК 4527093 . ПМИД  26300832. 
  123. ^ аб Клейсон, Питер Э.; Карабин, Кейли А.; Болдуин, Скотт А.; Ларсон, Майкл Дж. (2019). «Методологическое отчетное поведение, размеры выборки и статистическая мощность в исследованиях потенциала, связанного с событиями: барьеры на пути воспроизводимости и воспроизводимости». Психофизиология . 56 (11): e13437. дои : 10.1111/psyp.13437. ISSN  0048-5772. ПМИД  31322285.
  124. ^ ЛеБел, Этьен П.; Петерс, Курт Р. (декабрь 2011 г.). «Опасаясь будущего эмпирической психологии: свидетельства Бема (2011) о пси как примере недостатков в модальной исследовательской практике». Обзор общей психологии . 15 (4): 371–379. дои : 10.1037/a0025172. ISSN  1089-2680.
  125. ^ abc «Неправомерное проведение исследований - серая зона сомнительных исследовательских практик». www.vib.be.Флаамский институт биотехнологий . 30 сентября 2013 г. Архивировано из оригинала 31 октября 2014 г. Проверено 13 ноября 2015 г.
  126. ^ abcdefgh Wicherts JM , Veldkamp CL, Augusteijn HE, Bakker M, van Aert RC, van Assen MA (2016). «Степени свободы в планировании, проведении, анализе и составлении отчетов о психологических исследованиях: контрольный список, позволяющий избежать взлома». Границы в психологии . 7 : 1832. doi : 10.3389/fpsyg.2016.01832 . ПМК 5122713 . ПМИД  27933012. 
  127. ^ abc Neuroskeptic (ноябрь 2012 г.). «Девять кругов научного ада». Перспективы психологической науки (Мнение). 7 (6): 643–644. дои : 10.1177/1745691612459519 . PMID  26168124. S2CID  45328962.
  128. ^ «Извлечение данных». Психологический словарь APA . Вашингтон, округ Колумбия: Американская психологическая ассоциация . нд . Проверено 9 января 2022 г. Неуместная практика поиска в больших массивах информации в попытке подтвердить предвзятую гипотезу или убеждение без адекватного дизайна, исключающего возможные сбивающие с толку или альтернативные гипотезы. Извлечение данных может включать выбор частей большого набора данных, которые следует сохранить, чтобы получить конкретные желаемые результаты.
  129. ^ Бегли CG (май 2013 г.). «Шесть красных флажков за подозрительную работу». Природа (Комментарий к статье). 497 (7450): 433–434. Бибкод : 2013Natur.497..433B. дои : 10.1038/497433а . PMID  23698428. S2CID  4312732.
  130. Ши С (13 ноября 2011 г.). «Скандал о мошенничестве разжигает дебаты по поводу практики социальной психологии». Хроника высшего образования .
  131. ^ О'Бойл, Эрнест Х.; Гетц, Мартин (2022). «Сомнительные исследовательские практики». Честность исследований: лучшие практики социальных и поведенческих наук . Издательство Оксфордского университета. стр. 261–294. ISBN 978-0190938550.
  132. ^ Глик Дж.Л. (1992). «Аудит научных данных — ключевой инструмент управления». Ответственность в исследованиях . 2 (3): 153–168. дои : 10.1080/08989629208573811.
  133. ^ Фидлер К., Шварц Н. (19 октября 2015 г.). «Возвращение к сомнительной исследовательской практике». Социальная психология и наука о личности . 7 : 45–52. дои : 10.1177/1948550615612150. ISSN  1948-5506. S2CID  146717227.
  134. ^ Фанелли Д. (май 2009 г.). «Сколько ученых фабрикуют и фальсифицируют исследования? Систематический обзор и метаанализ данных опросов». ПЛОС Один . 4 (5): е5738. Бибкод : 2009PLoSO...4.5738F. дои : 10.1371/journal.pone.0005738 . ПМК 2685008 . ПМИД  19478950. 
  135. ^ Баттон, Кэтрин С.; Иоаннидис, Джон П.А.; Мокрыш, Клэр; Носек, Брайан А.; Флинт, Джонатан; Робинсон, Эмма С.Дж.; Мунафо, Маркус Р. (2013). «Сбой в электроснабжении: почему небольшой размер выборки подрывает надежность нейробиологии». Обзоры природы Неврология . 14 (5): 365–376. дои : 10.1038/nrn3475. ISSN  1471-0048. ПМИД  23571845.
  136. ^ Баттон, Кэтрин С.; Иоаннидис, Джон П.А.; Мокрыш, Клэр; Носек, Брайан А.; Флинт, Джонатан; Робинсон, Эмма С.Дж.; Мунафо, Маркус Р. (май 2013 г.). «Сбой в электроснабжении: почему небольшой размер выборки подрывает надежность нейробиологии». Обзоры природы Неврология . 14 (5): 365–376. дои : 10.1038/nrn3475 . ISSN  1471-0048. PMID  23571845. S2CID  455476.
  137. ^ Иоаннидис, Джон Пенсильвания; Стэнли, Т.Д.; Дукульягос, Христос (1 октября 2017 г.). «Сила предвзятости в экономических исследованиях». Экономический журнал . 127 (605): Ф236–Ф265. дои : 10.1111/ecoj.12461 . ISSN  0013-0133. S2CID  158829482.
  138. ^ Флинт, Джонатан; Мунафо, Маркус Р. (февраль 2013 г.). «Гены-кандидаты и некандидаты в генетике поведения». Современное мнение в нейробиологии . 23 (1): 57–61. дои : 10.1016/j.conb.2012.07.005. ПМЦ 3752971 . ПМИД  22878161. 
  139. ^ Дюма-Малле, Эстель; Баттон, Кэтрин С.; Боро, Томас; Гонон, Франсуа; Мунафо, Маркус Р. (февраль 2017 г.). «Низкая статистическая мощность в биомедицинской науке: обзор трех областей исследований на людях». Королевское общество открытой науки . 4 (2): 160254. Бибкод : 2017RSOS....460254D. дои : 10.1098/rsos.160254. ISSN  2054-5703. ПМК 5367316 . ПМИД  28386409. 
  140. ^ Фаррелл, М.С.; Верге, Т.; Склар, П.; Оуэн, MJ; Офофф, РА; О'Донован, MC; Корвин, А.; Сишон, С.; Салливан, ПФ (май 2015 г.). «Оценка исторических генов-кандидатов шизофрении». Молекулярная психиатрия . 20 (5): 555–562. дои : 10.1038/mp.2015.16. ISSN  1476-5578. ПМЦ 4414705 . ПМИД  25754081. 
  141. ^ Процко, Джон; Скулер, Джонатан В. (21 февраля 2017 г.), Лилиенфельд, Скотт О.; Уолдман, Ирвин Д. (ред.), «Эффекты спада: типы, механизмы и личные размышления», Psychology Science Under Scrutiny (1-е изд.), Wiley, стр. 85–107, doi : 10.1002/9781119095910.ch6, ISBN 978-1-118-66107-9, получено 26 июля 2024 г.
  142. ^ Локен, Эрик; Гельман, Эндрю (10 февраля 2017 г.). «Ошибка измерения и кризис репликации». Наука . 355 (6325): 584–585. Бибкод : 2017Sci...355..584L. doi : 10.1126/science.aal3618. ISSN  0036-8075. ПМИД  28183939.
  143. ^ Гельман, Эндрю и Эрик Локен. «Сад расходящихся троп: почему множественные сравнения могут быть проблемой, даже если нет «рыболовной экспедиции» или «п-хакинга», а исследовательская гипотеза была выдвинута заранее». Департамент статистики Колумбийского университета 348.1-17 (2013): 3.
  144. ^ ab Head, Меган Л.; Холман, Люк; Ланфир, Роб; Кан, Эндрю Т.; Дженнионс, Майкл Д. (13 марта 2015 г.). «Масштабы и последствия P-хакинга в науке». ПЛОС Биология . 13 (3): e1002106. дои : 10.1371/journal.pbio.1002106 . ISSN  1545-7885. ПМК 4359000 . ПМИД  25768323. 
  145. ^ Айзенбергер, Наоми И.; Либерман, Мэтью Д.; Уильямс, Киплинг Д. (10 октября 2003 г.). «Больно ли отказ? ФМРТ-исследование социальной изоляции». Наука . 302 (5643): 290–292. дои : 10.1126/science.1089134. ISSN  0036-8075.
  146. ^ аб Вул, Эдвард; Харрис, Кристина; Винкельман, Петр; Пашлер, Гарольд (май 2009 г.). «Загадочно высокие корреляции в фМРТ-исследованиях эмоций, личности и социального познания». Перспективы психологической науки . 4 (3): 274–290. дои : 10.1111/j.1745-6924.2009.01125.x. ISSN  1745-6916.
  147. ^ аб Вагенмакерс, Эрик-Ян (октябрь 2007 г.). «Практическое решение широко распространенных проблем значений p». Психономический бюллетень и обзор . 14 (5): 779–804. дои : 10.3758/BF03194105. ISSN  1069-9384. ПМИД  18087943.
  148. ^ Вихертс, Желте М.; Вельдкамп, Кузье Л.С.; Августейн, Хильда Э.М.; Баккер, Марьян; ван Аэрт, Робби СМ; ван Ассен, Марсель АЛМ (25 ноября 2016 г.). «Степени свободы в планировании, проведении, анализе и составлении отчетов о психологических исследованиях: контрольный список, позволяющий избежать взлома». Границы в психологии . 7 . дои : 10.3389/fpsyg.2016.01832 . ISSN  1664-1078. ПМК 5122713 . ПМИД  27933012. 
  149. ^ Хиггинс, Джулиан П.Т.; Томпсон, Саймон Г. (15 июня 2002 г.). «Количественная оценка гетерогенности в метаанализе». Статистика в медицине . 21 (11): 1539–1558. дои : 10.1002/сим.1186. ISSN  0277-6715. PMID  12111919. S2CID  6319826.
  150. ^ Moosa IA (2 октября 2019 г.). «Хрупкость результатов и предвзятость в эмпирических исследованиях: предварительное изложение». Журнал экономической методологии . 26 (4): 347–360. дои : 10.1080/1350178X.2018.1556798. ISSN  1350-178X. S2CID  158504639.
  151. ^ Грейнджер CW (1999). Эмпирическое моделирование в экономике: спецификация и оценка. Издательство Кембриджского университета. п. 5. дои : 10.1017/CBO9780511492327. ISBN 978-0-521-77825-1.
  152. Мазиарз М (1 декабря 2021 г.). «Разрешение эмпирических противоречий с помощью механистических доказательств». Синтезируйте . 199 (3): 9957–9978. дои : 10.1007/s11229-021-03232-2 . ISSN  1573-0964. S2CID  236249427.
  153. ^ Морган М.С., Магнус-младший (сентябрь 1997 г.). «Эксперимент в прикладной эконометрике». Журнал прикладной эконометрики . 12 (5): 459–661. ISSN  1099-1255.
  154. ^ аб Ван Бавель, Джей Дж.; Менде-Сидлецкий, Питер; Брэди, Уильям Дж.; Рейнеро, Диего А. (2016). «Контекстная чувствительность в научной воспроизводимости». Труды Национальной академии наук Соединенных Штатов Америки . 113 (23): 6454–6459. Бибкод : 2016PNAS..113.6454V. дои : 10.1073/pnas.1521897113 . ISSN  0027-8424. JSTOR  26470212. PMC 4988618 . ПМИД  27217556. 
  155. ^ Трафимов, Дэвид (2003). «Проверка гипотез и оценка теории на границах: удивительные выводы из теоремы Байеса». Психологический обзор . 110 (3): 526–535. дои : 10.1037/0033-295X.110.3.526. ISSN  1939-1471. ПМИД  12885113.
  156. ^ Вагенмейкерс, Эрик-Ян (октябрь 2007 г.). «Практическое решение распространенных проблем, связанных с ценностями». Психономический бюллетень и обзор . 14 (5): 779–804. дои : 10.3758/BF03194105. ISSN  1069-9384. ПМИД  18087943.
  157. ^ Аб Коэн, Джейкоб (декабрь 1994 г.). «Земля круглая (p < 0,05)». Американский психолог . 49 (12): 997–1003. дои : 10.1037/0003-066X.49.12.997. ISSN  1935-990Х.
  158. ^ ab Амрайн В., Корнер-Нивергельт Ф., Рот Т. (2017). «Земля плоская (p > 0,05): пороги значимости и кризис невоспроизводимых исследований». ПерДж . 5 : е3544. дои : 10.7717/peerj.3544 . ПМК 5502092 . ПМИД  28698825. 
  159. Бранвен, Гверн (30 апреля 2023 г.). «Все взаимосвязано». gwern.net .
  160. ^ Коэн, Джейкоб (1992), Каздин, Алан Э. (ред.), «Вещи, которые я узнал (на данный момент)», Методологические проблемы и стратегии в клинических исследованиях. , Вашингтон: Американская психологическая ассоциация, стр. 315–333, номер документа : 10.1037/10109-028, ISBN. 978-1-55798-154-7, получено 26 июля 2024 г.
  161. ^ аб Мил, Пол Э. (1992), Миллер, Рональд Б. (ред.), «Теоретические риски и табличные звездочки: сэр Карл, сэр Рональд и медленный прогресс мягкой психологии». Восстановление диалога: материалы для чтения. в философии клинической психологии. , Вашингтон: Американская психологическая ассоциация, стр. 523–555, номер документа : 10.1037/10112-043, ISBN. 978-1-55798-157-8
  162. ^ Джейнс, ET; Бретхорст, Г. Ларри (2003). «5. Странное использование теории вероятностей». Теория вероятностей: логика науки . Кембридж, Великобритания ; Нью-Йорк, штат Нью-Йорк: Издательство Кембриджского университета. ISBN 978-0-521-59271-0.
  163. ^ abc Bird A (1 декабря 2021 г.). «Понимание кризиса репликации как ошибки базовой ставки». Британский журнал философии науки . 72 (4): 965–993. дои : 10.1093/bjps/axy051 . ISSN  0007-0882.
  164. ^ Ниссен С.Б., Магидсон Т., Гросс К., Бергстрем CT (декабрь 2016 г.). «Предвзятость публикаций и канонизация ложных фактов». электронная жизнь . 5 : е21451. arXiv : 1609.00494 . дои : 10.7554/eLife.21451 . ПМК 5173326 . ПМИД  27995896. 
  165. ^ ab Калифорнийский университет в Сан-Диего (май 2021 г.). «Новый кризис репликации: исследования, которые с меньшей вероятностью соответствуют действительности, цитируются чаще». физ.орг . Проверено 14 июня 2021 г.
  166. ^ аб Серра-Гарсия М, Гнизи Ю (май 2021 г.). «Нереплицируемые публикации цитируются чаще, чем тиражируемые». Достижения науки . 7 (21): eabd1705. Бибкод : 2021SciA....7.1705S. дои : 10.1126/sciadv.abd1705 . ПМЦ 8139580 . ПМИД  34020944. 
  167. ^ Бялек М (январь 2018 г.). «Репликации могут вызвать искажение веры в научный прогресс». Поведенческие и мозговые науки . 41 : е122. дои : 10.1017/S0140525X18000584. PMID  31064528. S2CID  147705650.
  168. ^ аб Меде Н.Г., Шефер М.С., Циглер Р., Вайскопф М. (январь 2021 г.). «Кризис репликации» в глазах общественности: осознание и восприятие немцами (нер) воспроизводимости научных исследований». Общественное понимание науки . 30 (1): 91–102. дои : 10.1177/0963662520954370. PMID  32924865. S2CID  221723269.
  169. ^ abcd Letzter R (22 сентября 2016 г.). «Ученые в ярости после того, как известная психолог обвинила своих коллег в «методологическом терроризме»». Бизнес-инсайдер . Проверено 30 января 2020 г.
  170. ^ «Проект колонки наблюдателей вызывает бурную реакцию в социальных сетях» . Обозреватель АПС . Ассоциация психологических наук. Сентябрь 2016 года . Проверено 4 октября 2017 г.
  171. ^ Фиске ST (31 октября 2016 г.). «Призыв изменить научную культуру стыда». Обозреватель АПС . 29 (9).
  172. Сингал Дж (12 октября 2016 г.). «Дебаты о методологическом терроризме внутри психологии». Нью-Йорк Маг . Проверено 4 октября 2017 г.
  173. ↑ Аб Вазире, Симине (2 июля 2018 г.). «Последствия революции доверия для производительности, творчества и прогресса». Перспективы психологической науки . 13 (4): 411–417. дои : 10.1177/1745691617751884. ISSN  1745-6916. PMID  29961410. S2CID  49647586.
  174. ^ Корбмахер, Макс; Азеведо, Флавио; Пеннингтон, Шарлотта Р.; и другие. (25 июля 2023 г.). «Кризис репликации привел к положительным структурным, процедурным и общественным изменениям». Психология коммуникаций . 1 (1): 1–13. дои : 10.1038/s44271-023-00003-2 . hdl : 10852/106350 . ISSN  2731-9121.
  175. ^ Строуб В., Страк Ф (январь 2014 г.). «Предполагаемый кризис и иллюзия точного воспроизведения». Перспективы психологической науки . 9 (1): 59–71. дои : 10.1177/1745691613514450. PMID  26173241. S2CID  31938129.
  176. ^ Дженсен А (7 мая 2019 г.). «Репликация как успешная и неуспешная репликация». Колледж свободных искусств, факультет философии . Университет Миннесоты . Проверено 25 мая 2022 г.
  177. ^ Мадхусуданан Дж (май 2022 г.). «Незамеченная переменная в исследованиях на животных: почему диета имеет значение». Природа . 605 (7911): 778–779. Бибкод : 2022Natur.605..778M. дои : 10.1038/d41586-022-01393-9 . PMID  35606524. S2CID  249015202.
  178. ^ Иоаннидис JP (июнь 2016 г.). «Почему большинство клинических исследований бесполезны». ПЛОС Медицина . 13 (6): e1002049. дои : 10.1371/journal.pmed.1002049 . ПМЦ 4915619 . ПМИД  27328301. 
  179. ^ Иоаннидис Дж.П., Фанелли Д., Данн Д.Д., Гудман С.Н. (октябрь 2015 г.). «Метаисследования: оценка и совершенствование методов и практик исследования». ПЛОС Биология . 13 (10): e1002264. дои : 10.1371/journal.pbio.1002264 . ПМК 4592065 . ПМИД  26431313. 
  180. ^ Бах Б. (8 декабря 2015 г.). «О передаче науки и неопределенности: подкаст с Джоном Иоаннидисом». Объем . Проверено 20 мая 2019 г.
  181. ^ Госселин Р.Д. (январь 2020 г.). «Статистический анализ должен улучшиться, чтобы справиться с кризисом воспроизводимости: призыв к действию по доступу к прозрачной статистике (ACTS)». Биоэссе . 42 (1): e1900189. doi :10.1002/bies.201900189. PMID  31755115. S2CID  208228664.
  182. Пратт М.Г., Каплан С., Уиттингтон Р. (6 ноября 2019 г.). «Редакционное эссе: Суматоха по поводу прозрачности: отделение прозрачности от тиражирования в создании заслуживающих доверия качественных исследований». Ежеквартальный журнал административной науки . 65 (1): 1–19. дои : 10.1177/0001839219887663 . ISSN  0001-8392. S2CID  210537501.
  183. ^ Ашванден C (6 декабря 2018 г.). «Кризис репликации психологии сделал эту область лучше». ПятьТридцатьВосемь . Проверено 19 декабря 2018 г.
  184. ^ Чартье С, Клайн М, Маккарти Р, Нуйтен М, Данливи DJ, Леджервуд А (декабрь 2018 г.), «Кооперативная революция делает психологическую науку лучше», Observer , 31 (10) , получено 19 декабря 2018 г.
  185. ^ «Зарегистрированные отчеты о репликации». Ассоциация психологических наук . Проверено 13 ноября 2015 г.
  186. Чемберс C (20 мая 2014 г.). «Регистрационная революция в психологии». Хранитель . Проверено 13 ноября 2015 г.
  187. ^ Линдси Д.С. (декабрь 2015 г.). «Репликация в психологической науке». Психологическая наука . 26 (12): 1827–1832. дои : 10.1177/0956797615616374 . ПМИД  26553013.
  188. ^ аб Бенджамин Д.Д., Бергер Д.О., Йоханнессон М., Носек Б.А., Вагенмейкерс Э.Дж., Берк Р. и др. (январь 2018 г.). «Переопределить статистическую значимость». Природа человеческого поведения . 2 (1): 6–10. дои : 10.1038/s41562-017-0189-z . hdl : 10281/184094 . ПМИД  30980045.
  189. ^ Лейкенс Д., Адольфи Ф.Г., Альберс С.Дж., Анвари Ф., Аппс М.А., Аргамон С.Е. и др. (март 2018 г.). «Оправдывай свою альфу». Природа человеческого поведения . 2 (3): 168–171. дои : 10.1038/s41562-018-0311-x. hdl : 21.11116/0000-0004-9413-F . ISSN  2397-3374. S2CID  3692182.
  190. ^ Колкухун Д. (ноябрь 2014 г.). «Исследование частоты ложных открытий и неправильной интерпретации p-значений». Королевское общество открытой науки . 1 (3): 140216. arXiv : 1407.5296 . Бибкод : 2014RSOS....140216C. дои : 10.1098/rsos.140216. ПМЦ 4448847 . ПМИД  26064558. 
  191. ^ abcd Colquhoun D (декабрь 2017 г.). «Воспроизводимость исследований и неверная интерпретация p-значений». Королевское общество открытой науки . 4 (12): 171085. doi :10.1098/rsos.171085. ПМК 5750014 . ПМИД  29308247. 
  192. ^ Колкухун Д. (11 октября 2016 г.). «Проблема с p-значениями». Журнал Эон . Проверено 11 декабря 2016 г.
  193. ^ Лонгстафф С., Колкухун Д. «Калькулятор риска ложноположительного результата (FPR)». Университетский колледж Лондона. версия 1.7.
  194. ^ Мэтьюз РА (2001). «Почему клиницистов должны интересовать байесовские методы?». Журнал статистического планирования и выводов . 94 : 43–58. дои : 10.1016/S0378-3758(00)00232-9.
  195. ^ Максвелл С.Э., Лау М.Ю., Ховард Г.С. (сентябрь 2015 г.). «Страдает ли психология кризисом репликации? Что на самом деле означает «неспособность воспроизводить»?». Американский психолог . 70 (6): 487–498. дои : 10.1037/a0039400. ПМИД  26348332.
  196. ^ IntHout J, Иоаннидис Дж.П., Борм Г.Ф., Гоеман Дж.Дж. (август 2015 г.). «Небольшие исследования более разнородны, чем крупные: мета-метаанализ». Журнал клинической эпидемиологии . 68 (8): 860–869. дои : 10.1016/j.jclinepi.2015.03.017 . hdl : 2066/153978 . ПМИД  25959635.
  197. ^ Баттон К.С., Иоаннидис Дж.П., Мокрыш С., Носек Б.А., Флинт Дж., Робинсон Э.С., Мунафо М.Р. (май 2013 г.). «Сбой в электроснабжении: почему небольшой размер выборки подрывает надежность нейробиологии». Обзоры природы. Нейронаука . 14 (5): 365–376. дои : 10.1038/nrn3475 . ПМИД  23571845.
  198. ^ Гринвальд АГ (1975). «Последствия предубеждения против нулевой гипотезы» (PDF) . Психологический вестник . 82 (1): 1–20. дои : 10.1037/h0076157.
  199. ^ Кригескорте, Николаус; Симмонс, В. Кайл; Беллгоуэн, Патрик С.Ф.; Бейкер, Крис И. (май 2009 г.). «Циркулярный анализ в системной нейробиологии: опасность двойного погружения». Природная неврология . 12 (5): 535–540. дои : 10.1038/nn.2303. ISSN  1546-1726.
  200. ^ Яркони, Таль; Вестфолл, Джейкоб (ноябрь 2017 г.). «Выбор предсказания, а не объяснения в психологии: уроки машинного обучения». Перспективы психологической науки . 12 (6): 11.00–11.22. дои : 10.1177/1745691617693393. ISSN  1745-6916. ПМК 6603289 . ПМИД  28841086. 
  201. ^ «NWO предоставляет 3 миллиона долларов для пилотного исследования репликации» . Нидерландская организация научных исследований (пресс-релиз). Июль 2016 г. Архивировано из оригинала 22 июля 2016 г.
  202. ^ abc Apple S (22 января 2017 г.). «Молодой миллиардер, стоящий за войной с плохой наукой». Проводной .
  203. ^ Фрэнк MC, Сакс Р. (ноябрь 2012 г.). «Обучение репликации». Перспективы психологической науки . 7 (6): 600–604. дои : 10.1177/1745691612460686 . PMID  26168118. S2CID  33661604.
  204. ^ Грахе Дж.Э., Рейфман А., Герман А.Д., Уокер М., Олесон К.С., Нарио-Редмонд М., Вибе Р.П. (ноябрь 2012 г.). «Использование неоткрытого ресурса студенческих исследовательских проектов». Перспективы психологической науки . 7 (6): 605–607. дои : 10.1177/1745691612459057 . ПМИД  26168119.
  205. Марвик Б., Ван Л., Робинсон Р., Луазель Х. (22 октября 2019 г.). «Как использовать задания на репликацию для обучения честности в эмпирической археологии». Достижения археологической практики . 8 : 78–86. дои : 10.1017/aap.2019.38 .
  206. ^ Эверетт Дж. А., Эрп Б. Д. (1 января 2015 г.). «Трагедия (академического) общества: интерпретация кризиса репликации в психологии как социальной дилеммы для начинающих исследователей». Границы в психологии . 6 : 1152. doi : 10.3389/fpsyg.2015.01152 . ПМК 4527093 . ПМИД  26300832. 
  207. ^ Кинтана DS (сентябрь 2021 г.). «Репликация бакалаврских диссертаций для улучшения науки и образования». Природа человеческого поведения (статья World View). 5 (9): 1117–1118. дои : 10.1038/s41562-021-01192-8. PMID  34493847. S2CID  237439956.
  208. ^ Кембриджский университет (апрель 2022 г.). «'Робот-ученый' Ева обнаружила, что менее трети научных результатов воспроизводимы». Техэксплор . Проверено 15 мая 2022 г.
  209. ^ Ропер К., Абдель-Рехим А., Хаббард С., Карпентер М., Ржецкий А., Солдатова Л., Кинг Р.Д. (апрель 2022 г.). «Проверка воспроизводимости и надежности литературы по биологии рака с помощью робота». Журнал Королевского общества, Интерфейс . 19 (189): 20210821. doi :10.1098/rsif.2021.0821. ПМЦ 8984295 . ПМИД  35382578. 
  210. ^ ab Chambers C (10 июня 2014 г.). «Физическая зависть: есть ли в «точных» науках решение кризиса репликации в психологии?». Хранитель .
  211. ^ Канеман Д. (2014). «Новый этикет репликации». Социальная психология (комментарий). Комментарии и ответы дальше. 45 (4): 310–311. дои : 10.1027/1864-9335/a000202.
  212. ^ Макел MC, Плакер Дж. А., Хегарти Б. (ноябрь 2012 г.). «Репликации в психологических исследованиях: как часто они действительно происходят?». Перспективы психологической науки . 7 (6): 537–542. дои : 10.1177/1745691612460688 . ПМИД  26168110.
  213. ^ Ульманн, Эрик Луис; Эберсол, Чарльз Р.; Шартье, Кристофер Р.; Эррингтон, Тимоти М.; Кидвелл, Мэллори К.; Лай, Кэлвин К.; Маккарти, Рэнди Дж.; Ригельман, Эми; Зильберзан, Рафаэль; Носек, Брайан А. (сентябрь 2019 г.). «Научная утопия III: Краудсорсинговая наука». Перспективы психологической науки . 14 (5): 711–733. дои : 10.1177/1745691619850561 . ISSN  1745-6916. ПМИД  31260639.
  214. ^ аб Форшер, Патрик С.; Вагенмейкерс, Эрик-Ян; Коулз, Николас А.; Силан, Мигель Алехандро; Дутра, Наталья; Баснайт-Браун, Дана; Эйзерман, Ганс (май 2023 г.). «Преимущества, препятствия и риски большой команды науки». Перспективы психологической науки . 18 (3): 607–623. дои : 10.1177/17456916221082970. ISSN  1745-6916. PMID  36190899. S2CID  236816530.
  215. ^ Мунафо MR, Дэйви Смит G (январь 2018 г.). «Надежное исследование требует множества доказательств». Природа . 553 (7689): 399–401. Бибкод :2018Natur.553..399M. дои : 10.1038/d41586-018-01023-3 . ПМИД  29368721.
  216. ^ abcdef Валлот С., Келти-Стивен Д.Г. (1 июня 2018 г.). «Причинно-доминантная взаимосвязь в сознании и мозге и ее значение для вопросов обобщения и репликации». Разум и машины . 28 (2): 353–374. дои : 10.1007/s11023-017-9455-0 . hdl : 21.11116/0000-0001-AC9C-E . ISSN  1572-8641.
  217. ^ Тирни В., Харди Дж. Х., Эберсол С. Р., Ливитт К., Виганола Д., Клементе Э. Г. и др. (1 ноября 2020 г.). «Созидательное разрушение в науке». Организационное поведение и процессы принятия человеческих решений . 161 : 291–309. дои : 10.1016/j.obhdp.2020.07.002 . hdl : 2066/228242 . ISSN  0749-5978. S2CID  224979451.
  218. ^ Тирни В., Харди Дж., Эберсол С.Р., Виганола Д., Клементе Э.Г., Гордон М. и др. (1 марта 2021 г.). «Подход к воспроизведению творческого разрушения: неявная работа и сексуальная мораль в разных культурах». Журнал экспериментальной социальной психологии . 93 : 104060. doi : 10.1016/j.jesp.2020.104060 . hdl : 10037/24275 . ISSN  0022-1031. S2CID  229028797.
  219. ^ Делиос А., Клементе Э.Г., Ву Т., Тан Х., Ван Ю., Гордон М. и др. (июль 2022 г.). «Исследование обобщаемости результатов исследований по архивным данным». Труды Национальной академии наук Соединенных Штатов Америки . 119 (30): e2120377119. Бибкод : 2022PNAS..11920377D. дои : 10.1073/pnas.2120377119 . ПМЦ 9335312 . ПМИД  35858443. 
  220. ^ Инс, округ Колумбия, Хаттон Л., Грэм-Камминг Дж. (февраль 2012 г.). «Дело в пользу открытых компьютерных программ». Природа . 482 (7386): 485–488. Бибкод : 2012Natur.482..485I. дои : 10.1038/nature10836 . ПМИД  22358837.
  221. ^ Выонг QH (январь 2018 г.). «(ир)рациональное рассмотрение стоимости науки в странах с переходной экономикой». Природа человеческого поведения . 2 (1): 5. дои : 10.1038/s41562-017-0281-4 . PMID  30980055. S2CID  46878093.
  222. Junk TR, Lyons L (21 декабря 2020 г.). «Воспроизводимость и тиражирование результатов экспериментальной физики элементарных частиц». Гарвардский обзор науки о данных . 2 (4). arXiv : 2009.06864 . дои : 10.1162/99608f92.250f995b. S2CID  221703733.
  223. ^ аб Иоаннидис JP (февраль 2016 г.). «Предвидение последствий обмена необработанными данными и кодом и награждения значками за обмен». Журнал клинической эпидемиологии (комментарий). 70 : 258–260. doi : 10.1016/j.jclinepi.2015.04.015. ПМИД  26163123.

дальнейшее чтение