Воспроизводимость , тесно связанная с воспроизводимостью и повторяемостью , является основным принципом, лежащим в основе научного метода . Для того, чтобы результаты исследования были воспроизводимыми, это означает, что результаты, полученные в ходе эксперимента или наблюдательного исследования или в статистическом анализе набора данных , должны быть достигнуты снова с высокой степенью надежности при воспроизведении исследования. Существуют различные виды репликации [1], но обычно в исследованиях по репликации участвуют разные исследователи, использующие одну и ту же методологию. Только после одной или нескольких таких успешных репликаций результат должен быть признан научным знанием.
В более узком смысле воспроизводимость определяется в вычислительных науках как имеющая следующее качество: результаты должны быть документированы путем предоставления всех данных и кода таким образом, чтобы вычисления можно было выполнить повторно с идентичными результатами.
В последние десятилетия растет обеспокоенность тем, что многие опубликованные научные результаты не проходят проверку на воспроизводимость, что приводит к кризису воспроизводимости или репликации .
Первым, кто подчеркнул важность воспроизводимости в науке, был англо-ирландский химик Роберт Бойль , живший в Англии в XVII веке. Воздушный насос Бойля был разработан для создания и изучения вакуума , что в то время было очень спорной концепцией. Действительно, выдающиеся философы, такие как Рене Декарт и Томас Гоббс, отрицали саму возможность существования вакуума. Историки науки Стивен Шейпин и Саймон Шеффер в своей книге 1985 года «Левиафан и воздушный насос » описывают спор между Бойлем и Гоббсом, якобы о природе вакуума, как по сути спор о том, как следует получать полезные знания. Бойль, пионер экспериментального метода , утверждал, что основы знания должны быть составлены из экспериментально полученных фактов, которые могут быть сделаны правдоподобными для научного сообщества благодаря их воспроизводимости. Бойль утверждал, что, повторяя один и тот же эксперимент снова и снова, появится уверенность в факте.
Воздушный насос, который в 17 веке был сложным и дорогим в изготовлении аппаратом, также привел к одному из первых задокументированных споров о воспроизводимости конкретного научного явления . В 1660-х годах голландский ученый Христиан Гюйгенс построил свой собственный воздушный насос в Амстердаме , первый вне прямого руководства Бойля и его помощника в то время Роберта Гука . Гюйгенс сообщил об эффекте, который он назвал «аномальной суспензией», при котором вода, казалось, левитировала в стеклянной банке внутри его воздушного насоса (на самом деле подвешенной над воздушным пузырем), но Бойль и Гук не смогли воспроизвести это явление в своих собственных насосах. Как описывают Шапин и Шеффер, «стало ясно, что если явление не будет воспроизведено в Англии с помощью одного из двух имеющихся насосов, то никто в Англии не примет заявления Гюйгенса или его компетентность в работе с насосом». Гюйгенс был наконец приглашен в Англию в 1663 году, и под его личным руководством Гук смог воспроизвести аномальную суспензию воды. После этого Гюйгенс был избран иностранным членом Королевского общества . Однако Шейпин и Шеффер также отмечают, что «достижение репликации зависело от случайных актов суждения. Нельзя написать формулу, говорящую, когда репликация была достигнута или не была достигнута». [2]
Философ науки Карл Поппер кратко отметил в своей знаменитой книге 1934 года «Логика научного открытия» , что «невоспроизводимые единичные случаи не имеют значения для науки». [3] Статистик Рональд Фишер писал в своей книге 1935 года « Планирование экспериментов » , которая заложила основы современной научной практики проверки гипотез и статистической значимости , что «мы можем сказать, что явление экспериментально доказуемо, когда мы знаем, как провести эксперимент, который редко не даст нам статистически значимых результатов». [4] Такие утверждения выражают распространенную в современной науке догму о том, что воспроизводимость является необходимым условием (хотя и не обязательно достаточным ) для установления научного факта, а на практике — для установления научного авторитета в любой области знания. Однако, как отметили выше Шапин и Шеффер, эта догма не сформулирована количественно, например, в отношении статистической значимости, и поэтому явно не установлено, сколько раз факт должен быть воспроизведен, чтобы считаться воспроизводимым.
Воспроизводимость и повторяемость — это родственные термины, в широком смысле являющиеся синонимами воспроизводимости (например, среди широкой общественности), но их часто полезно различать в более точных смыслах, как указано ниже.
Два основных шага естественным образом различаются в связи с воспроизводимостью экспериментальных или наблюдательных исследований: когда в попытке достичь этого получают новые данные, часто используется термин «воспроизводимость» , и новое исследование является репликацией или копией исходного. Получая те же результаты при повторном анализе набора данных исходного исследования с использованием тех же процедур, многие авторы используют термин «воспроизводимость» в узком, техническом смысле, исходя из его использования в вычислительных исследованиях. Повторяемость связана с повторением эксперимента в рамках того же исследования теми же исследователями. Воспроизводимость в первоначальном, широком смысле признается только в том случае, если репликация, выполненная независимой исследовательской группой, оказалась успешной.
Термины «воспроизводимость» и «воспроизводимость» иногда появляются даже в научной литературе с противоположным значением [5] [6] , поскольку различные области исследований придерживаются собственных определений для одних и тех же терминов.
В химии термины воспроизводимость и повторяемость используются в определенном количественном значении. [7] В межлабораторных экспериментах концентрация или другое количество химического вещества измеряется повторно в разных лабораториях для оценки изменчивости измерений. Затем стандартное отклонение разницы между двумя значениями, полученными в одной и той же лаборатории, называется повторяемостью. Стандартное отклонение разницы между двумя измерениями из разных лабораторий называется воспроизводимостью. [ 8 ] Эти меры связаны с более общей концепцией компонентов дисперсии в метрологии .
Термин «воспроизводимое исследование» относится к идее, что научные результаты должны быть задокументированы таким образом, чтобы их вывод был полностью прозрачным. Это требует подробного описания методов, используемых для получения данных [9] [10], и обеспечения легкого доступа к полному набору данных и коду для расчета результатов. [11] [12] [13] [14] [15] [16] Это существенная часть открытой науки .
Чтобы сделать любой исследовательский проект воспроизводимым в вычислительном отношении, общая практика подразумевает, что все данные и файлы должны быть четко разделены, помечены и задокументированы. Все операции должны быть полностью документированы и автоматизированы, насколько это возможно, избегая ручного вмешательства, где это осуществимо. Рабочий процесс должен быть разработан как последовательность более мелких шагов, которые объединяются так, чтобы промежуточные результаты одного шага напрямую служили входами для следующего шага. Следует использовать контроль версий, поскольку он позволяет легко просматривать историю проекта и позволяет документировать и отслеживать изменения прозрачным образом.
Базовый рабочий процесс для воспроизводимых исследований включает сбор данных, обработку данных и анализ данных. Сбор данных в первую очередь состоит из получения первичных данных из первичного источника, такого как опросы, полевые наблюдения, экспериментальные исследования или получение данных из существующего источника. Обработка данных включает обработку и просмотр необработанных данных, собранных на первом этапе, и включает ввод данных, манипулирование данными и фильтрацию и может быть выполнена с использованием программного обеспечения. Данные должны быть оцифрованы и подготовлены для анализа данных. Данные могут быть проанализированы с использованием программного обеспечения для интерпретации или визуализации статистики или данных для получения желаемых результатов исследования, таких как количественные результаты, включая рисунки и таблицы. Использование программного обеспечения и автоматизации повышает воспроизводимость методов исследования. [17]
Существуют системы, облегчающие такое документирование, например, язык R Markdown [18] или блокнот Jupyter . [19] [20] [21] Open Science Framework предоставляет платформу и полезные инструменты для поддержки воспроизводимых исследований.
Психология столкнулась с возобновлением внутренних опасений по поводу невоспроизводимых результатов (см. статью о кризисе воспроизводимости для эмпирических результатов по показателям успешности репликаций). Исследователи показали в исследовании 2006 года, что из 141 автора публикации эмпирических статей Американской психологической ассоциации (APA) 103 (73%) не ответили своими данными в течение шестимесячного периода. [22] В последующем исследовании, опубликованном в 2015 году, было обнаружено, что 246 из 394 связавшихся авторов статей в журналах APA не поделились своими данными по запросу (62%). [23] В статье 2012 года было предложено, чтобы исследователи публиковали данные вместе со своими работами, и набор данных был выпущен вместе с демонстрацией. [24] В 2017 году статья, опубликованная в Scientific Data, предположила, что этого может быть недостаточно и что весь контекст анализа должен быть раскрыт. [25]
В экономике были высказаны опасения относительно достоверности и надежности опубликованных исследований. В других науках воспроизводимость считается фундаментальной и часто является предпосылкой для публикации исследований, однако в экономических науках она не рассматривается как приоритет первостепенной важности. Большинство рецензируемых экономических журналов не принимают никаких существенных мер для обеспечения воспроизводимости опубликованных результатов, однако ведущие экономические журналы переходят к принятию обязательных архивов данных и кодов. [26] У исследователей мало или нет стимулов делиться своими данными, и авторам пришлось бы нести расходы на компиляцию данных в повторно используемые формы. Экономические исследования часто не воспроизводимы, поскольку только часть журналов имеют адекватную политику раскрытия данных для наборов данных и программного кода, и даже если они это делают, авторы часто не соблюдают ее или она не обеспечивается издателем. Исследование 599 статей, опубликованных в 37 рецензируемых журналах, показало, что хотя некоторые журналы достигли значительных показателей соответствия, значительная часть выполнила их лишь частично или не выполнила вообще. На уровне статей средний показатель соответствия составил 47,5%; а на уровне журналов средний показатель соответствия составил 38%, варьируясь от 13% до 99%. [27]
Исследование 2018 года, опубликованное в журнале PLOS ONE, показало, что 14,4% выборки исследователей статистики общественного здравоохранения поделились своими данными или кодом, или и тем, и другим. [28]
В медицинской литературе уже много лет существуют инициативы по улучшению отчетности и, следовательно, воспроизводимости, начиная с инициативы CONSORT , которая теперь является частью более широкой инициативы EQUATOR Network . Эта группа недавно обратила внимание на то, как улучшение отчетности может сократить отходы в исследованиях, [29] особенно биомедицинских исследованиях.
Воспроизводимые исследования являются ключом к новым открытиям в фармакологии . За открытием фазы I последуют воспроизведения фазы II по мере того, как лекарство развивается в сторону коммерческого производства. За последние десятилетия успешность фазы II упала с 28% до 18%. Исследование 2011 года показало, что 65% медицинских исследований были непоследовательными при повторном тестировании, и только 6% были полностью воспроизводимыми. [30]
Хидэё Ногучи прославился тем, что правильно определил бактериальный агент сифилиса , но также утверждал, что он мог культивировать этот агент в своей лаборатории. Никто другой не смог получить этот последний результат. [31]
В марте 1989 года химики из Университета Юты Стэнли Понс и Мартин Флейшманн сообщили о производстве избыточного тепла, которое можно было объяснить только ядерным процессом (« холодный синтез »). Отчет был поразительным, учитывая простоту оборудования: по сути, это была электролитическая ячейка, содержащая тяжелую воду и палладиевый катод , который быстро поглощал дейтерий , полученный в ходе электролиза. Средства массовой информации широко освещали эксперименты, и это было на первых полосах многих газет по всему миру (см. наука на пресс-конференции ). В течение следующих нескольких месяцев другие пытались повторить эксперимент, но безуспешно. [32]
Никола Тесла еще в 1899 году утверждал, что использовал ток высокой частоты для зажигания газонаполненных ламп на расстоянии более 25 миль (40 км) без использования проводов . В 1904 году он построил башню Уорденклифф на Лонг-Айленде, чтобы продемонстрировать способы отправки и получения энергии без соединительных проводов. Установка так и не была полностью введена в эксплуатацию и не была достроена из-за экономических проблем, поэтому никаких попыток воспроизвести его первый результат так и не было предпринято. [33]
Другие примеры, в которых противоречивые доказательства опровергают первоначальное утверждение:
{{cite web}}
: CS1 maint: числовые имена: список авторов ( ссылка )(требуется подписка)