Почему большинство опубликованных результатов исследований являются ложными

« Почему большинство опубликованных результатов исследований являются ложными » — это эссе, написанное в 2005 году Джоном Иоаннидисом , профессором Стэнфордской школы медицины , и опубликованное в журнале PLOS Medicine . ^[1] Это считается основополагающим в области метанауки .

В статье Иоаннидис утверждает, что большое количество, если не большинство, опубликованных медицинских исследовательских работ содержат результаты, которые невозможно воспроизвести . Проще говоря, в эссе говорится, что ученые используют проверку гипотез , чтобы определить, значимы ли научные открытия. Статистическая значимость формализуется с точки зрения вероятности, а ее показатель p- значения упоминается в научной литературе как механизм отбора. Иоаннидис выдвинул предположения о том, как люди проводят эти тесты и сообщают о них; затем он построил статистическую модель, которая показывает, что большинство опубликованных результатов, скорее всего, являются ложноположительными результатами .

Аргумент

Предположим, что в данной научной области существует известная базовая вероятность того, что результат верен, обозначаемый . При проведении исследования вероятность получения положительного результата равна . Учитывая эти два фактора, мы хотим вычислить условную вероятность , известную как положительная прогностическая ценность (PPV). Теорема Байеса позволяет нам вычислить PPV как: $\mathbb {P} ({\text{True}})$ $\mathbb {P} (+)$ $\mathbb {P} ({\text{True}}\mid +)$

\mathbb {P} ({\text{True}}\mid +)={(1-\beta)\mathbb {P} ({\text{True}}) \over {(1-\beta )\mathbb {P} ({\text{True}})+\alpha \left[1-\mathbb {P} ({\text{True}})\right]}}

частота ошибок I рода частота ошибок II рода мощность

\альфа

\бета

1-\beta

\alpha =0,05

\beta =0.2

\mathbb {P} ({\text{True}})=0.1

\alpha

\beta

Однако простая формула PPV, полученная на основе теоремы Байеса, не учитывает предвзятость в дизайне исследования или отчетности. Некоторые опубликованные результаты не были бы представлены как результаты исследований, если бы не предвзятость исследователей. Пусть будет вероятность того, что анализ был опубликован только из-за предвзятости исследователя. Тогда PPV определяется более общим выражением: $u\in [0,1]$

\mathbb {P} ({\text{True}}|+)={\left[1-(1-u)\beta \right]\mathbb {P} ({\text{True}}) \over {\left[1-(1-u)\beta \right]\mathbb {P} ({\text{True}})+\left[(1-u)\alpha +u\right]\left[1-\mathbb {P} ({\text{True}})\right]}}

^[2]^[3]^[4]

\mathbb {P} ({\text{True}}|+)=\mathbb {P} ({\text{True}})

\alpha

\beta

Учитывая реальность предвзятости, низкую статистическую мощность и небольшое количество истинных гипотез, Иоаннидис заключает, что большинство исследований в различных научных областях, скорее всего, сообщат о ложных результатах.

Следствия

В дополнение к основному результату Иоаннидис перечисляет шесть следствий факторов, которые могут повлиять на надежность опубликованных исследований.

Результаты исследований в научной области с меньшей вероятностью будут правдивыми,

тем меньше исследований проводилось.
тем меньше размеры эффекта .
чем больше число и тем меньше выбор проверяемых связей .
тем больше гибкость в дизайне , определениях, результатах и аналитических методах.
тем больше финансовые и другие интересы и предрассудки .
чем горячее научное поле (с участием большего количества научных групп).

Иоаннидис внес свой вклад в эту работу, внося свой вклад в метаэпидемиологическое исследование, которое показало, что только 1 из 20 вмешательств, протестированных в Кокрейновских обзорах, имеет преимущества, подтвержденные доказательствами высокого качества. ^[5] Он также внес свой вклад в исследование, предполагая, что качество этих доказательств, похоже, не улучшается с течением времени. ^[6]

Прием

Несмотря на скептицизм по поводу крайних заявлений, сделанных в статье, более широкие аргументы и предупреждения Иоаннидиса были приняты большим количеством исследователей. ^[7] Рост метанауки и признание кризиса научной репликации укрепили авторитет статьи и привели к призывам к методологическим реформам в научных исследованиях. ^[8]^[9]

В комментариях и технических ответах статистики Гудман и Гренландия выявили несколько слабых мест в модели Иоаннидиса. ^[10]^[11] Использование Иоаннидисом драматических и преувеличенных формулировок о том, что он «доказал», что утверждения большинства результатов исследований ложны и что «большинство результатов исследований ложны для большинства исследовательских проектов и для большинства областей » [курсив добавлен] было отклонено, и все же они согласились с выводами и рекомендациями его статьи.

Специалисты по биостатистике Джагер и Лик раскритиковали модель как основанную на обоснованных, но произвольных предположениях, а не на эмпирических данных, и провели собственное исследование, в ходе которого подсчитали, что уровень ложноположительных результатов в биомедицинских исследованиях оценивается примерно в 14%, а не более 50%, поскольку — заявил Иоаннидис. ^[12] Их статья была опубликована в специальном выпуске журнала Biostatistics за 2014 год вместе с расширенной критикой со стороны других статистиков. Лик резюмировал ключевые моменты соглашения следующим образом: когда речь идет о частоте ложных открытий с научной точки зрения, необходимо приводить данные; существуют разные подходы для оценки уровня ложных открытий с научной точки зрения; и «весьма маловероятно, что большинство опубликованных исследований являются ложными», но это, вероятно, зависит от определения «большинства» и «ложности». ^[13]

Статистик Ульрих Шиммак подчеркнул важность эмпирической основы для моделей, отметив, что сообщаемый уровень ложных открытий в некоторых научных областях не является фактическим уровнем открытий, поскольку о незначительных результатах сообщается редко. Теоретическая модель Иоаннидиса этого не учитывает, но когда статистический метод («z-кривая») для оценки количества неопубликованных несущественных результатов применяется к двум примерам, уровень ложноположительных результатов составляет от 8% до 17%, а не более 50%. ^[14]

Причины высокого уровня ложноположительных результатов

Несмотря на эти слабости, тем не менее, существует общее согласие с проблемой и рекомендациями, которые обсуждает Иоаннидис, однако его тон был описан как «драматичный» и «тревожно вводящий в заблуждение», что рискует заставить людей излишне скептически или цинично относиться к науке. ^[10]^[15]

Долгосрочным результатом этой работы стало осознание основных причин высокого уровня ложноположительных результатов в клинической медицине и биомедицинских исследованиях, а также усилия журналов и ученых по их смягчению. В 2016 году Иоаннидис переформулировал эти движущие силы следующим образом: ^[16]

Индивидуальный, разрозненный исследователь, ограниченный небольшим размером выборки
Отсутствие предварительной регистрации проверяемых гипотез
Последующий выбор гипотез с лучшими значениями P
Требуется только P < 0,05
Нет репликации
Нет обмена данными

дальнейшее чтение

Университет Карнеги-Меллона, Клуб статистических журналов: Краткое изложение и обсуждение: «Почему большинство опубликованных результатов исследований являются ложными»
Приложения к экономике: Де Лонг, Дж. Брэдфорд; Лэнг, Кевин. «Все ли экономические гипотезы ложны?» Журнал политической экономии. 100 (6): 1257–1272, 1992 г.
Приложения к общественным наукам: Хардвик, Том Э.; Уоллах, Джошуа Д.; Кидвелл, Мэллори К.; Бендиксен, Тайсс; Крювелл София и Иоаннидис, Джон П.А. «Эмпирическая оценка исследовательских практик, связанных с прозрачностью и воспроизводимостью, в социальных науках (2014–2017)». Королевское общество открытой науки. 7: 190806, 2020.

Внешние ссылки

Видео на YouTube, посвященное Инициативе Беркли по прозрачности в социальных науках , 2016 г., «Почему большинство опубликованных результатов исследований являются ложными» (Часть I, Часть II, Часть III)
Видео Джона Иоаннидиса на YouTube на выступлениях в Google , 2014 г. «Воспроизводимые исследования: правда или ложь?»