Мета-анализ

Метаанализ — это статистическое объединение результатов нескольких исследований, посвященных одному и тому же исследовательскому вопросу. Важная часть этого метода включает вычисление размера эффекта по всем исследованиям, что включает в себя извлечение размеров эффекта и показателей дисперсии из различных исследований. Мета-анализ является неотъемлемой частью поддержки заявок на гранты на исследования, формирования руководств по лечению и влияния на политику здравоохранения. Они также играют решающую роль в обобщении существующих исследований для направления будущих исследований, тем самым укрепляя свою роль фундаментальной методологии в метанауке . Мета-анализ часто, но не всегда, является важным компонентом процедуры систематического обзора . Например, может быть проведен метаанализ нескольких клинических испытаний медицинского лечения, чтобы лучше понять, насколько хорошо работает лечение.

История

Термин «метаанализ» был придуман в 1976 году статистиком Джином Глассом ^[1]^[2] , который заявил : «Метаанализ относится к анализу анализов» . ^[3] Работа Гласса направлена на описание совокупных показателей отношений и эффектов. ^[4] Хотя Глассу приписывают авторство первого современного метаанализа, статья, опубликованная в 1904 году статистиком Карлом Пирсоном в Британском медицинском журнале^[5] , сопоставила данные нескольких исследований по прививке от брюшного тифа и рассматривается как первый мета-анализ. -аналитический подход использовался для агрегирования результатов многочисленных клинических исследований. ^[6]^[7] Можно найти множество других примеров раннего метаанализа, включая тестирование профессиональных способностей, ^[8]^[9] и сельское хозяйство. ^[10]

Первый модельный метаанализ эффективности результатов психотерапии был опубликован в 1978 году Мэри Ли Смит и Джином Глассом . ^[2]^[11] После публикации их статьи возникла критика полезности и обоснованности метаанализа как инструмента синтеза доказательств. Первым примером этого был Хан Айзенк , который в статье 1978 года в ответ на работу Мэри Ли Смит и Джина Гласса назвал метаанализ «упражнением в мегаглупости». ^[12]^[13] Позже Айзенк будет называть метаанализ «статистической алхимией» ^[14] Несмотря на эту критику, использование метаанализа только выросло с момента его современного внедрения. К 1991 г. было опубликовано 334 метаанализа; ^[13] к 2014 году это число выросло до 9 135. ^[1]^[15]

Область метаанализа значительно расширилась с 1970-х годов и затрагивает множество дисциплин, включая психологию, медицину и экологию. ^[1] Кроме того, недавнее создание сообществ по синтезу фактических данных привело к усилению перекрестного опыления идеями, методами и созданию программных инструментов в разных дисциплинах. ^[16]^[17]^[18]

Шаги метаанализа

Метаанализу обычно предшествует систематический обзор, поскольку он позволяет выявить и критически оценить все соответствующие доказательства (тем самым ограничивая риск систематической ошибки в сводных оценках). Общие шаги тогда следующие: ^[19]

Формулировка вопроса исследования, например, с использованием модели PICO (население, вмешательство, сравнение, результат).
Поиск литературы
Отбор исследований («критерии включения»)
- На основе критериев качества, например, требования рандомизации и слепого проведения клинического исследования.
- Выбор конкретных исследований по четко определенной теме, например, лечению рака молочной железы.
- Решите, включены ли неопубликованные исследования, чтобы избежать предвзятости публикации (проблема с ящиком для файлов)
Решите, какие зависимые переменные или сводные показатели разрешены. Например, при рассмотрении метаанализа опубликованных (агрегированных) данных:
- Различия (дискретные данные)
- Средства (непрерывные данные)
Выбор модели метаанализа, например, метаанализ с фиксированным эффектом или случайным эффектом.
Изучите источники неоднородности между исследованиями , например, используя анализ подгрупп или мета-регрессию .

Официальное руководство по проведению и составлению отчетов о метаанализе содержится в Кокрейновском справочнике.

Рекомендации по составлению отчетов см. в заявлении «Предпочтительные элементы отчетности для систематических обзоров и метаанализов» (PRISMA). ^[20]

Поиск литературы

Одним из наиболее важных этапов метаанализа является сбор данных. Для эффективного поиска в базе данных необходимо определить соответствующие ключевые слова и ограничения поиска. ^[21] Использование логических операторов и ограничений поиска может помочь в поиске литературы. ^[22]^[23] Доступен ряд баз данных (например, PubMed, Embase, PsychInfo), однако исследователь должен выбрать наиболее подходящие источники для своей области исследования. ^[24] Действительно, многие ученые используют повторяющиеся поисковые запросы в двух или более базах данных, чтобы охватить несколько источников. В списках подходящих исследований также можно осуществлять поиск подходящих исследований (т. е. методом снежного кома). Первоначальный поиск может вернуть большой объем исследований. Довольно часто аннотация или название рукописи указывают на то, что исследование не может быть включено в исследование на основании заранее определенных критериев. Эти исследования можно отменить. Однако, если окажется, что исследование может быть приемлемым (или даже если есть некоторые сомнения), полную версию статьи можно сохранить для более тщательного изучения. В списках ссылок на подходящие статьи также можно осуществлять поиск любых соответствующих статей. Результаты поиска необходимо детализировать в блок-схеме PRIMSA ^[25] , в которой подробно описывается поток информации на всех этапах проверки. Таким образом, важно отметить, сколько исследований было возвращено после использования указанных поисковых запросов и сколько из этих исследований было отклонено и по какой причине. ^[24] Условия и стратегия поиска должны быть достаточно конкретными, чтобы читатель мог воспроизвести поиск. Также следует указать диапазон дат исследований, а также дату (или период дат), когда был проведен поиск. ^[26]

Форма сбора данных предоставляет стандартизированные средства сбора данных из подходящих исследований. Для метаанализа корреляционных данных информация о величине эффекта обычно собирается в виде r- статистики Пирсона. В исследованиях часто сообщается о частичных корреляциях, однако они могут раздувать отношения по сравнению с корреляциями нулевого порядка. ^[27] Более того, частичные переменные, вероятно, будут варьироваться от исследования к исследованию. Как следствие, многие метаанализы исключают из своего анализа частичные корреляции. ^{[24] В качестве последнего средства можно использовать цифровые преобразователи графиков для извлечения точек данных из диаграмм рассеяния (если таковые имеются) для расчета}r Пирсона . ^[28]^[29] Также следует собирать данные, отражающие важные характеристики исследования, которые могут смягчить эффекты, такие как средний возраст участников. ^[30] В эти формы также можно включить показатель качества исследования для оценки качества доказательств каждого исследования. ^[31] Существует более 80 инструментов для оценки качества и риска систематической ошибки в наблюдательных исследованиях, отражающих разнообразие исследовательских подходов в разных областях. ^[31]^[32]^[33] Эти инструменты обычно включают оценку того, как измерялись зависимые переменные, соответствующий отбор участников и соответствующий контроль за мешающими факторами. Другие показатели качества, которые могут быть более актуальными для корреляционных исследований, включают размер выборки, психометрические свойства и описание методов. ^[24]

Последнее соображение заключается в том, следует ли включать исследования из «серой» литературы, которая определяется как исследования, которые не были официально опубликованы. ^[34] К этому типу литературы относятся тезисы конференций, ^[35] диссертации, ^[36] и препринты. ^[37] Хотя включение «серой» литературы снижает риск предвзятости публикации, методологическое качество работы часто (но не всегда) ниже, чем официально опубликованной работы. ^[38]^[39] Отчеты по материалам конференций, которые являются наиболее распространенным источником серой литературы, ^[40] представлены плохо ^[41] , а данные в последующих публикациях часто противоречивы, при этом различия наблюдаются почти в 20% опубликованных исследований. . ^[42]

Методы и предположения

Подходы

В целом при проведении метаанализа можно выделить два типа доказательств: данные отдельных участников (IPD) и совокупные данные (AD). Совокупные данные могут быть прямыми и косвенными.

AD более широко доступен (например, из литературы) и обычно представляет собой сводные оценки, такие как отношение шансов или относительные риски. Это можно напрямую синтезировать в концептуально схожих исследованиях, используя несколько подходов (см. ниже). С другой стороны, косвенные совокупные данные измеряют эффект двух методов лечения, каждый из которых сравнивался с аналогичной контрольной группой в метаанализе. Например, если лечение А и лечение Б напрямую сравнивались с плацебо в отдельных метаанализах, мы можем использовать эти два объединенных результата, чтобы получить оценку эффектов А и Б в непрямом сравнении как эффект А против плацебо минус эффект Б. против плацебо.

Доказательства ИПЗ представляют собой необработанные данные, собранные исследовательскими центрами. Это различие привело к необходимости использования различных метааналитических методов, когда требуется синтез доказательств, и привело к разработке одноэтапных и двухэтапных методов. ^[43] В одноэтапных методах ИПЗ всех исследований моделируются одновременно с учетом кластеризации участников внутри исследований. Двухэтапные методы сначала вычисляют сводную статистику по БА по каждому исследованию, а затем рассчитывают общую статистику как средневзвешенное значение статистики исследования. Сводя IPD к AD, при наличии IPD также можно применять двухэтапные методы; это делает их привлекательным выбором при проведении метаанализа. Хотя традиционно считается, что одноэтапные и двухэтапные методы дают схожие результаты, недавние исследования показали, что иногда они могут приводить к разным выводам. ^[44]^[45]

Статистические модели для агрегированных данных

Прямые доказательства: модели, учитывающие только эффекты исследования

Модель с фиксированным эффектом

Модель с фиксированным эффектом обеспечивает средневзвешенное значение ряда оценок исследования. Обратная дисперсия оценок обычно используется в качестве веса исследования, так что более крупные исследования имеют тенденцию вносить больший вклад в средневзвешенное значение, чем более мелкие исследования. Следовательно, когда в рамках метаанализа преобладают очень крупные исследования, результаты более мелких исследований практически игнорируются. ^[46] Самое главное, модель с фиксированными эффектами предполагает, что все включенные исследования исследуют одну и ту же популяцию, используют одни и те же определения переменных и результатов и т. д. Это предположение обычно нереалистично, поскольку исследования часто подвержены нескольким источникам неоднородности . ^[47]

Модель случайных эффектов

Распространенной моделью, используемой для синтеза гетерогенных исследований, является модель случайных эффектов метаанализа. Это просто средневзвешенное значение величины эффекта группы исследований. Вес, который применяется в этом процессе взвешенного усреднения с помощью метаанализа случайных эффектов, достигается в два этапа: ^[48]

Шаг 1. Взвешивание обратной дисперсии
Шаг 2: Устранение взвешивания этого взвешивания обратной дисперсии путем применения компонента дисперсии случайных эффектов (REVC), который просто выводится из степени изменчивости размеров эффекта основных исследований.

Это означает, что чем больше эта изменчивость в размерах эффекта (также известная как гетерогенность ), тем больше невзвешивание, и это может достичь точки, когда результат метаанализа случайных эффектов становится просто невзвешенным средним размером эффекта по исследованиям. С другой стороны, когда все размеры эффекта одинаковы (или вариабельность не превышает ошибку выборки), REVC не применяется, и метаанализ случайных эффектов по умолчанию представляет собой просто метаанализ с фиксированным эффектом (только взвешивание обратной дисперсии).

Степень этого изменения зависит исключительно от двух факторов: ^[49]

Неоднородность точности
Неоднородность размера эффекта

Поскольку ни один из этих факторов автоматически не указывает на ошибочное более крупное исследование или на более надежные более мелкие исследования, перераспределение весов в рамках этой модели не будет иметь отношения к тому, что на самом деле могут предложить эти исследования. Действительно, было продемонстрировано, что перераспределение весов происходит просто в одном направлении от более крупных исследований к более мелким по мере увеличения гетерогенности до тех пор, пока в конечном итоге все исследования не станут равными по весу и перераспределение больше не станет возможным. ^[49] Другая проблема с моделью случайных эффектов заключается в том, что наиболее часто используемые доверительные интервалы обычно не сохраняют вероятность охвата выше указанного номинального уровня и, таким образом, существенно недооценивают статистическую ошибку и потенциально являются слишком самоуверенными в своих выводах. ^[50]^[51] Было предложено несколько исправлений ^[52]^[53] , но дебаты продолжаются. ^[51]^[54] Еще одна проблема заключается в том, что средний эффект лечения иногда может быть даже менее консервативным по сравнению с моделью с фиксированным эффектом ^[55] и, следовательно, вводить в заблуждение на практике. Одним из предложенных интерпретационных решений является создание интервала прогнозирования вокруг оценки случайных эффектов, чтобы отразить диапазон возможных эффектов на практике. ^[56] Однако в основе расчета такого интервала прогнозирования лежит предположение о том, что исследования считаются более или менее однородными объектами и что включенные в них популяции пациентов и методы сравнения должны считаться взаимозаменяемыми ^[57] , что обычно недостижимо на практике.

Существует множество методов, используемых для оценки дисперсии между исследованиями, при этом оценка ограниченного максимального правдоподобия наименее подвержена систематической ошибке и является одной из наиболее часто используемых. ^[58] Существует несколько передовых итеративных методов расчета дисперсии между исследованиями, включая метод максимального правдоподобия и метод ограниченного максимального правдоподобия, а модели случайных эффектов, использующие эти методы, можно запускать на нескольких программных платформах, включая Excel, [ ^59] Stata, ^[60] SPSS . , ^[61] и Р. ^[62]

Большинство метаанализов включают от 2 до 4 исследований, и такая выборка чаще всего недостаточна для точной оценки гетерогенности . Таким образом, оказывается, что в небольших метаанализах получается неверная оценка дисперсии между исследованиями, равная нулю, что приводит к ложному предположению об однородности. В целом, похоже, что гетерогенность постоянно недооценивается в метаанализах, а анализы чувствительности, в которых предполагается, что высокие уровни гетерогенности могут быть информативными. ^[63] Эти модели случайных эффектов и пакеты программного обеспечения, упомянутые выше, относятся к метаанализу совокупных исследований, и исследователям, желающим провести метаанализ индивидуальных данных пациентов (IPD), необходимо рассмотреть подходы к моделированию смешанных эффектов. ^[64]

IVhet модель

Дой и Барендрегт, работая в сотрудничестве с Ханом, Талибом и Уильямсом (из Университета Квинсленда, Университета Южного Квинсленда и Университета Кувейта), создали альтернативу модели случайных эффектов (RE), основанную на квазиправдоподобии обратной дисперсии (IVhet), для которой подробности доступны в Интернете. ^[59] Это было включено в MetaXL версии 2.0, ^[65] бесплатную надстройку Microsoft Excel для метаанализа, созданную Epigear International Pty Ltd и доступную 5 апреля 2014 года. Авторы заявляют, что явное преимущество этой модели заключается в том, что он решает две основные проблемы модели случайных эффектов. Первое преимущество модели IVhet заключается в том, что охват остается на номинальном уровне (обычно 95%) для доверительного интервала, в отличие от модели случайных эффектов, охват которой падает с увеличением неоднородности. ^[50]^[51] Второе преимущество заключается в том, что модель IVhet поддерживает обратные веса дисперсии отдельных исследований, в отличие от модели RE, которая придает небольшим исследованиям больший вес (и, следовательно, более крупным исследованиям меньший) с увеличением гетерогенности. Когда неоднородность становится большой, веса отдельных исследований в рамках модели RE становятся равными, и, таким образом, модель RE возвращает среднее арифметическое, а не средневзвешенное значение. Этот побочный эффект модели RE не возникает в модели IVhet, которая, таким образом, отличается от оценки модели RE в двух ^{аспектах} : иметь доверительный интервал, который остается в пределах номинального охвата в условиях неопределенности (неоднородности). Дой и Барендрегт предполагают, что, хотя модель RE обеспечивает альтернативный метод объединения данных исследования, результаты их моделирования ^[66] демонстрируют, что использование более конкретной вероятностной модели с несостоятельными предположениями, как в случае с моделью RE, не обязательно дает лучшие результаты. В последнем исследовании также сообщается, что модель IVhet решает проблемы, связанные с недооценкой статистической ошибки, плохим охватом доверительного интервала и увеличением MSE, наблюдаемым с помощью модели случайных эффектов, и авторы приходят к выводу, что впредь исследователям следует отказаться от использования модели случайных эффектов. в метаанализе. Хотя их данные убедительны, их последствия (с точки зрения масштабов ложноположительных результатов в базе данных Кокрейна) огромны, и поэтому принятие этого вывода требует тщательного независимого подтверждения. Доступность бесплатного программного обеспечения (MetaXL) ^[65] , которое запускает модель IVhet (и все другие модели для сравнения), облегчает это исследовательскому сообществу.

Прямые доказательства: модели, включающие дополнительную информацию

Модель эффектов качества

Дой и Талиб изначально представили модель эффектов качества. ^[67] Они ^[68] представили новый подход к корректировке вариабельности между исследованиями путем включения вклада дисперсии из-за соответствующего компонента (качества) в дополнение к вкладу дисперсии из-за случайной ошибки, которая используется в любых фиксированных эффектах. модель метаанализа для расчета весов для каждого исследования. Сильная сторона метаанализа эффектов качества заключается в том, что он позволяет использовать доступные методологические данные вместо субъективных случайных эффектов и тем самым помогает закрыть разрушительный разрыв, образовавшийся между методологией и статистикой в клинических исследованиях. Для этого вычисляется синтетическая дисперсия систематической ошибки на основе информации о качестве для корректировки весов обратной дисперсии и вводится скорректированный по качеству вес i- го исследования. ^[67] Эти скорректированные веса затем используются в метаанализе. Другими словами, если исследование i имеет хорошее качество, а другие исследования — низкого качества, часть их весовых коэффициентов с поправкой на качество математически перераспределяется в исследование i , придавая ему больший вес в отношении общего размера эффекта. Поскольку исследования становятся все более схожими по качеству, перераспределение становится все меньше и прекращается, когда все исследования имеют одинаковое качество (в случае одинакового качества модель эффектов качества по умолчанию использует модель IVhet – см. предыдущий раздел). Недавняя оценка модели эффектов качества (с некоторыми обновлениями) показывает, что, несмотря на субъективность оценки качества, производительность (среднеквадратическая ошибка и истинная дисперсия при моделировании) превосходит производительность, достижимую с помощью модели случайных эффектов. ^[69]^[70] Таким образом, эта модель заменяет несостоятельные интерпретации, которыми изобилует литература, и доступно программное обеспечение для дальнейшего изучения этого метода. ^[65]

Косвенные доказательства: методы сетевого метаанализа

В методах метаанализа непрямых сравнений (также называемых сетевыми метаанализами, в частности, когда одновременно оцениваются несколько методов лечения) обычно используются две основные методологии. Во-первых, это метод Бухера ^[71] , который представляет собой однократное или повторное сравнение замкнутого цикла трех процедур, так что один из них является общим для двух исследований и образует узел, в котором цикл начинается и заканчивается. Следовательно, для сравнения нескольких курсов лечения необходимы множественные сравнения два на два (циклы из трех процедур). Эта методология требует, чтобы в исследованиях с более чем двумя группами выбирались только две группы, поскольку требуются независимые парные сравнения. Альтернативная методология использует сложное статистическое моделирование для одновременного включения нескольких групповых исследований и сравнений между всеми конкурирующими методами лечения. Они были выполнены с использованием байесовских методов, смешанных линейных моделей и подходов метарегрессии. ^{[ нужна цитата ]}

Байесовский подход

Определение модели метаанализа байесовской сети включает в себя написание модели направленного ациклического графа (DAG) для программного обеспечения общего назначения для цепей Маркова Монте-Карло (MCMC), такого как WinBUGS. ^[72] Кроме того, для ряда параметров необходимо указать априорные распределения, а данные должны быть предоставлены в определенном формате. ^[72] Вместе DAG, априорные данные и данные образуют байесовскую иерархическую модель. Ситуация еще больше усложняется тем, что из-за характера оценки MCMC необходимо выбирать сверхдисперсные начальные значения для ряда независимых цепочек, чтобы можно было оценить сходимость. ^[73] Недавно было разработано несколько пакетов программного обеспечения R для упрощения подбора модели (например, MetaBMA ^[74] и RoBMA ^[75] ) и даже реализовано в статистическом программном обеспечении с графическим пользовательским интерфейсом ( GUI ): JASP . Хотя сложность байесовского подхода ограничивает использование этой методологии, в недавних учебных пособиях делается попытка повысить доступность методов. ^[76]^[77] Была предложена методология автоматизации этого метода ^[72] , но она требует наличия данных о результатах на уровне группы, а это обычно недоступно. Иногда делаются большие заявления о присущей байесовской модели способности проводить сетевой метаанализ и о ее большей гибкости. Однако этот выбор реализации структуры вывода, байесовской или частотной, может быть менее важным, чем другие варианты моделирования эффектов ^[78] (см. обсуждение моделей выше).

Частотная многомерная структура

С другой стороны, частотные многомерные методы включают в себя приближения и предположения, которые не формулируются явно и не проверяются при применении методов (см. обсуждение моделей метаанализа выше). Например, пакет mvmeta для Stata обеспечивает сетевой метаанализ в частотной структуре. ^[79] Однако, если в сети нет общего компаратора, то это необходимо решать путем дополнения набора данных вымышленными рукавами с высокой дисперсией, что не очень объективно и требует решения относительно того, что представляет собой достаточно высокую дисперсию. ^[72] Другой проблемой является использование модели случайных эффектов как в частотной, так и в байесовской модели. Сенн советует аналитикам быть осторожными при интерпретации анализа «случайных эффектов», поскольку допускается только один случайный эффект, но можно предусмотреть множество. ^[78] Далее Сенн говорит, что довольно наивно, даже в случае, когда сравниваются только два метода лечения, предполагать, что анализ случайных эффектов учитывает всю неопределенность относительно того, как эффекты могут варьироваться от исследования к исследованию. Новые модели метаанализа, подобные рассмотренным выше, безусловно, помогут облегчить эту ситуацию и были реализованы в следующей структуре.

Обобщенная структура парного моделирования

Подход, который опробовался с конца 1990-х годов, представляет собой реализацию замкнутого цикла множественного трехобработки. Это не пользовалось популярностью, поскольку по мере увеличения сложности сети этот процесс быстро становится утомительным. Затем разработки в этой области были прекращены в пользу байесовских и многомерных частотных методов, которые появились в качестве альтернативы. Совсем недавно некоторые исследователи разработали автоматизацию метода замкнутого цикла с тремя обработками для сложных сетей ^[59] как способ сделать эту методологию доступной для основного исследовательского сообщества. Это предложение ограничивает каждое исследование двумя вмешательствами, но также предлагает обходной путь для нескольких исследований: в разных запусках можно выбрать другой фиксированный контрольный узел. Он также использует надежные методы метаанализа, что позволяет избежать многих проблем, выделенных выше. Необходимы дальнейшие исследования этой структуры, чтобы определить, действительно ли она превосходит байесовскую или многомерную частотную структуру. Исследователи, желающие опробовать это, имеют доступ к этой платформе через бесплатное программное обеспечение. ^[65]

Индивидуальный метаанализ

Другая форма дополнительной информации исходит из предполагаемой обстановки. Если известны целевые условия для применения результатов метаанализа, то можно использовать данные из этих условий для адаптации результатов, таким образом создавая «индивидуализированный метаанализ». ^[80]^[81] Это использовалось в метаанализ точности теста, в котором эмпирические знания о частоте положительных результатов теста и распространенности использовались для определения области в пространстве рабочих характеристик приемника (ROC), известной как «применимая область». Затем исследования отбираются для целевых настроек на основе сравнения с этим регионом и агрегируются для получения сводной оценки, адаптированной к целевым настройкам.

Агрегирование IPD и AD

Мета-анализ также может применяться для объединения ИЛЗ и БА. Это удобно, когда исследователи, проводящие анализ, имеют собственные исходные данные при сборе агрегированных или сводных данных из литературы. Обобщенная интеграционная модель (GIM) ^[82] является обобщением метаанализа. Это позволяет использовать модель, основанную на данных отдельных участников (IPD), отличающуюся от моделей, используемых для расчета совокупных данных (AD). GIM можно рассматривать как метод калибровки модели для большей гибкости интеграции информации.

Валидация результатов метаанализа

Оценка метаанализа представляет собой средневзвешенное значение по исследованиям, и при наличии неоднородности это может привести к тому, что сводная оценка не будет репрезентативной для отдельных исследований. Качественная оценка первичных исследований с использованием установленных инструментов может выявить потенциальные систематические ошибки ^[83]^[84] , но не дает количественной оценки совокупного влияния этих систематических ошибок на сводную оценку. Хотя результат метаанализа можно сравнить с результатами независимого проспективного первичного исследования, такая внешняя валидация часто нецелесообразна. Это привело к разработке методов, использующих форму перекрестной проверки с исключением одного , иногда называемую внутренней-внешней перекрестной проверкой (IOCV). ^[85] Здесь каждое из k включенных исследований поочередно опускается и сравнивается с итоговой оценкой, полученной в результате агрегирования оставшихся k-1 исследований. Общая статистика валидации Vn на основе IOCV была разработана для измерения статистической достоверности результатов метаанализа. ^[86] Для оценки точности теста и прогнозирования, особенно при наличии многомерных эффектов, также были предложены другие подходы, направленные на оценку ошибки прогнозирования. ^[87]

Проблемы

Метаанализ нескольких небольших исследований не всегда позволяет предсказать результаты одного большого исследования. ^[88] Некоторые утверждают, что слабость метода заключается в том, что источники систематической ошибки не контролируются методом: хороший метаанализ не может исправить плохой дизайн или систематическую ошибку в оригинальных исследованиях. ^[89] Это означало бы, что в метаанализ следует включать только методологически обоснованные исследования, практику, называемую «синтезом наилучших доказательств». ^[89] Другие метааналитики могли бы включить более слабые исследования и добавить предикторную переменную на уровне исследования, которая отражает методологическое качество исследований, чтобы изучить влияние качества исследования на размер эффекта. ^[90] Однако другие утверждают, что лучший подход состоит в том, чтобы сохранить информацию о дисперсии в исследуемой выборке, создавая как можно более широкую сеть, и что методологические критерии отбора привносят нежелательную субъективность, сводя на нет цель подхода. ^[91]

Предвзятость публикации: проблема с ящиком для документов

Еще одной потенциальной ловушкой является зависимость от доступного массива опубликованных исследований, что может привести к преувеличению результатов из-за предвзятости публикации , поскольку исследования, показывающие отрицательные или незначительные результаты, с меньшей вероятностью будут опубликованы. ^[92] Например, известно, что фармацевтические компании скрывают негативные исследования, а исследователи могут упускать из виду неопубликованные исследования, такие как диссертационные исследования или тезисы конференций, которые не дошли до публикации. Эту проблему нелегко решить, поскольку невозможно знать, сколько исследований осталось незарегистрированными. ^[93]

Эта проблема с ящиком для файлов (характеризующаяся отрицательными или незначительными результатами, спрятанными в шкафу) может привести к смещенному распределению размеров эффекта, создавая тем самым серьезную ошибку базовой оценки , при которой значимость опубликованных исследований переоценивается, поскольку другие исследования либо не были представлены для публикации, либо были отклонены. Это следует серьезно учитывать при интерпретации результатов метаанализа. ^[93]^[94]

Распределение размеров эффекта можно визуализировать с помощью воронкообразной диаграммы , которая (в наиболее распространенной версии) представляет собой диаграмму разброса стандартной ошибки в зависимости от размера эффекта. ^[95] Он использует тот факт, что более мелкие исследования (и, следовательно, более крупные стандартные ошибки) имеют больший разброс величины эффекта (будучи менее точными), в то время как более крупные исследования имеют меньший разброс и образуют верхушку воронки. Если многие отрицательные исследования не были опубликованы, то оставшиеся положительные исследования образуют воронкообразный график, в котором основание перекошено в одну сторону (асимметрия воронкообразного графика). Напротив, когда нет предвзятости публикации, эффект небольших исследований не имеет причин для отклонения в одну сторону, и поэтому получается симметричная воронкообразная диаграмма. Это также означает, что при отсутствии предвзятости публикации не будет никакой связи между стандартной ошибкой и размером эффекта. ^[96] Отрицательная или положительная связь между стандартной ошибкой и величиной эффекта будет означать, что меньшие исследования, в которых обнаружены эффекты только в одном направлении, с большей вероятностью будут опубликованы и/или представлены для публикации.

Помимо визуальной воронки, также были предложены статистические методы обнаружения систематической ошибки публикации. ^[97] Они являются спорными, поскольку обычно они имеют низкую мощность для обнаружения предвзятости, но также могут при некоторых обстоятельствах давать ложноположительные результаты. ^[98] Например, эффекты небольших исследований (предвзятые меньшие исследования), при которых существуют методологические различия между меньшими и более крупными исследованиями, могут вызвать асимметрию в величине эффекта, которая напоминает предвзятость публикации. Однако небольшие эффекты исследования могут быть столь же проблематичными для интерпретации метаанализа, и авторам метаанализа крайне важно исследовать потенциальные источники систематической ошибки. ^[99]

Проблема предвзятости публикаций нетривиальна, поскольку предполагается, что 25% метаанализов в психологических науках могли страдать от предвзятости публикаций. ^[100] Однако низкая мощность существующих тестов и проблемы с визуальным представлением воронкообразного графика остаются проблемой, а оценки систематической ошибки публикации могут оставаться ниже, чем действительно существует.

Большинство дискуссий о предвзятости публикаций сосредоточено на практике журналов, благоприятствующей публикации статистически значимых результатов. Однако сомнительные исследовательские практики, такие как переработка статистических моделей до достижения значимости, также могут способствовать статистически значимым результатам в поддержку гипотез исследователей. ^[101]^[102]

Проблемы, связанные с исследованиями, не сообщающими о статистически значимых эффектах

Исследования часто не сообщают об эффектах, если они не достигают статистической значимости. ^[103] Например, они могут просто сказать, что группы не показали статистически значимых различий, не сообщая никакой другой информации (например, статистики или p-значения). ^[104] Исключение этих исследований привело бы к ситуации, аналогичной предвзятости публикации, но их включение (при условии отсутствия эффектов) также привело бы к смещению метаанализа.

Проблемы, связанные со статистическим подходом

Другие недостатки заключаются в том, что не установлено, является ли статистически наиболее точным методом объединения результатов модели фиксированного, IVhet, случайного или качественного эффекта, хотя критика в адрес модели случайных эффектов растет из-за восприятия новых случайных эффектов (см. используемые в метаанализе), по сути являются формальными инструментами, способствующими сглаживанию или сжатию, и прогнозирование может быть невозможным или опрометчивым. ^[105] Основная проблема подхода со случайными эффектами заключается в том, что он использует классическую статистическую идею создания «компромиссной оценки», которая приближает веса к естественно взвешенной оценке, если неоднородность между исследованиями велика, но близка к взвешенной оценке обратной дисперсии. если неоднородность между исследованиями невелика. Однако было проигнорировано различие между моделью, которую мы выбираем для анализа данного набора данных, и механизмом, посредством которого данные появились . ^[106] Случайный эффект может присутствовать в любой из этих ролей, но эти две роли совершенно различны. Нет никаких оснований полагать, что модель анализа и механизм (модель) генерации данных похожи по форме, но во многих подобластях статистики выработалась привычка предполагать для теории и моделирования, что механизм (модель) генерации данных идентична модели анализа, которую мы выбираем (или хотели бы, чтобы ее выбрали другие). В качестве гипотетического механизма получения данных модель случайных эффектов для метаанализа глупа, и правильнее думать об этой модели как о поверхностном описании и как о чем-то, что мы выбираем в качестве аналитического инструмента – но этот выбор для метаанализа может не сработает, поскольку эффекты исследования являются фиксированной особенностью соответствующего метаанализа, а распределение вероятностей является лишь описательным инструментом. ^[106]

Проблемы, возникающие из-за предвзятости, обусловленной повесткой дня

Самая серьезная ошибка в метаанализе часто возникает, когда человек или люди, проводящие метаанализ, имеют экономическую , социальную или политическую программу, например, принятие или отклонение законодательства . Люди с такими взглядами могут с большей вероятностью злоупотреблять метаанализом из-за личных предубеждений . Например, исследования исследователей, благосклонно относящихся к программе автора, скорее всего, будут тщательно отобраны , а те, которые не поддерживают программу автора, будут проигнорированы или помечены как «не заслуживающие доверия». Кроме того, избранные авторы сами могут быть предвзятыми или им могут платить за получение результатов, которые поддерживают их общие политические, социальные или экономические цели, например, путем выбора небольших благоприятных наборов данных и отказа от включения более крупных неблагоприятных наборов данных. Влияние таких предубеждений на результаты метаанализа возможно, поскольку методология метаанализа весьма податлива. ^[107]

В исследовании 2011 года, проведенном с целью выявления возможных конфликтов интересов в основных исследованиях, используемых для медицинских метаанализов, было рассмотрено 29 метаанализов и обнаружено, что конфликты интересов в исследованиях, лежащих в основе метаанализов, раскрывались редко. В число 29 метаанализов вошли 11 из журналов общей медицины, 15 из специализированных медицинских журналов и три из Кокрановской базы данных систематических обзоров . В 29 метаанализах было рассмотрено в общей сложности 509 рандомизированных контролируемых исследований (РКИ). Из них 318 РКИ сообщили об источниках финансирования, причем 219 (69%) получали финансирование от промышленности (т.е. один или несколько авторов имели финансовые связи с фармацевтической промышленностью). Из 509 РКИ в 132 сообщалось о раскрытии конфликта интересов авторов, при этом в 91 исследовании (69%) было раскрыто, что один или несколько авторов имеют финансовые связи с промышленностью. Однако эта информация редко отражалась в метаанализе. Только двое (7%) сообщили об источниках финансирования РКИ, и ни один из них не сообщил о связях автора РКИ с индустрией. Авторы пришли к выводу, что «без признания ИСП из-за финансирования отрасли или финансовых связей автора с промышленностью на основе РКИ, включенных в метаанализ, понимание и оценка читателями данных метаанализа могут быть поставлены под угрозу». ^[108]

Например, в 1998 году федеральный судья США установил, что Агентство по охране окружающей среды США злоупотребило процессом метаанализа, чтобы провести исследование, утверждающее, что риск рака для некурящих из-за табачного дыма в окружающей среде (ETS) с целью повлиять на политиков. принять законы о запрете курения на рабочих местах. Судья установил, что:

Выбор исследований Агентства по охране окружающей среды вызывает беспокойство. Во-первых, в протоколах есть доказательства, подтверждающие обвинение в том, что Агентство по охране окружающей среды «выбирало» свои данные. Без критериев объединения исследований в метаанализ суд не может определить, было ли исключение исследований, которые могли опровергнуть априорную гипотезу Агентства по охране окружающей среды, совпадением или преднамеренным. Во-вторых, исключение EPA почти половины доступных исследований напрямую противоречит предполагаемой цели EPA по анализу эпидемиологических исследований и противоречит Руководству EPA по оценке рисков. См. «Оценку риска ETS» на стр. 4–29 («Эти данные также следует изучить с целью взвешивания всех имеющихся данных , как рекомендовано в руководящих принципах EPA по оценке канцерогенного риска (US EPA, 1986a) (выделено автором)). В-третьих, избирательный подход EPA Использование данных противоречит Закону об исследованиях радона. В законе говорится, что программа Агентства по охране окружающей среды должна «собирать данные и информацию по всем аспектам качества воздуха в помещениях» (Закон об исследованиях радона § 403(a)(1)) (выделено автором) ^[109] .

В результате злоупотреблений суд отменил главы 1–6 и приложения к документу Агентства по охране окружающей среды «Влияние пассивного курения на здоровье органов дыхания: рак легких и другие заболевания». ^[109]

Сопоставимость и достоверность включенных исследований

Метаанализ часто не может заменить адекватное первичное исследование. ^[110]

Неоднородность используемых методов может привести к ошибочным выводам. ^[111] Например, различия в формах вмешательства или когортах, которые считаются незначительными или неизвестными ученым, могут привести к существенно различным результатам, включая результаты, которые искажают результаты метаанализа или не учитываются должным образом. в его данных. И наоборот, результаты метаанализа могут также сделать определенные гипотезы или вмешательства нежизнеспособными и предвосхитить дальнейшие исследования или одобрения, несмотря на определенные модификации – такие как прерывистое введение, персонализированные критерии и комбинированные меры – приводящие к существенно отличающимся результатам, в том числе в тех случаях, когда такие были успешно идентифицированы и применены в небольших исследованиях, которые были учтены в метаанализе. ^{[ нужна цитация ]} Стандартизация , воспроизведение экспериментов , открытые данные и открытые протоколы часто не могут смягчить такие проблемы, например, поскольку соответствующие факторы и критерии могут быть неизвестны или не записаны. ^{[ нужна цитата ]}

Ведутся споры о подходящем балансе между тестированием на как можно меньшем количестве животных или людей и необходимостью получения надежных и надежных результатов. Утверждалось, что ненадежные исследования неэффективны и расточительны и что исследования являются расточительными не только тогда, когда они прекращаются слишком поздно, но и когда они прекращаются слишком рано. В крупных клинических исследованиях иногда используются плановые последовательные анализы, если с участниками тестирования связаны значительные расходы или потенциальный вред. ^[112] В прикладной поведенческой науке были предложены «мегаисследования» для изучения эффективности множества различных вмешательств, разработанных на междисциплинарной основе отдельными группами. ^[113] В одном из таких исследований использовалась сеть фитнес-центров для набора большого числа участников. Было высказано предположение, что поведенческие вмешательства часто трудно сравнивать [в метаанализах и обзорах], поскольку «разные ученые проверяют разные идеи вмешательства в разных выборках, используя разные результаты в разные промежутки времени», что приводит к отсутствию сопоставимости таких отдельных исследований. что ограничивает «их потенциал по информированию политики ». ^[113]

Слабые стандарты инклюзивности приводят к ошибочным выводам

Мета-анализ в образовании часто недостаточно ограничителен в отношении методологического качества включаемых в него исследований. Например, исследования, включающие небольшие выборки или измерения, проводимые исследователями, приводят к завышенным оценкам размера эффекта. ^[114] Однако эта проблема также беспокоит метаанализ клинических исследований. Использование различных инструментов оценки качества (QAT) приводит к включению разных исследований и получению противоречивых оценок среднего эффекта лечения. ^[115]^[116]

Приложения в современной науке

Современный статистический метаанализ делает больше, чем просто объединяет размеры эффекта ряда исследований с использованием средневзвешенного значения. Он может проверить, демонстрируют ли результаты исследований большую вариативность, чем ожидаемая из-за выборки из разного количества участников исследования. Кроме того, характеристики исследования, такие как используемый измерительный прибор, выборка населения или аспекты дизайна исследования, могут быть закодированы и использованы для уменьшения дисперсии оценщика (см. статистические модели выше). Таким образом, некоторые методологические недостатки исследований можно исправить статистически. Другие применения метааналитических методов включают разработку и проверку моделей клинического прогнозирования, где метаанализ может использоваться для объединения данных отдельных участников из разных исследовательских центров и для оценки обобщаемости модели ^[117]^[118] или даже для агрегирования существующие модели прогнозирования. ^[119]

Современный статистический метаанализ делает больше, чем просто объединяет размеры эффекта ряда исследований с использованием средневзвешенного значения. Он может проверить, демонстрируют ли результаты исследований большую вариативность, чем ожидаемая из-за выборки из разного количества участников исследования. Кроме того, характеристики исследования, такие как используемый измерительный прибор, выборка населения или аспекты дизайна исследования, могут быть закодированы и использованы для уменьшения дисперсии оценщика (см. статистические модели выше). Таким образом, некоторые методологические недостатки исследований можно исправить статистически. Другие варианты использования метааналитических методов включают разработку и проверку моделей клинического прогнозирования, где метаанализ может использоваться для объединения данных отдельных участников из разных исследовательских центров и для оценки обобщаемости модели ^[120]^[121] или даже для агрегирования существующие модели прогнозирования. ^[122]

Метаанализ может проводиться как с использованием индивидуального , так и группового исследования. ^[123] Это важно, поскольку большое количество исследований было проведено с использованием индивидуальных исследовательских планов. ^[124] Существуют серьезные споры по поводу наиболее подходящей метааналитической техники для исследования одного предмета. ^[125]

Метаанализ приводит к смещению акцента с отдельных исследований на многочисленные исследования. Он подчеркивает практическую важность размера эффекта, а не статистическую значимость отдельных исследований. Этот сдвиг в мышлении получил название «метааналитическое мышление». Результаты метаанализа часто представляют в виде лесного графика .

Результаты исследований объединяются с использованием разных подходов. Один из подходов, часто используемый в метаанализе исследований в области здравоохранения, называется « методом обратной дисперсии ». Средний размер эффекта по всем исследованиям рассчитывается как средневзвешенное значение , при этом веса равны обратной дисперсии оценщика эффекта каждого исследования. Более крупным исследованиям и исследованиям с меньшими случайными вариациями придается больший вес, чем исследованиям меньшего размера. Другие распространенные подходы включают метод Мантеля–Хэнзеля ^[126] и метод Пето . ^[127]

D-картирование на основе семян (ранее называемое дифференциальным картированием, SDM) — это статистический метод метаанализа исследований различий в активности или структуре мозга, в которых использовались методы нейровизуализации, такие как фМРТ, VBM или ПЭТ.

Для понимания экспрессии генов использовались различные высокопроизводительные методы, такие как микрочипы . Профили экспрессии микроРНК использовались для идентификации дифференциально экспрессируемых микроРНК в определенных типах клеток или тканей или при заболеваниях или для проверки эффекта лечения. Был проведен метаанализ таких профилей экспрессии для получения новых выводов и подтверждения известных результатов. ^[128]

Метаанализ исследований полногеномного секвенирования представляет собой привлекательное решение проблемы сбора больших объемов выборок для обнаружения редких вариантов, связанных со сложными фенотипами. Были разработаны некоторые методы, позволяющие функционально обоснованный метаанализ ассоциаций редких вариантов в когортах в масштабе биобанка с использованием эффективных подходов для хранения сводной статистики. ^[129]

Широкий мета-анализ также может использоваться для оценки сети эффектов. Это позволяет исследователям изучать закономерности в более полной панораме более точно оцененных результатов и делать выводы, учитывающие более широкий контекст (например, как отношения между личностью и интеллектом различаются в зависимости от семейства черт). ^[130]

Смотрите также

Источники

В эту статью включен текст Дэниела С. Кинтаны, доступный по лицензии CC BY 4.0.

дальнейшее чтение

Корнелл Дж. Э., компакт-диск Малроу (1999). «Метаанализ». В Мелленберге Г.Дж. (ред.). Методология исследований в области жизненных, поведенческих и социальных наук . Лондон: SAGE. стр. 285–323. ISBN 978-0-7619-5883-3.
Эллис П.Д. (2010). Основное руководство по размерам эффекта: введение в статистическую мощность, метаанализ и интерпретацию результатов исследований . Кембридж: Издательство Кембриджского университета. ISBN 978-0-521-14246-5.
Саттон А.Дж., Джонс Д.Р., Абрамс К.Р., Шелдон Т.А., Сонг Ф (2000). Методы метаанализа в медицинских исследованиях . Лондон: Джон Уайли. ISBN 978-0-471-49066-1.
Уилсон Д.Б., Липси М.В. (2001). Практический метаанализ . Таузенд-Оукс: публикации Sage. ISBN 978-0-7619-2168-4.
Купер Х., Хеджес Л.В., ред. (1994). Справочник по синтезу исследований . Нью-Йорк: Фонд Рассела Сейджа. ISBN 978-0-87154-226-7.
Бонетт Д.Г. (декабрь 2010 г.). «Метааналитические методы с различными коэффициентами для определения альфа-надежности». Психологические методы . 15 (4): 368–385. дои : 10.1037/a0020142. PMID 20853952. S2CID 207710319.
Бонетт Д.Г., Прайс РМ (ноябрь 2014 г.). «Методы метаанализа различий в рисках». Британский журнал математической и статистической психологии . 67 (3): 371–387. дои : 10.1111/bmsp.12024. ПМИД 23962020.
Бонетт Д.Г. (сентябрь 2008 г.). «Метааналитическая интервальная оценка двумерных корреляций». Психологические методы . 13 (3): 173–181. дои : 10.1037/a0012868. PMID 18778150. S2CID 5690835.
Бонетт Д.Г. (сентябрь 2009 г.). «Метааналитическая интервальная оценка стандартизированных и нестандартизированных средних различий». Психологические методы . 14 (3): 225–238. дои : 10.1037/a0016619. ПМИД 19719359.
Бонетт Д.Г., Прайс РМ (сентябрь 2015 г.). «Методы метаанализа с различными коэффициентами для отношений шансов и отношений риска». Психологические методы . 20 (3): 394–406. дои : 10.1037/met0000032. ПМИД 25751513.
Бонетт Д.Г. (ноябрь 2020 г.). «Точечно-бисерийная корреляция: интервальная оценка, проверка гипотез, метаанализ и определение размера выборки». Британский журнал математической и статистической психологии . 73 (Приложение 1): 113–144. дои : 10.1111/bmsp.12189. PMID 31565811. S2CID 203607297.
Норманд С.Л. (февраль 1999 г.). «Метаанализ: формулирование, оценка, объединение и отчетность». Статистика в медицине . 18 (3): 321–359. doi :10.1002/(SICI)1097-0258(19990215)18:3<321::AID-SIM28>3.0.CO;2-P. ПМИД 10070677.
Оуэн AB (декабрь 2009 г.). «Возвращение к метаанализу Карла Пирсона» (PDF) . Анналы статистики . 37 (6Б): 3867–2892. arXiv : 0911.3531 . дои : 10.1214/09-AOS697. S2CID 7632667. Архивировано из оригинала (PDF) 26 июля 2011 года.
Слау, Тара; Тайсон, Скотт А. (2022). «Внешняя валидность и метаанализ». Американский журнал политической науки . doi:10.1111/ajps.12742. ISSN 0092-5853.
Томпсон С.Г., Покок С.Дж. (ноябрь 1991 г.). «Можно ли доверять метаанализу?» (PDF) . Ланцет . 338 (8775): 1127–1130. дои : 10.1016/0140-6736(91)91975-Z. PMID 1682553. S2CID 29743240. Архивировано из оригинала (PDF) 22 ноября 2011 года . Проверено 17 июня 2011 г.. Исследуются две противоположные точки зрения: предоставляет ли метаанализ «объективные, количественные методы объединения данных из отдельных, но похожих исследований» или просто «статистические приемы, которые делают неоправданные предположения при создании чрезмерно упрощенных обобщений из комплекса разрозненных исследований»?
О'Рурк К. (2007). «Просто история объединения информации: исследование и синтез того, что возможно является общим в клинических наблюдениях или исследованиях с помощью вероятности» (PDF) . Оксфорд: Оксфордский университет, факультет статистики. Архивировано из оригинала (PDF) 2 ноября 2011 года.Содержит технический справочный материал и подробную информацию о статье «Исторический взгляд на метаанализ», цитируемой в ссылках.