Метаанализ — это статистическое объединение результатов нескольких исследований, посвященных схожему исследовательскому вопросу. Важная часть этого метода включает вычисление объединенного размера эффекта по всем исследованиям. Таким образом, этот статистический подход включает извлечение размеров эффекта и мер дисперсии из различных исследований. [1] Метаанализы играют важную роль в поддержке заявок на исследовательские гранты, формировании руководств по лечению и влиянии на политику здравоохранения. Они также играют решающую роль в обобщении существующих исследований для руководства будущими исследованиями, тем самым закрепляя их роль в качестве фундаментальной методологии в метанауке .
Метаанализы часто, но не всегда, являются важными компонентами процедуры систематического обзора , см., например, PRISMA . [2] Метаанализ может проводиться в нескольких областях для оценки воздействия вмешательства, когда имеются множественные исследования, сообщающие данные, подходящие для измерения совокупного размера эффекта .
Термин «метаанализ» был придуман в 1976 году статистиком Джином Глассом , [3] [4], который заявил, что «метаанализ относится к анализу анализов» . [5] Работа Гласса была направлена на описание агрегированных мер взаимосвязей и эффектов. [6] Хотя Глассу приписывают авторство первого современного метаанализа, статья, опубликованная в 1904 году статистиком Карлом Пирсоном в British Medical Journal [7], сопоставила данные из нескольких исследований прививки от брюшного тифа и считается первым случаем использования метааналитического подхода для агрегирования результатов нескольких клинических исследований. [8] [9] Можно найти множество других примеров ранних метаанализов, включая тестирование профессиональной пригодности, [10] [11] и сельское хозяйство. [12]
Первая модель метаанализа была опубликована в 1978 году по эффективности результатов психотерапии Мэри Ли Смит и Джин Гласс . [4] [13] После публикации их статьи возникла критика полезности и обоснованности метаанализа как инструмента для синтеза доказательств. Первым примером этого был Хан Айзенк , который в статье 1978 года в ответ на работу, проделанную Мэри Ли Смит и Джин Гласс, назвал метаанализ «упражнением в мегаглупости». [14] [15] Позже Айзенк будет называть метаанализ «статистической алхимией». [16] Несмотря на эту критику, использование метаанализа только возросло с момента его современного введения. К 1991 году было опубликовано 334 метаанализа; [15] это число выросло до 9135 к 2014 году. [3] [17]
Область метаанализа значительно расширилась с 1970-х годов и затрагивает множество дисциплин, включая психологию, медицину и экологию. [3] Кроме того, недавнее создание сообществ по синтезу доказательств увеличило перекрестное опыление идей, методов и создание программных инструментов между дисциплинами. [18] [19] [20]
Метаанализу обычно предшествует систематический обзор, поскольку он позволяет идентифицировать и критически оценить все соответствующие доказательства (тем самым ограничивая риск предвзятости в сводных оценках). Общие шаги тогда следующие: [21]
Официальные рекомендации по проведению и представлению результатов метаанализа содержатся в Кокрейновском справочнике.
Инструкции по составлению отчетов см. в заявлении «Предпочтительные элементы отчетности для систематических обзоров и метаанализов (PRISMA)». [22]
Одним из важнейших этапов метаанализа является сбор данных. Для эффективного поиска в базе данных необходимо определить соответствующие ключевые слова и пределы поиска. [23] Использование булевых операторов и пределов поиска может помочь в поиске литературы. [24] [25] Доступно несколько баз данных (например, PubMed, Embase, PsychInfo), однако исследователь должен выбрать наиболее подходящие источники для своей области исследования. [26] Действительно, многие ученые используют дублирующиеся поисковые термины в двух или более базах данных, чтобы охватить несколько источников. Списки ссылок подходящих исследований также можно искать для подходящих исследований (т. е. снежный ком). Первоначальный поиск может вернуть большой объем исследований. Довольно часто аннотация или название рукописи показывают, что исследование не подходит для включения на основе заранее указанных критериев. Эти исследования можно отбросить. Однако, если окажется, что исследование может быть подходящим (или даже если есть некоторые сомнения), полную статью можно сохранить для более тщательного изучения. Списки ссылок подходящих статей также можно искать для любых соответствующих статей. Эти результаты поиска должны быть детализированы в диаграмме потока PRIMSA [27], которая детализирует поток информации на всех этапах обзора. Таким образом, важно отметить, сколько исследований было возвращено после использования указанных поисковых терминов и сколько из этих исследований было отклонено, и по какой причине. [26] Поисковые термины и стратегия должны быть достаточно конкретными, чтобы читатель мог воспроизвести поиск. Также следует указать диапазон дат исследований, а также дату (или период дат), когда был проведен поиск. [28]
Форма сбора данных предоставляет стандартизированные средства сбора данных из приемлемых исследований. Для метаанализа корреляционных данных информация о размере эффекта обычно собирается как статистика r Пирсона . Частичные корреляции часто сообщаются в исследованиях, однако они могут преувеличивать отношения по сравнению с корреляциями нулевого порядка. [29] Более того, частично исключенные переменные, вероятно, будут различаться от исследования к исследованию. Как следствие, многие метаанализы исключают частичные корреляции из своего анализа. [26] В качестве последнего средства можно использовать оцифровщики графиков для извлечения точек данных из диаграмм рассеяния (если они доступны) для расчета r Пирсона . [30] [31] Также следует собирать данные, сообщающие важные характеристики исследования, которые могут смягчать эффекты, такие как средний возраст участников. [32] В эти формы также можно включить меру качества исследования для оценки качества доказательств из каждого исследования. [33] Существует более 80 инструментов для оценки качества и риска смещения в наблюдательных исследованиях, отражающих разнообразие исследовательских подходов в разных областях. [33] [34] [35] Эти инструменты обычно включают оценку того, как измерялись зависимые переменные, соответствующий выбор участников и соответствующий контроль за сопутствующими факторами. Другие меры качества, которые могут быть более релевантными для корреляционных исследований, включают размер выборки, психометрические свойства и отчетность о методах. [26]
Последнее соображение заключается в том, следует ли включать исследования из серой литературы, которая определяется как исследование, которое не было официально опубликовано. [36] Этот тип литературы включает в себя тезисы конференций, [37] диссертации, [38] и препринты. [39] Хотя включение серой литературы снижает риск предвзятости публикации, методологическое качество работы часто (но не всегда) ниже, чем у официально опубликованной работы. [40] [41] Отчеты из трудов конференций, которые являются наиболее распространенным источником серой литературы, [42] плохо представлены [43], а данные в последующей публикации часто непоследовательны, при этом различия наблюдаются почти в 20% опубликованных исследований. [44]
В целом, при проведении метаанализа можно выделить два типа доказательств: данные индивидуальных участников (IPD) и совокупные данные (AD). Совокупные данные могут быть прямыми или косвенными.
AD более доступен (например, из литературы) и обычно представляет собой сводные оценки, такие как отношение шансов или относительные риски. Это может быть напрямую синтезировано в концептуально схожих исследованиях с использованием нескольких подходов (см. ниже). С другой стороны, косвенные совокупные данные измеряют эффект двух методов лечения, каждый из которых сравнивался с аналогичной контрольной группой в метаанализе. Например, если лечение A и лечение B напрямую сравнивались с плацебо в отдельных метаанализах, мы можем использовать эти два объединенных результата, чтобы получить оценку эффектов A против B в косвенном сравнении как эффект A против плацебо минус эффект B против плацебо.
Доказательства IPD представляют собой необработанные данные, собранные исследовательскими центрами. Это различие вызвало необходимость в различных методах метаанализа, когда требуется синтез доказательств, и привело к разработке одноэтапных и двухэтапных методов. [45] В одноэтапных методах IPD из всех исследований моделируется одновременно с учетом кластеризации участников в рамках исследований. Двухэтапные методы сначала вычисляют сводную статистику для AD из каждого исследования, а затем вычисляют общую статистику как средневзвешенное значение статистики исследования. Сводя IPD к AD, двухэтапные методы также могут применяться, когда доступен IPD; это делает их привлекательным выбором при выполнении метаанализа. Хотя традиционно считается, что одноэтапные и двухэтапные методы дают схожие результаты, недавние исследования показали, что иногда они могут приводить к разным выводам. [46] [47]
Модель с фиксированными эффектами обеспечивает средневзвешенное значение ряда оценок исследований. Обратное значение дисперсии оценок обычно используется в качестве веса исследования, так что более крупные исследования, как правило, вносят больший вклад, чем более мелкие исследования, в средневзвешенное значение. Следовательно, когда исследования в рамках метаанализа доминируют в очень крупном исследовании, результаты более мелких исследований практически игнорируются. [48] Самое главное, что модель с фиксированными эффектами предполагает, что все включенные исследования изучают одну и ту же популяцию, используют одни и те же определения переменных и результатов и т. д. Это предположение обычно нереалистично, поскольку исследования часто подвержены нескольким источникам гетерогенности . [ 49]
Распространенной моделью, используемой для синтеза гетерогенных исследований, является модель случайных эффектов метаанализа. Это просто взвешенное среднее значение размеров эффекта группы исследований. Вес, который применяется в этом процессе взвешенного усреднения с метаанализом случайных эффектов, достигается в два этапа: [50]
Это означает, что чем больше эта изменчивость в размерах эффектов (иначе называемая гетерогенностью ), тем больше невзвешивание, и это может достичь точки, когда результат метаанализа случайных эффектов становится просто невзвешенным средним размером эффекта по всем исследованиям. В другом крайнем случае, когда все размеры эффектов схожи (или изменчивость не превышает ошибку выборки), REVC не применяется, и метаанализ случайных эффектов по умолчанию становится просто метаанализом фиксированных эффектов (только обратное взвешивание дисперсии).
Степень этого изменения зависит исключительно от двух факторов: [51]
Поскольку ни один из этих факторов автоматически не указывает на ошибочное более крупное исследование или более надежные более мелкие исследования, перераспределение весов в рамках этой модели не будет иметь отношения к тому, что эти исследования на самом деле могут предложить. Действительно, было продемонстрировано, что перераспределение весов происходит просто в одном направлении от более крупных к более мелким исследованиям по мере увеличения неоднородности до тех пор, пока в конечном итоге все исследования не будут иметь равный вес, и дальнейшее перераспределение станет невозможным. [51] Другая проблема с моделью случайных эффектов заключается в том, что наиболее часто используемые доверительные интервалы, как правило, не сохраняют свою вероятность покрытия выше указанного номинального уровня и, таким образом, существенно занижают статистическую погрешность и потенциально излишне уверены в своих выводах. [52] [53] Было предложено несколько исправлений [54] [55], но дебаты продолжаются. [53] [56] Еще одна проблема заключается в том, что средний эффект лечения иногда может быть даже менее консервативным по сравнению с моделью фиксированного эффекта [57] и, следовательно, вводить в заблуждение на практике. Одно из предложенных интерпретационных исправлений заключается в создании интервала прогнозирования вокруг оценки случайных эффектов для отображения диапазона возможных эффектов на практике. [58] Однако предположение, лежащее в основе расчета такого интервала прогнозирования, заключается в том, что испытания считаются более или менее однородными образованиями, а включенные популяции пациентов и методы сравнительного лечения следует считать взаимозаменяемыми [59], а на практике это обычно недостижимо.
Существует много методов, используемых для оценки дисперсии между исследованиями, при этом оценка ограниченного максимального правдоподобия является наименее подверженной смещению и одной из наиболее часто используемых. [60] Существует несколько передовых итеративных методов для вычисления дисперсии между исследованиями, включая как методы максимального правдоподобия, так и методы ограниченного максимального правдоподобия, а модели случайных эффектов, использующие эти методы, можно запускать на нескольких программных платформах, включая Excel, [61] Stata, [62] SPSS, [63] и R. [64]
Большинство метаанализов включают от 2 до 4 исследований, и такая выборка чаще всего недостаточна для точной оценки гетерогенности . Таким образом, кажется, что в небольших метаанализах получается неверная нулевая оценка дисперсии между исследованиями, что приводит к ложному предположению об однородности. В целом, кажется, что гетерогенность постоянно недооценивается в метаанализах, и анализы чувствительности, в которых предполагаются высокие уровни гетерогенности, могут быть информативными. [65] Эти модели случайных эффектов и программные пакеты, упомянутые выше, относятся к метаанализам совокупности исследований, и исследователям, желающим провести метаанализ индивидуальных данных пациентов (IPD), необходимо учитывать подходы моделирования смешанных эффектов. [66] /
Doi & Barendregt, работающие в сотрудничестве с Khan, Thalib и Williams (из Университета Квинсленда, Университета Южного Квинсленда и Университета Кувейта), создали альтернативу на основе квазиправдоподобия (IVhet) с обратной дисперсией для модели случайных эффектов (RE), подробности которой доступны в Интернете. [61] Это было включено в MetaXL версии 2.0, [67] бесплатную надстройку Microsoft Excel для метаанализа, разработанную Epigear International Pty Ltd, и опубликованную 5 апреля 2014 года. Авторы заявляют, что явным преимуществом этой модели является то, что она решает две основные проблемы модели случайных эффектов. Первое преимущество модели IVhet заключается в том, что покрытие остается на номинальном уровне (обычно 95%) для доверительного интервала в отличие от модели случайных эффектов, покрытие которой падает с ростом гетерогенности. [52] [53] Второе преимущество заключается в том, что модель IVhet сохраняет обратные дисперсионные веса отдельных исследований, в отличие от модели RE, которая придает небольшим исследованиям больший вес (и, следовательно, более крупным исследованиям меньший) с ростом неоднородности. Когда неоднородность становится большой, индивидуальные веса исследований в модели RE становятся равными, и, таким образом, модель RE возвращает среднее арифметическое, а не средневзвешенное. Этот побочный эффект модели RE не возникает с моделью IVhet, которая, таким образом, отличается от оценки модели RE в двух аспектах: [61] Объединенные оценки будут благоприятствовать более крупным испытаниям (в отличие от штрафования более крупных испытаний в модели RE) и будут иметь доверительный интервал, который остается в пределах номинального покрытия в условиях неопределенности (неоднородности). Дои и Барендрегт предполагают, что, хотя модель RE предоставляет альтернативный метод объединения данных исследования, их результаты моделирования [68] демонстрируют, что использование более определенной вероятностной модели с несостоятельными предположениями, как в случае с моделью RE, не обязательно дает лучшие результаты. В последнем исследовании также сообщается, что модель IVhet решает проблемы, связанные с недооценкой статистической погрешности, плохим охватом доверительного интервала и увеличением MSE, наблюдаемыми в модели случайных эффектов, и авторы приходят к выводу, что исследователям следует впредь отказаться от использования модели случайных эффектов в метаанализе. Хотя их данные убедительны, последствия (с точки зрения величины ложноположительных результатов в базе данных Cochrane) огромны, и поэтому принятие этого вывода требует тщательного независимого подтверждения. Наличие бесплатного программного обеспечения (MetaXL) [67] , которое запускает модель IVhet (и все другие модели для сравнения), облегчает это для исследовательского сообщества.
Первоначально модель эффектов качества представили Дои и Талиб. [69] Они [70] представили новый подход к корректировке изменчивости между исследованиями, включив вклад дисперсии из-за соответствующего компонента (качества) в дополнение к вкладу дисперсии из-за случайной ошибки, который используется в любой модели метаанализа фиксированных эффектов для генерации весов для каждого исследования. Сила метаанализа эффектов качества заключается в том, что он позволяет использовать имеющиеся методологические доказательства вместо субъективных случайных эффектов и тем самым помогает закрыть разрушительный разрыв, который образовался между методологией и статистикой в клинических исследованиях. Для этого вычисляется синтетическая дисперсия смещения на основе информации о качестве для корректировки весов обратной дисперсии, и вводится скорректированный по качеству вес i- го исследования. [69] Затем эти скорректированные веса используются в метаанализе. Другими словами, если исследование i хорошего качества, а другие исследования плохого качества, часть их скорректированных по качеству весов математически перераспределяется в исследование i, придавая ему больший вес по отношению к общему размеру эффекта. По мере того, как исследования становятся все более схожими по качеству, перераспределение становится все меньше и прекращается, когда все исследования становятся одинакового качества (в случае одинакового качества модель эффектов качества по умолчанию соответствует модели IVhet – см. предыдущий раздел). Недавняя оценка модели эффектов качества (с некоторыми обновлениями) показывает, что, несмотря на субъективность оценки качества, производительность (MSE и истинная дисперсия при моделировании) превосходит ту, которая достигается с помощью модели случайных эффектов. [71] [72] Таким образом, эта модель заменяет несостоятельные интерпретации, которые изобилуют в литературе, и доступно программное обеспечение для дальнейшего изучения этого метода. [67]
Методы метаанализа косвенных сравнений (также называемые сетевыми метаанализами, в частности, когда одновременно оцениваются несколько видов лечения) обычно используют две основные методологии. Во-первых, это метод Бухера [73] , который представляет собой однократное или многократное сравнение замкнутого цикла из трех видов лечения, так что один из них является общим для двух исследований и образует узел, где цикл начинается и заканчивается. Поэтому для сравнения нескольких видов лечения необходимы множественные сравнения по два (циклы из трех видов лечения). Эта методология требует, чтобы испытания с более чем двумя группами имели только две выбранные группы, поскольку требуются независимые попарные сравнения. Альтернативная методология использует сложное статистическое моделирование для включения испытаний с несколькими группами и сравнений одновременно между всеми конкурирующими видами лечения. Они были выполнены с использованием байесовских методов, смешанных линейных моделей и подходов метарегрессии. [ необходима цитата ]
Определение модели метаанализа байесовской сети включает написание модели направленного ациклического графа (DAG) для программного обеспечения общего назначения Монте-Карло на основе цепей Маркова (MCMC), такого как WinBUGS. [74] Кроме того, для ряда параметров должны быть указаны априорные распределения, а данные должны быть предоставлены в определенном формате. [74] Вместе DAG, априорные распределения и данные образуют байесовскую иерархическую модель. Чтобы еще больше усложнить ситуацию, из-за природы оценки MCMC для ряда независимых цепей должны быть выбраны сверхдисперсные начальные значения, чтобы можно было оценить сходимость. [75] Недавно было разработано несколько пакетов программного обеспечения R для упрощения подгонки модели (например, metaBMA [76] и RoBMA [77] ) и даже реализовано в статистическом программном обеспечении с графическим пользовательским интерфейсом ( GUI ): JASP . Хотя сложность байесовского подхода ограничивает использование этой методологии, недавние учебные статьи пытаются повысить доступность методов. [78] [79] Была предложена методология автоматизации этого метода [74], но она требует, чтобы были доступны данные о результатах на уровне группы, а это обычно недоступно. Иногда делаются большие заявления о присущей байесовской структуре способности обрабатывать сетевой метаанализ и ее большей гибкости. Однако этот выбор реализации структуры для вывода, байесовский или частотный, может быть менее важным, чем другие выборы относительно моделирования эффектов [80] (см. обсуждение моделей выше).
С другой стороны, частотные многомерные методы включают приближения и предположения, которые не указаны явно или не проверены при применении методов (см. обсуждение моделей метаанализа выше). Например, пакет mvmeta для Stata позволяет проводить сетевой метаанализ в частотном фреймворке. [81] Однако, если в сети нет общего компаратора, то это должно быть обработано путем дополнения набора данных вымышленными плечами с высокой дисперсией, что не очень объективно и требует решения относительно того, что составляет достаточно высокую дисперсию. [74] Другая проблема заключается в использовании модели случайных эффектов как в этом частотном фреймворке, так и в байесовском фреймворке. Сенн советует аналитикам быть осторожными при интерпретации анализа «случайных эффектов», поскольку допускается только один случайный эффект, но можно предусмотреть много. [80] Сенн продолжает говорить, что довольно наивно, даже в случае, когда сравниваются только два метода лечения, предполагать, что анализ случайных эффектов учитывает всю неопределенность относительно того, как эффекты могут меняться от испытания к испытанию. Более новые модели метаанализа, такие как те, что обсуждались выше, безусловно, помогли бы облегчить эту ситуацию и были реализованы в следующей структуре.
Подход, который был опробован с конца 1990-х годов, представляет собой реализацию множественного трехкомпонентного анализа замкнутого цикла. Это не было популярным, поскольку процесс быстро становится подавляющим по мере увеличения сложности сети. Развитие в этой области затем было прекращено в пользу байесовского и многомерного частотного методов, которые появились в качестве альтернатив. Совсем недавно автоматизация трехкомпонентного метода замкнутого цикла была разработана для сложных сетей некоторыми исследователями [61] как способ сделать эту методологию доступной для основного исследовательского сообщества. Это предложение ограничивает каждое испытание двумя вмешательствами, но также вводит обходной путь для испытаний с несколькими группами: другой фиксированный контрольный узел может быть выбран в разных запусках. Он также использует надежные методы метаанализа, так что многие из проблем, выделенных выше, избегаются. Требуются дальнейшие исследования вокруг этой структуры, чтобы определить, действительно ли она превосходит байесовскую или многомерную частотную структуру. Исследователи, желающие попробовать это, имеют доступ к этой структуре через бесплатное программное обеспечение. [67]
Другая форма дополнительной информации исходит из предполагаемой настройки. Если целевая настройка для применения результатов метаанализа известна, то можно использовать данные из настройки для адаптации результатов, таким образом создавая «адаптированный метаанализ»., [82] [83] Это использовалось в метаанализах точности теста, где эмпирические знания о положительном показателе теста и распространенности использовались для получения области в пространстве рабочей характеристики приемника (ROC), известной как «применимая область». Затем исследования выбираются для целевой настройки на основе сравнения с этой областью и агрегируются для получения сводной оценки, которая адаптирована к целевой настройке.
Метаанализ также может применяться для объединения IPD и AD. Это удобно, когда исследователи, проводящие анализ, имеют собственные необработанные данные при сборе совокупных или сводных данных из литературы. Обобщенная интеграционная модель (GIM) [84] является обобщением метаанализа. Она позволяет, чтобы модель, подобранная на основе данных отдельных участников (IPD), отличалась от тех, которые использовались для вычисления совокупных данных (AD). GIM можно рассматривать как метод калибровки модели для интеграции информации с большей гибкостью.
Оценка метаанализа представляет собой средневзвешенное значение по всем исследованиям, и когда есть неоднородность , это может привести к тому, что сводная оценка не будет репрезентативной для отдельных исследований. Качественная оценка первичных исследований с использованием установленных инструментов может выявить потенциальные смещения, [85] [86], но не количественно определяет совокупное влияние этих смещений на сводную оценку. Хотя результат метаанализа можно сравнить с независимым перспективным первичным исследованием, такая внешняя проверка часто нецелесообразна. Это привело к разработке методов, которые используют форму перекрестной проверки с исключением одного , иногда называемую внутренней-внешней перекрестной проверкой (IOCV). [87] Здесь каждое из k включенных исследований по очереди опускается и сравнивается с суммарной оценкой, полученной путем агрегирования оставшихся k-1 исследований. Была разработана общая статистика проверки, Vn, основанная на IOCV, для измерения статистической достоверности результатов метаанализа. [88] Для точности теста и прогнозирования, особенно при наличии многомерных эффектов, были также предложены другие подходы, направленные на оценку ошибки прогнозирования. [89]
Метаанализ нескольких небольших исследований не всегда предсказывает результаты одного большого исследования. [90] Некоторые утверждают, что слабость метода заключается в том, что источники смещения не контролируются методом: хороший метаанализ не может исправить плохой дизайн или смещение в исходных исследованиях. [91] Это означало бы, что только методологически обоснованные исследования должны быть включены в метаанализ, практика, называемая «лучшим синтезом доказательств». [91] Другие метааналитики включали бы более слабые исследования и добавляли бы предикторную переменную на уровне исследования, которая отражает методологическое качество исследований, чтобы изучить влияние качества исследования на размер эффекта. [92] Однако другие утверждали, что лучший подход — сохранить информацию о дисперсии в выборке исследования, забрасывая как можно более широкую сеть, и что методологические критерии отбора вносят нежелательную субъективность, сводя на нет цель подхода. [93] Совсем недавно, под влиянием стремления к открытым практикам в науке, были разработаны инструменты для разработки «краудсорсинговых» живых метаанализов, которые обновляются сообществами ученых [94] [95] в надежде сделать все субъективные выборы более явными.
Еще одна потенциальная ловушка — опора на доступный корпус опубликованных исследований, что может привести к преувеличенным результатам из-за предвзятости публикации , поскольку исследования, которые показывают отрицательные или незначительные результаты, с меньшей вероятностью будут опубликованы. [96] Например, известно, что фармацевтические компании скрывают отрицательные исследования, а исследователи могли пропустить неопубликованные исследования, такие как диссертационные исследования или тезисы конференций, которые не были опубликованы. Это нелегко решить, поскольку невозможно узнать, сколько исследований остались незарегистрированными. [97]
Эта проблема ящика для файлов (характеризующаяся тем, что отрицательные или незначительные результаты спрятаны в шкафу) может привести к предвзятому распределению размеров эффекта, тем самым создавая серьезную ошибку базовой ставки , в которой значимость опубликованных исследований переоценивается, поскольку другие исследования либо не были представлены для публикации, либо были отклонены. Это следует серьезно учитывать при интерпретации результатов метаанализа. [97] [98]
Распределение размеров эффекта можно визуализировать с помощью воронкообразной диаграммы , которая (в наиболее распространенной версии) представляет собой диаграмму рассеяния стандартной ошибки в зависимости от размера эффекта. [99] Она использует тот факт, что меньшие исследования (следовательно, большие стандартные ошибки) имеют больший разброс величины эффекта (будучи менее точными), в то время как более крупные исследования имеют меньший разброс и образуют кончик воронки. Если многие отрицательные исследования не были опубликованы, оставшиеся положительные исследования приводят к воронкообразной диаграмме, в которой основание скошено в одну сторону (асимметрия воронкообразной диаграммы). Напротив, когда нет смещения публикации, эффект меньших исследований не имеет причин быть скошенным в одну сторону, и поэтому получается симметричная воронкообразная диаграмма. Это также означает, что если нет смещения публикации, не будет никакой связи между стандартной ошибкой и размером эффекта. [100] Отрицательная или положительная связь между стандартной ошибкой и размером эффекта будет означать, что меньшие исследования, которые обнаружили эффекты только в одном направлении, с большей вероятностью будут опубликованы и/или представлены для публикации.
Помимо визуальной воронкообразной диаграммы, также были предложены статистические методы обнаружения публикационной предвзятости. [101] Они являются спорными, поскольку обычно имеют низкую мощность для обнаружения предвзятости, но также могут давать ложноположительные результаты при некоторых обстоятельствах. [102] Например, небольшие эффекты исследования (предвзятые меньшие исследования), в которых существуют методологические различия между меньшими и большими исследованиями, могут вызывать асимметрию в размерах эффекта, которая напоминает публикационную предвзятость. Однако небольшие эффекты исследования могут быть столь же проблематичны для интерпретации метаанализов, и авторам метаанализа необходимо исследовать потенциальные источники предвзятости. [103]
Проблема предвзятости публикации не является тривиальной, поскольку предполагается, что 25% метаанализов в психологических науках могли страдать от предвзятости публикации. [104] Однако низкая мощность существующих тестов и проблемы с визуальным представлением воронкообразного графика остаются проблемой, и оценки предвзятости публикации могут оставаться ниже, чем есть на самом деле.
Большинство обсуждений предвзятости публикации сосредоточены на журнальных практиках, благоприятствующих публикации статистически значимых результатов. Однако сомнительные исследовательские практики, такие как переработка статистических моделей до тех пор, пока не будет достигнута значимость, также могут благоприятствовать статистически значимым результатам в поддержку гипотез исследователей. [105] [106]
Исследования часто не сообщают об эффектах, когда они не достигают статистической значимости. [107] Например, они могут просто сказать, что группы не показали статистически значимых различий, не сообщая никакой другой информации (например, статистику или p-значение). [108] Исключение этих исследований привело бы к ситуации, аналогичной публикационной ошибке, но их включение (предполагая нулевые эффекты) также привело бы к смещению метаанализа.
Другие недостатки заключаются в том, что не было определено, является ли наиболее статистически точным методом объединения результатов фиксированная, IVhet, случайная или модель с эффектом качества, хотя критика в адрес модели случайных эффектов усиливается из-за восприятия того, что новые случайные эффекты (используемые в метаанализе) по сути являются формальными устройствами для облегчения сглаживания или сжатия, а прогнозирование может быть невозможным или нецелесообразным. [ 109] Основная проблема подхода случайных эффектов заключается в том, что он использует классическую статистическую идею создания «компромиссной оценки», которая делает веса близкими к естественно взвешенной оценке, если неоднородность между исследованиями велика, но близкими к обратной взвешенной оценке дисперсии, если неоднородность между исследованиями мала. Однако то, что было проигнорировано, — это различие между моделью, которую мы выбираем для анализа данного набора данных, и механизмом, с помощью которого данные появились . [110] Случайный эффект может присутствовать в любой из этих ролей, но эти две роли совершенно различны. Нет никаких оснований полагать, что модель анализа и механизм генерации данных (модель) похожи по форме, но многие подобласти статистики выработали привычку предполагать, для теории и моделирования, что механизм генерации данных (модель) идентичен модели анализа, которую мы выбираем (или хотели бы, чтобы выбрали другие). Как предполагаемый механизм для получения данных, модель случайного эффекта для метаанализа глупа, и более уместно думать об этой модели как о поверхностном описании и чем-то, что мы выбираем в качестве аналитического инструмента – но этот выбор для метаанализа может не сработать, потому что эффекты исследования являются фиксированной характеристикой соответствующего метаанализа, а распределение вероятностей является только описательным инструментом. [110]
Наиболее серьезная ошибка в метаанализе часто возникает, когда человек или люди, проводящие метаанализ, имеют экономические , социальные или политические цели, такие как принятие или отклонение законодательства . Люди с такими целями могут быть более склонны злоупотреблять метаанализом из-за личной предвзятости . Например, исследователи, благоприятствующие целям автора, скорее всего, будут выбирать свои исследования , в то время как те, кто не благоприятствует, будут игнорироваться или помечаться как «не заслуживающие доверия». Кроме того, сами благоприятствующие авторы могут быть предвзятыми или получать плату за получение результатов, которые поддерживают их общие политические, социальные или экономические цели, такими способами, как выбор небольших благоприятных наборов данных и не включение более крупных неблагоприятных наборов данных. Влияние таких предубеждений на результаты метаанализа возможно, поскольку методология метаанализа весьма гибка. [111]
Исследование 2011 года, проведенное с целью раскрытия возможных конфликтов интересов в базовых исследовательских исследованиях, используемых для медицинских метаанализов, рассмотрело 29 метаанализов и обнаружило, что конфликты интересов в исследованиях, лежащих в основе метаанализов, редко раскрывались. 29 метаанализов включали 11 из журналов общей медицины, 15 из журналов специализированной медицины и три из базы данных систематических обзоров Кокрейна . 29 метаанализов рассмотрели в общей сложности 509 рандомизированных контролируемых испытаний (РКИ). Из них 318 РКИ сообщили об источниках финансирования, причем 219 (69%) получали финансирование от промышленности (т. е. один или несколько авторов имели финансовые связи с фармацевтической промышленностью). Из 509 РКИ 132 сообщили о раскрытии конфликта интересов авторов, причем 91 исследование (69%) раскрыло, что один или несколько авторов имели финансовые связи с промышленностью. Однако эта информация редко отражалась в метаанализах. Только два (7%) сообщили об источниках финансирования РКИ, и ни один не сообщил о связях автора РКИ с промышленностью. Авторы пришли к выводу, что «без признания COI из-за финансирования промышленностью или финансовых связей автора с промышленностью из РКИ, включенных в метаанализы, понимание и оценка читателями доказательств из метаанализа могут быть скомпрометированы». [112]
Например, в 1998 году федеральный судья США установил, что Агентство по охране окружающей среды США злоупотребило процессом метаанализа, чтобы провести исследование, утверждающее о рисках рака для некурящих из-за окружающего табачного дыма (ETS) с намерением повлиять на политиков, чтобы они приняли законы о запрете курения на рабочих местах. Судья установил, что:
Выбор исследований EPA вызывает беспокойство. Во-первых, в протоколе есть доказательства, подтверждающие обвинение в том, что EPA «выбирало» свои данные. Без критериев объединения исследований в метаанализ суд не может определить, было ли исключение исследований, которые могли бы опровергнуть априорную гипотезу EPA, совпадением или преднамеренным. Во-вторых, исключение EPA почти половины доступных исследований напрямую противоречит заявленной цели EPA по анализу эпидемиологических исследований и противоречит Руководству EPA по оценке риска. См. ETS Risk Assessment на стр. 4-29 («Эти данные также следует изучить в интересах взвешивания всех имеющихся доказательств , как рекомендовано в руководящих принципах оценки канцерогенного риска Агентства по охране окружающей среды (US EPA, 1986a) (выделено мной)). В-третьих, избирательное использование данных Агентством по охране окружающей среды противоречит Закону об исследованиях радона. В Законе говорится, что программа Агентства по охране окружающей среды должна «собирать данные и информацию по всем аспектам качества воздуха в помещениях» (Закон об исследованиях радона § 403(a)(1)) (выделено мной). [113]
В результате злоупотреблений суд отменил Главы 1–6 и Приложения к документу Агентства по охране окружающей среды «Влияние пассивного курения на здоровье органов дыхания: рак легких и другие заболевания». [113]
Метаанализ часто не может заменить адекватно проведенное первичное исследование. [114]
Неоднородность используемых методов может привести к ошибочным выводам. [115] Например, различия в формах вмешательства или когортах, которые считаются незначительными или неизвестными ученым, могут привести к существенно отличающимся результатам, включая результаты, которые искажают результаты метаанализа или не учитываются должным образом в его данных. И наоборот, результаты метаанализа могут также сделать определенные гипотезы или вмешательства нежизнеспособными и предвосхитить дальнейшие исследования или одобрения, несмотря на определенные изменения, такие как прерывистое введение, персонализированные критерии и комбинированные меры , что приводит к существенно отличающимся результатам, в том числе в случаях, когда они были успешно идентифицированы и применены в мелкомасштабных исследованиях, которые рассматривались в метаанализе. [ необходима цитата ] Стандартизация , воспроизведение экспериментов , открытые данные и открытые протоколы часто не могут смягчить такие проблемы, например, поскольку соответствующие факторы и критерии могут быть неизвестны или не быть зарегистрированы. [ необходима цитата ]
Ведутся дебаты о надлежащем балансе между тестированием с как можно меньшим количеством животных или людей и необходимостью получения надежных, достоверных результатов. Утверждается, что ненадежные исследования неэффективны и расточительны, и что исследования расточительны не только тогда, когда они останавливаются слишком поздно, но и когда они останавливаются слишком рано. В крупных клинических испытаниях иногда используются запланированные последовательные анализы, если есть значительные расходы или потенциальный вред, связанный с участниками тестирования. [116] В прикладной поведенческой науке были предложены «мегаисследования» для изучения эффективности многих различных вмешательств, разработанных в междисциплинарной манере отдельными командами. [117] В одном из таких исследований использовалась фитнес-цепочка для набора большого числа участников. Было высказано предположение, что поведенческие вмешательства часто трудно сравнивать [в метаанализах и обзорах], поскольку «разные ученые тестируют разные идеи вмешательств на разных выборках, используя разные результаты в разные временные интервалы», что приводит к отсутствию сопоставимости таких индивидуальных исследований, что ограничивает «их потенциал для информирования политики ». [117]
Метаанализы в образовании часто недостаточно ограничительны в отношении методологического качества исследований, которые они включают. Например, исследования, включающие небольшие выборки или сделанные исследователем измерения, приводят к завышенным оценкам размера эффекта. [118] Однако эта проблема также беспокоит метаанализ клинических испытаний. Использование различных инструментов оценки качества (QAT) приводит к включению различных исследований и получению противоречивых оценок средних эффектов лечения. [119] [120]
Современный статистический метаанализ делает больше, чем просто объединяет размеры эффекта набора исследований с использованием взвешенного среднего. Он может проверить, показывают ли результаты исследований больше вариации, чем вариация, которая ожидается из-за выборки разного количества участников исследования. Кроме того, характеристики исследования, такие как используемый инструмент измерения, выборка популяции или аспекты дизайна исследования, могут быть закодированы и использованы для уменьшения дисперсии оценщика (см. статистические модели выше). Таким образом, некоторые методологические недостатки в исследованиях могут быть исправлены статистически. Другие применения метааналитических методов включают разработку и проверку клинических моделей прогнозирования, где метаанализ может использоваться для объединения данных отдельных участников из разных исследовательских центров и для оценки обобщаемости модели, [121] [122] или даже для агрегации существующих моделей прогнозирования. [123]
Метаанализ может быть выполнен как с использованием односубъектного, так и группового дизайна исследования. [124] Это важно, поскольку многие исследования были выполнены с использованием односубъектного дизайна исследования. [125] Существуют значительные споры о наиболее подходящей метааналитической технике для односубъектного исследования. [126]
Метаанализ приводит к смещению акцента с отдельных исследований на множественные исследования. Он подчеркивает практическую важность размера эффекта вместо статистической значимости отдельных исследований. Этот сдвиг в мышлении получил название «метааналитическое мышление». Результаты метаанализа часто показываются на графике леса .
Результаты исследований объединяются с использованием различных подходов. Один подход, часто используемый в метаанализе в исследованиях здравоохранения, называется « метод обратной дисперсии ». Средний размер эффекта во всех исследованиях вычисляется как взвешенное среднее , при этом веса равны обратной дисперсии оценки эффекта каждого исследования. Более крупным исследованиям и исследованиям с меньшими случайными вариациями придается больший вес, чем более мелким исследованиям. Другие распространенные подходы включают метод Мантеля–Хензеля [127] и метод Пето . [128]
Картирование на основе семян (ранее знаковое дифференциальное картирование, SDM) — это статистический метод для метаанализа исследований различий в активности или структуре мозга, в которых используются методы нейровизуализации, такие как фМРТ, ВБМ или ПЭТ.
Различные высокопроизводительные методы, такие как микрочипы, использовались для понимания экспрессии генов . Профили экспрессии микроРНК использовались для идентификации дифференциально экспрессируемых микроРНК в определенном типе клеток или тканей или болезненных состояниях или для проверки эффекта лечения. Метаанализ таких профилей экспрессии был проведен для получения новых выводов и подтверждения известных результатов. [129]
Метаанализ исследований по секвенированию всего генома представляет собой привлекательное решение проблемы сбора больших выборок для обнаружения редких вариантов, связанных со сложными фенотипами. Были разработаны некоторые методы, позволяющие проводить функционально обоснованный метаанализ ассоциаций редких вариантов в когортах масштаба биобанка, используя эффективные подходы для хранения сводной статистики. [130]
Охватывающие метаанализы также могут использоваться для оценки сети эффектов. Это позволяет исследователям изучать закономерности в более полной панораме более точно оцененных результатов и делать выводы, которые учитывают более широкий контекст (например, как отношения личности и интеллекта варьируются в зависимости от семейства черт). [131]
В данной статье использован текст Дэниела С. Кинтаны, доступный по лицензии CC BY 4.0.
{{cite web}}
: Отсутствует или пусто |url=
( помощь )