В статистике метод Фишера [ 1] [ 2], также известный как комбинированный вероятностный тест Фишера , представляет собой метод слияния данных или « метаанализа » (анализа анализов). Он был разработан и назван в честь Рональда Фишера . В своей базовой форме он используется для объединения результатов нескольких тестов на независимость, основанных на одной и той же общей гипотезе ( H 0 ).
Метод Фишера объединяет вероятности экстремальных значений из каждого теста, обычно известные как « p -значения », в одну статистику теста ( X 2 ) с использованием формулы
где p i — это p -значение для i-го теста гипотезы. Когда p -значения имеют тенденцию быть малыми, тестовая статистика X 2 будет большой, что говорит о том, что нулевые гипотезы не верны для каждого теста.
Когда все нулевые гипотезы верны, а p i (или соответствующие им тестовые статистики) независимы, X 2 имеет распределение хи-квадрат с 2 k степенями свободы , где k — число объединяемых тестов . Этот факт можно использовать для определения p -значения для X 2 .
Распределение X 2 является распределением хи-квадрат по следующей причине: при нулевой гипотезе для теста i p -значение p i следует равномерному распределению на интервале [0,1]. Отрицательный логарифм равномерно распределенного значения следует экспоненциальному распределению . Масштабирование значения, которое следует экспоненциальному распределению , с коэффициентом два дает величину, которая следует распределению хи-квадрат с двумя степенями свободы. Наконец, сумма k независимых значений хи-квадрат, каждое с двумя степенями свободы, следует распределению хи-квадрат с 2 k степенями свободы.
Зависимость между статистическими тестами обычно [ неопределенная ] положительная, что означает, что p -значение X 2 слишком мало (антиконсервативно), если зависимость не принимается во внимание. Таким образом, если метод Фишера для независимых тестов применяется в зависимой обстановке, а p -значение недостаточно мало, чтобы отвергнуть нулевую гипотезу, то этот вывод будет по-прежнему иметь место, даже если зависимость не учитывается должным образом. Однако, если положительная зависимость не учитывается, а p -значение метаанализа оказывается малым, доказательства против нулевой гипотезы, как правило, завышены. Средний уровень ложных открытий , , сниженный для k независимых или положительно коррелированных тестов, может быть достаточным для контроля альфа для полезного сравнения с чрезмерно малым p -значением из X 2 Фишера .
В случаях, когда тесты не являются независимыми, нулевое распределение X 2 более сложное. Распространенная стратегия заключается в аппроксимации нулевого распределения с помощью масштабированной случайной величины χ 2 -распределения . Различные подходы могут использоваться в зависимости от того , известна ли ковариация между различными p -значениями.
Метод Брауна [3] может быть использован для объединения зависимых p -значений, чьи базовые тестовые статистики имеют многомерное нормальное распределение с известной ковариационной матрицей. Метод Коста [4] расширяет метод Брауна, позволяя объединять p -значения, когда ковариационная матрица известна только с точностью до скалярного мультипликативного множителя.
Гармоническое среднее p -значение предлагает альтернативу методу Фишера для объединения p -значений, когда структура зависимости неизвестна, но тесты нельзя считать независимыми. [5] [6]
Метод Фишера обычно применяется к набору независимых тестовых статистик, обычно из отдельных исследований, имеющих одну и ту же нулевую гипотезу. Нулевая гипотеза метаанализа заключается в том, что все отдельные нулевые гипотезы верны. Альтернативная гипотеза метаанализа заключается в том, что по крайней мере одна из отдельных альтернативных гипотез верна.
В некоторых ситуациях имеет смысл рассмотреть возможность «гетерогенности», когда нулевая гипотеза выполняется в некоторых исследованиях, но не выполняется в других, или когда различные альтернативные гипотезы могут выполняться в разных исследованиях. Распространенной причиной последней формы гетерогенности является то, что размеры эффекта могут различаться в разных популяциях. Например, рассмотрим набор медицинских исследований, изучающих риск диеты с высоким содержанием глюкозы для развития диабета II типа . Из-за генетических или экологических факторов истинный риск, связанный с данным уровнем потребления глюкозы, может быть выше в некоторых популяциях людей, чем в других.
В других условиях альтернативная гипотеза либо универсально ложна, либо универсально истинна — нет возможности, чтобы она была верна в одних условиях, но не в других. Например, рассмотрим несколько экспериментов, разработанных для проверки конкретного физического закона. Любые расхождения между результатами отдельных исследований или экспериментов должны быть вызваны случайностью, возможно, обусловленной различиями в мощности .
В случае метаанализа с использованием двусторонних тестов можно отвергнуть нулевую гипотезу метаанализа, даже если отдельные исследования показывают сильные эффекты в разных направлениях. В этом случае мы отвергаем гипотезу о том, что нулевая гипотеза верна в каждом исследовании, но это не означает, что существует единая альтернативная гипотеза, которая справедлива для всех исследований. Таким образом, двусторонний метаанализ особенно чувствителен к неоднородности в альтернативных гипотезах. Односторонний метаанализ может обнаружить неоднородность в величинах эффекта, но фокусируется на одном, заранее заданном направлении эффекта.
Близкий подход к методу Фишера — это Z Стоуффера, основанный на Z-оценках, а не на p -значениях, что позволяет включать веса исследования. Он назван в честь социолога Сэмюэля А. Стоуффера . [7] Если мы положим Z i = Φ − 1 (1− p i ), где Φ — стандартная нормальная кумулятивная функция распределения , то
является Z-оценкой для общего метаанализа. Эта Z-оценка подходит для односторонних правосторонних p -значений; незначительные изменения могут быть сделаны, если анализируются двусторонние или левосторонние p -значения. В частности, если анализируются двусторонние p -значения, используется двустороннее p -значение ( p i /2) или 1- p i , если используются левосторонние p -значения. [8] [ ненадежный источник? ]
Поскольку метод Фишера основан на среднем значении −log( p i ), а метод Z-счета основан на среднем значении Z i , связь между этими двумя подходами следует из связи между z и −log( p ) = −log(1− Φ ( z )). Для нормального распределения эти два значения не являются идеально линейно связанными, но они следуют высоколинейной зависимости в диапазоне наиболее часто наблюдаемых значений Z, от 1 до 5. В результате мощность метода Z-счета почти идентична мощности метода Фишера.
Одним из преимуществ подхода Z-оценки является простота введения весов. [9] [10] Если i -я Z-оценка взвешена по w i , то Z-оценка метаанализа равна
которое следует стандартному нормальному распределению при нулевой гипотезе. Хотя взвешенные версии статистики Фишера могут быть получены, нулевое распределение становится взвешенной суммой независимых статистик хи-квадрат, с которой менее удобно работать.