stringtranslate.com

Метод Фишера

Согласно методу Фишера, два небольших значения p P 1 и P 2 объединяются, чтобы сформировать меньшее значение p . Самая темная граница определяет область, где значение p метаанализа ниже 0,05. Например, если оба значения p составляют около 0,10 или одно около 0,04, а другое около 0,25, значение p метаанализа составит около 0,05.

В статистике метод Фишера [ 1] [ 2], также известный как комбинированный вероятностный тест Фишера , представляет собой метод слияния данных или « метаанализа » (анализа анализов). Он был разработан и назван в честь Рональда Фишера . В своей базовой форме он используется для объединения результатов нескольких тестов на независимость, основанных на одной и той же общей гипотезе ( H 0 ).

Применение к независимой тестовой статистике

Метод Фишера объединяет вероятности экстремальных значений из каждого теста, обычно известные как « p -значения », в одну статистику теста ( X 2 ) с использованием формулы

где p i — это p -значение для i-го теста гипотезы. Когда p -значения имеют тенденцию быть малыми, тестовая статистика X 2 будет большой, что говорит о том, что нулевые гипотезы не верны для каждого теста.

Когда все нулевые гипотезы верны, а p i (или соответствующие им тестовые статистики) независимы, X 2 имеет распределение хи-квадрат с 2 k степенями свободы , где k — число объединяемых тестов . Этот факт можно использовать для определения p -значения для X 2 .

Распределение X 2 является распределением хи-квадрат по следующей причине: при нулевой гипотезе для теста i p -значение p i следует равномерному распределению на интервале [0,1]. Отрицательный логарифм равномерно распределенного значения следует экспоненциальному распределению . Масштабирование значения, которое следует экспоненциальному распределению , с коэффициентом два дает величину, которая следует распределению хи-квадрат с двумя степенями свободы. Наконец, сумма k независимых значений хи-квадрат, каждое с двумя степенями свободы, следует распределению хи-квадрат с 2 k степенями свободы.

Ограничения предположения о независимости

Зависимость между статистическими тестами обычно [ неопределенная ] положительная, что означает, что p -значение X 2 слишком мало (антиконсервативно), если зависимость не принимается во внимание. Таким образом, если метод Фишера для независимых тестов применяется в зависимой обстановке, а p -значение недостаточно мало, чтобы отвергнуть нулевую гипотезу, то этот вывод будет по-прежнему иметь место, даже если зависимость не учитывается должным образом. Однако, если положительная зависимость не учитывается, а p -значение метаанализа оказывается малым, доказательства против нулевой гипотезы, как правило, завышены. Средний уровень ложных открытий , , сниженный для k независимых или положительно коррелированных тестов, может быть достаточным для контроля альфа для полезного сравнения с чрезмерно малым p -значением из  X 2 Фишера .

Расширение зависимой тестовой статистики

В случаях, когда тесты не являются независимыми, нулевое распределение X 2 более сложное. Распространенная стратегия заключается в аппроксимации нулевого распределения с помощью масштабированной случайной величины χ 2 -распределения . Различные подходы могут использоваться в зависимости от того , известна ли ковариация между различными p -значениями.

Метод Брауна [3] может быть использован для объединения зависимых p -значений, чьи базовые тестовые статистики имеют многомерное нормальное распределение с известной ковариационной матрицей. Метод Коста [4] расширяет метод Брауна, позволяя объединять p -значения, когда ковариационная матрица известна только с точностью до скалярного мультипликативного множителя.

Гармоническое среднее p -значение предлагает альтернативу методу Фишера для объединения p -значений, когда структура зависимости неизвестна, но тесты нельзя считать независимыми. [5] [6]

Интерпретация

Метод Фишера обычно применяется к набору независимых тестовых статистик, обычно из отдельных исследований, имеющих одну и ту же нулевую гипотезу. Нулевая гипотеза метаанализа заключается в том, что все отдельные нулевые гипотезы верны. Альтернативная гипотеза метаанализа заключается в том, что по крайней мере одна из отдельных альтернативных гипотез верна.

В некоторых ситуациях имеет смысл рассмотреть возможность «гетерогенности», когда нулевая гипотеза выполняется в некоторых исследованиях, но не выполняется в других, или когда различные альтернативные гипотезы могут выполняться в разных исследованиях. Распространенной причиной последней формы гетерогенности является то, что размеры эффекта могут различаться в разных популяциях. Например, рассмотрим набор медицинских исследований, изучающих риск диеты с высоким содержанием глюкозы для развития диабета II типа . Из-за генетических или экологических факторов истинный риск, связанный с данным уровнем потребления глюкозы, может быть выше в некоторых популяциях людей, чем в других.

В других условиях альтернативная гипотеза либо универсально ложна, либо универсально истинна — нет возможности, чтобы она была верна в одних условиях, но не в других. Например, рассмотрим несколько экспериментов, разработанных для проверки конкретного физического закона. Любые расхождения между результатами отдельных исследований или экспериментов должны быть вызваны случайностью, возможно, обусловленной различиями в мощности .

В случае метаанализа с использованием двусторонних тестов можно отвергнуть нулевую гипотезу метаанализа, даже если отдельные исследования показывают сильные эффекты в разных направлениях. В этом случае мы отвергаем гипотезу о том, что нулевая гипотеза верна в каждом исследовании, но это не означает, что существует единая альтернативная гипотеза, которая справедлива для всех исследований. Таким образом, двусторонний метаанализ особенно чувствителен к неоднородности в альтернативных гипотезах. Односторонний метаанализ может обнаружить неоднородность в величинах эффекта, но фокусируется на одном, заранее заданном направлении эффекта.

Связь с методом Z-оценки Стоуффера

Связь между методом Фишера и методом Стоуффера можно понять из связи между z и −log( p )

Близкий подход к методу Фишера — это Z Стоуффера, основанный на Z-оценках, а не на p -значениях, что позволяет включать веса исследования. Он назван в честь социолога Сэмюэля А. Стоуффера . [7] Если мы положим Z i   =   Φ  − 1 (1− p i ), где Φ — стандартная нормальная кумулятивная функция распределения , то

является Z-оценкой для общего метаанализа. Эта Z-оценка подходит для односторонних правосторонних p -значений; незначительные изменения могут быть сделаны, если анализируются двусторонние или левосторонние p -значения. В частности, если анализируются двусторонние p -значения, используется двустороннее p -значение ( p i /2) или 1- p i , если используются левосторонние p -значения. [8] [ ненадежный источник? ]

Поскольку метод Фишера основан на среднем значении −log( p i ), а метод Z-счета основан на среднем значении Z i , связь между этими двумя подходами следует из связи между z и −log( p ) = −log(1− Φ ( z )). Для нормального распределения эти два значения не являются идеально линейно связанными, но они следуют высоколинейной зависимости в диапазоне наиболее часто наблюдаемых значений Z, от 1 до 5. В результате мощность метода Z-счета почти идентична мощности метода Фишера.

Одним из преимуществ подхода Z-оценки является простота введения весов. [9] [10] Если i Z-оценка взвешена по w i , то Z-оценка метаанализа равна

которое следует стандартному нормальному распределению при нулевой гипотезе. Хотя взвешенные версии статистики Фишера могут быть получены, нулевое распределение становится взвешенной суммой независимых статистик хи-квадрат, с которой менее удобно работать.

Ссылки

  1. ^ Фишер, РА (1925). Статистические методы для научных работников . Оливер и Бойд (Эдинбург). ISBN 0-05-002170-2.
  2. ^ Фишер, РА; Фишер, Р. А. (1948). «Вопросы и ответы № 14». Американский статистик . 2 (5): 30–31. doi :10.2307/2681650. JSTOR  2681650.
  3. ^ Браун, М. (1975). «Метод объединения не независимых односторонних тестов значимости». Биометрия . 31 (4): 987–992. doi :10.2307/2529826. JSTOR  2529826.
  4. ^ Кост, Дж.; Макдермотт, М. (2002). «Объединение зависимых P -значений». Statistics & Probability Letters . 60 (2): 183–190. doi :10.1016/S0167-7152(02)00310-3.
  5. ^ Good, IJ (1958). «Тесты значимости параллельно и последовательно». Журнал Американской статистической ассоциации . 53 (284): 799–813. doi :10.1080/01621459.1958.10501480. JSTOR  2281953.
  6. ^ Уилсон, DJ (2019). «Гармоническое среднее значение p для объединения зависимых тестов». Труды Национальной академии наук США . 116 (4): 1195–1200. Bibcode : 2019PNAS..116.1195W. doi : 10.1073/pnas.1814092116 . PMC 6347718. PMID  30610179 . 
  7. ^ Стоуффер, SA; Сачман, EA; ДеВинни, LC; Стар, SA; Уильямс, RM младший (1949). Американский солдат, т. 1: Корректировка во время армейской жизни . Princeton University Press, Принстон.
  8. ^ "Тестирование двухсторонних p-значений с использованием подхода Стоуффера". stats.stackexchange.com . Получено 14.09.2015 .
  9. ^ Мостеллер, Ф.; Буш, Р. Р. (1954). «Избранные количественные методы». В Линдзи, Г. (ред.). Справочник по социальной психологии, т. 1. Эддисон_Уэсли, Кембридж, Массачусетс. стр. 289–334.
  10. ^ Липтак, Т. (1958). «О комплексе независимых испытаний» (PDF) . Мадьяр Туд. Акад. Мат. Кутато Международный. Козл . 3 : 171–197.

Смотрите также