Статистический метод обработки множественных сравнений
В статистике частота ложных открытий ( FDR ) — это метод концептуализации частоты ошибок типа I при проверке нулевых гипотез при проведении множественных сравнений . Процедуры контроля FDR предназначены для контроля FDR, который представляет собой ожидаемую долю «открытий» (отклоненных нулевых гипотез ), которые являются ложными (неправильных отклонений нулевой гипотезы). [1] Эквивалентно, FDR — это ожидаемое отношение числа ложных положительных классификаций (ложных открытий) к общему числу положительных классификаций (отклонений нулевой гипотезы). Общее число отклонений нулевой гипотезы включает как число ложных положительных результатов (FP), так и число истинно положительных результатов (TP). Проще говоря, FDR = FP / (FP + TP). Процедуры контроля FDR обеспечивают менее строгий контроль ошибок типа I по сравнению с процедурами контроля частоты ошибок по семейству (FWER) (такими как поправка Бонферрони ), которые контролируют вероятность по крайней мере одной ошибки типа I. Таким образом, процедуры контроля FDR имеют большую мощность за счет увеличения числа ошибок типа I. [2]
История
Технологические мотивы
Современное широкое использование FDR, как полагают, возникло из-за и было мотивировано развитием технологий, которые позволили собирать и анализировать большое количество различных переменных у нескольких людей (например, уровень экспрессии каждого из 10 000 различных генов у 100 разных людей). [3] К концу 1980-х и 1990-х годов развитие «высокопроизводительных» наук, таких как геномика , позволило быстро собирать данные. Это, в сочетании с ростом вычислительной мощности, сделало возможным бесперебойное выполнение очень большого количества статистических тестов на заданном наборе данных. Технология микрочипов была прототипическим примером, поскольку она позволяла одновременно тестировать тысячи генов на предмет дифференциальной экспрессии между двумя биологическими состояниями. [4]
По мере того, как высокопроизводительные технологии стали обычным явлением, технологические и/или финансовые ограничения заставили исследователей собирать наборы данных с относительно небольшими размерами выборки (например, несколько человек, проходящих тестирование) и большим количеством измеряемых переменных на выборку (например, тысячи уровней экспрессии генов). В этих наборах данных слишком мало измеряемых переменных показали статистическую значимость после классической коррекции для множественных тестов со стандартными процедурами множественного сравнения . Это создало необходимость во многих научных сообществах отказаться от FWER и нескорректированной проверки множественных гипотез в пользу других способов выделения и ранжирования в публикациях тех переменных, которые показывают выраженные эффекты для отдельных лиц или методов лечения, которые в противном случае были бы отклонены как незначительные после стандартной коррекции для множественных тестов. В ответ на это были предложены различные показатели ошибок — и стали широко использоваться в публикациях — которые менее консервативны, чем FWER, при обозначении потенциально заслуживающих внимания наблюдений. FDR полезен, когда исследователи ищут «открытия», которые дадут им последующую работу (например, обнаружение перспективных генов для последующих исследований), и заинтересованы в контроле доли «ложных указаний», которые они готовы принять.
Литература
Концепция FDR была формально описана Йоавом Бенджамини и Йосефом Хохбергом в 1995 году [1] (процедура BH) как менее консервативный и, возможно, более подходящий подход для определения нескольких важных из множества тривиальных протестированных эффектов. FDR был особенно влиятельным, поскольку он был первой альтернативой FWER, получившей широкое признание во многих научных областях (особенно в науках о жизни, от генетики до биохимии, онкологии и наук о растениях). [3] В 2005 году статья Бенджамини и Хохберга от 1995 года была определена как одна из 25 наиболее цитируемых статистических статей. [5]
До введения концепции FDR в 1995 году в статистической литературе рассматривались различные предшествующие идеи. В 1979 году Холм предложил процедуру Холма [ 6] — пошаговый алгоритм управления FWER, который по мощности не уступает известной корректировке Бонферрони . Этот пошаговый алгоритм сортирует p -значения и последовательно отвергает гипотезы, начиная с наименьших p -значений.
Бенджамини (2010) сказал, что показатель ложных срабатываний [3] и статья Бенджамини и Хохберга (1995) берут свое начало в двух работах, посвященных множественному тестированию:
Первая статья принадлежит Шведеру и Спьотволлу (1982), которые предложили построить график ранжированных p -значений и оценить количество истинных нулевых гипотез ( ) с помощью наводящейся на глаз линии, начинающейся с наибольших p -значений. [7] P - значения, которые отклоняются от этой прямой линии, должны соответствовать ложным нулевым гипотезам. Эта идея была позже развита в алгоритм и включила оценку в такие процедуры, как Бонферрони, Хольм или Хохберг. [8] Эта идея тесно связана с графической интерпретацией процедуры BH.
Вторая статья принадлежит Бранко Соричу (1989), который ввел термин «открытие» в контексте множественной проверки гипотез. [9] Сорик использовал ожидаемое число ложных открытий, деленное на число открытий, как предупреждение о том, что «большая часть статистических открытий может быть неверной». Это привело Бенджамини и Хохберга к мысли, что аналогичный уровень ошибок, а не просто предупреждение, может служить достойной целью для контроля.
Процедура BH доказала, что она контролирует FDR для независимых тестов в 1995 году Бенджамини и Хохбергом. [1] В 1986 году Р. Дж. Саймс предложил ту же процедуру, что и «процедура Саймса», для контроля FWER в слабом смысле (при нулевой гипотезе пересечения), когда статистики независимы. [10]
Определения
На основании приведенных ниже определений мы можем определить Q как долю ложных открытий среди открытий (опровержений нулевой гипотезы):
где — число ложных открытий, — число истинных открытий.
Коэффициент ложного обнаружения ( FDR ) тогда просто: [1]
где — ожидаемое значение . Цель состоит в том, чтобы поддерживать FDR ниже заданного порогового значения q . Чтобы избежать деления на ноль , определяется как 0, когда . Формально, . [1]
Классификация множественных проверок гипотез
Следующая таблица определяет возможные результаты при проверке нескольких нулевых гипотез. Предположим, у нас есть число m нулевых гипотез, обозначенных как: H 1 , H 2 , ..., H m .
Используя статистический тест , мы отвергаем нулевую гипотезу, если тест объявлен значимым. Мы не отвергаем нулевую гипотезу, если тест незначим. Суммирование каждого типа результата по всем H i дает следующие случайные величины:
это количество отклоненных нулевых гипотез (также называемых «открытиями», истинными или ложными)
В m гипотезах, проверка которых является истинной нулевой гипотезой, R является наблюдаемой случайной величиной, а S , T , U и V являются ненаблюдаемыми случайными величинами .
Процедуры контроля
Настройки для многих процедур таковы, что у нас есть проверенные нулевые гипотезы и соответствующие им p -значения . Мы перечисляем эти p -значения в порядке возрастания и обозначаем их как . Процедура, которая идет от маленькой тестовой статистики к большой, будет называться процедурой step-up. Аналогичным образом, в процедуре «step-down» мы движемся от большой соответствующей тестовой статистики к меньшей.
Процедура Бенджамини–Хохберга
Процедура Бенджамини–Хохберга (процедура повышения BH) контролирует FDR на уровне . [1] Она работает следующим образом:
Для заданного найдите наибольшее k такое, что
Отвергнуть нулевую гипотезу (т.е. объявить открытия) для всех для
Геометрически это соответствует построению графика зависимости от k (по осям y и x соответственно), проведению прямой через начало координат с наклоном и объявлению открытий для всех точек слева, вплоть до последней точки, которая не находится выше прямой, включая ее.
Процедура BH действительна, когда m тестов независимы , а также в различных сценариях зависимости, но не является универсальной. [11] Она также удовлетворяет неравенству:
Если оценщик вставляется в процедуру BH, то больше не гарантируется достижение контроля FDR на желаемом уровне. [3] Могут потребоваться корректировки в оценщике, и было предложено несколько модификаций. [12] [13] [14] [15]
Обратите внимание, что среднее значение для этих m тестов равно , Mean(FDR ) или MFDR, скорректированное для m независимых или положительно коррелированных тестов (см. AFDR ниже). Выражение MFDR здесь относится к одному пересчитанному значению и не является частью метода Бенджамини и Хохберга.
Процедура Бенджамини-Екутиэли
Процедура Бенджамини–Йекутиели контролирует частоту ложных открытий при произвольных предположениях о зависимости. [11] Это уточнение изменяет порог и находит наибольшее k , такое что:
Если тесты независимы или положительно коррелируют (как в процедуре Бенджамини–Хохберга):
Используя MFDR и формулы выше, скорректированный MFDR (или AFDR) является минимумом среднего для m зависимых тестов, т.е. .
Другой способ решения проблемы зависимости — бутстреппинг и повторная рандомизация. [4] [16] [17]
Процедура Стори-Тибширани
В процедуре Стори-Тибширани значения q используются для контроля FDR.
Характеристики
Адаптивный и масштабируемый
Использование процедуры множественности, которая контролирует критерий FDR, является адаптивным и масштабируемым . Это означает, что контроль FDR может быть очень разрешительным (если данные это оправдывают) или консервативным (действуя близко к контролю FWER для разреженной проблемы) - все зависит от количества проверенных гипотез и уровня значимости. [3]
Критерий FDR адаптируется таким образом, что одно и то же число ложных открытий (V) будет иметь разные последствия в зависимости от общего числа открытий (R). Это контрастирует с критерием частоты ошибок по семьям . Например, если проверить 100 гипотез (скажем, 100 генетических мутаций или SNP для ассоциации с некоторым фенотипом в некоторой популяции):
Если мы делаем 4 открытия (R), то 2 из них оказываются ложными открытиями (V), что часто обходится очень дорого. В то время как,
Если мы сделаем 50 открытий (R), то два из них окажутся ложными (V), что часто не будет иметь больших затрат.
Критерий FDR масштабируется в том смысле, что одна и та же доля ложных открытий из общего числа открытий (Q) остается разумной для разного числа общих открытий (R). Например:
Если мы сделаем 100 открытий (R), то 5 из них окажутся ложными ( ), что может оказаться не слишком затратным.
Аналогично, если мы сделаем 1000 открытий (R), то 50 из них окажутся ложными открытиями (как и прежде ), что все равно может не обойтись слишком дорого.
Зависимость между тестовыми статистиками
Управление FDR с использованием линейной процедуры BH с повышением на уровне q имеет несколько свойств, связанных со структурой зависимости между тестовыми статистиками m нулевых гипотез, которые корректируются. Если тестовая статистика:
Если все нулевые гипотезы верны ( ), то контроль FDR на уровне q гарантирует контроль над FWER (это также называется «слабым контролем FWER» ): , просто потому, что событие отклонения хотя бы одной истинной нулевой гипотезы — это в точности событие , а событие — это в точности событие (когда , по определению). [1] Но если необходимо сделать некоторые истинные открытия ( ), то FWER ≥ FDR . В этом случае будет возможность улучшить мощность обнаружения. Это также означает, что любая процедура, которая контролирует FWER, будет также контролировать FDR.
Средняя мощность
Среднюю мощность процедуры Бенджамини-Хохберга можно вычислить аналитически [18]
Связанные концепции
Открытию FDR предшествовало и последовало множество других типов ошибок. К ним относятся:
PCER ( коэффициент ошибок при сравнении ) определяется как: Индивидуальное тестирование каждой гипотезы на уровне α гарантирует, что (это тестирование без какой-либо поправки на множественность)
(Вероятность хвоста пропорции ложного открытия), предложенная Леманном и Романо, ван дер Лааном и др., [ необходима ссылка ] определяется как: .
(также называемый обобщенным FDR Саркаром в 2007 году [19] [20] ) определяется как: .
«доля ложных открытий среди открытий», предложенная Соричем в 1989 году [9] и определяемая как: . Это смесь ожиданий и реализаций, и имеет проблему контроля для . [1]
(или Fdr) использовался Бенджамини и Хохбергом [3] , а позже назван «Fdr» Эфроном (2008) и ранее. [21] Он определяется как: . Этот коэффициент ошибок не может строго контролироваться, поскольку он равен 1, когда .
был использован Бенджамини и Хохбергом, [3] и позже назван «pFDR» Стори (2002). [22] Он определяется как: . Этот коэффициент ошибок не может строго контролироваться, поскольку он равен 1, когда . Дж. Д. Стори продвигал использование pFDR (близкого родственника FDR) и q-значения , которое можно рассматривать как долю ложных открытий, которые мы ожидаем в упорядоченной таблице результатов, вплоть до текущей строки. [ необходима цитата ] Стори также продвигал идею (также упомянутую BH), что фактическое количество нулевых гипотез , , можно оценить по форме кривой распределения вероятностей . Например, в наборе данных, где все нулевые гипотезы верны, 50% результатов дадут вероятности между 0,5 и 1,0 (а другие 50% дадут вероятности между 0,0 и 0,5). Поэтому мы можем оценить, найдя число результатов и удвоив его, и это позволяет уточнить наш расчет pFDR для любого конкретного предела в наборе данных. [22]
(Взвешенный FDR). С каждой гипотезой i связан вес , веса отражают важность/цену. W-FDR определяется как: .
FDCR (коэффициент стоимости ложного обнаружения). Вытекает из статистического контроля процесса : с каждой гипотезой i связана стоимость , а с гипотезой пересечения — стоимость . Мотивация заключается в том, что остановка производственного процесса может повлечь за собой фиксированную стоимость. Она определяется как:
PFER (коэффициент ошибок на семью) определяется как: .
FNR (коэффициент ложного нераскрытия) по Саркару; Дженовезе и Вассерману [ необходима ссылка ] определяется как:
определяется как:
Местный fdr определяется как:
Коэффициент ложного охвата
Коэффициент ложного покрытия (FCR) в некотором смысле является аналогом FDR доверительного интервала . FCR указывает средний коэффициент ложного покрытия, а именно, не покрытия истинных параметров, среди выбранных интервалов. FCR дает одновременное покрытие на уровне для всех параметров, рассматриваемых в задаче. Интервалы с вероятностью одновременного покрытия 1−q могут контролировать FCR, чтобы он был ограничен q . Существует много процедур FCR, таких как: Bonferroni-Selected–Bonferroni-Adjusted, Adjusted BH-Selected CIs (Benjamini and Yekutieli ( 2005)), [ 24] Bayes FCR (Yekutieli (2008)), [ нужна цитата ] и другие байесовские методы. [25]
Байесовский подход
Были установлены связи между подходами FDR и Байеса (включая эмпирические методы Байеса), [21] [26] [27] пороговыми коэффициентами вейвлетов и выбором модели , [28] [29] [30] [31] [32] и обобщением доверительного интервала в коэффициент ложного покрытия (FCR). [24]
^ abcdefghi Benjamini Y, Hochberg Y (1995). «Контроль частоты ложных открытий: практический и мощный подход к множественному тестированию». Журнал Королевского статистического общества, Серия B. 57 ( 1): 289–300. doi :10.1111/j.2517-6161.1995.tb02031.x. MR 1325392.
^ Шаффер, Дж. П. (январь 1995 г.). «Проверка множественных гипотез». Annual Review of Psychology . 46 (1): 561–584. doi :10.1146/annurev.ps.46.020195.003021. S2CID 7696063. Гейл A16629837.
^ abcdefg Benjamini Y (2010). «Открытие частоты ложных открытий». Журнал Королевского статистического общества, Серия B. 72 ( 4): 405–416. doi : 10.1111/j.1467-9868.2010.00746.x .
^ ab Storey JD, Tibshirani R (август 2003 г.). "Статистическая значимость для исследований генома". Труды Национальной академии наук Соединенных Штатов Америки . 100 (16): 9440–5. Bibcode : 2003PNAS..100.9440S. doi : 10.1073/pnas.1530509100 . PMC 170937. PMID 12883005 .
^ Райан TP, Вудолл WH (2005). «Наиболее цитируемые статистические статьи». Журнал прикладной статистики . 32 (5): 461–474. Bibcode : 2005JApSt..32..461R. doi : 10.1080/02664760500079373. S2CID 109615204.
^ Холм С. (1979). «Простая последовательно отклоняющая множественная процедура тестирования». Scandinavian Journal of Statistics . 6 (2): 65–70. JSTOR 4615733. MR 0538597.
^ Шведер Т., Спьётволл Э. (1982). «Графики P-значений для одновременной оценки многих тестов». Biometrika . 69 (3): 493–502. doi :10.1093/biomet/69.3.493.
^ Hochberg Y, Benjamini Y (июль 1990 г.). «Более мощные процедуры для множественного тестирования значимости». Статистика в медицине . 9 (7): 811–8. doi :10.1002/sim.4780090710. PMID 2218183.
^ ab Soric B (июнь 1989). «Статистические «открытия» и оценка размера эффекта». Журнал Американской статистической ассоциации . 84 (406): 608–610. doi :10.1080/01621459.1989.10478811. JSTOR 2289950.
^ Simes RJ (1986). «Улучшенная процедура Бонферрони для множественных тестов значимости». Biometrika . 73 (3): 751–754. doi :10.1093/biomet/73.3.751.
^ abcde Benjamini Y, Yekutieli D (2001). «Контроль частоты ложных открытий при множественном тестировании в условиях зависимости». Annals of Statistics . 29 (4): 1165–1188. doi : 10.1214/aos/1013699998 . MR 1869245.
^ Storey JD, Taylor JE, Siegmund D (2004). «Строгий контроль, консервативная точечная оценка и одновременная консервативная согласованность показателей ложных открытий: единый подход». Журнал Королевского статистического общества, Серия B. 66 : 187–205. doi : 10.1111/j.1467-9868.2004.00439.x . S2CID 12646251.
^ Benjamini Y, Krieger AM, Yekutieli D (2006). «Адаптивные линейные процедуры повышения, которые контролируют частоту ложных обнаружений». Biometrika . 93 (3): 491–507. doi :10.1093/biomet/93.3.491.
^ Гаврилов Y, Бенджамини Y, Саркар SK (2009). «Адаптивная процедура понижения с доказанным контролем FDR в условиях независимости». Анналы статистики . 37 (2): 619. arXiv : 0903.5373 . doi : 10.1214/07-AOS586. S2CID 16913244.
^ Blanchard G, Roquain E (2008). «Два простых достаточных условия для контроля FDR». Electronic Journal of Statistics . 2 : 963–992. arXiv : 0802.1406 . doi : 10.1214/08-EJS180. S2CID 16662020.
^ Yekutieli D, Benjamini Y (1999). «Процедура контроля частоты ложных открытий на основе повторной выборки для зависимой тестовой статистики». J. Statist. Planng Inf . 82 (1–2): 171–196. doi :10.1016/S0378-3758(99)00041-5.
^ Ван дер Лаан М. Дж., Дюдуа С. (2007). Процедуры множественного тестирования с применением в геномике . Нью-Йорк: Springer.
^ Глюк, Дебора Х.; Мандель, Ян; Каримпур-Фард, Анис; Хантер, Лоуренс; Мюллер, Кит Э. (30 января 2008 г.). «Точные расчеты средней мощности для процедуры Бенджамини-Хохберга». Международный журнал биостатистики . 4 (1): Статья 11. doi :10.2202/1557-4679.1103. PMC 3020656. PMID 21243075 .
^ Sarkar SK (2007). «Процедуры Stepup, контролирующие обобщенные FWER и обобщенные FDR». Анналы статистики . 35 (6): 2405–20. arXiv : 0803.2934 . doi : 10.1214/009053607000000398. S2CID 14784911.
^ Sarkar SK, Guo W (июнь 2009 г.). «Об обобщенном показателе ложных открытий». The Annals of Statistics . 37 (3): 1545–65. arXiv : 0906.3091 . doi : 10.1214/08-AOS617. JSTOR 30243677. S2CID 15746841.
^ ab Efron B (2008). «Микроматрицы, эмпирический Байес и модель двух групп». Статистическая наука . 23 : 1–22. arXiv : 0808.0603 . doi : 10.1214/07-STS236. S2CID 8417479.
^ Benjamini Y (декабрь 2010 г.). «Одновременный и селективный вывод: текущие успехи и будущие проблемы». Биометрический журнал. Biometrische Zeitschrift . 52 (6): 708–21. doi :10.1002/bimj.200900299. PMID 21154895. S2CID 8806192.
^ ab Benjamini Y, Yekutieli Y (2005). «Уровень ложных открытий, контролирующий доверительные интервалы для выбранных параметров». Журнал Американской статистической ассоциации . 100 (469): 71–80. doi :10.1198/016214504000001907. S2CID 23202143.
^ Чжао Z, Джин Хван JT (2012). «Эмпирический байесовский коэффициент ложного покрытия, контролирующий доверительные интервалы». Журнал Королевского статистического общества, серия B. 74 ( 5): 871–891. doi : 10.1111/j.1467-9868.2012.01033.x. hdl : 10.1111/j.1467-9868.2012.01033.x . S2CID 111420152.
^ Storey JD (2003). «Положительный уровень ложных открытий: байесовская интерпретация и q-значение». Annals of Statistics . 31 (6): 2013–2035. doi : 10.1214/aos/1074290335 .
^ Абрамович Ф., Бенджамини И., Донохо Д., Джонстон И. М. (2006). «Адаптация к неизвестной разреженности путем контроля частоты ложных открытий». Annals of Statistics . 34 (2): 584–653. arXiv : math/0505374 . Bibcode : 2005math......5374A. doi : 10.1214/009053606000000074. S2CID 7581060.
^ Донохо Д., Джин Дж. (2006). «Асимптотическая минимаксность порогового значения частоты ложных открытий для разреженных экспоненциальных данных». Annals of Statistics . 34 (6): 2980–3018. arXiv : math/0602311 . Bibcode : 2006math......2311D. doi : 10.1214/009053606000000920. S2CID 9080115.
^ Benjamini Y, Gavrilov Y (2009). «Простая процедура прямого отбора, основанная на контроле частоты ложных открытий». Annals of Applied Statistics . 3 (1): 179–198. arXiv : 0905.2819 . Bibcode : 2009arXiv0905.2819B. doi : 10.1214/08-AOAS194. S2CID 15719154.
^ Донохо Д., Джин Дж. С. (2004). «Высшая критика для обнаружения разреженных гетерогенных смесей». Annals of Statistics . 32 (3): 962–994. arXiv : math/0410072 . Bibcode : 2004math.....10072D. doi : 10.1214/009053604000000265. S2CID 912325.
^ Stoica P, Babu P (2022). «Правила частоты ложных открытий (FDR) и частоты семейных ошибок (FER) для выбора модели в приложениях обработки сигналов». IEEE Open Journal of Signal Processing . 3 (1): 403–416. doi :10.1109/OJSP.2022.3213128.
Внешние ссылки
Анализ частоты ложных срабатываний в R – список ссылок на популярные пакеты R
Анализ частоты ложных срабатываний в Python – Реализации процедур частоты ложных срабатываний на Python
Коэффициент ложных обнаружений: исправленные и скорректированные p-значения — реализация MATLAB / GNU Octave и обсуждение разницы между исправленными и скорректированными p-значениями FDR.
Понимание уровня ложных открытий - запись в блоге
StatQuest: FDR и метод Бенджамини-Хохберга наглядно объяснены на YouTube
Понимание частоты ложных срабатываний — включает код Excel VBA для его реализации и пример разработки клеточной линии