Statistical method for handling multiple comparisons
В статистике уровень ложных открытий ( FDR ) — это метод концептуализации частоты ошибок типа I при проверке нулевой гипотезы при проведении множественных сравнений . Процедуры контроля FDR предназначены для контроля FDR, который представляет собой ожидаемую долю «открытий» (отклоненных нулевых гипотез ), которые являются ложными (неверными отклонениями нулевых гипотез). [1] Аналогично, FDR — это ожидаемое отношение количества ложноположительных классификаций (ложных открытий) к общему количеству положительных классификаций (отклонений нуля). Общее количество отклонений нуля включает в себя как количество ложных срабатываний (FP), так и количество истинных срабатываний (TP). Проще говоря, ФДР = ФП/(ФП+ТП). Процедуры контроля FDR обеспечивают менее строгий контроль ошибок типа I по сравнению с процедурами контроля частоты ошибок по семейству (FWER) (такими как поправка Бонферрони ), которые контролируют вероятность хотя бы одной ошибки типа I. Таким образом, процедуры контроля FDR обладают большей эффективностью за счет увеличения количества ошибок первого рода. [2]
История
Технологические мотивы
Считается, что современное широкое использование FDR обусловлено и мотивировано развитием технологий, которые позволили собирать и анализировать большое количество различных переменных у нескольких людей (например, уровень экспрессии каждого из 10 000 различных генов). у 100 разных людей). [3] К концу 1980-х и 1990-м годам развитие «высокопроизводительных» наук, таких как геномика , позволило быстро собирать данные. Это, в сочетании с ростом вычислительной мощности, позволило беспрепятственно выполнять очень большое количество статистических тестов на заданном наборе данных. Технология микрочипов была прототипным примером, поскольку она позволяла одновременно тестировать тысячи генов на дифференциальную экспрессию в двух биологических условиях. [4]
По мере распространения высокопроизводительных технологий технологические и/или финансовые ограничения заставили исследователей собирать наборы данных с относительно небольшими размерами выборок (например, небольшое количество тестируемых людей) и большим количеством переменных, измеряемых на одну выборку (например, тысячи уровней экспрессии генов). В этих наборах данных слишком немногие из измеренных переменных показали статистическую значимость после классической поправки на множественные тесты со стандартными процедурами множественного сравнения . Это создало необходимость во многих научных сообществах отказаться от FWER и нескорректированного тестирования множественных гипотез в пользу других способов выделить и ранжировать в публикациях те переменные, которые демонстрируют заметные эффекты для отдельных лиц или методов лечения, которые в противном случае были бы отклонены как несущественные после стандартной поправки для множественных тестов. В ответ на это были предложены различные коэффициенты ошибок (и они стали широко использоваться в публикациях), которые менее консервативны, чем FWER, при выделении потенциально примечательных наблюдений. FDR полезен, когда исследователи ищут «открытия», которые дадут им возможность последующей работы (например, обнаружение многообещающих генов для последующих исследований), и заинтересованы в контроле доли «ложных версий», которые они готовы принять.
Литература
Концепция FDR была формально описана Йоавом Беньямини и Йосефом Хохбергом в 1995 году [1] (процедура BH) как менее консервативный и, возможно, более подходящий подход для выявления немногих важных из тривиального множества протестированных эффектов. Рузвельт оказал особое влияние, поскольку он стал первой альтернативой FWER, получившей широкое признание во многих научных областях (особенно в науках о жизни, от генетики до биохимии, онкологии и наук о растениях). [3] В 2005 году статья Беньямини и Хохберга 1995 года была признана одной из 25 наиболее цитируемых статистических статей. [5]
До появления в 1995 году концепции Рузвельта в статистической литературе рассматривались различные идеи-предшественники. В 1979 году Холм предложил процедуру Холма [6] — пошаговый алгоритм управления FWER, который по крайней мере столь же мощный, как и известная корректировка Бонферрони . Этот пошаговый алгоритм сортирует p -значения и последовательно отклоняет гипотезы, начиная с наименьших p -значений.
Бенджамини (2010) сказал, что уровень ложных открытий [3] и статья Бенджамини и Хохберг (1995) берут свое начало в двух статьях, посвященных множественному тестированию:
Первая статья написана Шведером и Спьотволлом (1982), которые предложили построить график ранжированных значений p и оценить количество истинных нулевых гипотез ( ) с помощью подходящей для глаз линии, начиная с наибольших значений p . [7] Значения p , которые отклоняются от этой прямой линии, тогда должны соответствовать ложным нулевым гипотезам. Эта идея позже была развита в алгоритм и включена оценка в такие процедуры, как Бонферрони, Хольм или Хохберг. [8] Эта идея тесно связана с графической интерпретацией процедуры BH.
Вторая статья написана Бранко Соричем (1989), в которой введена терминология «открытия» в контексте проверки множественных гипотез. [9] Сорик использовал ожидаемое количество ложных открытий, разделенное на количество открытий, как предупреждение о том, что «большая часть статистических открытий может быть ошибочной». Это привело Бенджамини и Хохберга к идее, что подобная частота ошибок может служить не просто предупреждением, а достойной целью для контроля.
В ходе независимых испытаний в 1995 году Бенджамини и Хохберг доказали, что процедура BH контролирует FDR. [1] В 1986 году Р. Дж. Саймс предложил ту же процедуру, что и «процедура Саймса», для управления FWER в слабом смысле (в соответствии с нулевой гипотезой пересечения), когда статистика независимы. [10]
Определения
Основываясь на приведенных ниже определениях, мы можем определить Q как долю ложных открытий среди открытий (отклонений нулевой гипотезы):
.
где – количество ложных открытий и – количество истинных открытий.
Тогда уровень ложного обнаружения ( FDR ) будет выглядеть просто: [1]
где ожидаемое значение . Цель состоит в том, чтобы поддерживать FDR ниже заданного порога q . Чтобы избежать деления на ноль , определяется как 0, когда . Формально, . [1]
Классификация множественных проверок гипотез
В следующей таблице определены возможные результаты при проверке нескольких нулевых гипотез. Предположим, у нас есть количество m нулевых гипотез, обозначенных: H 1 , H 2 , ..., H m .
Используя статистический тест , мы отвергаем нулевую гипотезу, если тест признан значимым. Мы не отвергаем нулевую гипотезу, если тест незначим. Суммирование результатов каждого типа по всем H i дает следующие случайные величины:
m — общее количество проверенных гипотез.
— количество истинных нулевых гипотез , неизвестный параметр
количество отвергнутых нулевых гипотез (также называемых «открытиями», истинными или ложными)
В m тестах гипотез, которые являются истинными нулевыми гипотезами, R — наблюдаемая случайная величина, а S , T , U и V — ненаблюдаемые случайные величины .
Процедуры контроля
Настройки для многих процедур таковы, что мы проверяем нулевые гипотезы и соответствующие им значения p . Перечислим эти p -значения в порядке возрастания и обозначим их . Процедура, которая переходит от маленькой тестовой статистики к большой, будет называться повышающей процедурой. Аналогичным образом, в процедуре «понижения» мы переходим от большой соответствующей тестовой статистики к меньшей.
Процедура Бенджамини – Хохберга
Процедура Беньямини-Хохберга применяется к набору из m = 20 упорядоченных по возрастанию значений p с уровнем контроля ложного обнаружения α = 0,05. P-значения отвергнутой нулевой гипотезы (т.е. заявленных открытий) окрашены в красный цвет. Обратите внимание, что существуют отклоненные значения p, которые находятся выше линии отклонения (синего цвета), поскольку все нулевые гипотезы значений p, которые ранжированы до значения p последнего пересечения, отклоняются. Здесь аппроксимации MFDR = 0,02625 и AFDR = 0,00730.
Процедура Беньямини-Хохберга (процедура повышения BH) контролирует FDR на уровне . [1] Это работает следующим образом:
Для данного найдите наибольшее k такое, что
Отклонить нулевую гипотезу (т. е. объявить открытия) для всех
Геометрически это соответствует построению графика зависимости от k (по осям y и x соответственно), рисованию линии через начало координат с наклоном и объявлению открытий для всех точек слева, вплоть до последней точки, которая не находится выше, включительно. линия.
Процедура BH действительна, когда m тестов независимы , а также при различных сценариях зависимости, но не является универсальной. [11] Он также удовлетворяет неравенству:
Если в процедуру BH вставлена оценка , то уже не гарантируется достижение контроля FDR на желаемом уровне. [3] В оценщике могут потребоваться корректировки, и было предложено несколько модификаций. [12] [13] [14] [15]
Обратите внимание, что среднее значение для этих m тестов равно , Mean(FDR ) или MFDR, с поправкой на m независимых или положительно коррелированных тестов (см. AFDR ниже). Выражение MFDR здесь предназначено для одного перевычисленного значения и не является частью метода Бенджамини и Хохберга.
Процедура Бенджамини-Екутиэли
Процедура Бенджамини – Йекутиэли контролирует частоту ложных открытий при предположениях о произвольной зависимости. [11] Это уточнение изменяет порог и находит наибольшее значение k такое, что:
Если тесты независимы или положительно коррелируют (как в процедуре Беньямини-Хохберга):
При произвольной зависимости (в том числе и при отрицательной корреляции) c(m) – номер гармоники : .
Используя MFDR и приведенные выше формулы, скорректированный MFDR (или AFDR) представляет собой минимум среднего значения для m зависимых тестов , т.е. Другой способ справиться с зависимостью — это загрузка и повторная рандомизация. [4] [16] [17]
Процедура Стори-Тибширани
Схематическое изображение процедуры Стори-Тибширани для поправки на проверку множественных гипотез при условии правильно рассчитанных значений p. ось Y — частота.
В процедуре Стори-Тибширани значения q используются для управления FDR.
Характеристики
Адаптивный и масштабируемый
Использование процедуры множественности, которая контролирует критерий FDR, является адаптивным и масштабируемым . Это означает, что контроль FDR может быть очень либеральным (если данные это оправдывают) или консервативным (действующим, близким к контролю FWER для разреженной проблемы) - все в зависимости от количества проверенных гипотез и уровня значимости. [3]
Критерий FDR адаптируется таким образом, что одно и то же количество ложных открытий (V) будет иметь разные последствия в зависимости от общего количества открытий (R). Это контрастирует с семейным критерием частоты ошибок. Например, если проверить 100 гипотез (скажем, 100 генетических мутаций или SNP на предмет ассоциации с некоторым фенотипом в некоторой популяции):
Если мы сделаем 4 открытия (R), то если 2 из них будут ложными открытиями (V), это часто будет очень дорого стоить. Тогда как,
Если мы сделаем 50 открытий (R), то сделать два из них ложными открытиями (V) зачастую будет не очень дорого.
Критерий FDR является масштабируемым , поскольку одна и та же доля ложных открытий от общего числа открытий (Q) остается разумной для различного числа общих открытий (R). Например:
Если мы сделаем 100 открытий (R), то 5 из них будут ложными открытиями ( ), возможно, это не будет очень дорого.
Точно так же, если мы сделаем 1000 открытий (R), 50 из них будут ложными открытиями (как и раньше ), все равно это может обойтись не очень дорого.
Зависимость между тестовой статистикой
Управление FDR с помощью процедуры линейного повышения BH на уровне q имеет несколько свойств, связанных со структурой зависимостей между тестовыми статистиками m нулевых гипотез, которые корректируются. Если статистика теста:
Если все нулевые гипотезы верны ( ), то контроль FDR на уровне q гарантирует контроль над FWER (это еще называют «слабым контролем FWER» ): просто потому, что событие отклонения хотя бы одной истинной нулевой гипотезы — это именно событие , а событие — это именно событие (когда по определению). [1] Но если необходимо сделать несколько истинных открытий ( ), тогда FWER ≥ FDR . В этом случае появится возможность улучшить мощность обнаружения. Это также означает, что любая процедура, которая контролирует FWER, будет также контролировать FDR.
Средняя мощность
Средняя мощность процедуры Беньямини-Хохберга может быть вычислена аналитически [18]
Связанные понятия
Открытию FDR предшествовало и последовало множество других типов ошибок. К ним относятся:
PCER ( коэффициент ошибок при сравнении ) определяется как: . Проверка каждой гипотезы по отдельности на уровне α гарантирует, что (это проверка без какой-либо поправки на множественность)
(Хвостовая вероятность пропорции ложного открытия), предложенная Леманном и Романо, ван дер Лааном и др. , определяется как : .
(также названный Саркаром в 2007 году обобщенным FDR [19] [20] ) определяется как: .
— это доля ложных открытий среди открытий», предложенная Сориком в 1989 году [9] и определяемая как: . Это смесь ожиданий и реализаций, и имеет проблему контроля за . [1]
(или Fdr) использовался Беньямини и Хохбергом [3] , а позже Эфрон (2008) и ранее называл его «Fdr». [21] Он определяется как: . Эту частоту ошибок невозможно строго контролировать, поскольку она равна 1, когда .
был использован Бенджамини и Хохбергом [3] и позже назван Стори (2002) «pFDR». [22] Он определяется как: . Эту частоту ошибок невозможно строго контролировать, поскольку она равна 1, когда . Дж. Д. Стори продвигал использование pFDR (близкого родственника FDR) и значения q , которое можно рассматривать как долю ложных открытий, которую мы ожидаем в упорядоченной таблице результатов, вплоть до текущей строки. [ нужна цитация ] Стори также выдвинул идею (также упомянутую Б.Х.), что фактическое количество нулевых гипотез может быть оценено по форме кривой распределения вероятностей . Например, в наборе данных, в котором все нулевые гипотезы верны, 50% результатов будут давать вероятности от 0,5 до 1,0 (а остальные 50% будут давать вероятности от 0,0 до 0,5). Таким образом, мы можем оценить, найдя количество результатов и удвоив его, и это позволяет уточнить наш расчет pFDR при любом конкретном пороговом значении в наборе данных. [22]
(Взвешенный ФДР). С каждой гипотезой i связан вес , который отражает важность/цену. W-FDR определяется как: .
FDCR (ставка затрат на ложное обнаружение). Вытекает из статистического управления процессом : с каждой гипотезой i связана стоимость , а с гипотезой пересечения — стоимость . Мотивация заключается в том, что остановка производственного процесса может повлечь за собой фиксированные затраты. Он определяется как:
PFER (коэффициент ошибок на семью) определяется как: .
FNR (ложные показатели необнаружения) от Саркара; Дженовезе и Вассерман [ нужна ссылка ] определяется как:
определяется как:
Локальный fdr определяется как:
Ложный уровень покрытия
Коэффициент ложного покрытия (FCR) в некотором смысле является аналогом доверительного интервала FDR . FCR указывает средний уровень ложного покрытия, а именно не покрытия истинных параметров, среди выбранных интервалов. FCR дает одновременный охват на уровне всех параметров, рассматриваемых в задаче. Интервалы с вероятностью одновременного покрытия 1-q могут контролировать FCR, который будет ограничен q . Существует множество процедур FCR, таких как: выбранный Бонферрони – скорректированный Бонферрони, [ нужна ссылка ] Скорректированные CI, выбранные по BH (Benjamini and Yekutieli (2005)), [24] Bayes FCR (Yekutieli (2008)), [ нужна ссылка ] и другие методы Байеса. [25]
Байесовский подход
Были установлены связи между FDR и байесовским подходом (включая эмпирические методы Байеса), [21] [26] [27] пороговыми коэффициентами вейвлетов и выбором модели , [28] [29] [30] [31] и обобщением доверительного интервала. в коэффициент ложных заявлений о покрытии (FCR). [24]
^ abcdefghi Бенджамини Ю., Хохберг Ю. (1995). «Контроль количества ложных обнаружений: практичный и мощный подход к множественному тестированию». Журнал Королевского статистического общества, серия B. 57 (1): 289–300. МР 1325392.
^ abcdefg Бенджамини Ю (2010). «Обнаружение уровня ложных открытий». Журнал Королевского статистического общества, серия B. 72 (4): 405–416. дои : 10.1111/j.1467-9868.2010.00746.x .
^ аб Стори Дж. Д., Тибширани Р. (август 2003 г.). «Статистическая значимость для полногеномных исследований». Труды Национальной академии наук Соединенных Штатов Америки . 100 (16): 9440–5. Бибкод : 2003PNAS..100.9440S. дои : 10.1073/pnas.1530509100 . ПМК 170937 . ПМИД 12883005.
^ Шведер Т., Спьётволл Э. (1982). «Графики P-значений для одновременной оценки множества тестов». Биометрика . 69 (3): 493–502. дои : 10.1093/biomet/69.3.493.
^ Хохберг Ю., Бенджамини Ю. (июль 1990 г.). «Более мощные процедуры для проверки множественной значимости». Статистика в медицине . 9 (7): 811–8. дои : 10.1002/sim.4780090710. ПМИД 2218183.
^ ab Soric B (июнь 1989 г.). «Статистические «открытия» и оценка размера эффекта». Журнал Американской статистической ассоциации . 84 (406): 608–610. дои : 10.1080/01621459.1989.10478811. JSTOR 2289950.
^ Гаврилов Ю., Бенджамини Ю., Саркар С.К. (2009). «Адаптивная процедура понижения с проверенным контролем FDR в условиях независимости». Анналы статистики . 37 (2): 619. arXiv : 0903.5373 . дои : 10.1214/07-AOS586. S2CID 16913244.
^ Бланшар Дж., Рокен Э (2008). «Два простых достаточных условия для контроля Рузвельта». Электронный статистический журнал . 2 : 963–992. arXiv : 0802.1406 . дои : 10.1214/08-EJS180. S2CID 16662020.
^ Екутиэли Д., Бенджамини Ю. (1999). «Процедура управления частотой ложного обнаружения на основе повторной выборки для статистики зависимых испытаний». Дж. Статист. Планирование Инф . 82 (1–2): 171–196. дои : 10.1016/S0378-3758(99)00041-5.
^ ван дер Лаан MJ, Дудуа С (2007). Множественные процедуры тестирования с применением в геномике . Нью-Йорк: Спрингер.
^ Глюк, Дебора Х; Мандель, Ян; Каримпур-Фард, Анис; Хантер, Лоуренс; Мюллер, Кейт Э. (30 января 2008 г.). «Точные расчеты средней мощности для процедуры Беньямини-Хохберга». Международный журнал биостатистики . 4 (1): Статья 11. doi :10.2202/1557-4679.1103. ПМК 3020656 . ПМИД 21243075.
^ Саркар СК, Го В (июнь 2009 г.). «Об обобщенной частоте ложных открытий». Анналы статистики . 37 (3): 1545–65. arXiv : 0906.3091 . дои : 10.1214/08-AOS617. JSTOR 30243677. S2CID 15746841.
^ аб Эфрон Б (2008). «Микрочипы, эмпирический Байес и модель двух групп». Статистическая наука . 23 : 1–22. arXiv : 0808.0603 . дои : 10.1214/07-STS236. S2CID 8417479.
Анализ частоты ложного обнаружения в R — список ссылок на популярные пакеты R.
Анализ частоты ложного обнаружения в Python — реализации процедур частоты ложного обнаружения на языке Python.
Уровень ложного обнаружения: исправленные и скорректированные P-значения - реализация MATLAB / GNU Octave и обсуждение разницы между исправленными и скорректированными p-значениями FDR.
Понимание уровня ложного обнаружения - сообщение в блоге
StatQuest: Рузвельт и метод Бенджамини-Хохберга четко объяснены на YouTube
Понимание частоты ложного обнаружения. Включает код Excel VBA для его реализации и пример разработки клеточной линии.