В статистике одновременная проверка нескольких гипотез с использованием методов, подходящих для проверки отдельных гипотез, имеет тенденцию давать много ложноположительных результатов: так называемая проблема множественных сравнений . [3] Например, предположим, что нужно проверить 1000 нулевых гипотез, все из которых верны, и (как это принято при проверке отдельных гипотез) отвергнуть нулевые гипотезы с уровнем значимости 0,05; из-за случайности можно было бы ожидать, что 5% результатов окажутся значимыми ( P < 0,05), что даст 50 ложноположительных результатов (отклонений нулевой гипотезы). [4] С 1950-х годов статистики разрабатывали методы множественных сравнений, которые уменьшали количество ложноположительных результатов, такие как контроль частоты ошибок по семействам (FWER) с использованием поправки Бонферрони , но эти методы также увеличивали количество ложноотрицательных результатов (т. е. уменьшали статистическую мощность ). [3] В 1995 году Йоав Бенджамини и Йосеф Хохберг предложили контролировать частоту ложных срабатываний (FDR) как статистически более мощную альтернативу контролю FWER при множественной проверке гипотез. [3] pFDR и значение q были введены Джоном Д. Стори в 2002 году для устранения ограничения FDR, а именно того, что FDR не определяется, когда нет положительных результатов. [1] [5]
Определение
Пусть есть нулевая гипотеза и альтернативная гипотеза . Выполните проверки гипотез; пусть тестовая статистика будет iid случайными величинами такими, что . То есть, если истинно для теста ( ), то следует нулевое распределение ; в то время как если истинно ( ), то следует альтернативное распределение . Пусть , то есть для каждого теста, истинно с вероятностью и истинно с вероятностью . Обозначим критическую область (значения для которой отклоняется) на уровне значимости как . Пусть эксперимент дает значение для тестовой статистики. Значение q формально определяется как
То есть, значение q является инфимумом pFDR, если отвергается для тестовой статистики со значениями . Эквивалентно, значение q равно
что является нижней гранью вероятности того, что это правда, при условии, что это отвергнуто ( коэффициент ложного обнаружения ). [1]
Отношение кп-ценить
Значение p определяется как
инфимум вероятности, которая отвергается при условии, что это правда ( ложноположительный коэффициент ). Сравнивая определения p- и q -значений, можно увидеть, что q -значение является минимальной апостериорной вероятностью того, что это правда. [1]
Интерпретация
Значение q можно интерпретировать как частоту ложных срабатываний (FDR): долю ложных срабатываний среди всех положительных результатов. При наличии набора статистических данных теста и связанных с ними значений q отклонение нулевой гипотезы для всех тестов, чье значение q меньше или равно некоторому пороговому значению, гарантирует, что ожидаемое значение частоты ложных срабатываний будет равно . [6]
Приложения
Биология
Экспрессия генов
Геномный анализ дифференциальной экспрессии генов включает одновременное тестирование экспрессии тысяч генов. Контроль FWER (обычно до 0,05) позволяет избежать избыточных ложных положительных результатов (т. е. обнаружения дифференциальной экспрессии в гене, который не является дифференциально экспрессируемым), но накладывает строгий порог на p - значение, что приводит к множеству ложных отрицательных результатов (многие дифференциально экспрессируемые гены остаются без внимания). Однако контроль pFDR путем выбора генов со значительными q -значениями снижает число ложных отрицательных результатов (увеличивает статистическую мощность), гарантируя при этом, что ожидаемое значение доли ложных положительных результатов среди всех положительных результатов будет низким (например, 5%). [6]
Например, предположим, что среди 10 000 протестированных генов 1000 на самом деле дифференциально экспрессируются, а 9000 — нет:
Если мы считаем, что каждый ген со значением p менее 0,05 экспрессируется дифференциально, мы ожидаем, что 450 (5%) из 9000 генов, которые не экспрессируются дифференциально, будут, по-видимому, экспрессироваться дифференциально (450 ложноположительных результатов).
Если мы контролируем FWER до 0,05, то вероятность получения хотя бы одного ложноположительного результата составляет всего 5%. Однако этот очень строгий критерий снизит мощность, так что лишь немногие из 1000 генов, которые на самом деле дифференциально экспрессируются, будут выглядеть дифференциально экспрессированными (много ложноотрицательных результатов).
Если мы контролируем pFDR до 0,05, считая, что все гены со значением q менее 0,05 дифференциально экспрессируются, то мы ожидаем, что 5% положительных результатов будут ложноположительными (например, 900 истинно положительных, 45 ложноположительных, 100 ложноотрицательных, 8955 истинно отрицательных). Эта стратегия позволяет получить относительно низкое количество как ложноположительных, так и ложноотрицательных результатов.
Реализации
Примечание: ниже приведен неполный список.
Р
Пакет qvalue в R оценивает q -значения из списка p -значений. [7]
Ссылки
^ abcd Storey, John D. (2002). «Прямой подход к показателям ложных открытий». Журнал Королевского статистического общества, серия B (статистическая методология) . 64 (3): 479–498. CiteSeerX 10.1.1.320.7131 . doi :10.1111/1467-9868.00346.
^ Стори, Джон Д. (2003). «Положительный уровень ложных открытий: байесовская интерпретация и q-значение». Анналы статистики . 31 (6): 2013–2035. doi : 10.1214/aos/1074290335 .
^ abc Benjamini, Yoav; Hochberg, Yosef (1995). «Контроль частоты ложных открытий: практический и мощный подход к множественному тестированию». Журнал Королевского статистического общества. Серия B (Методологическая) . 57 : 289–300. doi :10.1111/j.2517-6161.1995.tb02031.x.
^ Nuzzo, Regina (2014). "Научный метод: Статистические ошибки". Nature . Получено 5 марта 2019 .
^ Стори, Джон Д. (2002). «Прямой подход к показателям ложных открытий». Журнал Королевского статистического общества, Серия B (Статистическая методология) . 64 (3): 479–498. CiteSeerX 10.1.1.320.7131 . doi :10.1111/1467-9868.00346.
^ ab Storey, John D.; Tibshirani, Robert (2003). «Статистическая значимость для исследований генома». PNAS . 100 (16): 9440–9445. Bibcode :2003PNAS..100.9440S. doi :10.1073/pnas.1530509100. PMC 170937 . PMID 12883005.
^ Стори, Джон Д.; Басс, Эндрю Дж.; Дэбни, Алан; Робинсон, Дэвид; Уорнс, Грегори (2019). "qvalue: оценка Q-значения для контроля частоты ложных срабатываний". Bioconductor .