stringtranslate.com

q-значение (статистика)

При статистическом тестировании гипотез , в частности при тестировании множественных гипотез , значение q в процедуре Стори обеспечивает средство контроля частоты ложных положительных результатов (pFDR). [1] Так же, как значение p дает ожидаемую частоту ложных положительных результатов , полученную путем отклонения нулевой гипотезы для любого результата с равным или меньшим значением p , значение q дает ожидаемую частоту pFDR, полученную путем отклонения нулевой гипотезы для любого результата с равным или меньшим значением q . [2]

Схематическое изображение процедуры Стори для внесения поправок при проверке множественных гипотез, предполагающей правильно рассчитанные p-значения. Ось Y — частота.

История

В статистике одновременная проверка нескольких гипотез с использованием методов, подходящих для проверки отдельных гипотез, имеет тенденцию давать много ложноположительных результатов: так называемая проблема множественных сравнений . [3] Например, предположим, что нужно проверить 1000 нулевых гипотез, все из которых верны, и (как это принято при проверке отдельных гипотез) отвергнуть нулевые гипотезы с уровнем значимости 0,05; из-за случайности можно было бы ожидать, что 5% результатов окажутся значимыми ( P < 0,05), что даст 50 ложноположительных результатов (отклонений нулевой гипотезы). [4] С 1950-х годов статистики разрабатывали методы множественных сравнений, которые уменьшали количество ложноположительных результатов, такие как контроль частоты ошибок по семействам (FWER) с использованием поправки Бонферрони , но эти методы также увеличивали количество ложноотрицательных результатов (т. е. уменьшали статистическую мощность ). [3] В 1995 году Йоав Бенджамини и Йосеф Хохберг предложили контролировать частоту ложных срабатываний (FDR) как статистически более мощную альтернативу контролю FWER при множественной проверке гипотез. [3] pFDR и значение q были введены Джоном Д. Стори в 2002 году для устранения ограничения FDR, а именно того, что FDR не определяется, когда нет положительных результатов. [1] [5]

Определение

Пусть есть нулевая гипотеза и альтернативная гипотеза . Выполните проверки гипотез; пусть тестовая статистика будет iid случайными величинами такими, что . То есть, если истинно для теста ( ), то следует нулевое распределение ; в то время как если истинно ( ), то следует альтернативное распределение . Пусть , то есть для каждого теста, истинно с вероятностью и истинно с вероятностью . Обозначим критическую область (значения для которой отклоняется) на уровне значимости как . Пусть эксперимент дает значение для тестовой статистики. Значение q формально определяется как

То есть, значение q является инфимумом pFDR, если отвергается для тестовой статистики со значениями . Эквивалентно, значение q равно

что является нижней гранью вероятности того, что это правда, при условии, что это отвергнуто ( коэффициент ложного обнаружения ). [1]

Отношение кп-ценить

Значение p определяется как

инфимум вероятности, которая отвергается при условии, что это правда ( ложноположительный коэффициент ). Сравнивая определения p- и q -значений, можно увидеть, что q -значение является минимальной апостериорной вероятностью того, что это правда. [1]

Интерпретация

Значение q можно интерпретировать как частоту ложных срабатываний (FDR): долю ложных срабатываний среди всех положительных результатов. При наличии набора статистических данных теста и связанных с ними значений q отклонение нулевой гипотезы для всех тестов, чье значение q меньше или равно некоторому пороговому значению, гарантирует, что ожидаемое значение частоты ложных срабатываний будет равно . [6]

Приложения

Биология

Экспрессия генов

Геномный анализ дифференциальной экспрессии генов включает одновременное тестирование экспрессии тысяч генов. Контроль FWER (обычно до 0,05) позволяет избежать избыточных ложных положительных результатов (т. е. обнаружения дифференциальной экспрессии в гене, который не является дифференциально экспрессируемым), но накладывает строгий порог на p - значение, что приводит к множеству ложных отрицательных результатов (многие дифференциально экспрессируемые гены остаются без внимания). Однако контроль pFDR путем выбора генов со значительными q -значениями снижает число ложных отрицательных результатов (увеличивает статистическую мощность), гарантируя при этом, что ожидаемое значение доли ложных положительных результатов среди всех положительных результатов будет низким (например, 5%). [6]

Например, предположим, что среди 10 000 протестированных генов 1000 на самом деле дифференциально экспрессируются, а 9000 — нет:

Реализации

Примечание: ниже приведен неполный список.

Р

Ссылки

  1. ^ abcd Storey, John D. (2002). «Прямой подход к показателям ложных открытий». Журнал Королевского статистического общества, серия B (статистическая методология) . 64 (3): 479–498. CiteSeerX  10.1.1.320.7131 . doi :10.1111/1467-9868.00346.
  2. ^ Стори, Джон Д. (2003). «Положительный уровень ложных открытий: байесовская интерпретация и q-значение». Анналы статистики . 31 (6): 2013–2035. doi : 10.1214/aos/1074290335 .
  3. ^ abc Benjamini, Yoav; Hochberg, Yosef (1995). «Контроль частоты ложных открытий: практический и мощный подход к множественному тестированию». Журнал Королевского статистического общества. Серия B (Методологическая) . 57 : 289–300. doi :10.1111/j.2517-6161.1995.tb02031.x.
  4. ^ Nuzzo, Regina (2014). "Научный метод: Статистические ошибки". Nature . Получено 5 марта 2019 .
  5. ^ Стори, Джон Д. (2002). «Прямой подход к показателям ложных открытий». Журнал Королевского статистического общества, Серия B (Статистическая методология) . 64 (3): 479–498. CiteSeerX 10.1.1.320.7131 . doi :10.1111/1467-9868.00346. 
  6. ^ ab Storey, John D.; Tibshirani, Robert (2003). «Статистическая значимость для исследований генома». PNAS . 100 (16): 9440–9445. Bibcode :2003PNAS..100.9440S. doi :10.1073/pnas.1530509100. PMC 170937 . PMID  12883005. 
  7. ^ Стори, Джон Д.; Басс, Эндрю Дж.; Дэбни, Алан; Робинсон, Дэвид; Уорнс, Грегори (2019). "qvalue: оценка Q-значения для контроля частоты ложных срабатываний". Bioconductor .