Проблема множественных сравнений

В статистике проблема множественных сравнений , множественности или множественного тестирования возникает, когда одновременно рассматривается набор статистических выводов ^[1] или оценивается подмножество параметров, выбранных на основе наблюдаемых значений. ^[2]

Чем больше количество сделанных выводов, тем больше вероятность ошибочных выводов. Для решения этой проблемы было разработано несколько статистических методов, например, путем установления более строгого порога значимости для индивидуальных сравнений, чтобы компенсировать количество сделанных выводов. Методы определения частоты семейных ошибок дают вероятность ложных срабатываний в результате проблемы множественных сравнений.

История

Проблема множественных сравнений привлекла повышенное внимание в 1950-х годах благодаря работам таких статистиков, как Тьюки и Шеффе . В последующие десятилетия было разработано множество процедур для решения этой проблемы. В 1996 году в Тель-Авиве прошла первая международная конференция по процедурам множественного сравнения . ^[3] Это активная область исследований, работу над которой ведут, например, Эммануэль Кандес и Владимир Вовк .

Определение

Множественные сравнения возникают, когда статистический анализ включает в себя несколько одновременных статистических тестов, каждый из которых потенциально может привести к «открытию». Установленный уровень достоверности обычно применяется только к каждому тесту, рассматриваемому отдельно, но часто желательно иметь уровень достоверности для всей группы одновременных тестов. ^[4] Неспособность компенсировать множественные сравнения может иметь важные последствия для реальной жизни, о чем свидетельствуют следующие примеры:

Предположим, что лечение — это новый способ обучения учащихся письму, а контроль — стандартный способ обучения письму. Учащихся двух групп можно сравнить по грамматике, правописанию, организации, содержанию и так далее. По мере сравнения большего количества атрибутов становится все более вероятным, что экспериментальная и контрольная группы будут отличаться по крайней мере по одному атрибуту только из-за ошибки случайной выборки .
Предположим, мы рассматриваем эффективность лекарства с точки зрения уменьшения любого из множества симптомов заболевания. По мере рассмотрения большего количества симптомов становится все более вероятным, что препарат будет лучше существующих по крайней мере в отношении одного симптома.

В обоих примерах по мере увеличения количества сравнений становится более вероятным, что сравниваемые группы будут отличаться по крайней мере по одному признаку. Наша уверенность в том, что результат будет обобщен на независимые данные, обычно должна быть слабее, если он наблюдается как часть анализа, включающего множественные сравнения, а не анализа, включающего только одно сравнение.

Например, если один тест выполняется на уровне 5% и соответствующая нулевая гипотеза верна, риск ошибочного отклонения нулевой гипотезы составляет всего 5%. Однако если каждый из 100 тестов проводится на уровне 5% и все соответствующие нулевые гипотезы верны, ожидаемое количество неправильных отклонений (также известных как ложноположительные результаты или ошибки типа I ) равно 5. Если тесты статистически независимы друг от друга (т.е. выполняются на независимых выборках), вероятность хотя бы одного неверного отбраковки составляет примерно 99,4%.

Проблема множественных сравнений также применима к доверительным интервалам . Один доверительный интервал с уровнем вероятности покрытия 95 % будет содержать истинное значение параметра в 95 % выборок. Однако если одновременно рассматривать 100 доверительных интервалов, каждый из которых имеет вероятность покрытия 95%, ожидаемое количество непокрывающих интервалов равно 5. Если интервалы статистически независимы друг от друга, вероятность того, что хотя бы один интервал не содержит совокупность параметр составляет 99,4%.

Были разработаны методы для предотвращения увеличения количества ложноположительных результатов и показателей отсутствия охвата, которые возникают при множественных статистических тестах.

Классификация множественных проверок гипотез

В следующей таблице определены возможные результаты при проверке нескольких нулевых гипотез. Предположим, у нас есть количество m нулевых гипотез, обозначенных: $H 1, H 2, ..., H m .$ Используя статистический тест , мы отвергаем нулевую гипотезу, если тест признан значимым. Мы не отвергаем нулевую гипотезу, если тест незначим. Суммирование каждого типа результата по всем H _i дает следующие случайные величины:

$m$ — общее количество проверенных гипотез.
$m_{0}$ — количество истинных нулевых гипотез , неизвестный параметр
$м-м_{0}$ количество истинных альтернативных гипотез
$V$ — количество ложных срабатываний (ошибка I рода) (также называемых «ложными открытиями»).
$S$ — количество истинных положительных результатов (также называемых «истинными открытиями»).
$T$ — количество ложноотрицательных результатов (ошибка II рода)
$U$ - количество истинных негативов
$R=V+S$ количество отвергнутых нулевых гипотез (также называемых «открытиями», истинными или ложными)

В $m$ тестах гипотез, которые являются истинными нулевыми гипотезами, $R$ — наблюдаемая случайная величина, а $S$ , $T$ , $U$ и $V$ — ненаблюдаемые случайные величины . $m_{0}$

Процедуры контроля

Вероятность того, что по крайней мере одна нулевая гипотеза будет ошибочно отвергнута при , как функция количества независимых проверок .

\alpha _{\text{по сравнению}}=0,05

м

Множественная коррекция тестирования

Коррекция множественного тестирования означает, что статистические тесты становятся более строгими, чтобы решить проблему множественного тестирования. Наиболее известной такой корректировкой является поправка Бонферрони , но были разработаны и другие методы. Такие методы обычно предназначены для контроля частоты семейных ошибок или частоты ложных обнаружений .

Если выполняется m независимых сравнений, коэффициент ошибок для семейства (FWER) определяется выражением

{\bar {\alpha }}=1-\left(1-\alpha _{\{{\text{для сравнения}}\}}\right)^{m}.

Следовательно, если тесты не являются совершенно положительно зависимыми (т. е. идентичными), увеличивается по мере увеличения количества сравнений. Если не предполагать, что сравнения независимы, то все равно можно сказать: ${\bar {\alpha }}$

{\bar {\alpha }}\leq m\cdot \alpha _ {\{{\text{для сравнения}}\}},

что следует из неравенства Буля . Пример: $0,2649=1-(1-.05)^{6}\leq .05\times 6=0,3$

Существуют различные способы гарантировать, что частота семейных ошибок не превышает . Наиболее консервативным методом, свободным от зависимостей и предположений о распределении, является поправка Бонферрони . Чуть менее консервативная поправка может быть получена путем решения уравнения для семейной частоты ошибок независимых сравнений для . Это дает так называемую поправку Шидака . Другой процедурой является метод Холма-Бонферрони , который равномерно обеспечивает большую мощность, чем простая коррекция Бонферрони, путем проверки только самого низкого значения p ( ) на соответствие самому строгому критерию и более высоких значений p ( ) на основе постепенно менее строгих критериев. ^[5] . $\альфа$ $\alpha _{\mathrm {\{на\ сравнение\}} }={\alpha }/m$ $м$ $\alpha _{\mathrm {\{по\ сравнению\}} }$ $\alpha _{\{{\text{за сравнение}}\}}=1-{(1-{\alpha })}^{1/m}$ $я=1$ $я>1$ $\alpha _{\mathrm {\{per\ сравнение\}} }={\alpha }/(m-i+1)$

Для непрерывных задач можно использовать байесовскую логику для вычисления соотношения объемов до и после. Непрерывные обобщения поправок Бонферрони и Шидака представлены в ^{[6] .} $м$

Масштабное множественное тестирование

Традиционные методы корректировки множественных сравнений сосредоточены на корректировке небольшого количества сравнений, часто при дисперсионном анализе . Другой набор методов был разработан для «крупномасштабного множественного тестирования», при котором выполняются тысячи или даже большее количество тестов. Например, в геномике при использовании таких технологий, как микрочипы , можно измерить уровни экспрессии десятков тысяч генов, а также измерить генотипы миллионов генетических маркеров. В частности, в области исследований генетических ассоциаций возникла серьезная проблема с отсутствием репликации — результат был статистически значимым в одном исследовании, но не был воспроизведен в последующем исследовании. Такое отсутствие репликации может иметь множество причин, но широко распространено мнение, что одной из причин является неспособность полностью учесть последствия проведения множественных сравнений. ^[7] Утверждалось, что достижения в области измерений и информационных технологий значительно облегчили создание больших наборов данных для исследовательского анализа , что часто приводит к проверке большого количества гипотез без предварительного основания ожидать, что многие из гипотез верны. . В этой ситуации ожидается очень высокий уровень ложноположительных результатов , если не будут сделаны корректировки при множественных сравнениях.

Для крупномасштабных задач тестирования, целью которых является получение окончательных результатов, коэффициент семейных ошибок остается наиболее приемлемым параметром для присвоения уровней значимости статистическим тестам. В качестве альтернативы, если исследование рассматривается как исследовательское или если значительные результаты могут быть легко повторно проверены в независимом исследовании, часто предпочтительнее контролировать уровень ложных открытий (FDR) ^[8]^[9]^[10] . FDR, грубо определяемый как ожидаемая доля ложноположительных результатов среди всех значимых тестов, позволяет исследователям определить набор «кандидатов на положительные результаты», которые можно более тщательно оценить в последующем исследовании. ^[11]

Практика проведения множества нескорректированных сравнений в надежде найти значимое из них — известная проблема, независимо от того, применяется ли она непреднамеренно или намеренно, иногда называется « p-хакингом ». ^[12]^[13]

Оценка того, верны ли какие-либо альтернативные гипотезы

Основной вопрос, который возникает в начале анализа большого набора результатов тестирования, заключается в том, существуют ли доказательства того, что какая-либо из альтернативных гипотез верна. Один простой мета-тест, который можно применить, когда предполагается, что тесты независимы друг от друга, — это использовать распределение Пуассона в качестве модели для количества значимых результатов на заданном уровне α, которые будут обнаружены, когда все нулевые гипотезы верны. истинный. ^{[ нужна цитата ]} Если наблюдаемое количество положительных результатов существенно превышает ожидаемое, это говорит о том, что среди значимых результатов, вероятно, есть некоторые истинные положительные результаты.

Например, если выполнено 1000 независимых тестов, каждый на уровне α = 0,05, мы ожидаем, что 0,05 × 1000 = 50 значимых тестов произойдет, когда все нулевые гипотезы верны. На основе распределения Пуассона со средним значением 50 вероятность наблюдения более 61 значимого теста составляет менее 0,05, поэтому, если наблюдается более 61 значимого результата, весьма вероятно, что некоторые из них соответствуют ситуациям, в которых справедлива альтернативная гипотеза. Недостаток этого подхода заключается в том, что он преувеличивает доказательства того, что некоторые альтернативные гипотезы верны, когда статистические данные испытаний положительно коррелируют, что обычно происходит на практике. ^{[ нужна цитата ]} . С другой стороны, этот подход остается действительным даже при наличии корреляции между статистикой испытаний, пока можно показать, что распределение Пуассона обеспечивает хорошее приближение для количества значимых результатов. Этот сценарий возникает, например, при извлечении значительных часто встречающихся наборов элементов из наборов транзакционных данных. Более того, тщательный двухэтапный анализ может ограничить ФДР на заранее заданном уровне. ^[14]

Другой распространенный подход, который можно использовать в ситуациях, когда статистика теста может быть стандартизирована до Z-показателей, заключается в построении обычного квантильного графика статистики теста. Если наблюдаемые квантили заметно более разбросаны, чем нормальные квантили, это говорит о том, что некоторые из значимых результатов могут быть истинно положительными. ^{[ нужна цитата ]}

Смотрите также

q -значение

Ключевые идеи

Общие методы альфа-корректировки для множественных сравнений

Связанные понятия

дальнейшее чтение

Ф. Бретц, Т. Хоторн, П. Вестфолл (2010), Множественные сравнения с использованием R , CRC Press
С. Дюдуа и М. Дж. ван дер Лаан (2008), Множественные процедуры тестирования с применением к геномике , Springer
Фаркомени, А. (2008). «Обзор современной проверки множественных гипотез с особым вниманием к доле ложных открытий». Статистические методы в медицинских исследованиях . 17 (4): 347–388. дои : 10.1177/0962280206079046. hdl : 11573/142139. PMID 17698936. S2CID 12777404.
Фипсон, Б.; Смит, ГК (2010). «P-значения перестановок никогда не должны быть нулевыми: расчет точных P-значений при случайном рисовании перестановок». Статистические приложения в генетике и молекулярной биологии . 9 : Статья 39. arXiv : 1603.05766 . дои : 10.2202/1544-6115.1585. PMID 21044043. S2CID 10735784.
П.Х. Вестфолл и С.С. Янг (1993), Множественное тестирование на основе повторной выборки: примеры и методы корректировки p-значения , Wiley
П. Вестфолл, Р. Тобиас, Р. Вулфингер (2011) Множественные сравнения и множественное тестирование с использованием SAS , 2-е изд., Институт SAS
Галерея примеров неправдоподобных корреляций, полученных в результате сбора данных
[1] Комикс xkcd о проблеме множественных сравнений на примере мармеладок и прыщей.