В статистике проблема множественных сравнений , множественности или множественного тестирования возникает, когда одновременно рассматривается набор статистических выводов [1] или оценивается подмножество параметров, выбранных на основе наблюдаемых значений. [2]
Чем больше количество сделанных выводов, тем больше вероятность ошибочных выводов. Для решения этой проблемы было разработано несколько статистических методов, например, путем установления более строгого порога значимости для индивидуальных сравнений, чтобы компенсировать количество сделанных выводов. Методы определения частоты семейных ошибок дают вероятность ложных срабатываний в результате проблемы множественных сравнений.
Проблема множественных сравнений привлекла повышенное внимание в 1950-х годах благодаря работам таких статистиков, как Тьюки и Шеффе . В последующие десятилетия было разработано множество процедур для решения этой проблемы. В 1996 году в Тель-Авиве прошла первая международная конференция по процедурам множественного сравнения . [3] Это активная область исследований, работу над которой ведут, например, Эммануэль Кандес и Владимир Вовк .
Множественные сравнения возникают, когда статистический анализ включает в себя несколько одновременных статистических тестов, каждый из которых потенциально может привести к «открытию». Установленный уровень достоверности обычно применяется только к каждому тесту, рассматриваемому отдельно, но часто желательно иметь уровень достоверности для всей группы одновременных тестов. [4] Неспособность компенсировать множественные сравнения может иметь важные последствия для реальной жизни, о чем свидетельствуют следующие примеры:
В обоих примерах по мере увеличения количества сравнений становится более вероятным, что сравниваемые группы будут отличаться по крайней мере по одному признаку. Наша уверенность в том, что результат будет обобщен на независимые данные, обычно должна быть слабее, если он наблюдается как часть анализа, включающего множественные сравнения, а не анализа, включающего только одно сравнение.
Например, если один тест выполняется на уровне 5% и соответствующая нулевая гипотеза верна, риск ошибочного отклонения нулевой гипотезы составляет всего 5%. Однако если каждый из 100 тестов проводится на уровне 5% и все соответствующие нулевые гипотезы верны, ожидаемое количество неправильных отклонений (также известных как ложноположительные результаты или ошибки типа I ) равно 5. Если тесты статистически независимы друг от друга (т.е. выполняются на независимых выборках), вероятность хотя бы одного неверного отбраковки составляет примерно 99,4%.
Проблема множественных сравнений также применима к доверительным интервалам . Один доверительный интервал с уровнем вероятности покрытия 95 % будет содержать истинное значение параметра в 95 % выборок. Однако если одновременно рассматривать 100 доверительных интервалов, каждый из которых имеет вероятность покрытия 95%, ожидаемое количество непокрывающих интервалов равно 5. Если интервалы статистически независимы друг от друга, вероятность того, что хотя бы один интервал не содержит совокупность параметр составляет 99,4%.
Были разработаны методы для предотвращения увеличения количества ложноположительных результатов и показателей отсутствия охвата, которые возникают при множественных статистических тестах.
В следующей таблице определены возможные результаты при проверке нескольких нулевых гипотез. Предположим, у нас есть количество m нулевых гипотез, обозначенных: H 1 , H 2 , ..., H m . Используя статистический тест , мы отвергаем нулевую гипотезу, если тест признан значимым. Мы не отвергаем нулевую гипотезу, если тест незначим. Суммирование каждого типа результата по всем H i дает следующие случайные величины:
В m тестах гипотез, которые являются истинными нулевыми гипотезами, R — наблюдаемая случайная величина, а S , T , U и V — ненаблюдаемые случайные величины .
Коррекция множественного тестирования означает, что статистические тесты становятся более строгими, чтобы решить проблему множественного тестирования. Наиболее известной такой корректировкой является поправка Бонферрони , но были разработаны и другие методы. Такие методы обычно предназначены для контроля частоты семейных ошибок или частоты ложных обнаружений .
Если выполняется m независимых сравнений, коэффициент ошибок для семейства (FWER) определяется выражением
Следовательно, если тесты не являются совершенно положительно зависимыми (т. е. идентичными), увеличивается по мере увеличения количества сравнений. Если не предполагать, что сравнения независимы, то все равно можно сказать:
что следует из неравенства Буля . Пример:
Существуют различные способы гарантировать, что частота семейных ошибок не превышает . Наиболее консервативным методом, свободным от зависимостей и предположений о распределении, является поправка Бонферрони . Чуть менее консервативная поправка может быть получена путем решения уравнения для семейной частоты ошибок независимых сравнений для . Это дает так называемую поправку Шидака . Другой процедурой является метод Холма-Бонферрони , который равномерно обеспечивает большую мощность, чем простая коррекция Бонферрони, путем проверки только самого низкого значения p ( ) на соответствие самому строгому критерию и более высоких значений p ( ) на основе постепенно менее строгих критериев. [5] .
Для непрерывных задач можно использовать байесовскую логику для вычисления соотношения объемов до и после. Непрерывные обобщения поправок Бонферрони и Шидака представлены в [6] .
Традиционные методы корректировки множественных сравнений сосредоточены на корректировке небольшого количества сравнений, часто при дисперсионном анализе . Другой набор методов был разработан для «крупномасштабного множественного тестирования», при котором выполняются тысячи или даже большее количество тестов. Например, в геномике при использовании таких технологий, как микрочипы , можно измерить уровни экспрессии десятков тысяч генов, а также измерить генотипы миллионов генетических маркеров. В частности, в области исследований генетических ассоциаций возникла серьезная проблема с отсутствием репликации — результат был статистически значимым в одном исследовании, но не был воспроизведен в последующем исследовании. Такое отсутствие репликации может иметь множество причин, но широко распространено мнение, что одной из причин является неспособность полностью учесть последствия проведения множественных сравнений. [7] Утверждалось, что достижения в области измерений и информационных технологий значительно облегчили создание больших наборов данных для исследовательского анализа , что часто приводит к проверке большого количества гипотез без предварительного основания ожидать, что многие из гипотез верны. . В этой ситуации ожидается очень высокий уровень ложноположительных результатов , если не будут сделаны корректировки при множественных сравнениях.
Для крупномасштабных задач тестирования, целью которых является получение окончательных результатов, коэффициент семейных ошибок остается наиболее приемлемым параметром для присвоения уровней значимости статистическим тестам. В качестве альтернативы, если исследование рассматривается как исследовательское или если значительные результаты могут быть легко повторно проверены в независимом исследовании, часто предпочтительнее контролировать уровень ложных открытий (FDR) [8] [9] [10] . FDR, грубо определяемый как ожидаемая доля ложноположительных результатов среди всех значимых тестов, позволяет исследователям определить набор «кандидатов на положительные результаты», которые можно более тщательно оценить в последующем исследовании. [11]
Практика проведения множества нескорректированных сравнений в надежде найти значимое из них — известная проблема, независимо от того, применяется ли она непреднамеренно или намеренно, иногда называется « p-хакингом ». [12] [13]
Основной вопрос, который возникает в начале анализа большого набора результатов тестирования, заключается в том, существуют ли доказательства того, что какая-либо из альтернативных гипотез верна. Один простой мета-тест, который можно применить, когда предполагается, что тесты независимы друг от друга, — это использовать распределение Пуассона в качестве модели для количества значимых результатов на заданном уровне α, которые будут обнаружены, когда все нулевые гипотезы верны. истинный. [ нужна цитата ] Если наблюдаемое количество положительных результатов существенно превышает ожидаемое, это говорит о том, что среди значимых результатов, вероятно, есть некоторые истинные положительные результаты.
Например, если выполнено 1000 независимых тестов, каждый на уровне α = 0,05, мы ожидаем, что 0,05 × 1000 = 50 значимых тестов произойдет, когда все нулевые гипотезы верны. На основе распределения Пуассона со средним значением 50 вероятность наблюдения более 61 значимого теста составляет менее 0,05, поэтому, если наблюдается более 61 значимого результата, весьма вероятно, что некоторые из них соответствуют ситуациям, в которых справедлива альтернативная гипотеза. Недостаток этого подхода заключается в том, что он преувеличивает доказательства того, что некоторые альтернативные гипотезы верны, когда статистические данные испытаний положительно коррелируют, что обычно происходит на практике. [ нужна цитата ] . С другой стороны, этот подход остается действительным даже при наличии корреляции между статистикой испытаний, пока можно показать, что распределение Пуассона обеспечивает хорошее приближение для количества значимых результатов. Этот сценарий возникает, например, при извлечении значительных часто встречающихся наборов элементов из наборов транзакционных данных. Более того, тщательный двухэтапный анализ может ограничить ФДР на заранее заданном уровне. [14]
Другой распространенный подход, который можно использовать в ситуациях, когда статистика теста может быть стандартизирована до Z-показателей, заключается в построении обычного квантильного графика статистики теста. Если наблюдаемые квантили заметно более разбросаны, чем нормальные квантили, это говорит о том, что некоторые из значимых результатов могут быть истинно положительными. [ нужна цитата ]
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка )