В статистике проблема множественных сравнений , множественности или множественного тестирования возникает, когда одновременно рассматривается набор статистических выводов [1] или оценивается подмножество параметров, выбранных на основе наблюдаемых значений. [2]
Чем больше число сделанных выводов, тем более вероятны ошибочные выводы. Для решения этой проблемы было разработано несколько статистических методов, например, требующих более строгого порога значимости для индивидуальных сравнений, чтобы компенсировать число сделанных выводов. Методы для семейного коэффициента ошибок дают вероятность ложных положительных результатов, возникающих в результате проблемы множественных сравнений.
Проблема множественных сравнений привлекла повышенное внимание в 1950-х годах благодаря работам таких статистиков, как Тьюки и Шеффе . В последующие десятилетия было разработано множество процедур для решения этой проблемы. В 1996 году в Тель-Авиве прошла первая международная конференция по процедурам множественных сравнений . [3] Это активная область исследований, в которой работают, например, Эммануэль Кандес и Владимир Вовк .
Множественные сравнения возникают, когда статистический анализ включает в себя несколько одновременных статистических тестов, каждый из которых имеет потенциал для создания «открытия». Заявленный уровень достоверности обычно применяется только к каждому тесту, рассматриваемому по отдельности, но часто желательно иметь уровень достоверности для всего семейства одновременных тестов. [4] Неспособность компенсировать множественные сравнения может иметь важные последствия в реальном мире, как показано в следующих примерах:
В обоих примерах, по мере увеличения числа сравнений, становится более вероятным, что сравниваемые группы будут отличаться по крайней мере по одному атрибуту. Наша уверенность в том, что результат будет обобщен на независимые данные, должна быть, как правило, слабее, если он наблюдается как часть анализа, включающего множественные сравнения, а не анализа, включающего только одно сравнение.
Например, если один тест выполняется на уровне 5% и соответствующая нулевая гипотеза верна, существует только 5% риск неправильного отклонения нулевой гипотезы. Однако, если 100 тестов проводятся каждый на уровне 5% и все соответствующие нулевые гипотезы верны, ожидаемое количество неправильных отклонений (также известных как ложные положительные результаты или ошибки типа I ) составляет 5. Если тесты статистически независимы друг от друга (т. е. выполняются на независимых выборках), вероятность по крайней мере одного неправильного отклонения составляет приблизительно 99,4%.
Проблема множественных сравнений также применима к доверительным интервалам . Один доверительный интервал с 95%-ным уровнем вероятности покрытия будет содержать истинное значение параметра в 95% выборок. Однако, если рассмотреть 100 доверительных интервалов одновременно, каждый с 95%-ной вероятностью покрытия, ожидаемое количество непокрывающих интервалов составит 5. Если интервалы статистически независимы друг от друга, вероятность того, что по крайней мере один интервал не содержит параметр популяции, составляет 99,4%.
Разработаны методы, позволяющие предотвратить рост ложноположительных показателей и показателей неполного охвата, возникающих при проведении множественных статистических тестов.
Следующая таблица определяет возможные результаты при проверке нескольких нулевых гипотез. Предположим, у нас есть число m нулевых гипотез, обозначенных как: H 1 , H 2 , ..., H m . Используя статистический тест , мы отвергаем нулевую гипотезу, если тест объявлен значимым. Мы не отвергаем нулевую гипотезу, если тест незначим. Суммирование каждого типа результата по всем H i дает следующие случайные величины:
В m гипотезах, проверка которых является истинной нулевой гипотезой, R является наблюдаемой случайной величиной, а S , T , U и V являются ненаблюдаемыми случайными величинами .
Коррекция множественного тестирования относится к тому, чтобы сделать статистические тесты более строгими, чтобы противодействовать проблеме множественного тестирования. Наиболее известная такая корректировка — это коррекция Бонферрони , но были разработаны и другие методы. Такие методы обычно предназначены для контроля частоты ошибок по семействам или частоты ложных открытий .
Если выполняется m независимых сравнений, то коэффициент ошибок по семейству (FWER) определяется по формуле
Следовательно, если тесты не являются совершенно положительно зависимыми (т.е. идентичными), увеличивается с увеличением числа сравнений. Если мы не предполагаем, что сравнения независимы, то мы все еще можем сказать:
что следует из неравенства Буля . Пример:
Существуют различные способы обеспечения того, чтобы частота ошибок по семейству не превышала . Наиболее консервативным методом, свободным от зависимостей и предположений о распределении, является поправка Бонферрони . Чуть менее консервативную поправку можно получить, решив уравнение для частоты ошибок по семейству независимых сравнений для . Это дает , что известно как поправка Шидака . Другая процедура — метод Холма–Бонферрони , который равномерно обеспечивает большую мощность, чем простая поправка Бонферрони, путем проверки только самого низкого p-значения ( ) против самого строгого критерия и более высоких p-значений ( ) против постепенно менее строгих критериев. [5] .
Для непрерывных задач можно использовать байесовскую логику для вычисления отношения объемов априорного и апостериорного. Непрерывные обобщения поправок Бонферрони и Шидака представлены в. [6]
Традиционные методы корректировки множественных сравнений фокусируются на коррекции скромного числа сравнений, часто в дисперсионном анализе . Другой набор методов был разработан для «крупномасштабного множественного тестирования», в котором проводятся тысячи или даже большее количество тестов. Например, в геномике , при использовании таких технологий, как микрочипы , можно измерить уровни экспрессии десятков тысяч генов, а также можно измерить генотипы для миллионов генетических маркеров. В частности, в области исследований генетических ассоциаций возникла серьезная проблема с нерепликацией — результат, который был статистически значимым в одном исследовании, но не был воспроизведен в последующем исследовании. Такая нерепликация может иметь много причин, но широко распространено мнение, что неспособность в полной мере учесть последствия проведения множественных сравнений является одной из причин. [7] Утверждалось, что достижения в области измерений и информационных технологий значительно упростили создание больших наборов данных для разведочного анализа , что часто приводит к проверке большого количества гипотез без каких-либо предварительных оснований для ожидания, что многие из гипотез окажутся верными. В этой ситуации ожидаются очень высокие показатели ложноположительных результатов, если не вносить поправки на множественные сравнения.
Для крупномасштабных задач тестирования, где целью является предоставление окончательных результатов, частота ошибок по семействам остается наиболее приемлемым параметром для приписывания уровней значимости статистическим тестам. В качестве альтернативы, если исследование рассматривается как исследовательское или если значимые результаты могут быть легко повторно проверены в независимом исследовании, часто предпочтительным является контроль частоты ложных открытий (FDR) [8] [9] [10] . FDR, в широком смысле определяемый как ожидаемая доля ложных положительных результатов среди всех значимых тестов, позволяет исследователям идентифицировать набор «кандидатов-положительных результатов», которые могут быть более строго оценены в последующем исследовании. [11]
Практика попытки провести множество нескорректированных сравнений в надежде найти значимое — известная проблема, применяемая непреднамеренно или преднамеренно, иногда называется « p-хакингом ». [12] [13]
Основной вопрос, с которым сталкиваются в начале анализа большого набора результатов тестирования, заключается в том, есть ли доказательства того, что какая-либо из альтернативных гипотез верна. Один простой метатест, который можно применить, когда предполагается, что тесты независимы друг от друга, заключается в использовании распределения Пуассона в качестве модели для числа значимых результатов на заданном уровне α, которые были бы обнаружены, когда все нулевые гипотезы верны. [ необходима цитата ] Если наблюдаемое число положительных результатов существенно больше ожидаемого, это говорит о том, что среди значимых результатов, вероятно, есть некоторые истинно положительные результаты.
Например, если выполняется 1000 независимых тестов, каждый на уровне α = 0,05, мы ожидаем, что 0,05 × 1000 = 50 значимых тестов произойдут, когда все нулевые гипотезы верны. На основе распределения Пуассона со средним значением 50 вероятность наблюдения более 61 значимых тестов меньше 0,05, поэтому, если наблюдается более 61 значимых результатов, весьма вероятно, что некоторые из них соответствуют ситуациям, в которых верна альтернативная гипотеза. Недостатком этого подхода является то, что он преувеличивает доказательства того, что некоторые из альтернативных гипотез верны, когда статистики тестов положительно коррелируют, что часто происходит на практике. [ необходима цитата ] . С другой стороны, подход остается действительным даже при наличии корреляции между статистиками тестов, пока можно показать, что распределение Пуассона обеспечивает хорошее приближение для числа значимых результатов. Такой сценарий возникает, например, при извлечении значимых частых наборов элементов из транзакционных наборов данных. Более того, тщательный двухэтапный анализ может ограничить FDR на заранее определенном уровне. [14]
Другой распространенный подход, который можно использовать в ситуациях, когда статистику теста можно стандартизировать по Z-оценкам , заключается в построении графика нормальных квантилей статистики теста. Если наблюдаемые квантили заметно более разбросаны, чем нормальные квантили, это говорит о том, что некоторые из значимых результатов могут быть истинно положительными. [ необходима цитата ]
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка )