stringtranslate.com

Проблема множественных сравнений

Пример совпадения, полученного в результате сбора данных (нескорректированные множественные сравнения), показывающий корреляцию между количеством букв в слове-победителе орфографической пчелы и количеством людей в Соединенных Штатах, убитых ядовитыми пауками. Учитывая достаточно большой набор переменных за один и тот же период времени, можно найти пару графиков, демонстрирующих ложную корреляцию .

В статистике проблема множественных сравнений , множественности или множественного тестирования возникает, когда одновременно рассматривается набор статистических выводов [1] или оценивается подмножество параметров, выбранных на основе наблюдаемых значений. [2]

Чем больше количество сделанных выводов, тем больше вероятность ошибочных выводов. Для решения этой проблемы было разработано несколько статистических методов, например, путем установления более строгого порога значимости для индивидуальных сравнений, чтобы компенсировать количество сделанных выводов. Методы определения частоты семейных ошибок дают вероятность ложных срабатываний в результате проблемы множественных сравнений.

История

Проблема множественных сравнений привлекла повышенное внимание в 1950-х годах благодаря работам таких статистиков, как Тьюки и Шеффе . В последующие десятилетия было разработано множество процедур для решения этой проблемы. В 1996 году в Тель-Авиве прошла первая международная конференция по процедурам множественного сравнения . [3] Это активная область исследований, работу над которой ведут, например, Эммануэль Кандес и Владимир Вовк .

Определение

Получение небольшого значения p путем многократного тестирования.
Наблюдают 30 образцов по 10 точек случайного цвета (синего или красного). На каждой выборке выполняется двусторонний биномиальный тест нулевой гипотезы о том, что синий и красный цвета равновероятны. В первой строке показаны возможные значения p в зависимости от количества синих и красных точек в образце.
Хотя все 30 выборок были смоделированы с нулевым значением, одно из полученных значений p достаточно мало, чтобы привести к ложному отклонению на типичном уровне 0,05 при отсутствии коррекции.

Множественные сравнения возникают, когда статистический анализ включает в себя несколько одновременных статистических тестов, каждый из которых потенциально может привести к «открытию». Установленный уровень достоверности обычно применяется только к каждому тесту, рассматриваемому отдельно, но часто желательно иметь уровень достоверности для всей группы одновременных тестов. [4] Неспособность компенсировать множественные сравнения может иметь важные последствия для реальной жизни, о чем свидетельствуют следующие примеры:

В обоих примерах по мере увеличения количества сравнений становится более вероятным, что сравниваемые группы будут отличаться по крайней мере по одному признаку. Наша уверенность в том, что результат будет обобщен на независимые данные, обычно должна быть слабее, если он наблюдается как часть анализа, включающего множественные сравнения, а не анализа, включающего только одно сравнение.

Например, если один тест выполняется на уровне 5% и соответствующая нулевая гипотеза верна, риск ошибочного отклонения нулевой гипотезы составляет всего 5%. Однако если каждый из 100 тестов проводится на уровне 5% и все соответствующие нулевые гипотезы верны, ожидаемое количество неправильных отклонений (также известных как ложноположительные результаты или ошибки типа I ) равно 5. Если тесты статистически независимы друг от друга (т.е. выполняются на независимых выборках), вероятность хотя бы одного неверного отбраковки составляет примерно 99,4%.

Проблема множественных сравнений также применима к доверительным интервалам . Один доверительный интервал с уровнем вероятности покрытия 95 % будет содержать истинное значение параметра в 95 % выборок. Однако если одновременно рассматривать 100 доверительных интервалов, каждый из которых имеет вероятность покрытия 95%, ожидаемое количество непокрывающих интервалов равно 5. Если интервалы статистически независимы друг от друга, вероятность того, что хотя бы один интервал не содержит совокупность параметр составляет 99,4%.

Были разработаны методы для предотвращения увеличения количества ложноположительных результатов и показателей отсутствия охвата, которые возникают при множественных статистических тестах.

Классификация множественных проверок гипотез

В следующей таблице определены возможные результаты при проверке нескольких нулевых гипотез. Предположим, у нас есть количество m нулевых гипотез, обозначенных: H 1H 2 , ...,  H m . Используя статистический тест , мы отвергаем нулевую гипотезу, если тест признан значимым. Мы не отвергаем нулевую гипотезу, если тест незначим. Суммирование каждого типа результата по всем H i   дает следующие случайные величины:

В m тестах гипотез, которые являются истинными нулевыми гипотезами, R — наблюдаемая случайная величина, а S , T , U и V — ненаблюдаемые случайные величины .

Процедуры контроля

Вероятность того, что по крайней мере одна нулевая гипотеза будет ошибочно отвергнута при , как функция количества независимых проверок .

Множественная коррекция тестирования

Коррекция множественного тестирования означает, что статистические тесты становятся более строгими, чтобы решить проблему множественного тестирования. Наиболее известной такой корректировкой является поправка Бонферрони , но были разработаны и другие методы. Такие методы обычно предназначены для контроля частоты семейных ошибок или частоты ложных обнаружений .

Если выполняется m независимых сравнений, коэффициент ошибок для семейства (FWER) определяется выражением

Следовательно, если тесты не являются совершенно положительно зависимыми (т. е. идентичными), увеличивается по мере увеличения количества сравнений. Если не предполагать, что сравнения независимы, то все равно можно сказать:

что следует из неравенства Буля . Пример:

Существуют различные способы гарантировать, что частота семейных ошибок не превышает . Наиболее консервативным методом, свободным от зависимостей и предположений о распределении, является поправка Бонферрони . Чуть менее консервативная поправка может быть получена путем решения уравнения для семейной частоты ошибок независимых сравнений для . Это дает так называемую поправку Шидака . Другой процедурой является метод Холма-Бонферрони , который равномерно обеспечивает большую мощность, чем простая коррекция Бонферрони, путем проверки только самого низкого значения p ( ) на соответствие самому строгому критерию и более высоких значений p ( ) на основе постепенно менее строгих критериев. [5] .

Для непрерывных задач можно использовать байесовскую логику для вычисления соотношения объемов до и после. Непрерывные обобщения поправок Бонферрони и Шидака представлены в [6] .

Масштабное множественное тестирование

Традиционные методы корректировки множественных сравнений сосредоточены на корректировке небольшого количества сравнений, часто при дисперсионном анализе . Другой набор методов был разработан для «крупномасштабного множественного тестирования», при котором выполняются тысячи или даже большее количество тестов. Например, в геномике при использовании таких технологий, как микрочипы , можно измерить уровни экспрессии десятков тысяч генов, а также измерить генотипы миллионов генетических маркеров. В частности, в области исследований генетических ассоциаций возникла серьезная проблема с отсутствием репликации — результат был статистически значимым в одном исследовании, но не был воспроизведен в последующем исследовании. Такое отсутствие репликации может иметь множество причин, но широко распространено мнение, что одной из причин является неспособность полностью учесть последствия проведения множественных сравнений. [7] Утверждалось, что достижения в области измерений и информационных технологий значительно облегчили создание больших наборов данных для исследовательского анализа , что часто приводит к проверке большого количества гипотез без предварительного основания ожидать, что многие из гипотез верны. . В этой ситуации ожидается очень высокий уровень ложноположительных результатов , если не будут сделаны корректировки при множественных сравнениях.

Для крупномасштабных задач тестирования, целью которых является получение окончательных результатов, коэффициент семейных ошибок остается наиболее приемлемым параметром для присвоения уровней значимости статистическим тестам. В качестве альтернативы, если исследование рассматривается как исследовательское или если значительные результаты могут быть легко повторно проверены в независимом исследовании, часто предпочтительнее контролировать уровень ложных открытий (FDR) [8] [9] [10] . FDR, грубо определяемый как ожидаемая доля ложноположительных результатов среди всех значимых тестов, позволяет исследователям определить набор «кандидатов на положительные результаты», которые можно более тщательно оценить в последующем исследовании. [11]

Практика проведения множества нескорректированных сравнений в надежде найти значимое из них — известная проблема, независимо от того, применяется ли она непреднамеренно или намеренно, иногда называется « p-хакингом ». [12] [13]

Оценка того, верны ли какие-либо альтернативные гипотезы

Обычный квантильный график для смоделированного набора тестовых статистических данных, которые были стандартизированы как Z-показатели при нулевой гипотезе. Отклонение верхнего хвоста распределения от ожидаемого тренда по диагонали обусловлено наличием существенно более крупных значений тестовой статистики, чем можно было бы ожидать, если бы все нулевые гипотезы были верны. Красная точка соответствует четвертому по величине наблюдаемому показателю теста, равному 3,13 по сравнению с ожидаемым значением 2,06. Синяя точка соответствует пятому наименьшему показателю теста, который составляет -1,75 по сравнению с ожидаемым значением -1,96. График показывает, что маловероятно, что все нулевые гипотезы верны и что большинство или все случаи истинной альтернативной гипотезы являются результатом отклонений в положительном направлении.

Основной вопрос, который возникает в начале анализа большого набора результатов тестирования, заключается в том, существуют ли доказательства того, что какая-либо из альтернативных гипотез верна. Один простой мета-тест, который можно применить, когда предполагается, что тесты независимы друг от друга, — это использовать распределение Пуассона в качестве модели для количества значимых результатов на заданном уровне α, которые будут обнаружены, когда все нулевые гипотезы верны. истинный. [ нужна цитата ] Если наблюдаемое количество положительных результатов существенно превышает ожидаемое, это говорит о том, что среди значимых результатов, вероятно, есть некоторые истинные положительные результаты.

Например, если выполнено 1000 независимых тестов, каждый на уровне α = 0,05, мы ожидаем, что 0,05 × 1000 = 50 значимых тестов произойдет, когда все нулевые гипотезы верны. На основе распределения Пуассона со средним значением 50 вероятность наблюдения более 61 значимого теста составляет менее 0,05, поэтому, если наблюдается более 61 значимого результата, весьма вероятно, что некоторые из них соответствуют ситуациям, в которых справедлива альтернативная гипотеза. Недостаток этого подхода заключается в том, что он преувеличивает доказательства того, что некоторые альтернативные гипотезы верны, когда статистические данные испытаний положительно коррелируют, что обычно происходит на практике. [ нужна цитата ] . С другой стороны, этот подход остается действительным даже при наличии корреляции между статистикой испытаний, пока можно показать, что распределение Пуассона обеспечивает хорошее приближение для количества значимых результатов. Этот сценарий возникает, например, при извлечении значительных часто встречающихся наборов элементов из наборов транзакционных данных. Более того, тщательный двухэтапный анализ может ограничить ФДР на заранее заданном уровне. [14]

Другой распространенный подход, который можно использовать в ситуациях, когда статистика теста может быть стандартизирована до Z-показателей, заключается в построении обычного квантильного графика статистики теста. Если наблюдаемые квантили заметно более разбросаны, чем нормальные квантили, это говорит о том, что некоторые из значимых результатов могут быть истинно положительными. [ нужна цитата ]

Смотрите также

Ключевые идеи
Общие методы альфа-корректировки для множественных сравнений
Связанные понятия

Рекомендации

  1. ^ Миллер, Р.Г. (1981). Одновременный статистический вывод, 2-е изд . Спрингер Верлаг Нью-Йорк. ISBN 978-0-387-90548-8.
  2. ^ Бенджамини, Ю. (2010). «Одновременный и выборочный вывод: текущие успехи и будущие проблемы». Биометрический журнал . 52 (6): 708–721. дои : 10.1002/bimj.200900299. PMID  21154895. S2CID  8806192.
  3. ^ «Дом». mcp-conference.org .
  4. ^ Катнер, Майкл; Нахтсхайм, Кристофер; Нетер, Джон ; Ли, Уильям (2005). Прикладные линейные статистические модели . МакГроу-Хилл Ирвин. стр. 744–745. ISBN 9780072386882.
  5. ^ Эйкин, М; Генслер, Х. (май 1996 г.). «Поправка на множественное тестирование при сообщении о результатах исследований: методы Бонферрони и Холма». Am J Общественное здравоохранение . 86 (5): 726–728. дои : 10.2105/ajph.86.5.726. ПМК 1380484 . ПМИД  8629727. 
  6. ^ Байер, Адриан Э.; Селяк, Урош (2020). «Эффект поиска в другом месте с единой байесовской и частотной точек зрения». Журнал космологии и физики астрочастиц . 2020 (10): 009. arXiv : 2007.13821 . Бибкод : 2020JCAP...10..009B. дои : 10.1088/1475-7516/2020/10/009. S2CID  220830693.
  7. ^ Цюй, Хуэй-Ци; Тьен, Мэтью; Полихронакос, Константин (01 октября 2010 г.). «Статистическая значимость в исследованиях генетических ассоциаций». Клиническая и исследовательская медицина . 33 (5): Е266–Е270. ISSN  0147-958X. ПМК 3270946 . ПМИД  20926032. 
  8. ^ Бенджамини, Йоав; Хохберг, Йосеф (1995). «Контроль количества ложных обнаружений: практичный и мощный подход к множественному тестированию». Журнал Королевского статистического общества, серия B. 57 (1): 125–133. JSTOR  2346101.
  9. ^ Стори, Джей Ди; Тибширани, Роберт (2003). «Статистическая значимость для полногеномных исследований». ПНАС . 100 (16): 9440–9445. Бибкод : 2003PNAS..100.9440S. дои : 10.1073/pnas.1530509100 . JSTOR  3144228. PMC 170937 . ПМИД  12883005. 
  10. ^ Эфрон, Брэдли; Тибширани, Роберт; Стори, Джон Д.; Ташер, Вирджиния (2001). «Эмпирический байесовский анализ эксперимента с микрочипами». Журнал Американской статистической ассоциации . 96 (456): 1151–1160. дои : 10.1198/016214501753382129. JSTOR  3085878. S2CID  9076863.
  11. ^ Ноубл, Уильям С. (1 декабря 2009 г.). «Как работает коррекция множественного тестирования?». Природная биотехнология . 27 (12): 1135–1137. дои : 10.1038/nbt1209-1135. ISSN  1087-0156. ПМЦ 2907892 . ПМИД  20010596. 
  12. ^ Янг, СС, Карр, А. (2011). «Деминг, данные и наблюдательные исследования» (PDF) . Значение . 8 (3): 116–120. дои : 10.1111/j.1740-9713.2011.00506.x .{{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  13. ^ Смит, Г.Д., Шах, Э. (2002). «Извлечение данных, предвзятость или путаница». БМЖ . 325 (7378): 1437–1438. дои : 10.1136/bmj.325.7378.1437. ПМЦ 1124898 . ПМИД  12493654. {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  14. ^ Кирш, А; Митценмахер, М ; Пьетракаприна, А; Пуччи, Дж; Упфал, Э ; Вандин, Ф. (июнь 2012 г.). «Эффективный строгий подход к выявлению статистически значимых часто встречающихся наборов элементов». Журнал АКМ . 59 (3): 12:1–12:22. arXiv : 1002.1104 . дои : 10.1145/2220357.2220359.

дальнейшее чтение