stringtranslate.com

Проблема множественных сравнений

Пример совпадения, полученного путем выемки данных (неисправленные множественные сравнения), показывающий корреляцию между количеством букв в победившем слове в конкурсе на знание орфографии и количеством людей в Соединенных Штатах, убитых ядовитыми пауками. При наличии достаточно большого пула переменных за тот же период времени можно найти пару графиков, которые показывают ложную корреляцию .

В статистике проблема множественных сравнений , множественности или множественного тестирования возникает, когда одновременно рассматривается набор статистических выводов [1] или оценивается подмножество параметров, выбранных на основе наблюдаемых значений. [2]

Чем больше число сделанных выводов, тем более вероятны ошибочные выводы. Для решения этой проблемы было разработано несколько статистических методов, например, требующих более строгого порога значимости для индивидуальных сравнений, чтобы компенсировать число сделанных выводов. Методы для семейного коэффициента ошибок дают вероятность ложных положительных результатов, возникающих в результате проблемы множественных сравнений.

История

Проблема множественных сравнений привлекла повышенное внимание в 1950-х годах благодаря работам таких статистиков, как Тьюки и Шеффе . В последующие десятилетия было разработано множество процедур для решения этой проблемы. В 1996 году в Тель-Авиве прошла первая международная конференция по процедурам множественных сравнений . [3] Это активная область исследований, в которой работают, например, Эммануэль Кандес и Владимир Вовк .

Определение

Получение небольшого p-значения путем множественного тестирования.
Наблюдаются 30 образцов из 10 точек случайного цвета (синего или красного). Для каждого образца выполняется двусторонний биномиальный тест нулевой гипотезы о том, что синий и красный цвета равновероятны. В первой строке показаны возможные p-значения как функция количества синих и красных точек в образце.
Хотя все 30 образцов были смоделированы при нулевом значении, одно из полученных p-значений достаточно мало, чтобы вызвать ложное отклонение на типичном уровне 0,05 при отсутствии коррекции.

Множественные сравнения возникают, когда статистический анализ включает в себя несколько одновременных статистических тестов, каждый из которых имеет потенциал для создания «открытия». Заявленный уровень достоверности обычно применяется только к каждому тесту, рассматриваемому по отдельности, но часто желательно иметь уровень достоверности для всего семейства одновременных тестов. [4] Неспособность компенсировать множественные сравнения может иметь важные последствия в реальном мире, как показано в следующих примерах:

В обоих примерах, по мере увеличения числа сравнений, становится более вероятным, что сравниваемые группы будут отличаться по крайней мере по одному атрибуту. Наша уверенность в том, что результат будет обобщен на независимые данные, должна быть, как правило, слабее, если он наблюдается как часть анализа, включающего множественные сравнения, а не анализа, включающего только одно сравнение.

Например, если один тест выполняется на уровне 5% и соответствующая нулевая гипотеза верна, существует только 5% риск неправильного отклонения нулевой гипотезы. Однако, если 100 тестов проводятся каждый на уровне 5% и все соответствующие нулевые гипотезы верны, ожидаемое количество неправильных отклонений (также известных как ложные положительные результаты или ошибки типа I ) составляет 5. Если тесты статистически независимы друг от друга (т. е. выполняются на независимых выборках), вероятность по крайней мере одного неправильного отклонения составляет приблизительно 99,4%.

Проблема множественных сравнений также применима к доверительным интервалам . Один доверительный интервал с 95%-ным уровнем вероятности покрытия будет содержать истинное значение параметра в 95% выборок. Однако, если рассмотреть 100 доверительных интервалов одновременно, каждый с 95%-ной вероятностью покрытия, ожидаемое количество непокрывающих интервалов составит 5. Если интервалы статистически независимы друг от друга, вероятность того, что по крайней мере один интервал не содержит параметр популяции, составляет 99,4%.

Разработаны методы, позволяющие предотвратить рост ложноположительных показателей и показателей неполного охвата, возникающих при проведении множественных статистических тестов.

Классификация множественных проверок гипотез

Следующая таблица определяет возможные результаты при проверке нескольких нулевых гипотез. Предположим, у нас есть число m нулевых гипотез, обозначенных как: H 1H 2 , ...,  H m . Используя статистический тест , мы отвергаем нулевую гипотезу, если тест объявлен значимым. Мы не отвергаем нулевую гипотезу, если тест незначим. Суммирование каждого типа результата по всем H i   дает следующие случайные величины:

В m гипотезах, проверка которых является истинной нулевой гипотезой, R является наблюдаемой случайной величиной, а S , T , U и V являются ненаблюдаемыми случайными величинами .

Процедуры контроля

Вероятность того, что хотя бы одна нулевая гипотеза ошибочно отвергнута, для , как функция числа независимых тестов .

Коррекция множественного тестирования

Коррекция множественного тестирования относится к тому, чтобы сделать статистические тесты более строгими, чтобы противодействовать проблеме множественного тестирования. Наиболее известная такая корректировка — это коррекция Бонферрони , но были разработаны и другие методы. Такие методы обычно предназначены для контроля частоты ошибок по семействам или частоты ложных открытий .

Если выполняется m независимых сравнений, то коэффициент ошибок по семейству (FWER) определяется по формуле

Следовательно, если тесты не являются совершенно положительно зависимыми (т.е. идентичными), увеличивается с увеличением числа сравнений. Если мы не предполагаем, что сравнения независимы, то мы все еще можем сказать:

что следует из неравенства Буля . Пример:

Существуют различные способы обеспечения того, чтобы частота ошибок по семейству не превышала . Наиболее консервативным методом, свободным от зависимостей и предположений о распределении, является поправка Бонферрони . Чуть менее консервативную поправку можно получить, решив уравнение для частоты ошибок по семейству независимых сравнений для . Это дает , что известно как поправка Шидака . Другая процедура — метод Холма–Бонферрони , который равномерно обеспечивает большую мощность, чем простая поправка Бонферрони, путем проверки только самого низкого p-значения ( ) против самого строгого критерия и более высоких p-значений ( ) против постепенно менее строгих критериев. [5] .

Для непрерывных задач можно использовать байесовскую логику для вычисления отношения объемов априорного и апостериорного. Непрерывные обобщения поправок Бонферрони и Шидака представлены в. [6]

Масштабное множественное тестирование

Традиционные методы корректировки множественных сравнений фокусируются на коррекции скромного числа сравнений, часто в дисперсионном анализе . Другой набор методов был разработан для «крупномасштабного множественного тестирования», в котором проводятся тысячи или даже большее количество тестов. Например, в геномике , при использовании таких технологий, как микрочипы , можно измерить уровни экспрессии десятков тысяч генов, а также можно измерить генотипы для миллионов генетических маркеров. В частности, в области исследований генетических ассоциаций возникла серьезная проблема с нерепликацией — результат, который был статистически значимым в одном исследовании, но не был воспроизведен в последующем исследовании. Такая нерепликация может иметь много причин, но широко распространено мнение, что неспособность в полной мере учесть последствия проведения множественных сравнений является одной из причин. [7] Утверждалось, что достижения в области измерений и информационных технологий значительно упростили создание больших наборов данных для разведочного анализа , что часто приводит к проверке большого количества гипотез без каких-либо предварительных оснований для ожидания, что многие из гипотез окажутся верными. В этой ситуации ожидаются очень высокие показатели ложноположительных результатов, если не вносить поправки на множественные сравнения.

Для крупномасштабных задач тестирования, где целью является предоставление окончательных результатов, частота ошибок по семействам остается наиболее приемлемым параметром для приписывания уровней значимости статистическим тестам. В качестве альтернативы, если исследование рассматривается как исследовательское или если значимые результаты могут быть легко повторно проверены в независимом исследовании, часто предпочтительным является контроль частоты ложных открытий (FDR) [8] [9] [10] . FDR, в широком смысле определяемый как ожидаемая доля ложных положительных результатов среди всех значимых тестов, позволяет исследователям идентифицировать набор «кандидатов-положительных результатов», которые могут быть более строго оценены в последующем исследовании. [11]

Практика попытки провести множество нескорректированных сравнений в надежде найти значимое — известная проблема, применяемая непреднамеренно или преднамеренно, иногда называется « p-хакингом ». [12] [13]

Оценка того, верны ли какие-либо альтернативные гипотезы

Нормальный квантильный график для смоделированного набора тестовых статистик, которые были стандартизированы как Z-оценки при нулевой гипотезе. Отклонение верхнего хвоста распределения от ожидаемого тренда по диагонали обусловлено наличием существенно более больших значений тестовой статистики, чем можно было бы ожидать, если бы все нулевые гипотезы были верны. Красная точка соответствует четвертой по величине наблюдаемой тестовой статистике, которая составляет 3,13 по сравнению с ожидаемым значением 2,06. Синяя точка соответствует пятой по величине тестовой статистике, которая составляет -1,75 по сравнению с ожидаемым значением -1,96. График предполагает, что маловероятно, что все нулевые гипотезы верны, и что большинство или все случаи истинной альтернативной гипотезы являются результатом отклонений в положительном направлении.

Основной вопрос, с которым сталкиваются в начале анализа большого набора результатов тестирования, заключается в том, есть ли доказательства того, что какая-либо из альтернативных гипотез верна. Один простой метатест, который можно применить, когда предполагается, что тесты независимы друг от друга, заключается в использовании распределения Пуассона в качестве модели для числа значимых результатов на заданном уровне α, которые были бы обнаружены, когда все нулевые гипотезы верны. [ необходима цитата ] Если наблюдаемое число положительных результатов существенно больше ожидаемого, это говорит о том, что среди значимых результатов, вероятно, есть некоторые истинно положительные результаты.

Например, если выполняется 1000 независимых тестов, каждый на уровне α = 0,05, мы ожидаем, что 0,05 × 1000 = 50 значимых тестов произойдут, когда все нулевые гипотезы верны. На основе распределения Пуассона со средним значением 50 вероятность наблюдения более 61 значимых тестов меньше 0,05, поэтому, если наблюдается более 61 значимых результатов, весьма вероятно, что некоторые из них соответствуют ситуациям, в которых верна альтернативная гипотеза. Недостатком этого подхода является то, что он преувеличивает доказательства того, что некоторые из альтернативных гипотез верны, когда статистики тестов положительно коррелируют, что часто происходит на практике. [ необходима цитата ] . С другой стороны, подход остается действительным даже при наличии корреляции между статистиками тестов, пока можно показать, что распределение Пуассона обеспечивает хорошее приближение для числа значимых результатов. Такой сценарий возникает, например, при извлечении значимых частых наборов элементов из транзакционных наборов данных. Более того, тщательный двухэтапный анализ может ограничить FDR на заранее определенном уровне. [14]

Другой распространенный подход, который можно использовать в ситуациях, когда статистику теста можно стандартизировать по Z-оценкам , заключается в построении графика нормальных квантилей статистики теста. Если наблюдаемые квантили заметно более разбросаны, чем нормальные квантили, это говорит о том, что некоторые из значимых результатов могут быть истинно положительными. [ необходима цитата ]

Смотрите также

Ключевые понятия
Общие методы альфа-корректировки для множественных сравнений
Связанные концепции

Ссылки

  1. ^ Миллер, RG (1981). Синхронный статистический вывод 2-е изд . Springer Verlag New York. ISBN 978-0-387-90548-8.
  2. ^ Benjamini, Y. (2010). «Одновременный и выборочный вывод: текущие успехи и будущие проблемы». Biometrical Journal . 52 (6): 708–721. doi :10.1002/bimj.200900299. PMID  21154895. S2CID  8806192.
  3. ^ "Главная". mcp-conference.org .
  4. ^ Катнер, Майкл; Нахтсхайм, Кристофер; Нетер, Джон ; Ли, Уильям (2005). Прикладные линейные статистические модели . McGraw-Hill Irwin. стр. 744–745. ISBN 9780072386882.
  5. ^ Aickin, M; Gensler, H (май 1996). «Корректировка с учетом множественного тестирования при представлении результатов исследований: методы Бонферрони и Холма». Am J Public Health . 86 (5): 726–728. doi :10.2105/ajph.86.5.726. PMC 1380484 . PMID  8629727. 
  6. ^ Байер, Адриан Э.; Сельяк, Урош (2020). «Эффект взгляда в другое место с единой байесовской и частотной точки зрения». Журнал космологии и астрочастичной физики . 2020 (10): 009. arXiv : 2007.13821 . Bibcode : 2020JCAP...10..009B. doi : 10.1088/1475-7516/2020/10/009. S2CID  220830693.
  7. ^ Цюй, Хуэй-Ци; Тянь, Мэтью; Полихронакос, Константин (2010-10-01). «Статистическая значимость в исследованиях генетических ассоциаций». Клиническая и исследовательская медицина . 33 (5): E266–E270. ISSN  0147-958X. PMC 3270946. PMID  20926032 . 
  8. ^ Бенджамини, Йоав; Хохберг, Йосеф (1995). «Контроль частоты ложных открытий: практический и эффективный подход к множественному тестированию». Журнал Королевского статистического общества, Серия B. 57 ( 1): 125–133. JSTOR  2346101.
  9. ^ Стори, Дж. Д.; Тибширани, Роберт (2003). «Статистическая значимость для исследований всего генома». PNAS . 100 (16): 9440–9445. Bibcode : 2003PNAS..100.9440S. doi : 10.1073/pnas.1530509100 . JSTOR  3144228. PMC 170937. PMID  12883005 . 
  10. ^ Эфрон, Брэдли; Тибширани, Роберт; Стори, Джон Д.; Ташер, Вирджиния (2001). «Эмпирический байесовский анализ эксперимента с микрочипами». Журнал Американской статистической ассоциации . 96 (456): 1151–1160. doi :10.1198/016214501753382129. JSTOR  3085878. S2CID  9076863.
  11. ^ Нобл, Уильям С. (2009-12-01). «Как работает коррекция множественного тестирования?». Nature Biotechnology . 27 (12): 1135–1137. doi :10.1038/nbt1209-1135. ISSN  1087-0156. PMC 2907892. PMID 20010596  . 
  12. ^ Young, SS, Karr, A. (2011). "Деминг, данные и наблюдательные исследования" (PDF) . Значимость . 8 (3): 116–120. doi : 10.1111/j.1740-9713.2011.00506.x .{{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  13. ^ Смит, ГД, Шах, Э. (2002). «Выемка данных, смещение или смешение». BMJ . 325 (7378): 1437–1438. doi :10.1136/bmj.325.7378.1437. PMC 1124898 . PMID  12493654. {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  14. ^ Кирш, А.; Митценмахер, М .; Пьетракаприна, А.; Пуччи, Г.; Упфал, Э .; Вандин, Ф. (июнь 2012 г.). «Эффективный строгий подход к выявлению статистически значимых часто встречающихся наборов элементов». Журнал ACM . 59 (3): 12:1–12:22. arXiv : 1002.1104 . doi : 10.1145/2220357.2220359.

Дальнейшее чтение