Вероятность совершения ошибок I типа при выполнении множественных проверок гипотез
В статистике коэффициент ошибок по семействам ( FWER ) — это вероятность совершения одного или нескольких ложных открытий или ошибок первого типа при выполнении множественных проверок гипотез .
Коэффициенты ошибок по семейным и экспериментальным данным
Джон Тьюки разработал в 1953 году концепцию семейного коэффициента ошибок как вероятности совершения ошибки типа I среди определенной группы, или «семейства», тестов. [1] Райан (1959) предложил связанную концепцию экспериментального коэффициента ошибок , которая представляет собой вероятность совершения ошибки типа I в данном эксперименте. [2] Таким образом, экспериментальный коэффициент ошибок — это семейный коэффициент ошибок, где семейство включает все тесты, которые проводятся в рамках эксперимента.
Как объяснил Райан (1959, сноска 3), эксперимент может содержать два или более семейства множественных сравнений, каждое из которых относится к определенному статистическому выводу и каждое из которых имеет свой собственный отдельный семейный уровень ошибок. [2] Следовательно, семейные уровни ошибок обычно основаны на теоретически информативных наборах множественных сравнений. Напротив, экспериментальный уровень ошибок может быть основан на наборе одновременных сравнений, которые относятся к разнообразному диапазону отдельных выводов. Некоторые утверждают, что в таких случаях может быть бесполезно контролировать экспериментальный уровень ошибок. [3] Действительно, Тьюки предположил, что семейный контроль был предпочтительнее в таких случаях (Тьюки, 1956, личное сообщение, в Райане, 1962, стр. 302). [4]
Фон
В статистическом плане существует несколько определений термина «семья»:
- Хохберг и Тамхейн (1987) определили «семью» как «любую совокупность выводов, для которых имеет смысл принимать во внимание некоторую объединенную меру ошибки» [3] .
- По мнению Кокса (1982), набор выводов следует рассматривать как семью: [ необходима цитата ]
- Учесть эффект отбора из-за выемки данных
- Обеспечить одновременную правильность ряда выводов, чтобы гарантировать правильность общего решения
Подводя итог, можно сказать, что семью лучше всего можно определить с помощью потенциального селективного вывода , с которым приходится сталкиваться: семья — это наименьший набор элементов вывода в анализе, взаимозаменяемых по своему значению для цели исследования, из которых можно сделать выбор результатов для действия, представления или выделения ( Йоав Бенджамини ). [ необходима цитата ]
Классификация множественных проверок гипотез
Следующая таблица определяет возможные результаты при проверке нескольких нулевых гипотез. Предположим, у нас есть число m нулевых гипотез, обозначенных как: H 1 , H 2 , ..., H m .
Используя статистический тест , мы отвергаем нулевую гипотезу, если тест объявлен значимым. Мы не отвергаем нулевую гипотезу, если тест незначим. Суммирование каждого типа результата по всем H i дает следующие случайные величины:
В m гипотезах, проверка которых является истинной нулевой гипотезой, R является наблюдаемой случайной величиной, а S , T , U и V являются ненаблюдаемыми случайными величинами .
Определение
FWER — это вероятность совершения хотя бы одной ошибки I типа в семье,
или эквивалентно,
Таким образом, гарантируя , вероятность совершения одной или нескольких ошибок I типа в семье контролируется на уровне .
Процедура контролирует FWER в слабом смысле , если контроль FWER на уровне гарантируется только тогда, когда все нулевые гипотезы верны (т.е. когда , то есть «глобальная нулевая гипотеза» верна). [5]
Процедура контролирует FWER в строгом смысле , если контроль FWER на уровне гарантируется для любой конфигурации истинных и неистинных нулевых гипотез (независимо от того, истинна ли глобальная нулевая гипотеза или нет). [6]
Процедуры контроля
Существуют некоторые классические решения, которые обеспечивают высокий уровень контроля FWER, а также некоторые более новые решения.
Процедура Бонферрони
- Обозначим через p - значение для тестирования
- отклонить , если
Процедура Шидака
- Проверка каждой гипотезы на определенном уровне — это процедура множественного тестирования Сидака.
- Эта процедура более эффективна, чем метод Бонферрони, но выигрыш невелик.
- Эта процедура может не обеспечить контроль FWER, если тесты отрицательно зависимы.
Процедура Тьюки
- Процедура Тьюки применима только для попарных сравнений.
- Он предполагает независимость проверяемых наблюдений, а также одинаковую изменчивость между наблюдениями ( гомоскедастичность ).
- Процедура вычисляет для каждой пары статистику стьюдентизированного размаха : где — большее из двух сравниваемых средних значений, — меньшее, а — стандартная ошибка рассматриваемых данных. [ необходима ссылка ]
- Тест Тьюки по сути является t-тестом Стьюдента , за исключением того, что он корректирует частоту ошибок, обусловленную семьей . [ необходима ссылка ]
Процедура понижения Холма (1979)
- Начните с упорядочивания p -значений (от наименьшего к наибольшему) и предположите, что соответствующие гипотезы
- Пусть будет минимальным индексом, таким что
- Отклонить нулевые гипотезы . Если тогда ни одна из гипотез не отклоняется. [ необходима цитата ]
Эта процедура однородно мощнее, чем процедура Бонферрони. [7]
Причина, по которой эта процедура контролирует частоту ошибок по семействам для всех m гипотез на уровне α в сильном смысле, заключается в том, что это закрытая процедура тестирования . Таким образом, каждое пересечение проверяется с использованием простого теста Бонферрони. [ необходима цитата ]
Процедура повышения уровня по Хохбергу
Процедура повышения уровня Хохберга (1988) выполняется с использованием следующих шагов: [8]
- Начните с упорядочивания p -значений (от наименьшего к наибольшему) и предположите, что соответствующие гипотезы
- Для заданного пусть будет наибольшим, таким, что
- Отвергнуть нулевые гипотезы
Процедура Хохберга более мощная, чем процедура Холма. Тем не менее, в то время как процедура Холма является закрытой процедурой тестирования (и, таким образом, как и Бонферрони, не имеет ограничений на совместное распределение статистики теста), процедура Хохберга основана на тесте Саймса, поэтому она справедлива только при неотрицательной зависимости. [ требуется ссылка ] Тест Саймса выведен при предположении о независимых тестах; [9] он консервативен для тестов, которые положительно зависят в определенном смысле [10] [11] и является антиконсервативным для определенных случаев отрицательной зависимости. [12] [13] Однако было высказано предположение, что модифицированная версия процедуры Хохберга остается действительной при общей отрицательной зависимости. [14]
Поправка Даннета
Чарльз Даннетт (1955, 1966) описал альтернативную корректировку альфа-ошибки, когда k групп сравниваются с той же контрольной группой. Теперь известный как тест Даннетта, этот метод менее консервативен, чем корректировка Бонферрони. [ необходима цитата ]
Метод Шеффе
Процедуры повторной выборки
Процедуры Бонферрони и Холма контролируют FWER при любой структуре зависимости p -значений (или, что эквивалентно, индивидуальных статистических показателей теста). По сути, это достигается путем размещения структуры зависимости «наихудшего случая» (которая близка к независимости для большинства практических целей). Но такой подход является консервативным, если зависимость на самом деле положительная. Приведем экстремальный пример: при идеальной положительной зависимости фактически есть только один тест, и, таким образом, FWER не завышен.
Учет структуры зависимости p -значений (или индивидуальных тестовых статистик) дает более мощные процедуры. Этого можно достичь, применяя методы повторной выборки, такие как методы бутстраппинга и перестановок. Процедура Westfall и Young (1993) требует определенного условия, которое не всегда выполняется на практике (а именно, опорность подмножества). [15] Процедуры Romano и Wolf (2005a,b) обходятся без этого условия и, таким образом, являются более общеприменимыми. [16] [17]
Гармоническое среднееп-стоимостная процедура
Процедура гармонического среднего p -значения (HMP) [18] [19] обеспечивает многоуровневый тест, который улучшает мощность коррекции Бонферрони, оценивая значимость групп гипотез, контролируя при этом частоту ошибок в сильном смысле семейства. Значимость любого подмножества тестов оценивается путем вычисления HMP для подмножества, где — веса, которые в сумме дают единицу (т.е. ). Приближенная процедура, которая контролирует частоту ошибок в сильном смысле семейства на уровне приблизительно отвергает нулевую гипотезу о том, что ни одно из p -значений в подмножестве не является значимым, когда [20] (где ). Это приближение разумно для малых значений (например, ) и становится произвольно хорошим при приближении к нулю. Также доступен асимптотически точный тест (см. основную статью ).
Альтернативные подходы
Контроль FWER осуществляет более строгий контроль над ложным открытием по сравнению с процедурами частоты ложных открытий (FDR). Контроль FWER ограничивает вероятность по крайней мере одного ложного открытия, тогда как контроль FDR ограничивает (в широком смысле) ожидаемую долю ложных открытий. Таким образом, процедуры FDR имеют большую мощность за счет увеличения частоты ошибок типа I , т. е. отклонения нулевых гипотез, которые на самом деле верны. [21]
С другой стороны, контроль FWER менее строг, чем контроль частоты ошибок на семью, что ограничивает ожидаемое количество ошибок на семью. Поскольку контроль FWER касается как минимум одного ложного открытия, в отличие от контроля частоты ошибок на семью, он не рассматривает несколько одновременных ложных открытий как что-то худшее, чем одно ложное открытие. Поправка Бонферрони часто рассматривается как просто контроль FWER, но на самом деле она также контролирует частоту ошибок на семью. [22]
Ссылки
- ^ Тьюки, Дж. У. (1953). Проблема множественных сравнений .На основе Тьюки (1953),
- ^ ab Райан, Томас А. (1959). «Множественное сравнение в психологических исследованиях». Психологический вестник . 56 (1). Американская психологическая ассоциация (APA): 26–47. doi :10.1037/h0042478. ISSN 1939-1455.
- ^ ab Hochberg, Y.; Tamhane, AC (1987). Процедуры множественного сравнения . Нью-Йорк: Wiley. стр. 5. ISBN 978-0-471-82222-6.
- ^ Райан, ТА (1962). «Эксперимент как единица для вычисления скорости ошибок». Психологический вестник . 59 (4): 301–305. doi :10.1037/h0040562. PMID 14495585.
- ^ Дмитриенко, Алекс; Тамхане, Аджит; Бретц, Франк (2009). Проблемы множественного тестирования в фармацевтической статистике (1-е изд.). CRC Press. стр. 37. ISBN 9781584889847.
- ^ Дмитриенко, Алекс; Тамхане, Аджит; Бретц, Франк (2009). Проблемы множественного тестирования в фармацевтической статистике (1-е изд.). CRC Press. стр. 37. ISBN 9781584889847.
- ^ Aickin, M; Gensler, H (1996). «Корректировка с учетом множественного тестирования при представлении результатов исследований: методы Бонферрони и Холма». American Journal of Public Health . 86 (5): 726–728. doi :10.2105/ajph.86.5.726. PMC 1380484. PMID 8629727 .
- ^ Хохберг, Йосеф (1988). «Более точная процедура Бонферрони для множественных тестов значимости» (PDF) . Biometrika . 75 (4): 800–802. doi :10.1093/biomet/75.4.800.
- ^ Simes, RJ (1986). «Улучшенная процедура Бонферрони для множественных тестов значимости». Biometrika . 73 (3): 751–754. doi :10.1093/biomet/73.3.751.
- ^ Саркар, Санат К.; Чанг, Чунг-Куэй (1997). «Метод Саймса для множественной проверки гипотез с положительно зависимой тестовой статистикой». Журнал Американской статистической ассоциации . 92 (440): 1601–1608. doi :10.1080/01621459.1997.10473682.
- ^ Саркар, Санат К. (1998). «Некоторые вероятностные неравенства для упорядоченных случайных величин MTP2: доказательство гипотезы Саймса». Анналы статистики . 26 (2): 494–504.
- ^ Сэмюэл-Кан, Эстер (1996). «Является ли процедура Бонферрони, улучшенная Саймсом, консервативной?». Biometrika . 83 (4): 928–933. doi :10.1093/biomet/83.4.928.
- ^ Блок, Генри В.; Сэвиц, Томас Х.; Ван, Цзе (2008). «Отрицательная зависимость и неравенство Саймса». Журнал статистического планирования и вывода . 138 (12): 4107–4110. doi :10.1016/j.jspi.2008.03.026.
- ^ Гоу, Цзянтао; Тамхане, Аджит С. (2018). «Процедура Хохберга при отрицательной зависимости» (PDF) . Statistica Sinica . 28 : 339–362. doi :10.5705/ss.202016.0306.
- ^ Westfall, PH; Young, SS (1993). Многократное тестирование на основе повторной выборки: примеры и методы корректировки p-значения . Нью-Йорк: John Wiley. ISBN 978-0-471-55761-6.
- ^ Романо, Дж. П.; Вольф, М. (2005a). «Точные и приближенные методы понижения для множественной проверки гипотез». Журнал Американской статистической ассоциации . 100 (469): 94–108. doi : 10.1198/016214504000000539. hdl : 10230/576 . S2CID 219594470.
- ^ Романо, Дж. П.; Вольф, М. (2005b). «Пошаговое множественное тестирование как формализованный слежка за данными». Econometrica . 73 (4): 1237–1282. CiteSeerX 10.1.1.198.2473 . doi :10.1111/j.1468-0262.2005.00615.x.
- ^ Good, IJ (1958). «Тесты значимости параллельно и последовательно». Журнал Американской статистической ассоциации . 53 (284): 799–813. doi :10.1080/01621459.1958.10501480. JSTOR 2281953.
- ^ Уилсон, DJ (2019). «Гармоническое среднее значение p для объединения зависимых тестов». Труды Национальной академии наук США . 116 (4): 1195–1200. doi : 10.1073/pnas.1814092116 . PMC 6347718. PMID 30610179 .
- ^ Науки, Национальная академия наук (2019-10-22). "Поправка для Уилсона, гармоническое среднее значение p для объединения зависимых тестов". Труды Национальной академии наук . 116 (43): 21948. doi : 10.1073/pnas.1914128116 . PMC 6815184. PMID 31591234 .
- ^ Шаффер, Дж. П. (1995). «Множественная проверка гипотез». Annual Review of Psychology . 46 : 561–584. doi : 10.1146/annurev.ps.46.020195.003021. hdl : 10338.dmlcz/142950 .
- ^ Фрейн, Эндрю (2015). «Являются ли показатели ошибок типа I для каждой семьи значимыми в социальных и поведенческих науках?». Журнал современных прикладных статистических методов . 14 (1): 12–23. doi : 10.22237/jmasm/1430453040 .
Внешние ссылки
- Понимание частоты ошибок Family Wise — запись в блоге, включая ее полезность относительно частоты ложных срабатываний