В статистике метод Шеффе , названный в честь американского статистика Генри Шеффе , представляет собой метод корректировки уровней значимости в линейном регрессионном анализе для учета множественных сравнений . Он особенно полезен в дисперсионном анализе (частный случай регрессионного анализа) и при построении одновременных доверительных интервалов для регрессий, включающих базисные функции .
Метод Шеффе — это одношаговая процедура множественного сравнения, которая применяется к набору оценок всех возможных контрастов среди средних значений уровня факторов, а не только к парным различиям, рассматриваемым методом Тьюки–Крамера . Он работает на тех же принципах, что и процедура Уоркинга–Хотеллинга для оценки средних ответов в регрессии, которая применяется к набору всех возможных уровней факторов.
Пусть будет средним значением некоторой переменной в непересекающихся совокупностях.
Произвольный контраст определяется как
где
Если все равны друг другу, то все контрасты между ними равны 0. В противном случае некоторые контрасты отличаются от 0 .
Технически существует бесконечно много контрастов. Коэффициент одновременной уверенности равен точно , независимо от того, равны или не равны размеры выборок на уровне факторов. (Обычно интерес представляет только конечное число сравнений. В этом случае метод Шеффе обычно довольно консервативен, и частота ошибок по семейству (частота экспериментальных ошибок) будет, как правило, намного меньше .) [1] [2]
Мы оцениваем по
для которого предполагаемая дисперсия составляет
где
Можно показать, что вероятность состоит в том, что все доверительные пределы типа
одновременно верны, где, как обычно, размер всей популяции. Норман Р. Дрейпер и Гарри Смит в своем «Прикладном регрессионном анализе» (см. ссылки) указывают, что должно быть в уравнении вместо . Смещение с является результатом неспособности учесть дополнительный эффект постоянного члена во многих регрессиях. То, что результат, основанный на , неверен, легко увидеть, рассмотрев , как в стандартной простой линейной регрессии. Эта формула затем сводится к формуле с обычным -распределением, которое подходит для прогнозирования/оценки для одного значения независимой переменной, а не для построения доверительного интервала для диапазона значений независимой величины. Также обратите внимание, что формула предназначена для работы со средними значениями для диапазона независимых величин, а не для сравнения с отдельными значениями, такими как отдельные наблюдаемые значения данных. [3]
Часто нижние индексы используются для указания того, какие значения существенно различаются с использованием метода Шеффе. Например, когда средние значения переменных, проанализированных с помощью ANOVA , представлены в таблице, им присваивается другой буквенный индекс на основе контраста Шеффе. Значения, которые существенно не различаются на основе апостериорного контраста Шеффе, будут иметь одинаковый нижний индекс, а значения, которые существенно различаются, будут иметь разные нижние индексы (например, 15 a , 17 a , 34 b будет означать, что первая и вторая переменные обе отличаются от третьей переменной, но не друг от друга, потому что им обеим присвоен нижний индекс «a»). [ необходима цитата ]
Если необходимо провести только фиксированное количество парных сравнений, метод Тьюки–Крамера даст более точный доверительный интервал. В общем случае, когда могут представлять интерес многие или все контрасты, метод Шеффе более уместен и даст более узкие доверительные интервалы в случае большого количества сравнений.
В статье использованы материалы, являющиеся общественным достоянием Национального института стандартов и технологий.