Cp Маллоуза

В статистике , Mallows's , ^[1]^[2] названный в честь Колина Лингвуда Mallows , используется для оценки соответствия регрессионной модели , которая была оценена с использованием обычных наименьших квадратов . Он применяется в контексте выбора модели , где ряд переменных-предикторов доступен для прогнозирования некоторого результата, и цель состоит в том, чтобы найти наилучшую модель, включающую подмножество этих предикторов. Малое значение означает, что модель относительно точна. ${\textstyle {\boldsymbol {C_{p}}}}$ ${\textstyle C_{p}}$

Было показано, что C _p Маллоуза эквивалентен информационному критерию Акаике в частном случае линейной регрессии Гаусса . ^[3]

Определение и свойства

C _p Маллоуза решает проблему переобучения , при которой статистика выбора модели, такая как остаточная сумма квадратов, всегда становится меньше по мере добавления в модель большего количества переменных. Таким образом, если мы стремимся выбрать модель, дающую наименьшую остаточную сумму квадратов, модель, включающая все переменные, всегда будет выбрана. Вместо этого статистика C _p, рассчитанная на выборке данных, оценивает ошибку прогнозирования суммы квадратов (SSPE) в качестве своей целевой популяции

E\sum _{i}({\hat {Y}}_{i}-E(Y_{i}\mid X_{i}))^{2}/\sigma ^{2},

где — подобранное значение из регрессионной модели для i -го случая, E ( Y _i | X _i ) — ожидаемое значение для i -го случая, а σ ² — дисперсия ошибки (предполагается постоянной для всех случаев). Среднеквадратическая ошибка прогнозирования (MSPE) не будет автоматически уменьшаться по мере добавления большего количества переменных. Оптимальная модель по этому критерию — это компромисс, на который влияют размер выборки, размеры эффектов различных предикторов и степень коллинеарности между ними. ${\hat {Y}}_{i}$

Если регрессоры P выбираются из набора K > P , то статистика C _p для этого конкретного набора регрессоров определяется как:

C_{p}={SSE_{p} \over S^{2}}-N+2(P+1),

где

$SSE_{p}=\sum _{i=1}^{N}(Y_{i}-{\hat {Y}}_{pi})^{2}$ — сумма квадратов ошибок для модели с P- регрессорами ,
Y _pi — прогнозируемое значение i- го наблюдения Y из регрессоров P ,
S ² — это оценка дисперсии остатков после регрессии на полном наборе K регрессоров , которая может быть оценена как , ^[4] ${1 \over NK}\sum _{i=1}^{N}(Y_{i}-{\hat {Y}}_{i})^{2}$
и N — размер выборки .

Альтернативное определение

Дана линейная модель, такая как:

Y=\beta _{0}+\beta _{1}X_{1}+\cdots +\beta _{p}X_{p}+\varepsilon

где:

$\beta _{0},\ldots ,\beta _{p}$ являются коэффициентами для предикторных переменных $X_{1},\ldots ,X_{p}$
$\varepsilon$ представляет собой ошибку

Альтернативную версию C _p можно также определить как: ^[5]

C_{p}={\frac {1}{n}}(\operatorname {RSS} +2p{\hat {\sigma }}^{2})

где

RSS — это остаточная сумма квадратов на обучающем наборе данных.
$p$ — число предикторов
и относится к оценке дисперсии, связанной с каждым ответом в линейной модели (оцененной на основе модели, содержащей все предикторы) ${\hat {\sigma }}^{2}$

Обратите внимание, что эта версия C _p не дает эквивалентных значений более ранней версии, но модель с наименьшим C _p из этого определения будет той же моделью с наименьшим C _p из более раннего определения.

Ограничения

Критерий C _p страдает от двух основных ограничений ^[6]

Приближение C _p справедливо только для выборки большого размера;
C _p не может обрабатывать сложные наборы моделей, как в задаче выбора переменных (или выбора признаков ). ^[6]

Практическое использование

Статистика C _p часто используется в качестве правила остановки для различных форм пошаговой регрессии . Маллоуз предложил статистику в качестве критерия для выбора среди множества альтернативных регрессий подмножеств. В модели, не страдающей от заметного недостатка соответствия (смещения), C _p имеет ожидание, почти равное P ; в противном случае ожидание примерно равно P плюс положительный член смещения. Тем не менее, даже если оно имеет ожидание больше или равно P , нет ничего, что могло бы помешать C _p < P или даже C _p < 0 в крайних случаях. Предполагается, что следует выбрать подмножество, у которого C _p приближается к P , ^[7] из вышеприведенного, для списка подмножеств, упорядоченных по возрастанию P . На практике положительное смещение можно скорректировать, выбрав модель из упорядоченного списка подмножеств, так что C _p < 2 P .

Поскольку выборочная статистика C _p является оценкой MSPE, использование C _p для выбора модели не полностью защищает от переобучения. Например, возможно, что выбранная модель будет той, в которой выборочная C _p была особенно сильно недооценена MSPE.

Статистика выбора модели, такая как C _{p ,} обычно не используется вслепую, а скорее информация об области применения, предполагаемом использовании модели и любых известных смещениях в данных принимается во внимание в процессе выбора модели.

Смотрите также

Ссылки

^ Mallows, CL (1973). "Некоторые комментарии о C _P ". Technometrics . 15 (4): 661–675. doi :10.2307/1267380. JSTOR 1267380.
^ Гилмор, Стивен Г. (1996). «Интерпретация C _p -статистики Маллоуза». Журнал Королевского статистического общества, Серия D. 45 ( 1): 49–56. JSTOR 2348411.
^ Буасбунон, Орели; Кану, Стефан; Фурдринье, Доминик; Страудерман, Уильям; Уэллс, Мартин Т. (2013). «AIC, C _p и оценки потерь для эллиптически симметричных распределений». arXiv : 1308.2766 [math.ST].
^ Mallows, CL (1973). "Некоторые комментарии о C _P ". Technometrics . 15 (4): 661–675. doi :10.2307/1267380. JSTOR 1267380.
^ Джеймс, Гарет; Виттен; Хасти; Тибширани (2013-06-24). Введение в статистическое обучение . Springer. ISBN 978-1-4614-7138-7.
^ ab Giraud, C. (2015), Введение в многомерную статистику , Chapman & Hall/CRC, ISBN 9781482237948
^ Дэниел, К.; Вуд, Ф. (1980). Подгонка уравнений к данным (переиздание). Нью-Йорк: Wiley & Sons, Inc.

Дальнейшее чтение

Chow, Gregory C. (1983). Эконометрика . Нью-Йорк: McGraw-Hill. С. 291–293. ISBN 978-0-07-010847-9.
Хокинг, Р. Р. (1976). «Анализ и выбор переменных в линейной регрессии». Биометрия . 32 (1): 1–50. CiteSeerX 10.1.1.472.4742 . doi :10.2307/2529336. JSTOR 2529336.
Джадж, Джордж Г.; Гриффитс, Уильям Э.; Хилл, Р. Картер; Ли, Цунг-Чао (1980). Теория и практика эконометрики . Нью-Йорк: Wiley. С. 417–423. ISBN 978-0-471-05938-7.