stringtranslate.com

Cp Маллоуза

В статистике , Mallows's , [1] [2] названный в честь Колина Лингвуда Mallows , используется для оценки соответствия регрессионной модели , которая была оценена с использованием обычных наименьших квадратов . Он применяется в контексте выбора модели , где ряд переменных-предикторов доступен для прогнозирования некоторого результата, и цель состоит в том, чтобы найти наилучшую модель, включающую подмножество этих предикторов. Малое значение означает, что модель относительно точна.

Было показано, что C p Маллоуза эквивалентен информационному критерию Акаике в частном случае линейной регрессии Гаусса . [3]

Определение и свойства

C p Маллоуза решает проблему переобучения , при которой статистика выбора модели, такая как остаточная сумма квадратов, всегда становится меньше по мере добавления в модель большего количества переменных. Таким образом, если мы стремимся выбрать модель, дающую наименьшую остаточную сумму квадратов, модель, включающая все переменные, всегда будет выбрана. Вместо этого статистика C p, рассчитанная на выборке данных, оценивает ошибку прогнозирования суммы квадратов (SSPE) в качестве своей целевой популяции

где — подобранное значение из регрессионной модели для i -го случая, E ( Y i  |  X i ) — ожидаемое значение для i -го случая, а σ 2 — дисперсия ошибки (предполагается постоянной для всех случаев). Среднеквадратическая ошибка прогнозирования (MSPE) не будет автоматически уменьшаться по мере добавления большего количества переменных. Оптимальная модель по этому критерию — это компромисс, на который влияют размер выборки, размеры эффектов различных предикторов и степень коллинеарности между ними.

Если регрессоры P выбираются из набора K > P , то статистика C p для этого конкретного набора регрессоров определяется как:

где

Альтернативное определение

Дана линейная модель, такая как:

где:

Альтернативную версию C p можно также определить как: [5]

где

Обратите внимание, что эта версия C p не дает эквивалентных значений более ранней версии, но модель с наименьшим C p из этого определения будет той же моделью с наименьшим C p из более раннего определения.

Ограничения

Критерий C p страдает от двух основных ограничений [6]

  1. Приближение C p справедливо только для выборки большого размера;
  2. C p не может обрабатывать сложные наборы моделей, как в задаче выбора переменных (или выбора признаков ). [6]

Практическое использование

Статистика C p часто используется в качестве правила остановки для различных форм пошаговой регрессии . Маллоуз предложил статистику в качестве критерия для выбора среди множества альтернативных регрессий подмножеств. В модели, не страдающей от заметного недостатка соответствия (смещения), C p имеет ожидание, почти равное P ; в противном случае ожидание примерно равно P плюс положительный член смещения. Тем не менее, даже если оно имеет ожидание больше или равно P , нет ничего, что могло бы помешать C p < P или даже C p < 0 в крайних случаях. Предполагается, что следует выбрать подмножество, у которого C p приближается к P , [7] из вышеприведенного, для списка подмножеств, упорядоченных по возрастанию P . На практике положительное смещение можно скорректировать, выбрав модель из упорядоченного списка подмножеств, так что C p < 2 P .

Поскольку выборочная статистика C p является оценкой MSPE, использование C p для выбора модели не полностью защищает от переобучения. Например, возможно, что выбранная модель будет той, в которой выборочная C p была особенно сильно недооценена MSPE.

Статистика выбора модели, такая как C p , обычно не используется вслепую, а скорее информация об области применения, предполагаемом использовании модели и любых известных смещениях в данных принимается во внимание в процессе выбора модели.

Смотрите также

Ссылки

  1. ^ Mallows, CL (1973). "Некоторые комментарии о C P ". Technometrics . 15 (4): 661–675. doi :10.2307/1267380. JSTOR  1267380.
  2. ^ Гилмор, Стивен Г. (1996). «Интерпретация C p -статистики Маллоуза». Журнал Королевского статистического общества, Серия D. 45 ( 1): 49–56. JSTOR  2348411.
  3. ^ Буасбунон, Орели; Кану, Стефан; Фурдринье, Доминик; Страудерман, Уильям; Уэллс, Мартин Т. (2013). «AIC, C p и оценки потерь для эллиптически симметричных распределений». arXiv : 1308.2766 [math.ST].
  4. ^ Mallows, CL (1973). "Некоторые комментарии о C P ". Technometrics . 15 (4): 661–675. doi :10.2307/1267380. JSTOR  1267380.
  5. ^ Джеймс, Гарет; Виттен; Хасти; Тибширани (2013-06-24). Введение в статистическое обучение . Springer. ISBN 978-1-4614-7138-7.
  6. ^ ab Giraud, C. (2015), Введение в многомерную статистику , Chapman & Hall/CRC, ISBN 9781482237948 
  7. ^ Дэниел, К.; Вуд, Ф. (1980). Подгонка уравнений к данным (переиздание). Нью-Йорк: Wiley & Sons, Inc.

Дальнейшее чтение