В статистике среднеквадратическая ошибка прогнозирования ( MSPE ), также известная как среднеквадратическая ошибка прогнозирования , сглаживания , подгонки кривой или процедуры регрессии , представляет собой ожидаемое значение квадратичной ошибки прогнозирования ( PE ), квадратную разницу между подобранными значениями, подразумеваемыми предсказательной функцией , и значениями (ненаблюдаемого) истинного значения g . Это обратная мера объяснительной силы и может использоваться в процессе перекрестной проверки оцененной модели. Знание g потребуется для точного расчета MSPE; на практике MSPE оценивается. [1]
Если процедура сглаживания или подгонки имеет проекционную матрицу (т.е. матрицу шляпы) L , которая отображает вектор наблюдаемых значений в вектор прогнозируемых значений , то PE и MSPE формулируются как:
MSPE можно разложить на два члена: квадрат смещения (средняя ошибка) подобранных значений и дисперсия подобранных значений:
Величина SSPE= n MSPE называется суммой квадратов ошибок предсказания . Среднеквадратическая ошибка предсказания — это квадратный корень из MSPE: RMSPE= √ MSPE .
Среднеквадратичную ошибку прогнозирования можно вычислить точно в двух контекстах. Во-первых, с выборкой данных длиной n аналитик данных может запустить регрессию только по q точкам данных (с q < n ), удерживая остальные n – q точек данных с конкретной целью их использования для вычисления MSPE оценочной модели вне выборки (т. е. не используя данные, которые использовались в процессе оценки модели). Поскольку процесс регрессии адаптирован к q точкам в выборке, обычно MSPE в выборке будет меньше, чем MSPE вне выборки, вычисленная по n – q удерживаемым точкам. Если увеличение MSPE вне выборки по сравнению с выборкой относительно небольшое, это приводит к тому, что модель рассматривается благоприятно. И если необходимо сравнить две модели, та, у которой MSPE ниже по n – q точкам данных вне выборки, рассматривается более благоприятно, независимо от относительных показателей моделей в выборке. В этом контексте MSPE вне выборки является точным для точек данных вне выборки, по которым он был вычислен, но представляет собой всего лишь оценку MSPE модели для в основном ненаблюдаемой совокупности, из которой были получены данные.
Во-вторых, со временем аналитику данных может стать доступно больше данных, и тогда MSPE можно будет вычислить на основе этих новых данных.
Если модель оценена по всем доступным данным без каких-либо упущений, то MSPE модели по всей совокупности в основном ненаблюдаемых данных можно оценить следующим образом.
Для модели , где , можно записать
Используя значения данных в выборке, первый член в правой части эквивалентен
Таким образом,
Если известно или хорошо оценено по , становится возможным оценить MSPE по
Колин Маллоуз отстаивал этот метод при построении своей статистики выбора модели C p , которая представляет собой нормализованную версию оценочной MSPE:
где p — число оцененных параметров p и вычисляется из версии модели, которая включает все возможные регрессоры. Это завершает это доказательство.