В статистике регрессионная валидация — это процесс принятия решения о том, являются ли числовые результаты, количественно определяющие предполагаемые связи между переменными, полученные в результате регрессионного анализа , приемлемыми в качестве описаний данных. Процесс валидации может включать анализ степени соответствия регрессии, анализ того, являются ли остатки регрессии случайными, и проверку того, существенно ли ухудшается прогностическая эффективность модели при применении к данным, которые не использовались при оценке модели.
Одной из мер качества соответствия является коэффициент детерминации , часто обозначаемый как R 2 . В обычных наименьших квадратах с отсекателем он находится в диапазоне от 0 до 1. Однако R 2 , близкий к 1, не гарантирует, что модель хорошо соответствует данным. Например, если функциональная форма модели не соответствует данным, R 2 может быть высоким, несмотря на плохое соответствие модели. Квартет Энскомба состоит из четырех наборов данных-примеров с одинаково высокими значениями R 2 , но данными, которые иногда явно не соответствуют линии регрессии. Вместо этого наборы данных включают выбросы , точки с высоким плечом или нелинейности.
Одна из проблем с R 2 как мерой валидности модели заключается в том, что его всегда можно увеличить, добавив больше переменных в модель, за исключением маловероятного случая, когда дополнительные переменные точно не коррелируют с зависимой переменной в используемой выборке данных. Эту проблему можно обойти, проведя F-тест статистической значимости увеличения R 2 или вместо этого используя скорректированный R 2 .
Остатки из подобранной модели представляют собой разности между ответами, наблюдаемыми при каждой комбинации значений объясняющих переменных , и соответствующим прогнозом ответа, вычисленным с использованием функции регрессии. Математически определение остатка для i - го наблюдения в наборе данных записывается как
где y i обозначает i -й ответ в наборе данных, а x i — вектор объясняющих переменных, каждый из которых имеет соответствующие значения, найденные в i- м наблюдении в наборе данных.
Если бы модель соответствовала данным, остатки аппроксимировали бы случайные ошибки, которые делают связь между объясняющими переменными и переменной отклика статистической связью. Поэтому, если остатки ведут себя случайным образом, это говорит о том, что модель хорошо соответствует данным. С другой стороны, если в остатках очевидна неслучайная структура, это явный признак того, что модель плохо соответствует данным. В следующем разделе подробно описаны типы графиков, которые следует использовать для проверки различных аспектов модели, и даны правильные интерпретации различных результатов, которые можно наблюдать для каждого типа графика.
Базовый, хотя и не количественно точный, способ проверки проблем, которые делают модель неадекватной, заключается в проведении визуального осмотра остатков (неправильных предсказаний данных, используемых при количественной оценке модели) для поиска очевидных отклонений от случайности. Если визуальный осмотр предполагает, например, возможное присутствие гетероскедастичности (связи между дисперсией ошибок модели и размером наблюдений независимой переменной), то можно провести статистические тесты, чтобы подтвердить или опровергнуть эту догадку; если она подтверждается, требуются другие процедуры моделирования.
Различные типы графиков остатков подобранной модели предоставляют информацию об адекватности различных аспектов модели.
Графические методы имеют преимущество перед численными методами проверки модели, поскольку они легко иллюстрируют широкий спектр сложных аспектов взаимосвязи между моделью и данными.
Численные методы также играют важную роль в проверке модели. Например, тест на отсутствие соответствия для оценки правильности функциональной части модели может помочь в интерпретации пограничного остаточного графика. Одной из распространенных ситуаций, когда численные методы проверки имеют приоритет над графическими методами, является ситуация, когда количество оцениваемых параметров относительно близко к размеру набора данных. В этой ситуации остаточные графики часто трудно интерпретировать из-за ограничений на остатки, налагаемых оценкой неизвестных параметров. Одной из областей, в которой это обычно происходит, являются приложения оптимизации, использующие разработанные эксперименты . Логистическая регрессия с бинарными данными — это еще одна область, в которой графический остаточный анализ может быть затруднен.
Серийная корреляция остатков может указывать на неверную спецификацию модели и может быть проверена с помощью статистики Дарбина–Уотсона . Проблема гетероскедастичности может быть проверена любым из нескольких способов .
Перекрестная проверка — это процесс оценки того, как результаты статистического анализа будут обобщены на независимый набор данных. Если модель была оценена по некоторым, но не по всем, доступным данным, то модель, использующая оцененные параметры, может быть использована для прогнозирования удерживаемых данных. Если, например, вневыборочная среднеквадратичная ошибка , также известная как среднеквадратичная ошибка прогнозирования , существенно выше внутривыборочной среднеквадратичной ошибки, это является признаком недостатка модели.
Развитием медицинской статистики является использование методов перекрестной проверки вне выборки в метаанализе. Это формирует основу статистики проверки, Vn , которая используется для проверки статистической достоверности сводных оценок метаанализа. По сути, она измеряет тип нормализованной ошибки прогнозирования, а ее распределение представляет собой линейную комбинацию переменных χ 2 степени 1. [1]
В статье использованы материалы, являющиеся общественным достоянием Национального института стандартов и технологий.