Проверка регрессии

В статистике регрессионная валидация — это процесс принятия решения о том, являются ли числовые результаты, количественно определяющие предполагаемые связи между переменными, полученные в результате регрессионного анализа , приемлемыми в качестве описаний данных. Процесс валидации может включать анализ степени соответствия регрессии, анализ того, являются ли остатки регрессии случайными, и проверку того, существенно ли ухудшается прогностическая эффективность модели при применении к данным, которые не использовались при оценке модели.

Качество соответствия

Одной из мер качества соответствия является коэффициент детерминации , часто обозначаемый как R ² . В обычных наименьших квадратах с отсекателем он находится в диапазоне от 0 до 1. Однако R ^{2 ,} близкий к 1, не гарантирует, что модель хорошо соответствует данным. Например, если функциональная форма модели не соответствует данным, R ² может быть высоким, несмотря на плохое соответствие модели. Квартет Энскомба состоит из четырех наборов данных-примеров с одинаково высокими значениями R ² , но данными, которые иногда явно не соответствуют линии регрессии. Вместо этого наборы данных включают выбросы , точки с высоким плечом или нелинейности.

Одна из проблем с R ² как мерой валидности модели заключается в том, что его всегда можно увеличить, добавив больше переменных в модель, за исключением маловероятного случая, когда дополнительные переменные точно не коррелируют с зависимой переменной в используемой выборке данных. Эту проблему можно обойти, проведя F-тест статистической значимости увеличения R 2 ^или вместо этого используя скорректированный R 2 .

Анализ остатков

Остатки из подобранной модели представляют собой разности между ответами, наблюдаемыми при каждой комбинации значений объясняющих переменных , и соответствующим прогнозом ответа, вычисленным с использованием функции регрессии. Математически определение остатка для i - ^го наблюдения в наборе данных записывается как

e_{i}=y_{i}-f(x_{i};{\hat {\beta }}),

где y _i обозначает i ^-й ответ в наборе данных, а x _{i —} вектор объясняющих переменных, каждый из которых имеет соответствующие значения, найденные в i- ^м наблюдении в наборе данных.

Если бы модель соответствовала данным, остатки аппроксимировали бы случайные ошибки, которые делают связь между объясняющими переменными и переменной отклика статистической связью. Поэтому, если остатки ведут себя случайным образом, это говорит о том, что модель хорошо соответствует данным. С другой стороны, если в остатках очевидна неслучайная структура, это явный признак того, что модель плохо соответствует данным. В следующем разделе подробно описаны типы графиков, которые следует использовать для проверки различных аспектов модели, и даны правильные интерпретации различных результатов, которые можно наблюдать для каждого типа графика.

Графический анализ остатков

Базовый, хотя и не количественно точный, способ проверки проблем, которые делают модель неадекватной, заключается в проведении визуального осмотра остатков (неправильных предсказаний данных, используемых при количественной оценке модели) для поиска очевидных отклонений от случайности. Если визуальный осмотр предполагает, например, возможное присутствие гетероскедастичности (связи между дисперсией ошибок модели и размером наблюдений независимой переменной), то можно провести статистические тесты, чтобы подтвердить или опровергнуть эту догадку; если она подтверждается, требуются другие процедуры моделирования.

Различные типы графиков остатков подобранной модели предоставляют информацию об адекватности различных аспектов модели.

достаточность функциональной части модели: диаграммы рассеяния остатков против предикторов
непостоянная вариация данных: графики рассеяния остатков по сравнению с предикторами; для данных, собранных с течением времени, также графики остатков по сравнению со временем
дрейф ошибок (данные, собранные с течением времени): графики реакции и ошибок в зависимости от времени
независимость ошибок: график запаздывания
Нормальность ошибок: гистограмма и график нормальной вероятности

Графические методы имеют преимущество перед численными методами проверки модели, поскольку они легко иллюстрируют широкий спектр сложных аспектов взаимосвязи между моделью и данными.

Количественный анализ остатков

Численные методы также играют важную роль в проверке модели. Например, тест на отсутствие соответствия для оценки правильности функциональной части модели может помочь в интерпретации пограничного остаточного графика. Одной из распространенных ситуаций, когда численные методы проверки имеют приоритет над графическими методами, является ситуация, когда количество оцениваемых параметров относительно близко к размеру набора данных. В этой ситуации остаточные графики часто трудно интерпретировать из-за ограничений на остатки, налагаемых оценкой неизвестных параметров. Одной из областей, в которой это обычно происходит, являются приложения оптимизации, использующие разработанные эксперименты . Логистическая регрессия с бинарными данными — это еще одна область, в которой графический остаточный анализ может быть затруднен.

Серийная корреляция остатков может указывать на неверную спецификацию модели и может быть проверена с помощью статистики Дарбина–Уотсона . Проблема гетероскедастичности может быть проверена любым из нескольких способов .

Оценка вне выборки

Перекрестная проверка — это процесс оценки того, как результаты статистического анализа будут обобщены на независимый набор данных. Если модель была оценена по некоторым, но не по всем, доступным данным, то модель, использующая оцененные параметры, может быть использована для прогнозирования удерживаемых данных. Если, например, вневыборочная среднеквадратичная ошибка , также известная как среднеквадратичная ошибка прогнозирования , существенно выше внутривыборочной среднеквадратичной ошибки, это является признаком недостатка модели.

Развитием медицинской статистики является использование методов перекрестной проверки вне выборки в метаанализе. Это формирует основу статистики проверки, Vn , которая используется для проверки статистической достоверности сводных оценок метаанализа. По сути, она измеряет тип нормализованной ошибки прогнозирования, а ее распределение представляет собой линейную комбинацию переменных χ ² степени 1. ^[1]

Смотрите также

Ссылки

^ Уиллис Б. Х., Райли РД (2017). «Измерение статистической достоверности результатов сводного метаанализа и метарегрессии для использования в клинической практике». Статистика в медицине . 36 (21): 3283–3301. doi :10.1002/sim.7372. PMC 5575530. PMID 28620945 .

Дальнейшее чтение

Арборетти Джанкристофаро, Р.; Сальмасо, Л. (2003), «Анализ эффективности модели и проверка модели в логистической регрессии», Statistica , 63 : 375–396
Кмента, Ян (1986), Элементы эконометрики (второе издание), Macmillan, стр. 593–600; переиздано в 1997 году издательством Мичиганского университета

Внешние ссылки

Как узнать, соответствует ли модель моим данным? (NIST)
Электронный справочник статистических методов NIST/SEMATECH
Модель диагностики ( Колледж науки Эберли )

В статье использованы материалы, являющиеся общественным достоянием Национального института стандартов и технологий.