Разбавление регрессии , также известное как затухание регрессии , представляет собой смещение наклона линейной регрессии в сторону нуля (недооценка ее абсолютного значения), вызванное ошибками в независимой переменной .
Рассмотрим подгонку прямой линии для связи выходной переменной y с предикторной переменной x и оценку наклона линии. Статистическая изменчивость, ошибка измерения или случайный шум в переменной y вызывают неопределенность в оценочном наклоне, но не смещение : в среднем процедура вычисляет правильный наклон. Однако изменчивость, ошибка измерения или случайный шум в переменной x вызывают смещение в оценочном наклоне (а также неточность). Чем больше дисперсия в измерении x , тем ближе оценочный наклон должен приближаться к нулю, а не к истинному значению.
Может показаться нелогичным, что шум в переменной-предикторе x вызывает смещение, а шум в переменной-результате y — нет. Напомним, что линейная регрессия не симметрична: линия наилучшего соответствия для предсказания y из x (обычная линейная регрессия) не совпадает с линией наилучшего соответствия для предсказания x из y . [1]
Наклон регрессии и другие коэффициенты регрессии можно уменьшить следующим образом.
Случай, когда x фиксирован, но измеряется с шумом, известен как функциональная модель или функциональная зависимость . [2] Ее можно скорректировать с помощью метода наименьших квадратов [3] и моделей ошибок в переменных в целом.
Случай, когда переменная x возникает случайно, известен как структурная модель или структурная связь . Например, в медицинском исследовании пациенты набираются в качестве выборки из популяции, и их характеристики, такие как артериальное давление, могут рассматриваться как возникающие из случайной выборки .
При определенных предположениях (обычно предположениях о нормальном распределении ) существует известное соотношение между истинным наклоном и ожидаемым предполагаемым наклоном. Фрост и Томпсон (2000) рассматривают несколько методов оценки этого соотношения и, следовательно, корректировки предполагаемого наклона. [4] Термин «коэффициент разбавления регрессии» , хотя и не определяется всеми авторами совершенно одинаково, используется для этого общего подхода, в котором подгоняется обычная линейная регрессия, а затем применяется коррекция. Ответ Фросту и Томпсону от Лонгфорда (2001) отсылает читателя к другим методам, расширяющим модель регрессии для признания изменчивости переменной x, так что не возникает смещения. [5] Фуллер (1987) является одним из стандартных источников для оценки и корректировки разбавления регрессии. [6]
Хьюз (1993) показывает, что методы отношения разбавления регрессии применяются приблизительно в моделях выживания. [7] Рознер (1992) показывает, что методы отношения применяются приблизительно в моделях логистической регрессии. [8] Кэрролл и др. (1995) дают более подробную информацию о разбавлении регрессии в нелинейных моделях, представляя методы отношения разбавления регрессии как простейший случай методов калибровки регрессии , в которые также могут быть включены дополнительные ковариаты. [9]
В целом, методы структурной модели требуют некоторой оценки изменчивости переменной x. Это потребует повторных измерений переменной x у тех же самых людей, либо в подисследовании основного набора данных, либо в отдельном наборе данных. Без этой информации будет невозможно внести поправку.
Случай нескольких предикторных переменных, подверженных изменчивости (возможно, коррелированных ), был хорошо изучен для линейной регрессии и для некоторых нелинейных регрессионных моделей. [6] [9] Другие нелинейные модели, такие как модели пропорциональных рисков для анализа выживаемости , рассматривались только с одним предиктором, подверженным изменчивости. [7]
В 1904 году Чарльз Спирмен разработал процедуру исправления корреляций для регрессионного разбавления [10] , т. е. «избавить коэффициент корреляции от ослабляющего эффекта ошибки измерения ». [11]
В измерении и статистике эта процедура также называется ослаблением корреляции или ослаблением корреляции . [12] Коррекция гарантирует, что коэффициент корреляции Пирсона по единицам данных (например, людям) между двумя наборами переменных оценивается таким образом, чтобы учитывать ошибку, содержащуюся в измерении этих переменных. [13]
Пусть и будут истинными значениями двух атрибутов некоторого человека или статистической единицы . Эти значения являются переменными в силу предположения, что они различаются для разных статистических единиц в популяции . Пусть и будут оценками и , полученными либо напрямую путем наблюдения с ошибкой, либо с помощью применения модели измерения, такой как модель Раша . Также пусть
где и — ошибки измерения, связанные с оценками и .
Предполагаемая корреляция между двумя наборами оценок составляет
что, предполагая, что ошибки не коррелируют друг с другом и с истинными значениями атрибутов, дает
где - индекс разделения набора оценок , который аналогичен альфа Кронбаха ; то есть, в терминах классической теории тестов , аналогичен коэффициенту надежности. В частности, индекс разделения задается следующим образом:
где среднеквадратическая стандартная ошибка оценки человека дает оценку дисперсии ошибок, . Стандартные ошибки обычно производятся как побочный продукт процесса оценки (см. Оценка модели Раша ).
Таким образом, неравномерная оценка корреляции между двумя наборами оценок параметров равна
То есть, оценка ослабленной корреляции получается путем деления корреляции между оценками на геометрическое среднее индексов разделения двух наборов оценок. Выражаясь в терминах классической теории тестов, корреляция делится на геометрическое среднее коэффициентов надежности двух тестов.
При наличии двух случайных переменных и измеренных как и с измеренной корреляцией и известной надежностью для каждой переменной, и , предполагаемая корреляция между и с поправкой на затухание равна
То, насколько хорошо измеряются переменные, влияет на корреляцию X и Y. Поправка на затухание показывает, какой должна быть предполагаемая корреляция, если можно измерить X′ и Y′ с идеальной надежностью.
Таким образом, если и считаются несовершенными измерениями базовых переменных и имеют независимые ошибки, то оценивается истинная корреляция между и .
Коррекция на разбавление регрессии необходима в статистическом выводе на основе коэффициентов регрессии . Однако в приложениях предиктивного моделирования коррекция не является ни необходимой, ни целесообразной. При обнаружении изменений коррекция необходима.
Чтобы понять это, рассмотрим ошибку измерения следующим образом. Пусть y будет переменной результата, x будет истинной переменной-предиктором, а w будет приближенным наблюдением x . Фрост и Томпсон предполагают, например, что x может быть истинным долгосрочным артериальным давлением пациента, а w может быть артериальным давлением, наблюдаемым во время одного конкретного визита в клинику. [4] Регрессионное разбавление возникает, если мы заинтересованы в связи между y и x , но оцениваем связь между y и w . Поскольку w измеряется с изменчивостью, наклон линии регрессии y на w меньше, чем линия регрессии y на x . Стандартные методы могут подогнать регрессию y на w без смещения. Смещение возникает только в том случае, если мы затем используем регрессию y на w в качестве приближения к регрессии y на x. В этом примере, предполагая, что измерения артериального давления аналогично изменчивы у будущих пациентов, наша линия регрессии y на w (наблюдаемое артериальное давление) дает несмещенные прогнозы.
Примером обстоятельств, в которых желательна коррекция, является прогнозирование изменения. Предположим, что изменение x известно при некоторых новых обстоятельствах: для оценки вероятного изменения переменной результата y необходим наклон регрессии y на x , а не y на w . Это возникает в эпидемиологии . Продолжая пример, в котором x обозначает артериальное давление, возможно, крупное клиническое исследование предоставило оценку изменения артериального давления при новом лечении; тогда возможное влияние на y при новом лечении следует оценить по наклону регрессии y на x .
Другим обстоятельством является предиктивное моделирование, в котором будущие наблюдения также являются переменными, но не (в фразе, использованной выше) «подобно переменными». Например, если текущий набор данных включает артериальное давление, измеренное с большей точностью, чем это принято в клинической практике. Один конкретный пример этого возник при разработке уравнения регрессии на основе клинического испытания, в котором артериальное давление было средним значением шести измерений, для использования в клинической практике, где артериальное давление обычно является одним измерением. [14]
Все эти результаты можно продемонстрировать математически в случае простой линейной регрессии, предполагающей нормальное распределение по всей площади (рамка Фроста и Томпсона).
Обсуждалось, что плохо выполненная коррекция регрессионного разбавления, в частности, выполненная без проверки базовых предположений, может нанести больший вред оценке, чем отсутствие коррекции. [15]
Регрессионное разбавление впервые было упомянуто под названием ослабление Спирменом ( 1904). [16] Те, кто ищет понятную математическую обработку, могут начать с Фроста и Томпсона (2000). [4]