Регрессионное разбавление

Разбавление регрессии , также известное как затухание регрессии , представляет собой смещение наклона линейной регрессии в сторону нуля (недооценка ее абсолютного значения), вызванное ошибками в независимой переменной .

Рассмотрим подгонку прямой линии для связи выходной переменной y с предикторной переменной x и оценку наклона линии. Статистическая изменчивость, ошибка измерения или случайный шум в переменной y вызывают неопределенность в оценочном наклоне, но не смещение : в среднем процедура вычисляет правильный наклон. Однако изменчивость, ошибка измерения или случайный шум в переменной x вызывают смещение в оценочном наклоне (а также неточность). Чем больше дисперсия в измерении x , тем ближе оценочный наклон должен приближаться к нулю, а не к истинному значению.

Может показаться нелогичным, что шум в переменной-предикторе x вызывает смещение, а шум в переменной-результате y — нет. Напомним, что линейная регрессия не симметрична: линия наилучшего соответствия для предсказания y из x (обычная линейная регрессия) не совпадает с линией наилучшего соответствия для предсказания x из y . ^[1]

Коррекция наклона

Наклон регрессии и другие коэффициенты регрессии можно уменьшить следующим образом.

Случай фиксированногохпеременная

Случай, когда x фиксирован, но измеряется с шумом, известен как функциональная модель или функциональная зависимость . ^[2] Ее можно скорректировать с помощью метода наименьших квадратов ^[3] и моделей ошибок в переменных в целом.

Случай случайно распределенногохпеременная

Случай, когда переменная x возникает случайно, известен как структурная модель или структурная связь . Например, в медицинском исследовании пациенты набираются в качестве выборки из популяции, и их характеристики, такие как артериальное давление, могут рассматриваться как возникающие из случайной выборки .

При определенных предположениях (обычно предположениях о нормальном распределении ) существует известное соотношение между истинным наклоном и ожидаемым предполагаемым наклоном. Фрост и Томпсон (2000) рассматривают несколько методов оценки этого соотношения и, следовательно, корректировки предполагаемого наклона. ^[4] Термин «коэффициент разбавления регрессии» , хотя и не определяется всеми авторами совершенно одинаково, используется для этого общего подхода, в котором подгоняется обычная линейная регрессия, а затем применяется коррекция. Ответ Фросту и Томпсону от Лонгфорда (2001) отсылает читателя к другим методам, расширяющим модель регрессии для признания изменчивости переменной x, так что не возникает смещения. ^[5] Фуллер (1987) является одним из стандартных источников для оценки и корректировки разбавления регрессии. ^[6]

Хьюз (1993) показывает, что методы отношения разбавления регрессии применяются приблизительно в моделях выживания. ^[7] Рознер (1992) показывает, что методы отношения применяются приблизительно в моделях логистической регрессии. ^[8] Кэрролл и др. (1995) дают более подробную информацию о разбавлении регрессии в нелинейных моделях, представляя методы отношения разбавления регрессии как простейший случай методов калибровки регрессии , в которые также могут быть включены дополнительные ковариаты. ^[9]

В целом, методы структурной модели требуют некоторой оценки изменчивости переменной x. Это потребует повторных измерений переменной x у тех же самых людей, либо в подисследовании основного набора данных, либо в отдельном наборе данных. Без этой информации будет невозможно внести поправку.

Несколькохпеременные

Случай нескольких предикторных переменных, подверженных изменчивости (возможно, коррелированных ), был хорошо изучен для линейной регрессии и для некоторых нелинейных регрессионных моделей. ^[6]^[9] Другие нелинейные модели, такие как модели пропорциональных рисков для анализа выживаемости , рассматривались только с одним предиктором, подверженным изменчивости. ^[7]

Коррекция корреляции

В 1904 году Чарльз Спирмен разработал процедуру исправления корреляций для регрессионного разбавления ^[10] , т. е. «избавить коэффициент корреляции от ослабляющего эффекта ошибки измерения ». ^[11]

В измерении и статистике эта процедура также называется ослаблением корреляции или ослаблением корреляции . ^[12] Коррекция гарантирует, что коэффициент корреляции Пирсона по единицам данных (например, людям) между двумя наборами переменных оценивается таким образом, чтобы учитывать ошибку, содержащуюся в измерении этих переменных. ^[13]

Формулировка

Пусть и будут истинными значениями двух атрибутов некоторого человека или статистической единицы . Эти значения являются переменными в силу предположения, что они различаются для разных статистических единиц в популяции . Пусть и будут оценками и , полученными либо напрямую путем наблюдения с ошибкой, либо с помощью применения модели измерения, такой как модель Раша . Также пусть $\бета$ $\тета$ ${\hat {\beta }}$ ${\hat {\theta }}$ $\бета$ $\тета$

{\hat {\beta }}=\beta +\epsilon _{\beta },\quad \quad {\hat {\theta }}=\theta +\epsilon _{\theta },

где и — ошибки измерения, связанные с оценками и . $\epsilon _ {\beta }$ $\epsilon _ {\theta }$ ${\hat {\beta }}$ ${\hat {\theta }}$

Предполагаемая корреляция между двумя наборами оценок составляет

\operatorname {corr} ({\hat {\beta }}, {\hat {\theta }}) = {\frac {\operatorname {cov} ({\hat {\beta }}, {\hat {\theta }})}{{\sqrt {\operatorname {var} [{\hat {\beta }}]\operatorname {var} [{\hat {\theta }}}}]}}

={\frac {\operatorname {cov} (\beta +\epsilon _ {\beta },\theta +\epsilon _{\theta })}{\sqrt {\operatorname {var} [\beta + \epsilon _{\beta }]\operatorname {var} [\theta +\epsilon _{\theta }]}}},

что, предполагая, что ошибки не коррелируют друг с другом и с истинными значениями атрибутов, дает

\operatorname {corr} ({\hat {\beta }},{\hat {\theta }})={\frac {\operatorname {cov} (\beta ,\theta )}{\sqrt {(\operatorname {var} [\beta ]+\operatorname {var} [\epsilon _{\beta }])(\operatorname {var} [\theta ]+\operatorname {var} [\epsilon _{\theta }])}}}

={\frac {\operatorname {cov} (\beta ,\theta )}{\sqrt {(\operatorname {var} [\beta ]\operatorname {var} [\theta ])}}}.{\frac {\sqrt {\operatorname {var} [\beta ]\operatorname {var} [\theta ]}}{\sqrt {(\operatorname {var} [\beta ]+\operatorname {var} [\epsilon _{\beta }])(\operatorname {var} [\theta ]+\operatorname {var} [\epsilon _{\theta }])}}}

=\rho {\sqrt {R_{\beta }R_{\theta }}},

где - индекс разделения набора оценок , который аналогичен альфа Кронбаха ; то есть, в терминах классической теории тестов , аналогичен коэффициенту надежности. В частности, индекс разделения задается следующим образом: $R_{\beta }$ $\beta$ $R_{\beta }$

R_{\beta }={\frac {\operatorname {var} [\beta ]}{\operatorname {var} [\beta ]+\operatorname {var} [\epsilon _{\beta }]}}={\frac {\operatorname {var} [{\hat {\beta }}]-\operatorname {var} [\epsilon _{\beta }]}{\operatorname {var} [{\hat {\beta }}]}},

где среднеквадратическая стандартная ошибка оценки человека дает оценку дисперсии ошибок, . Стандартные ошибки обычно производятся как побочный продукт процесса оценки (см. Оценка модели Раша ). $\epsilon _{\beta }$

Таким образом, неравномерная оценка корреляции между двумя наборами оценок параметров равна

\rho ={\frac {{\mbox{corr}}({\hat {\beta }},{\hat {\theta }})}{\sqrt {R_{\beta }R_{\theta }}}}.

То есть, оценка ослабленной корреляции получается путем деления корреляции между оценками на геометрическое среднее индексов разделения двух наборов оценок. Выражаясь в терминах классической теории тестов, корреляция делится на геометрическое среднее коэффициентов надежности двух тестов.

При наличии двух случайных переменных и измеренных как и с измеренной корреляцией и известной надежностью для каждой переменной, и , предполагаемая корреляция между и с поправкой на затухание равна $X^{\prime }$ $Y^{\prime }$ $X$ $Y$ $r_{xy}$ $r_{xx}$ $r_{yy}$ $X^{\prime }$ $Y^{\prime }$

r_{x'y'}={\frac {r_{xy}}{\sqrt {r_{xx}r_{yy}}}}

То, насколько хорошо измеряются переменные, влияет на корреляцию X и Y. Поправка на затухание показывает, какой должна быть предполагаемая корреляция, если можно измерить X′ и Y′ с идеальной надежностью.

Таким образом, если и считаются несовершенными измерениями базовых переменных и имеют независимые ошибки, то оценивается истинная корреляция между и . $X$ $Y$ $X'$ $Y'$ $r_{x'y'}$ $X'$ $Y'$

Применимость

Коррекция на разбавление регрессии необходима в статистическом выводе на основе коэффициентов регрессии . Однако в приложениях предиктивного моделирования коррекция не является ни необходимой, ни целесообразной. При обнаружении изменений коррекция необходима.

Чтобы понять это, рассмотрим ошибку измерения следующим образом. Пусть y будет переменной результата, x будет истинной переменной-предиктором, а w будет приближенным наблюдением x . Фрост и Томпсон предполагают, например, что x может быть истинным долгосрочным артериальным давлением пациента, а w может быть артериальным давлением, наблюдаемым во время одного конкретного визита в клинику. ^[4] Регрессионное разбавление возникает, если мы заинтересованы в связи между y и x , но оцениваем связь между y и w . Поскольку w измеряется с изменчивостью, наклон линии регрессии y на w меньше, чем линия регрессии y на x . Стандартные методы могут подогнать регрессию y на w без смещения. Смещение возникает только в том случае, если мы затем используем регрессию y на w в качестве приближения к регрессии y на x. В этом примере, предполагая, что измерения артериального давления аналогично изменчивы у будущих пациентов, наша линия регрессии y на w (наблюдаемое артериальное давление) дает несмещенные прогнозы.

Примером обстоятельств, в которых желательна коррекция, является прогнозирование изменения. Предположим, что изменение x известно при некоторых новых обстоятельствах: для оценки вероятного изменения переменной результата y необходим наклон регрессии y на x , а не y на w . Это возникает в эпидемиологии . Продолжая пример, в котором x обозначает артериальное давление, возможно, крупное клиническое исследование предоставило оценку изменения артериального давления при новом лечении; тогда возможное влияние на y при новом лечении следует оценить по наклону регрессии y на x .

Другим обстоятельством является предиктивное моделирование, в котором будущие наблюдения также являются переменными, но не (в фразе, использованной выше) «подобно переменными». Например, если текущий набор данных включает артериальное давление, измеренное с большей точностью, чем это принято в клинической практике. Один конкретный пример этого возник при разработке уравнения регрессии на основе клинического испытания, в котором артериальное давление было средним значением шести измерений, для использования в клинической практике, где артериальное давление обычно является одним измерением. ^[14]

Все эти результаты можно продемонстрировать математически в случае простой линейной регрессии, предполагающей нормальное распределение по всей площади (рамка Фроста и Томпсона).

Обсуждалось, что плохо выполненная коррекция регрессионного разбавления, в частности, выполненная без проверки базовых предположений, может нанести больший вред оценке, чем отсутствие коррекции. ^[15]

Дальнейшее чтение

Регрессионное разбавление впервые было упомянуто под названием ослабление Спирменом ( 1904). ^[16] Те, кто ищет понятную математическую обработку, могут начать с Фроста и Томпсона (2000). ^[4]

Смотрите также

Модели ошибок в переменных
Квантование (обработка сигналов) – распространенный источник ошибок в объясняющих или независимых переменных

Ссылки

^ Дрейпер, Н. Р.; Смит, Х. (1998). Прикладной регрессионный анализ (3-е изд.). John Wiley. стр. 19. ISBN 0-471-17082-8.
^ Риггс, Д.С.; Гварниери, Дж.А.; и др. (1978). «Подгонка прямых линий, когда обе переменные подвержены ошибке». Life Sciences . 22 (13–15): 1305–60. doi :10.1016/0024-3205(78)90098-x. PMID 661506.
^ Голуб, Джин Х.; ван Лоан, Чарльз Ф. (1980). «Анализ проблемы наименьших квадратов». Журнал SIAM по численному анализу . 17 (6). Общество промышленной и прикладной математики (SIAM): 883–893. doi :10.1137/0717073. hdl : 1813/6251 . ISSN 0036-1429.
^ abc Frost, C. и S. Thompson (2000). «Коррекция смещения разбавления регрессии: сравнение методов для одной предикторной переменной». Журнал Королевского статистического общества, серия A 163: 173–190.
^ Longford, NT (2001). «Переписка». Журнал Королевского статистического общества, серия A. 164 (3): 565. doi : 10.1111/1467-985x.00219 . S2CID 247674444.
^ ab Fuller, WA (1987). Модели ошибок измерения. Нью-Йорк: Wiley. ISBN 9780470317334.
^ ab Хьюз, MD (1993). «Регрессионное разбавление в модели пропорциональных рисков». Биометрия . 49 (4): 1056–1066. doi :10.2307/2532247. JSTOR 2532247. PMID 8117900.
^ Роснер, Б.; Шпигельман, Д.; и др. (1992). «Коррекция оценок относительного риска логистической регрессии и доверительных интервалов для случайной ошибки измерения внутри человека». Американский журнал эпидемиологии . 136 (11): 1400–1403. doi :10.1093/oxfordjournals.aje.a116453. PMID 1488967.
^ ab Кэрролл, Р. Дж., Рупперт, Д. и Стефански, Л. А. (1995). Ошибка измерения в нелинейных моделях. Нью-Йорк, Wiley.
^ Спирмен, К. (1904). «Доказательство и измерение ассоциации между двумя вещами» (PDF) . Американский журнал психологии . 15 (1). Издательство Иллинойсского университета: 72–101. doi :10.2307/1412159. ISSN 0002-9556. JSTOR 1412159 . Получено 10 июля 2021 г. .
^ Дженсен, AR (1998). Фактор g: Наука об умственных способностях . Эволюция человека, поведение и интеллект. Praeger. ISBN 978-0-275-96103-9.
^ Осборн, Джейсон В. (2003-05-27). «Размеры эффекта и ослабление коэффициентов корреляции и регрессии: уроки педагогической психологии». Практическая оценка, исследования и анализ . 8 (1). doi :10.7275/0k9h-tq64 . Получено 10 июля 2021 г.
^ Фрэнкс, Александр; Айролди, Эдоардо; Славов, Николай (2017-05-08). "Посттранскрипционная регуляция в тканях человека". PLOS Computational Biology . 13 (5): e1005535. doi : 10.1371/journal.pcbi.1005535 . ISSN 1553-7358. PMC 5440056. PMID 28481885 .
^ Стивенс, Р. Дж.; Котари, В.; Адлер, А. И.; Страттон, И. М.; Холман, Р. Р. (2001). «Приложение к «Системе оценки рисков UKPDS: модель риска ишемической болезни сердца при диабете 2 типа UKPDS 56)». Клиническая наука . 101 : 671–679. doi :10.1042/cs20000335.
^ Дэйви Смит, Г.; Филлипс, А. Н. (1996). «Инфляция в эпидемиологии: «Доказательство и измерение связи между двумя вещами» снова». British Medical Journal . 312 (7047): 1659–1661. doi :10.1136/bmj.312.7047.1659. PMC 2351357. PMID 8664725 .
^ Спирмен, К. (1904). «Доказательство и измерение связи между двумя вещами». Американский журнал психологии . 15 (1): 72–101. doi :10.2307/1412159. JSTOR 1412159.