stringtranslate.com

Регрессионное разбавление

Иллюстрация разбавления регрессии (или смещения затухания) диапазоном оценок регрессии в моделях с ошибками в переменных . Две линии регрессии (красные) ограничивают диапазон возможностей линейной регрессии. Пологий наклон получается, когда независимая переменная (или предиктор) находится на оси абсцисс (ось x). Более крутой наклон получается, когда независимая переменная находится на оси ординат (ось y). По соглашению, при расположении независимой переменной на оси x получается более пологий наклон. Зеленые опорные линии представляют собой средние значения в произвольных ячейках вдоль каждой оси. Обратите внимание, что более крутые зеленые и красные оценки регрессии более согласованы с меньшими ошибками в переменной оси y.

Разбавление регрессии , также известное как затухание регрессии , представляет собой смещение наклона линейной регрессии в сторону нуля (недооценка ее абсолютного значения), вызванное ошибками в независимой переменной .

Рассмотрим подгонку прямой линии для связи выходной переменной y с предикторной переменной x и оценку наклона линии. Статистическая изменчивость, ошибка измерения или случайный шум в переменной y вызывают неопределенность в оценочном наклоне, но не смещение : в среднем процедура вычисляет правильный наклон. Однако изменчивость, ошибка измерения или случайный шум в переменной x вызывают смещение в оценочном наклоне (а также неточность). Чем больше дисперсия в измерении x , тем ближе оценочный наклон должен приближаться к нулю, а не к истинному значению.

Предположим, что зеленые и синие точки данных захватывают одни и те же данные, но с ошибками (+1 или -1 по оси x) для зеленых точек. Минимизация ошибки по оси y приводит к меньшему наклону для зеленых точек, даже если они представляют собой просто зашумленную версию тех же данных.

Может показаться нелогичным, что шум в переменной-предикторе x вызывает смещение, а шум в переменной-результате y — нет. Напомним, что линейная регрессия не симметрична: линия наилучшего соответствия для предсказания y из x (обычная линейная регрессия) не совпадает с линией наилучшего соответствия для предсказания x из y . [1]

Коррекция наклона

Наклон регрессии и другие коэффициенты регрессии можно уменьшить следующим образом.

Случай фиксированногохпеременная

Случай, когда x фиксирован, но измеряется с шумом, известен как функциональная модель или функциональная зависимость . [2] Ее можно скорректировать с помощью метода наименьших квадратов [3] и моделей ошибок в переменных в целом.

Случай случайно распределенногохпеременная

Случай, когда переменная x возникает случайно, известен как структурная модель или структурная связь . Например, в медицинском исследовании пациенты набираются в качестве выборки из популяции, и их характеристики, такие как артериальное давление, могут рассматриваться как возникающие из случайной выборки .

При определенных предположениях (обычно предположениях о нормальном распределении ) существует известное соотношение между истинным наклоном и ожидаемым предполагаемым наклоном. Фрост и Томпсон (2000) рассматривают несколько методов оценки этого соотношения и, следовательно, корректировки предполагаемого наклона. [4] Термин «коэффициент разбавления регрессии» , хотя и не определяется всеми авторами совершенно одинаково, используется для этого общего подхода, в котором подгоняется обычная линейная регрессия, а затем применяется коррекция. Ответ Фросту и Томпсону от Лонгфорда (2001) отсылает читателя к другим методам, расширяющим модель регрессии для признания изменчивости переменной x, так что не возникает смещения. [5] Фуллер (1987) является одним из стандартных источников для оценки и корректировки разбавления регрессии. [6]

Хьюз (1993) показывает, что методы отношения разбавления регрессии применяются приблизительно в моделях выживания. [7] Рознер (1992) показывает, что методы отношения применяются приблизительно в моделях логистической регрессии. [8] Кэрролл и др. (1995) дают более подробную информацию о разбавлении регрессии в нелинейных моделях, представляя методы отношения разбавления регрессии как простейший случай методов калибровки регрессии , в которые также могут быть включены дополнительные ковариаты. [9]

В целом, методы структурной модели требуют некоторой оценки изменчивости переменной x. Это потребует повторных измерений переменной x у тех же самых людей, либо в подисследовании основного набора данных, либо в отдельном наборе данных. Без этой информации будет невозможно внести поправку.

Несколькохпеременные

Случай нескольких предикторных переменных, подверженных изменчивости (возможно, коррелированных ), был хорошо изучен для линейной регрессии и для некоторых нелинейных регрессионных моделей. [6] [9] Другие нелинейные модели, такие как модели пропорциональных рисков для анализа выживаемости , рассматривались только с одним предиктором, подверженным изменчивости. [7]

Коррекция корреляции

В 1904 году Чарльз Спирмен разработал процедуру исправления корреляций для регрессионного разбавления [10] , т. е. «избавить коэффициент корреляции от ослабляющего эффекта ошибки измерения ». [11]

В измерении и статистике эта процедура также называется ослаблением корреляции или ослаблением корреляции . [12] Коррекция гарантирует, что коэффициент корреляции Пирсона по единицам данных (например, людям) между двумя наборами переменных оценивается таким образом, чтобы учитывать ошибку, содержащуюся в измерении этих переменных. [13]

Формулировка

Пусть и будут истинными значениями двух атрибутов некоторого человека или статистической единицы . Эти значения являются переменными в силу предположения, что они различаются для разных статистических единиц в популяции . Пусть и будут оценками и , полученными либо напрямую путем наблюдения с ошибкой, либо с помощью применения модели измерения, такой как модель Раша . Также пусть

где и — ошибки измерения, связанные с оценками и .

Предполагаемая корреляция между двумя наборами оценок составляет

что, предполагая, что ошибки не коррелируют друг с другом и с истинными значениями атрибутов, дает

где - индекс разделения набора оценок , который аналогичен альфа Кронбаха ; то есть, в терминах классической теории тестов , аналогичен коэффициенту надежности. В частности, индекс разделения задается следующим образом:

где среднеквадратическая стандартная ошибка оценки человека дает оценку дисперсии ошибок, . Стандартные ошибки обычно производятся как побочный продукт процесса оценки (см. Оценка модели Раша ).

Таким образом, неравномерная оценка корреляции между двумя наборами оценок параметров равна

То есть, оценка ослабленной корреляции получается путем деления корреляции между оценками на геометрическое среднее индексов разделения двух наборов оценок. Выражаясь в терминах классической теории тестов, корреляция делится на геометрическое среднее коэффициентов надежности двух тестов.

При наличии двух случайных переменных и измеренных как и с измеренной корреляцией и известной надежностью для каждой переменной, и , предполагаемая корреляция между и с поправкой на затухание равна

.

То, насколько хорошо измеряются переменные, влияет на корреляцию X и Y. Поправка на затухание показывает, какой должна быть предполагаемая корреляция, если можно измерить X′ и Y′ с идеальной надежностью.

Таким образом, если и считаются несовершенными измерениями базовых переменных и имеют независимые ошибки, то оценивается истинная корреляция между и .

Применимость

Коррекция на разбавление регрессии необходима в статистическом выводе на основе коэффициентов регрессии . Однако в приложениях предиктивного моделирования коррекция не является ни необходимой, ни целесообразной. При обнаружении изменений коррекция необходима.

Чтобы понять это, рассмотрим ошибку измерения следующим образом. Пусть y будет переменной результата, x будет истинной переменной-предиктором, а w будет приближенным наблюдением x . Фрост и Томпсон предполагают, например, что x может быть истинным долгосрочным артериальным давлением пациента, а w может быть артериальным давлением, наблюдаемым во время одного конкретного визита в клинику. [4] Регрессионное разбавление возникает, если мы заинтересованы в связи между y и x , но оцениваем связь между y и w . Поскольку w измеряется с изменчивостью, наклон линии регрессии y на w меньше, чем линия регрессии y на x . Стандартные методы могут подогнать регрессию y на w без смещения. Смещение возникает только в том случае, если мы затем используем регрессию y на w в качестве приближения к регрессии y на x. В этом примере, предполагая, что измерения артериального давления аналогично изменчивы у будущих пациентов, наша линия регрессии y на w (наблюдаемое артериальное давление) дает несмещенные прогнозы.

Примером обстоятельств, в которых желательна коррекция, является прогнозирование изменения. Предположим, что изменение x известно при некоторых новых обстоятельствах: для оценки вероятного изменения переменной результата y необходим наклон регрессии y на x , а не y на w . Это возникает в эпидемиологии . Продолжая пример, в котором x обозначает артериальное давление, возможно, крупное клиническое исследование предоставило оценку изменения артериального давления при новом лечении; тогда возможное влияние на y при новом лечении следует оценить по наклону регрессии y на x .

Другим обстоятельством является предиктивное моделирование, в котором будущие наблюдения также являются переменными, но не (в фразе, использованной выше) «подобно переменными». Например, если текущий набор данных включает артериальное давление, измеренное с большей точностью, чем это принято в клинической практике. Один конкретный пример этого возник при разработке уравнения регрессии на основе клинического испытания, в котором артериальное давление было средним значением шести измерений, для использования в клинической практике, где артериальное давление обычно является одним измерением. [14]

Все эти результаты можно продемонстрировать математически в случае простой линейной регрессии, предполагающей нормальное распределение по всей площади (рамка Фроста и Томпсона).

Обсуждалось, что плохо выполненная коррекция регрессионного разбавления, в частности, выполненная без проверки базовых предположений, может нанести больший вред оценке, чем отсутствие коррекции. [15]

Дальнейшее чтение

Регрессионное разбавление впервые было упомянуто под названием ослабление Спирменом ( 1904). [16] Те, кто ищет понятную математическую обработку, могут начать с Фроста и Томпсона (2000). [4]

Смотрите также

Ссылки

  1. ^ Дрейпер, Н. Р.; Смит, Х. (1998). Прикладной регрессионный анализ (3-е изд.). John Wiley. стр. 19. ISBN 0-471-17082-8.
  2. ^ Риггс, Д.С.; Гварниери, Дж.А.; и др. (1978). «Подгонка прямых линий, когда обе переменные подвержены ошибке». Life Sciences . 22 (13–15): 1305–60. doi :10.1016/0024-3205(78)90098-x. PMID  661506.
  3. ^ Голуб, Джин Х.; ван Лоан, Чарльз Ф. (1980). «Анализ проблемы наименьших квадратов». Журнал SIAM по численному анализу . 17 (6). Общество промышленной и прикладной математики (SIAM): 883–893. doi :10.1137/0717073. hdl : 1813/6251 . ISSN  0036-1429.
  4. ^ abc Frost, C. и S. Thompson (2000). «Коррекция смещения разбавления регрессии: сравнение методов для одной предикторной переменной». Журнал Королевского статистического общества, серия A 163: 173–190.
  5. ^ Longford, NT (2001). «Переписка». Журнал Королевского статистического общества, серия A. 164 (3): 565. doi : 10.1111/1467-985x.00219 . S2CID  247674444.
  6. ^ ab Fuller, WA (1987). Модели ошибок измерения. Нью-Йорк: Wiley. ISBN 9780470317334.
  7. ^ ab Хьюз, MD (1993). «Регрессионное разбавление в модели пропорциональных рисков». Биометрия . 49 (4): 1056–1066. doi :10.2307/2532247. JSTOR  2532247. PMID  8117900.
  8. ^ Роснер, Б.; Шпигельман, Д.; и др. (1992). «Коррекция оценок относительного риска логистической регрессии и доверительных интервалов для случайной ошибки измерения внутри человека». Американский журнал эпидемиологии . 136 (11): 1400–1403. doi :10.1093/oxfordjournals.aje.a116453. PMID  1488967.
  9. ^ ab Кэрролл, Р. Дж., Рупперт, Д. и Стефански, Л. А. (1995). Ошибка измерения в нелинейных моделях. Нью-Йорк, Wiley.
  10. ^ Спирмен, К. (1904). «Доказательство и измерение ассоциации между двумя вещами» (PDF) . Американский журнал психологии . 15 (1). Издательство Иллинойсского университета: 72–101. doi :10.2307/1412159. ISSN  0002-9556. JSTOR  1412159 . Получено 10 июля 2021 г. .
  11. ^ Дженсен, AR (1998). Фактор g: Наука об умственных способностях . Эволюция человека, поведение и интеллект. Praeger. ISBN 978-0-275-96103-9.
  12. ^ Осборн, Джейсон В. (2003-05-27). «Размеры эффекта и ослабление коэффициентов корреляции и регрессии: уроки педагогической психологии». Практическая оценка, исследования и анализ . 8 (1). doi :10.7275/0k9h-tq64 . Получено 10 июля 2021 г.
  13. ^ Фрэнкс, Александр; Айролди, Эдоардо; Славов, Николай (2017-05-08). "Посттранскрипционная регуляция в тканях человека". PLOS Computational Biology . 13 (5): e1005535. doi : 10.1371/journal.pcbi.1005535 . ISSN  1553-7358. PMC 5440056. PMID  28481885 . 
  14. ^ Стивенс, Р. Дж.; Котари, В.; Адлер, А. И.; Страттон, И. М.; Холман, Р. Р. (2001). «Приложение к «Системе оценки рисков UKPDS: модель риска ишемической болезни сердца при диабете 2 типа UKPDS 56)». Клиническая наука . 101 : 671–679. doi :10.1042/cs20000335.
  15. ^ Дэйви Смит, Г.; Филлипс, А. Н. (1996). «Инфляция в эпидемиологии: «Доказательство и измерение связи между двумя вещами» снова». British Medical Journal . 312 (7047): 1659–1661. doi :10.1136/bmj.312.7047.1659. PMC 2351357. PMID  8664725 . 
  16. ^ Спирмен, К. (1904). «Доказательство и измерение связи между двумя вещами». Американский журнал психологии . 15 (1): 72–101. doi :10.2307/1412159. JSTOR  1412159.