stringtranslate.com

Линейная регрессия

В статистике линейная регрессия — это модель , которая оценивает линейную связь между скалярным откликом ( зависимой переменной ) и одной или несколькими объясняющими переменными ( регрессором или независимой переменной ). Модель с одной объясняющей переменной — это простая линейная регрессия ; модель с двумя или более объясняющими переменными — это множественная линейная регрессия . [1] Этот термин отличается от многомерной линейной регрессии , которая предсказывает несколько коррелированных зависимых переменных, а не одну зависимую переменную. [2]

В линейной регрессии отношения моделируются с использованием линейных предикторных функций , неизвестные параметры модели которых оцениваются из данных . Чаще всего условное среднее значение отклика, заданного значениями объясняющих переменных (или предикторов), предполагается аффинной функцией этих значений; реже используется условная медиана или какой-либо другой квантиль . Как и все формы регрессионного анализа , линейная регрессия фокусируется на условном распределении вероятностей отклика, заданного значениями предикторов, а не на совместном распределении вероятностей всех этих переменных, что является областью многомерного анализа .

Линейная регрессия также является типом алгоритма машинного обучения , а точнее, контролируемым алгоритмом, который обучается на маркированных наборах данных и сопоставляет точки данных с наиболее оптимизированными линейными функциями, которые можно использовать для прогнозирования на новых наборах данных. [3]

Линейная регрессия была первым типом регрессионного анализа, который был тщательно изучен и широко использовался в практических приложениях. [4] Это связано с тем, что модели, которые линейно зависят от своих неизвестных параметров, легче подгоняются, чем модели, которые нелинейно связаны со своими параметрами, и потому, что статистические свойства полученных оценок легче определить.

Линейная регрессия имеет множество практических применений. Большинство приложений попадают в одну из следующих двух широких категорий:

Линейные регрессионные модели часто подгоняются с использованием подхода наименьших квадратов , но они также могут быть подогнаны другими способами, например, путем минимизации «отсутствия соответствия » в некоторой другой норме (как в случае регрессии наименьших абсолютных отклонений ) или путем минимизации штрафной версии функции стоимости наименьших квадратов , как в гребневой регрессии ( штраф L 2 -норма) и лассо ( штраф L 1 -норма). Использование среднеквадратической ошибки (MSE) в качестве стоимости для набора данных, который имеет много больших выбросов, может привести к модели, которая больше соответствует выбросам, чем истинным данным, из-за более высокой важности, приписываемой MSE большим ошибкам. Таким образом, функции стоимости, которые являются устойчивыми к выбросам, должны использоваться, если набор данных имеет много больших выбросов . И наоборот, подход наименьших квадратов может использоваться для подгонки моделей, которые не являются линейными моделями. Таким образом, хотя термины «наименьшие квадраты» и «линейная модель» тесно связаны, они не являются синонимами.

Формулировка

В линейной регрессии предполагается, что наблюдения ( красный ) являются результатом случайных отклонений ( зеленый ) от базовой связи ( синий ) между зависимой переменной ( y ) и независимой переменной ( x ).

При наличии набора данных из n статистических единиц линейная регрессионная модель предполагает, что связь между зависимой переменной y и вектором регрессоров x является линейной . Эта связь моделируется с помощью члена возмущения или переменной ошибки ε — ненаблюдаемой случайной величины , которая добавляет «шум» к линейной связи между зависимой переменной и регрессорами. Таким образом, модель принимает вид , где T обозначает транспонирование , так что x i T β является внутренним произведением между векторами x i и β .

Часто эти n уравнений объединяются и записываются в матричной записи как

где

Обозначения и терминология

Подгонка линейной модели к заданному набору данных обычно требует оценки коэффициентов регрессии таким образом, чтобы минимизировать погрешность . Например, обычно используют сумму квадратов ошибок в качестве меры для минимизации.

Пример

Рассмотрим ситуацию, когда небольшой мяч подбрасывается в воздух, а затем мы измеряем его высоту подъема h i в различные моменты времени t i . Физика говорит нам, что, игнорируя сопротивление , соотношение можно смоделировать как

где β 1 определяет начальную скорость мяча, β 2 пропорционален стандартной силе тяжести , а ε i обусловлен ошибками измерения. Линейная регрессия может быть использована для оценки значений β 1 и β 2 из измеренных данных. Эта модель нелинейна по временной переменной, но линейна по параметрам β 1 и β 2 ; если мы возьмем регрессоры x i  = ( x i 1 , x i 2 ) = ( t i , t i 2 ), модель примет стандартный вид

Предположения

Стандартные линейные регрессионные модели со стандартными методами оценки делают ряд предположений о переменных-предикторах, переменной отклика и их взаимосвязи. Было разработано множество расширений, которые позволяют ослабить каждое из этих предположений (т. е. свести к более слабой форме), а в некоторых случаях и вовсе исключить. Обычно эти расширения делают процедуру оценки более сложной и трудоемкой, а также могут потребовать больше данных для создания столь же точной модели. [ необходима цитата ]

Пример кубической полиномиальной регрессии, которая является типом линейной регрессии. Хотя полиномиальная регрессия подгоняет нелинейную модель к данным, как задача статистической оценки она является линейной, в том смысле, что функция регрессии E( y | x ) является линейной по неизвестным параметрам , которые оцениваются по данным . По этой причине полиномиальная регрессия считается частным случаем множественной линейной регрессии .

Ниже приведены основные предположения, сделанные в стандартных моделях линейной регрессии со стандартными методами оценки (например, методом наименьших квадратов ):

Для проверки нарушений предположений о линейности, постоянной дисперсии и независимости ошибок в рамках линейной регрессионной модели остатки обычно наносятся на график в зависимости от прогнозируемых значений (или каждого из отдельных предикторов). Случайный разброс точек относительно горизонтальной средней линии в точке 0 является идеальным, но не может исключить определенные виды нарушений, такие как автокорреляция в ошибках или их корреляция с одним или несколькими ковариатами.

Нарушения этих предположений могут привести к смещенным оценкам β , смещенным стандартным ошибкам, ненадежным доверительным интервалам и тестам значимости. Помимо этих предположений, несколько других статистических свойств данных сильно влияют на производительность различных методов оценки:

Интерпретация

Наборы данных в квартете Энскомба разработаны так, чтобы иметь примерно одинаковую линию линейной регрессии (а также почти идентичные средние значения, стандартные отклонения и корреляции), но графически они очень различаются. Это иллюстрирует подводные камни, возникающие, когда полагаешься исключительно на подобранную модель, чтобы понять связь между переменными.

Подогнанная линейная регрессионная модель может использоваться для определения связи между одной предикторной переменной x j и ответной переменной y, когда все остальные предикторные переменные в модели «удерживаются фиксированными». В частности, интерпретация β j — это ожидаемое изменение y для изменения x j на одну единицу , когда остальные ковариаты удерживаются фиксированными, то есть ожидаемое значение частной производной y по отношению к x j . Иногда это называют уникальным эффектом x j на y . Напротив, предельный эффект x j на y можно оценить с помощью коэффициента корреляции или простой линейной регрессионной модели , связывающей только x j с y ; этот эффект — это полная производная y по отношению к x j .

При интерпретации результатов регрессии необходимо соблюдать осторожность, поскольку некоторые регрессоры могут не допускать незначительных изменений (например, фиктивные переменные или свободный член), в то время как другие не могут оставаться фиксированными (вспомните пример из введения: было бы невозможно «удерживать t i фиксированным» и в то же время изменять значение t i 2 ).

Возможно, что уникальный эффект будет близок к нулю, даже если предельный эффект велик. Это может означать, что некоторая другая ковариата охватывает всю информацию в x j , так что как только эта переменная оказывается в модели, нет никакого вклада x j в вариацию y . И наоборот, уникальный эффект x j может быть большим, в то время как его предельный эффект близок к нулю. Это произошло бы, если бы другие ковариаты объясняли большую часть вариации y , но они в основном объясняют вариацию способом, который является дополнительным к тому, что охватывается x j . В этом случае включение других переменных в модель уменьшает часть вариации y , которая не связана с x j , тем самым усиливая кажущуюся связь с x j .

Значение выражения «удерживать фиксированными» может зависеть от того, как возникают значения предикторных переменных. Если экспериментатор напрямую устанавливает значения предикторных переменных в соответствии с планом исследования, интересующие сравнения могут буквально соответствовать сравнениям между единицами, предикторные переменные которых были «удержаны фиксированными» экспериментатором. В качестве альтернативы выражение «удерживать фиксированными» может относиться к выбору, который происходит в контексте анализа данных. В этом случае мы «удерживаем переменную фиксированной», ограничивая наше внимание подмножествами данных, которые случайно имеют общее значение для данной предикторной переменной. Это единственная интерпретация «удерживать фиксированными», которая может быть использована в наблюдательном исследовании .

Понятие «уникального эффекта» привлекательно при изучении сложной системы, где множественные взаимосвязанные компоненты влияют на переменную отклика. В некоторых случаях его можно буквально интерпретировать как причинный эффект вмешательства, который связан со значением переменной-предиктора. Однако утверждается, что во многих случаях множественный регрессионный анализ не может прояснить отношения между переменными-предикторами и переменной отклика, когда предикторы коррелируют друг с другом и не назначаются в соответствии с планом исследования. [9]

Расширения

Разработаны многочисленные расширения линейной регрессии, которые позволяют смягчить некоторые или все предположения, лежащие в основе базовой модели.

Простая и множественная линейная регрессия

Пример простой линейной регрессии , которая имеет одну независимую переменную

Простейший случай одной скалярной предикторной переменной x и одной скалярной ответной переменной y известен как простая линейная регрессия . Расширение на множественные и/или векторные предикторные переменные (обозначаемые заглавной буквой X ) известно как множественная линейная регрессия , также известная как многомерная линейная регрессия (не путать с многомерной линейной регрессией ). [10]

Множественная линейная регрессия является обобщением простой линейной регрессии на случай более чем одной независимой переменной и частным случаем общих линейных моделей, ограниченных одной зависимой переменной. Базовая модель для множественной линейной регрессии —

для каждого наблюдения .

В приведенной выше формуле мы рассматриваем n наблюдений одной зависимой переменной и p независимых переменных. Таким образом, Y i — это i- е наблюдение зависимой переменной, X ij — это i- е наблюдение j независимой переменной, j = 1, 2, ..., p . Значения β j представляют собой параметры, которые необходимо оценить, а ε i — это i - я независимая одинаково распределенная нормальная ошибка.

В более общей многомерной линейной регрессии существует одно уравнение вышеуказанной формы для каждой из m > 1 зависимых переменных, которые совместно используют один и тот же набор объясняющих переменных и, следовательно, оцениваются одновременно друг с другом:

для всех наблюдений, проиндексированных как i = 1, ... , n , и для всех зависимых переменных, проиндексированных как j = 1, ... , m .

Почти все реальные регрессионные модели включают несколько предикторов, и основные описания линейной регрессии часто формулируются в терминах модели множественной регрессии. Обратите внимание, однако, что в этих случаях переменная отклика y по-прежнему является скаляром. Другой термин, многомерная линейная регрессия , относится к случаям, когда y является вектором, т. е. то же самое, что и общая линейная регрессия .

Общие линейные модели

Общая линейная модель рассматривает ситуацию, когда переменная отклика является не скаляром (для каждого наблюдения), а вектором y i . Условная линейность по-прежнему предполагается, при этом матрица B заменяет вектор β классической линейной регрессионной модели. Разработаны многомерные аналоги обычных наименьших квадратов (OLS) и обобщенных наименьших квадратов (GLS). «Общие линейные модели» также называются «многомерными линейными моделями». Они не то же самое, что многомерные линейные модели (также называемые «множественными линейными моделями»).

Гетероскедастические модели

Были созданы различные модели, которые допускают гетероскедастичность , т. е. ошибки для разных ответных переменных могут иметь разные дисперсии . Например, взвешенные наименьшие квадраты — это метод оценки моделей линейной регрессии, когда ответные переменные могут иметь разные дисперсии ошибок, возможно, с коррелированными ошибками. (См. также Взвешенные линейные наименьшие квадраты и Обобщенные наименьшие квадраты .) Согласованные с гетероскедастичностью стандартные ошибки — это улучшенный метод для использования с некоррелированными, но потенциально гетероскедастичными ошибками.

Обобщенные линейные модели

Обобщенная линейная модель (GLM) — это структура для моделирования переменных отклика, которые ограничены или дискретны. Она используется, например:

Обобщенные линейные модели допускают произвольную функцию связи , g , которая связывает среднее значение переменной(ых) отклика с предикторами: . Функция связи часто связана с распределением отклика, и в частности она обычно имеет эффект преобразования между диапазоном линейного предиктора и диапазоном переменной отклика.

Вот некоторые распространенные примеры GLM:

Модели с одним индексом [ требуется разъяснение ] допускают некоторую степень нелинейности в отношениях между x и y , сохраняя при этом центральную роль линейного предиктора βx, как в классической модели линейной регрессии. При определенных условиях простое применение OLS к данным из модели с одним индексом будет последовательно оценивать β с точностью до константы пропорциональности. [11]

Иерархические линейные модели

Иерархические линейные модели (или многоуровневая регрессия ) организуют данные в иерархию регрессий, например, где A регрессируется на B , а B регрессируется на C. Это часто используется, когда интересующие переменные имеют естественную иерархическую структуру, например, в образовательной статистике, где ученики вложены в классы, классы вложены в школы, а школы вложены в некоторую административную группировку, например, школьный округ. Переменная отклика может быть мерой успеваемости ученика, например, результатом теста, и различные ковариаты будут собираться на уровнях класса, школы и школьного округа.

Ошибки в переменных

Модели с ошибками в переменных (или «модели ошибок измерения») расширяют традиционную модель линейной регрессии, позволяя наблюдать переменные-предикторы X с ошибкой. Эта ошибка приводит к тому, что стандартные оценки β становятся смещенными. Обычно форма смещения — это ослабление, то есть эффекты смещены в сторону нуля.

Групповые эффекты

В модели множественной линейной регрессии

Параметр переменной-предиктора представляет собой индивидуальный эффект . Он интерпретируется как ожидаемое изменение переменной отклика при увеличении на одну единицу при сохранении других переменных-предиктора постоянными. Когда сильно коррелирует с другими переменными-предикторами, маловероятно, что может увеличиться на одну единицу при сохранении других переменных постоянными. В этом случае интерпретация становится проблематичной, поскольку она основана на маловероятном условии, и эффект не может быть оценен изолированно.

Для группы переменных-предикторов, скажем , групповой эффект определяется как линейная комбинация их параметров

где — вектор веса, удовлетворяющий . Из-за ограничения на , также называется нормализованным групповым эффектом. Групповой эффект интерпретируется как ожидаемое изменение в , когда переменные в группе изменяются на величину , соответственно, в то же время, когда другие переменные (не в группе) остаются постоянными. Он обобщает индивидуальный эффект переменной на группу переменных в том смысле, что ( ) если , то групповой эффект сводится к индивидуальному эффекту, и ( ) если и для , то групповой эффект также сводится к индивидуальному эффекту. Групповой эффект считается значимым, если основные одновременные изменения переменных вероятны .

Групповые эффекты предоставляют средства для изучения коллективного воздействия сильно коррелированных предикторных переменных в моделях линейной регрессии. Индивидуальные эффекты таких переменных не определены четко, поскольку их параметры не имеют хороших интерпретаций. Кроме того, когда размер выборки невелик, ни один из их параметров не может быть точно оценен с помощью регрессии наименьших квадратов из-за проблемы мультиколлинеарности . Тем не менее, существуют значимые групповые эффекты, которые имеют хорошие интерпретации и могут быть точно оценены с помощью регрессии наименьших квадратов. Простой способ определить эти значимые групповые эффекты — использовать схему всех положительных корреляций (APC) сильно коррелированных переменных, при которой попарные корреляции между этими переменными все положительны, и стандартизировать все предикторные переменные в модели так, чтобы все они имели нулевое среднее значение и длину один. Чтобы проиллюстрировать это, предположим, что — группа сильно коррелированных переменных в схеме APC и что они не сильно коррелируют с предикторными переменными вне группы. Пусть будет центрированным и будет стандартизированным . Тогда стандартизированная модель линейной регрессии будет

Параметры в исходной модели, включая , являются простыми функциями в стандартизированной модели. Стандартизация переменных не изменяет их корреляции, поэтому группа сильно коррелированных переменных в схеме APC не сильно коррелирует с другими предикторными переменными в стандартизированной модели. Групповой эффект — это

и его несмещенная линейная оценка с минимальной дисперсией равна

где — оценка наименьших квадратов . В частности, средний групповой эффект стандартизированных переменных равен

что имеет интерпретацию как ожидаемое изменение в когда все в сильно коррелированной группе увеличиваются на th единицы в одно и то же время при переменных вне группы, сохраняющих постоянство. При сильных положительных корреляциях и в стандартизированных единицах переменные в группе приблизительно равны, поэтому они, вероятно, увеличатся в одно и то же время и в схожем количестве. Таким образом, средний групповой эффект является значимым эффектом. Его можно точно оценить с помощью его минимальной дисперсии несмещенной линейной оценки , даже если по отдельности ни один из не может быть точно оценен с помощью .

Не все групповые эффекты значимы или могут быть точно оценены. Например, является особым групповым эффектом с весами и для , но его нельзя точно оценить с помощью . Это также не значимый эффект. В общем, для группы сильно коррелированных предикторных переменных в расположении APC в стандартизированной модели групповые эффекты, весовые векторы которых находятся в центре симплекса ( ) или около него, значимы и могут быть точно оценены с помощью их несмещенных линейных оценщиков с минимальной дисперсией. Эффекты с весовыми векторами, далекими от центра, не значимы, поскольку такие весовые векторы представляют собой одновременные изменения переменных, которые нарушают сильные положительные корреляции стандартизированных переменных в расположении APC. Как таковые, они не являются вероятными. Эти эффекты также не могут быть точно оценены.

Приложения групповых эффектов включают (1) оценку и вывод для значимых групповых эффектов на переменную отклика, (2) тестирование на «групповую значимость» переменных посредством тестирования против и (3) характеристику области пространства предикторных переменных, в которой прогнозы, полученные с помощью модели наименьших квадратов, являются точными.

Групповой эффект исходных переменных может быть выражен как константа, умноженная на групповой эффект стандартизированных переменных . Первое имеет смысл, когда имеет смысл второе. Таким образом, значимые групповые эффекты исходных переменных могут быть найдены через значимые групповые эффекты стандартизированных переменных. [12]

Другие

В теории Демпстера–Шейфера или, в частности, линейной функции доверия , модель линейной регрессии может быть представлена ​​как частично пройденная матрица, которую можно объединить с аналогичными матрицами, представляющими наблюдения и другие предполагаемые нормальные распределения и уравнения состояния. Комбинация пройденных или непройденных матриц обеспечивает альтернативный метод оценки моделей линейной регрессии.

Методы оценки

Было разработано большое количество процедур для оценки параметров и вывода в линейной регрессии. Эти методы отличаются вычислительной простотой алгоритмов, наличием решения в замкнутой форме , надежностью по отношению к распределениям с тяжелыми хвостами и теоретическими предположениями, необходимыми для проверки желаемых статистических свойств, таких как согласованность и асимптотическая эффективность .

Ниже приведены некоторые из наиболее распространенных методов оценки линейной регрессии.

Оценка методом наименьших квадратов и связанные с ним методы

Иллюстрация Фрэнсиса Гальтона 1886 года [13] корреляции между ростом взрослых и их родителей. Наблюдение, что рост взрослых детей, как правило, меньше отклоняется от среднего роста, чем рост их родителей, предложило концепцию « регрессии к среднему », давшую регрессии ее название. «Геометрическое место точек горизонтальной касательной», проходящее через крайние левую и правую точки эллипса (который является кривой уровня двумерного нормального распределения, оцененного по данным), является оценкой OLS регрессии роста родителей на рост детей, в то время как «геометрическое место точек вертикальной касательной» является оценкой OLS регрессии роста детей на рост родителей. Большая ось эллипса является оценкой TLS .

Если предположить, что независимые переменные и параметры модели равны , то прогноз модели будет следующим:

.

Если расширено до , то станет скалярным произведением параметра и независимых векторов, т.е.

.

В случае метода наименьших квадратов оптимальный вектор параметров определяется таким образом, чтобы минимизировать сумму среднеквадратических потерь:

Теперь, поместив независимые и зависимые переменные в матрицы , и соответственно, функцию потерь можно переписать как:

Поскольку функция потерь выпукла , оптимальное решение лежит при градиенте ноль. Градиент функции потерь равен (используя соглашение о расположении знаменателя ):

Установка градиента на ноль дает оптимальный параметр:

Примечание: Полученное действительно может быть локальным минимумом, нужно еще раз продифференцировать, чтобы получить матрицу Гессе и показать, что она положительно определена. Это обеспечивается теоремой Гаусса–Маркова .

Линейные методы наименьших квадратов включают в себя в основном:

Оценка максимального правдоподобия и связанные с ней методы

Оценка максимального правдоподобия

Оценка максимального правдоподобия может быть выполнена, когда известно, что распределение членов ошибки принадлежит определенному параметрическому семейству ƒ θ распределений вероятностей . [ 15] Когда f θ является нормальным распределением с нулевым средним и дисперсией θ, результирующая оценка идентична оценке OLS. Оценки GLS являются оценками максимального правдоподобия, когда ε следует многомерному нормальному распределению с известной ковариационной матрицей . Обозначим каждую точку данных как , а параметры регрессии как , а набор всех данных как , а функцию стоимости как .

Как показано ниже, тот же оптимальный параметр, который минимизирует, также достигает максимального правдоподобия. [16] Здесь предполагается, что зависимая переменная является случайной величиной, которая следует гауссовскому распределению , где стандартное отклонение фиксировано, а среднее значение является линейной комбинацией :

Теперь нам нужно найти параметр, который максимизирует эту функцию правдоподобия. Поскольку логарифмическая функция строго возрастает, вместо максимизации этой функции мы можем также максимизировать ее логарифм и таким образом найти оптимальный параметр. [16]

Оптимальный параметр, таким образом, равен: [16]

Таким образом, параметр, который максимизирует, тот же, что и параметр, который минимизирует . Это означает, что в линейной регрессии результат метода наименьших квадратов такой же, как результат метода оценки максимального правдоподобия. [16]

Регуляризованная регрессия

Регрессия гребня [17] [18] [19] и другие формы штрафной оценки, такие как регрессия Лассо [5], намеренно вводят смещение в оценку β , чтобы уменьшить изменчивость оценки. Полученные оценки обычно имеют более низкую среднеквадратичную ошибку , чем оценки OLS, особенно когда присутствует мультиколлинеарность или когда переобучение является проблемой. Они обычно используются, когда цель состоит в том, чтобы предсказать значение переменной отклика y для значений предикторов x , которые еще не наблюдались. Эти методы не так часто используются, когда цель состоит в выводе, поскольку трудно учесть смещение.

Наименьшее абсолютное отклонение

Регрессия наименьшего абсолютного отклонения (LAD) является надежным методом оценки, поскольку он менее чувствителен к наличию выбросов, чем OLS (но менее эффективен, чем OLS, когда выбросов нет). Он эквивалентен оценке максимального правдоподобия в модели распределения Лапласа для ε . [20]

Адаптивная оценка

Если предположить, что члены ошибки независимы от регрессоров , то оптимальной оценкой является двухшаговый MLE, где первый шаг используется для непараметрической оценки распределения члена ошибки. [21]

Другие методы оценки

Сравнение оценки Тейла–Сена (черный) и простой линейной регрессии (синий) для набора точек с выбросами

Приложения

Линейная регрессия широко используется в биологических, поведенческих и социальных науках для описания возможных связей между переменными. Она считается одним из важнейших инструментов, используемых в этих дисциплинах.

Линия тренда

Линия тренда представляет собой тенденцию, долгосрочное движение в данных временного ряда после того, как были учтены другие компоненты. Она сообщает, увеличился или уменьшился определенный набор данных (например, ВВП, цены на нефть или цены акций) за определенный период времени. Линию тренда можно просто нарисовать на глаз через набор точек данных, но более правильно их положение и наклон рассчитываются с использованием статистических методов, таких как линейная регрессия. Линии тренда обычно являются прямыми линиями, хотя некоторые вариации используют полиномы более высокой степени в зависимости от желаемой степени кривизны линии.

Линии тренда иногда используются в бизнес-аналитике для отображения изменений данных с течением времени. Это имеет преимущество простоты. Линии тренда часто используются для утверждения, что определенное действие или событие (например, обучение или рекламная кампания) вызвало наблюдаемые изменения в определенный момент времени. Это простой метод, и он не требует контрольной группы, экспериментального проектирования или сложной методики анализа. Однако он страдает от отсутствия научной обоснованности в случаях, когда другие потенциальные изменения могут повлиять на данные.

Эпидемиология

Ранние доказательства связи курения табака со смертностью и заболеваемостью были получены из наблюдательных исследований, использующих регрессионный анализ. Чтобы уменьшить ложные корреляции при анализе наблюдательных данных, исследователи обычно включают несколько переменных в свои регрессионные модели в дополнение к переменной, представляющей основной интерес. Например, в регрессионной модели, в которой курение сигарет является независимой переменной, представляющей основной интерес, а зависимой переменной является продолжительность жизни, измеряемая в годах, исследователи могут включать образование и доход в качестве дополнительных независимых переменных, чтобы гарантировать, что любое наблюдаемое влияние курения на продолжительность жизни не обусловлено этими другими социально-экономическими факторами . Однако никогда не представляется возможным включить все возможные смешивающие переменные в эмпирический анализ. Например, гипотетический ген может увеличить смертность, а также заставить людей курить больше. По этой причине рандомизированные контролируемые испытания часто способны генерировать более убедительные доказательства причинно-следственных связей, чем можно получить с помощью регрессионного анализа наблюдательных данных. Если контролируемые эксперименты невозможны, можно использовать варианты регрессионного анализа, такие как регрессия инструментальных переменных , чтобы попытаться оценить причинно-следственные связи на основе данных наблюдений.

Финансы

Модель ценообразования капитальных активов использует линейную регрессию, а также концепцию бета для анализа и количественной оценки систематического риска инвестиций. Это напрямую исходит из коэффициента бета линейной регрессионной модели, которая связывает доходность инвестиций с доходностью всех рискованных активов.

Экономика

Линейная регрессия является преобладающим эмпирическим инструментом в экономике . Например, она используется для прогнозирования потребительских расходов , [24] фиксированных инвестиционных расходов, инвестиций в товарно-материальные запасы , закупок экспортной продукции страны , [25] расходов на импорт , [25] спроса на ликвидные активы , [26] спроса на рабочую силу , [27] и предложения рабочей силы . [27]

Науки об окружающей среде

Линейная регрессия находит применение в широком спектре приложений в области науки об окружающей среде, таких как землепользование , [28] инфекционные заболевания , [29] и загрязнение воздуха . [30] Например, линейную регрессию можно использовать для прогнозирования изменяющихся эффектов загрязнения от автомобилей. [31]

Строительная наука

Линейная регрессия обычно используется в полевых исследованиях строительной науки для получения характеристик жильцов здания. В полевых исследованиях теплового комфорта ученые-строители обычно спрашивают у жильцов голоса о тепловом ощущении, которые варьируются от -3 (ощущение холода) до 0 (нейтральное) и +3 (ощущение жары), и измеряют данные о температуре окружающей среды жильцов. Нейтральную или комфортную температуру можно рассчитать на основе линейной регрессии между голосом теплового ощущения и температурой в помещении и установить голос теплового ощущения равным нулю. Однако были дебаты о направлении регрессии: регресс голосов теплового ощущения (ось Y) относительно температуры в помещении (ось X) или наоборот: регресс температуры в помещении (ось Y) относительно голосов теплового ощущения (ось X). [32]

Машинное обучение

Линейная регрессия играет важную роль в области искусственного интеллекта , известной как машинное обучение . Алгоритм линейной регрессии является одним из фундаментальных алгоритмов контролируемого машинного обучения благодаря своей относительной простоте и хорошо известным свойствам. [33]

История

Линейная регрессия наименьших квадратов, как средство нахождения хорошего грубого линейного соответствия для набора точек, была выполнена Лежандром (1805) и Гауссом (1809) для предсказания движения планет. Кетле был ответственен за то, что сделал эту процедуру широко известной и широко использовал ее в социальных науках. [34]

Смотрите также

Ссылки

Цитаты

  1. ^ Freedman, David A. (2009). Статистические модели: теория и практика . Cambridge University Press . стр. 26. Простое уравнение регрессии имеет в правой части свободный член и объясняющую переменную с коэффициентом наклона. Множественная регрессия e правая часть, каждая со своим собственным коэффициентом наклона
  2. ^ Ренчер, Элвин К.; Кристенсен, Уильям Ф. (2012), «Глава 10, Многомерная регрессия – Раздел 10.1, Введение», Методы многомерного анализа, Wiley Series in Probability and Statistics, т. 709 (3-е изд.), John Wiley & Sons, стр. 19, ISBN 9781118391679, заархивировано из оригинала 2024-10-04 , извлечено 2015-02-07.
  3. ^ "Линейная регрессия в машинном обучении". GeeksforGeeks . 2018-09-13. Архивировано из оригинала 2024-10-04 . Получено 2024-08-25 .
  4. ^ Ян, Синь (2009), Линейный регрессионный анализ: теория и вычисления, World Scientific, стр. 1–2, ISBN 9789812834119, архивировано из оригинала 2024-10-04 , извлечено 2015-02-07 , Регрессионный анализ ... вероятно, одна из старейших тем в математической статистике, возникшая около двухсот лет назад. Самой ранней формой линейной регрессии был метод наименьших квадратов, опубликованный Лежандром в 1805 году и Гауссом в 1809 году ... Лежандр и Гаусс оба применили этот метод к проблеме определения орбит тел вокруг Солнца по астрономическим наблюдениям.
  5. ^ ab Tibshirani, Robert (1996). «Regression Shrinkage and Selection via the Lasso». Журнал Королевского статистического общества, Серия B. 58 ( 1): 267–288. doi :10.1111/j.2517-6161.1996.tb02080.x. JSTOR  2346178.
  6. ^ ab Эфрон, Брэдли; Хасти, Тревор; Джонстон, Иэн; Тибширани, Роберт (2004). «Регрессия наименьшего угла». Анналы статистики . 32 (2): 407–451. arXiv : math/0406456 . doi :10.1214/009053604000000067. JSTOR  3448465. S2CID  204004121.
  7. ^ ab Хокинс, Дуглас М. (1973). «Об исследовании альтернативных регрессий с помощью анализа главных компонент». Журнал Королевского статистического общества, серия C. 22 ( 3): 275–286. doi :10.2307/2346776. JSTOR  2346776.
  8. ^ ab Jolliffe, Ian T. (1982). «Заметка об использовании главных компонент в регрессии». Журнал Королевского статистического общества, серия C. 31 ( 3): 300–303. doi :10.2307/2348005. JSTOR  2348005.
  9. ^ Берк, Ричард А. (2007). «Регрессионный анализ: конструктивная критика». Обзор уголовного правосудия . 32 (3): 301–302. doi :10.1177/0734016807304871. S2CID  145389362.
  10. ^ Идальго, Берта; Гудман, Мелоди (15.11.2012). «Многомерная или многомерная регрессия?». Американский журнал общественного здравоохранения . 103 (1): 39–40. doi :10.2105/AJPH.2012.300897. ISSN  0090-0036. PMC 3518362. PMID 23153131  . 
  11. ^ Бриллингер, Дэвид Р. (1977). «Идентификация конкретной нелинейной системы временных рядов». Biometrika . 64 (3): 509–515. doi :10.1093/biomet/64.3.509. JSTOR  2345326.
  12. ^ Цао, Мин (2022). «Групповая регрессия наименьших квадратов для линейных моделей с сильно коррелированными предикторными переменными». Анналы Института статистической математики . 75 (2): 233–250. arXiv : 1804.02499 . doi : 10.1007/s10463-022-00841-7. S2CID  237396158.
  13. ^ Гальтон, Фрэнсис (1886). «Регрессия к посредственности в наследственном статусе». Журнал Антропологического института Великобритании и Ирландии . 15 : 246–263. doi :10.2307/2841583. ISSN  0959-5295. JSTOR  2841583.
  14. ^ Britzger, Daniel (2022). "The Linear Template Fit". Eur. Phys. J. C. 82 ( 8): 731. arXiv : 2112.01548 . Bibcode : 2022EPJC...82..731B. doi : 10.1140/epjc/s10052-022-10581-w. S2CID  244896511.
  15. ^ Ланге, Кеннет Л.; Литтл, Родерик JA; Тейлор, Джереми MG (1989). «Надежное статистическое моделирование с использованием распределения Стьюдента» (PDF) . Журнал Американской статистической ассоциации . 84 (408): 881–896. doi :10.2307/2290063. JSTOR  2290063. Архивировано (PDF) из оригинала 2024-10-04 . Получено 2019-09-02 .
  16. ^ abcd Машинное обучение: вероятностная перспектива Архивировано 2018-11-04 в Wayback Machine , Кевин П. Мерфи, 2012, стр. 217, Кембридж, Массачусетс
  17. ^ Суиндел, Бени Ф. (1981). «Иллюстрированная геометрия гребневой регрессии». Американский статистик . 35 (1): 12–15. doi :10.2307/2683577. JSTOR  2683577.
  18. ^ Дрейпер, Норман Р.; ван Ностранд; Р. Крейг (1979). «Регрессия хребта и оценка Джеймса-Стейна: обзор и комментарии». Technometrics . 21 (4): 451–466. doi :10.2307/1268284. JSTOR  1268284.
  19. ^ Hoerl, Arthur E.; Kennard, Robert W.; Hoerl, Roger W. (1985). «Практическое использование гребневой регрессии: решенная задача». Журнал Королевского статистического общества, серия C. 34 ( 2): 114–120. JSTOR  2347363.
  20. ^ Narula, Subhash C.; Wellington, John F. (1982). «Минимальная сумма абсолютных ошибок регрессии: обзор современного состояния». International Statistical Review . 50 (3): 317–326. doi :10.2307/1402501. JSTOR  1402501.
  21. ^ Стоун, CJ (1975). «Адаптивные оценки максимального правдоподобия параметра местоположения». Анналы статистики . 3 (2): 267–284. doi : 10.1214/aos/1176343056 . JSTOR  2958945.
  22. ^ Голдштейн, Х. (1986). «Многоуровневый смешанный линейный модельный анализ с использованием итеративных обобщенных наименьших квадратов». Biometrika . 73 (1): 43–56. doi :10.1093/biomet/73.1.43. JSTOR  2336270.
  23. ^ Theil, H. (1950). "Рангово-инвариантный метод линейного и полиномиального регрессионного анализа. I, II, III". Nederl. Akad. Wetensch., Proc . 53 : 386–392, 521–525, 1397–1412. MR  0036489.; Сен, Пранаб Кумар (1968). «Оценки коэффициента регрессии на основе тау Кендалла». Журнал Американской статистической ассоциации . 63 (324): 1379–1389. doi :10.2307/2285891. JSTOR  2285891. MR  0258201..
  24. ^ Дитон, Ангус (1992). Понимание потребления . Oxford University Press. ISBN 978-0-19-828824-4.
  25. ^ ab Кругман, Пол Р .; Обстфельд, М .; Мелиц, Марк Дж. (2012). Международная экономика: теория и политика (9-е глобальное издание). Harlow: Pearson. ISBN 9780273754091.
  26. ^ Laidler, David EW (1993). Спрос на деньги: теории, доказательства и проблемы (4-е изд.). Нью-Йорк: Harper Collins. ISBN 978-0065010985.
  27. ^ ab Ehrenberg; Smith (2008). Современная экономика труда (10-е международное изд.). Лондон: Addison-Wesley. ISBN 9780321538963.
  28. ^ Hoek, Gerard; Beelen, Rob; de Hoogh, Kees; Vienneau, Danielle; Gulliver, John; Fischer, Paul; Briggs, David (2008-10-01). "Обзор моделей регрессии землепользования для оценки пространственной изменчивости загрязнения наружного воздуха". Atmospheric Environment . 42 (33): 7561–7578. Bibcode : 2008AtmEn..42.7561H. doi : 10.1016/j.atmosenv.2008.05.057. ISSN  1352-2310.
  29. ^ Имаи, Чисато; Хашизуме, Масахиро (2015). «Систематический обзор методологии: регрессионный анализ временных рядов для факторов окружающей среды и инфекционных заболеваний». Tropical Medicine and Health . 43 ( 1): 1–9. doi :10.2149/tmh.2014-21. hdl : 10069/35301 . PMC 4361341. PMID  25859149. Архивировано из оригинала 2024-10-04 . Получено 2024-02-03 . 
  30. ^ Milionis, AE; Davies, TD (1994-09-01). «Регрессия и стохастические модели для загрязнения воздуха — I. Обзор, комментарии и предложения». Atmospheric Environment . 28 (17): 2801–2810. Bibcode : 1994AtmEn..28.2801M. doi : 10.1016/1352-2310(94)90083-3. ISSN  1352-2310. Архивировано из оригинала 2024-10-04 . Получено 2024-05-07 .
  31. ^ Хоффман, Шимон; Филак, Мариуш; Ясинский, Рафал (8 декабря 2024 г.). «Моделирование качества воздуха с использованием регрессионных нейронных сетей». Int J Environ Res Public Health . 19 (24): 16494. doi : 10.3390/ijerph192416494 . PMC 9779138. PMID  36554373 . 
  32. ^ Сан, Руиджи; Скьявон, Стефано; Брагер, Гейл; Аренс, Эдвард; Чжан, Хуэй; Паркинсон, Томас; Чжан, Чэньлу (2024). «Причинное мышление: раскрытие скрытых предположений и интерпретаций статистического анализа в строительной науке». Строительство и окружающая среда . 259 . doi : 10.1016/j.buildenv.2024.111530 .
  33. ^ "Линейная регрессия (машинное обучение)" (PDF) . Университет Питтсбурга . Архивировано (PDF) из оригинала 2017-02-02 . Получено 2018-06-21 .
  34. ^ Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 года . Кембридж: Гарвард. ISBN 0-674-40340-1.

Источники

Дальнейшее чтение

Внешние ссылки