Линейная регрессия также является типом алгоритма машинного обучения , а точнее, контролируемым алгоритмом, который обучается на маркированных наборах данных и сопоставляет точки данных с наиболее оптимизированными линейными функциями, которые можно использовать для прогнозирования на новых наборах данных. [3]
Линейная регрессия была первым типом регрессионного анализа, который был тщательно изучен и широко использовался в практических приложениях. [4] Это связано с тем, что модели, которые линейно зависят от своих неизвестных параметров, легче подгоняются, чем модели, которые нелинейно связаны со своими параметрами, и потому, что статистические свойства полученных оценок легче определить.
Линейная регрессия имеет множество практических применений. Большинство приложений попадают в одну из следующих двух широких категорий:
Если целью является ошибка, т.е. снижение дисперсии в прогнозировании или предсказании , линейная регрессия может быть использована для подгонки предсказательной модели к наблюдаемому набору данных значений ответных и объясняющих переменных. После разработки такой модели, если дополнительные значения объясняющих переменных собираются без сопутствующего значения ответа, подобранная модель может быть использована для прогнозирования ответа.
Если цель состоит в том, чтобы объяснить вариацию в ответной переменной, которую можно отнести к вариации объясняющих переменных, можно применить линейный регрессионный анализ для количественной оценки силы связи между ответом и объясняющими переменными и, в частности, для определения того, могут ли некоторые объясняющие переменные вообще не иметь линейной связи с ответом, или для выявления подмножеств объясняющих переменных, которые могут содержать избыточную информацию об ответе.
Линейные регрессионные модели часто подгоняются с использованием подхода наименьших квадратов , но они также могут быть подогнаны другими способами, например, путем минимизации «отсутствия соответствия » в некоторой другой норме (как в случае регрессии наименьших абсолютных отклонений ) или путем минимизации штрафной версии функции стоимости наименьших квадратов , как в гребневой регрессии ( штраф L 2 -норма) и лассо ( штраф L 1 -норма). Использование среднеквадратической ошибки (MSE) в качестве стоимости для набора данных, который имеет много больших выбросов, может привести к модели, которая больше соответствует выбросам, чем истинным данным, из-за более высокой важности, приписываемой MSE большим ошибкам. Таким образом, функции стоимости, которые являются устойчивыми к выбросам, должны использоваться, если набор данных имеет много больших выбросов . И наоборот, подход наименьших квадратов может использоваться для подгонки моделей, которые не являются линейными моделями. Таким образом, хотя термины «наименьшие квадраты» и «линейная модель» тесно связаны, они не являются синонимами.
Формулировка
При наличии набора данных из n статистических единиц линейная регрессионная модель предполагает, что связь между зависимой переменной y и вектором регрессоров x является линейной . Эта связь моделируется с помощью члена возмущения или переменной ошибки ε — ненаблюдаемой случайной величины , которая добавляет «шум» к линейной связи между зависимой переменной и регрессорами. Таким образом, модель принимает вид , где T обозначает транспонирование , так что x i T β является внутренним произведением между векторами x i и β .
Часто эти n уравнений объединяются и записываются в матричной записи как
где
Обозначения и терминология
представляет собой вектор наблюдаемых значений переменной, называемой регрессантом , эндогенной переменной , переменной отклика , целевой переменной , измеряемой переменной , критериальной переменной или зависимой переменной . Эту переменную также иногда называют прогнозируемой переменной , но ее не следует путать с прогнозируемыми значениями , которые обозначаются . Решение о том, какая переменная в наборе данных моделируется как зависимая переменная, а какие моделируются как независимые переменные, может основываться на предположении, что значение одной из переменных вызвано или напрямую зависит от других переменных. В качестве альтернативы может быть операциональная причина для моделирования одной из переменных в терминах других, и в этом случае не нужно допускать причинно-следственную связь.
Обычно константа включается в качестве одного из регрессоров. В частности, для . Соответствующий элемент β называется интерсептом . Многие процедуры статистического вывода для линейных моделей требуют наличия интерсепта, поэтому его часто включают, даже если теоретические соображения предполагают, что его значение должно быть равно нулю.
Иногда один из регрессоров может быть нелинейной функцией другого регрессора или значений данных, как в полиномиальной регрессии и сегментированной регрессии . Модель остается линейной до тех пор, пока она линейна по вектору параметров β .
Значения x ij можно рассматривать как наблюдаемые значения случайных величин X j или как фиксированные значения, выбранные до наблюдения зависимой переменной. Обе интерпретации могут быть уместны в разных случаях, и они, как правило, приводят к одним и тем же процедурам оценки; однако в этих двух ситуациях используются разные подходы к асимптотическому анализу.
является -мерным параметрическим вектором , где - отсекаемый член (если он включен в модель, в противном случае является p -мерным). Его элементы известны как эффекты или коэффициенты регрессии (хотя последний термин иногда резервируется для предполагаемых эффектов). В простой линейной регрессии , p = 1, а коэффициент известен как наклон регрессии. Статистическая оценка и вывод в линейной регрессии фокусируются на β . Элементы этого вектора параметров интерпретируются как частные производные зависимой переменной по отношению к различным независимым переменным.
является вектором значений . Эта часть модели называется членом ошибки , членом помехи или иногда шумом (в отличие от «сигнала», предоставляемого остальной частью модели). Эта переменная охватывает все другие факторы, которые влияют на зависимую переменную y, кроме регрессоров x . Связь между членом ошибки и регрессорами, например, их корреляция , является решающим фактором при формулировании линейной регрессионной модели, поскольку она определит соответствующий метод оценки.
Подгонка линейной модели к заданному набору данных обычно требует оценки коэффициентов регрессии таким образом, чтобы минимизировать погрешность . Например, обычно используют сумму квадратов ошибок в качестве меры для минимизации.
Пример
Рассмотрим ситуацию, когда небольшой мяч подбрасывается в воздух, а затем мы измеряем его высоту подъема h i в различные моменты времени t i . Физика говорит нам, что, игнорируя сопротивление , соотношение можно смоделировать как
где β 1 определяет начальную скорость мяча, β 2 пропорционален стандартной силе тяжести , а ε i обусловлен ошибками измерения. Линейная регрессия может быть использована для оценки значений β 1 и β 2 из измеренных данных. Эта модель нелинейна по временной переменной, но линейна по параметрам β 1 и β 2 ; если мы возьмем регрессоры x i = ( x i 1 , x i 2 ) = ( t i , t i 2 ), модель примет стандартный вид
Предположения
Стандартные линейные регрессионные модели со стандартными методами оценки делают ряд предположений о переменных-предикторах, переменной отклика и их взаимосвязи. Было разработано множество расширений, которые позволяют ослабить каждое из этих предположений (т. е. свести к более слабой форме), а в некоторых случаях и вовсе исключить. Обычно эти расширения делают процедуру оценки более сложной и трудоемкой, а также могут потребовать больше данных для создания столь же точной модели. [ необходима цитата ]
Ниже приведены основные предположения, сделанные в стандартных моделях линейной регрессии со стандартными методами оценки (например, методом наименьших квадратов ):
Слабая экзогенность . По сути, это означает, что предикторные переменные x можно рассматривать как фиксированные значения, а не случайные величины . Это означает, например, что предикторные переменные предполагаются безошибочными, то есть не загрязненными ошибками измерений. Хотя это предположение нереалистично во многих ситуациях, отказ от него приводит к значительно более сложным моделям ошибок в переменных .
Линейность . Это означает, что среднее значение переменной отклика является линейной комбинацией параметров (коэффициентов регрессии) и переменных-предикторов. Обратите внимание, что это предположение гораздо менее ограничительно, чем может показаться на первый взгляд. Поскольку переменные-предикторы рассматриваются как фиксированные значения (см. выше), линейность на самом деле является лишь ограничением для параметров. Сами переменные-предикторы могут быть произвольно преобразованы, и фактически может быть добавлено несколько копий одной и той же базовой переменной-предиктора, каждая из которых преобразована по-разному. Этот метод используется, например, в полиномиальной регрессии , которая использует линейную регрессию для подгонки переменной отклика как произвольной полиномиальной функции (до заданной степени) переменной-предиктора. При такой большой гибкости такие модели, как полиномиальная регрессия, часто имеют «слишком большую мощность», поскольку они имеют тенденцию переобучать данные. В результате, как правило, необходимо использовать некоторую регуляризацию , чтобы предотвратить необоснованные решения, вытекающие из процесса оценки. Распространенными примерами являются регрессия гребня и регрессия лассо . Также можно использовать байесовскую линейную регрессию , которая по своей природе более или менее невосприимчива к проблеме переобучения. (На самом деле, гребневая регрессия и лассо-регрессия могут рассматриваться как особые случаи байесовской линейной регрессии, с определенными типами априорных распределений, накладываемых на коэффициенты регрессии.)
Постоянная дисперсия (также известная как гомоскедастичность ). Это означает, что дисперсия ошибок не зависит от значений переменных-предикторов. Таким образом, изменчивость ответов для заданных фиксированных значений предикторов одинакова независимо от того, насколько велики или малы ответы. Часто это не так, поскольку переменная, среднее значение которой велико, обычно будет иметь большую дисперсию, чем переменная, среднее значение которой мало. Например, человек, чей доход прогнозируется в размере 100 000 долларов, может легко иметь фактический доход в размере 80 000 или 120 000 долларов, т. е. стандартное отклонение около 20 000 долларов, в то время как другой человек с прогнозируемым доходом в размере 10 000 долларов вряд ли будет иметь такое же стандартное отклонение в размере 20 000 долларов, поскольку это означало бы, что его фактический доход может варьироваться в диапазоне от −10 000 до 30 000 долларов. (На самом деле, как это показывает, во многих случаях — часто тех же случаях, когда предположение о нормальном распределении ошибок не выполняется — дисперсия или стандартное отклонение должны быть предсказаны как пропорциональные среднему значению, а не постоянные.) Отсутствие гомоскедастичности называется гетероскедастичностью . Чтобы проверить это предположение, график остатков против предсказанных значений (или значений каждого отдельного предиктора) можно исследовать на предмет «эффекта разветвления» (т. е. увеличения или уменьшения вертикального разброса при движении слева направо на графике). График абсолютных или квадратичных остатков против предсказанных значений (или каждого предиктора) также можно исследовать на предмет тренда или кривизны. Также можно использовать формальные тесты; см. Гетероскедастичность . Наличие гетероскедастичности приведет к использованию общей «средней» оценки дисперсии вместо той, которая учитывает истинную структуру дисперсии. Это приводит к менее точным (но в случае обычных наименьших квадратов , не смещенным) оценкам параметров и смещенным стандартным ошибкам, что приводит к вводящим в заблуждение тестам и оценкам интервалов. Среднеквадратическая ошибка для модели также будет неверной. Различные методы оценки, включая взвешенные наименьшие квадраты и использование согласованных с гетероскедастичностью стандартных ошибок, могут обрабатывать гетероскедастичность довольно общим образом. Методы байесовской линейной регрессии также могут использоваться, когда предполагается, что дисперсия является функцией среднего значения. В некоторых случаях также возможно исправить проблему, применив преобразование к переменной отклика (например, подгонка логарифма переменной отклика с помощью модели линейной регрессии, которая подразумевает, что сама переменная отклика имеет логнормальное распределение, а не нормальное распределение ).
Независимость ошибок . Это предполагает, что ошибки переменных отклика не коррелируют друг с другом. (Фактическая статистическая независимость является более сильным условием, чем просто отсутствие корреляции, и часто не требуется, хотя ее можно использовать, если известно, что она выполняется.) Некоторые методы, такие как обобщенные наименьшие квадраты, способны обрабатывать коррелированные ошибки, хотя они обычно требуют значительно больше данных, если только не используется какая-либо регуляризация для смещения модели в сторону предположения о некоррелированных ошибках. Байесовская линейная регрессия является общим способом решения этой проблемы.
Отсутствие идеальной мультиколлинеарности в предикторах. Для стандартных методов оценки наименьших квадратов матрица плана X должна иметь полный ранг столбца p ; в противном случае идеальная мультиколлинеарность существует в предикторных переменных, то есть существует линейная связь между двумя или более предикторными переменными. Это может быть вызвано случайным дублированием переменной в данных, использованием линейного преобразования переменной вместе с оригиналом (например, те же измерения температуры, выраженные в градусах Фаренгейта и Цельсия), или включением линейной комбинации нескольких переменных в модель, например, их среднего значения. Это также может произойти, если доступно слишком мало данных по сравнению с количеством параметров для оценки (например, меньше точек данных, чем коэффициентов регрессии). Близкие нарушения этого предположения, когда предикторы сильно, но не идеально коррелируют, могут снизить точность оценок параметров (см. Фактор инфляции дисперсии ). В случае идеальной мультиколлинеарности вектор параметров β будет неидентифицируемым — он не имеет уникального решения. В таком случае можно идентифицировать только некоторые параметры (т. е. их значения можно оценить только в пределах некоторого линейного подпространства полного пространства параметров R p ). См. регрессию методом частичных наименьших квадратов . Разработаны методы подгонки линейных моделей с мультиколлинеарностью [5] [6] [7] [8], некоторые из которых требуют дополнительных предположений, таких как «разреженность эффекта» — что большая часть эффектов равна нулю. Обратите внимание, что более затратные в вычислительном отношении итерационные алгоритмы оценки параметров, такие как используемые в обобщенных линейных моделях , не страдают от этой проблемы.
Предположение о нулевом среднем значении остатков : в регрессионном анализе еще одно важное предположение заключается в том, что среднее значение остатков равно нулю или близко к нулю. Это предположение является основополагающим для обоснованности любых выводов, сделанных на основе оценок параметров методом наименьших квадратов. Остатки — это разности между наблюдаемыми значениями и значениями, предсказанными моделью. Если среднее значение этих остатков не равно нулю, это означает, что модель последовательно переоценивает или недооценивает наблюдаемые значения, что указывает на потенциальное смещение в оценке модели. Обеспечение того, чтобы среднее значение остатков было равно нулю, позволяет считать модель несмещенной с точки зрения ее ошибки, что имеет решающее значение для точной интерпретации коэффициентов регрессии.
Нарушения этих предположений могут привести к смещенным оценкам β , смещенным стандартным ошибкам, ненадежным доверительным интервалам и тестам значимости. Помимо этих предположений, несколько других статистических свойств данных сильно влияют на производительность различных методов оценки:
Статистическая связь между ошибками и регрессорами играет важную роль в определении того, обладает ли процедура оценки желаемыми свойствами выборки, такими как беспристрастность и последовательность.
Расположение или распределение вероятностей предикторных переменных x оказывает большое влияние на точность оценок β . Выборка и планирование экспериментов являются высокоразвитыми подобластями статистики, которые предоставляют руководство по сбору данных таким образом, чтобы достичь точной оценки β .
Интерпретация
Подогнанная линейная регрессионная модель может использоваться для определения связи между одной предикторной переменной x j и ответной переменной y, когда все остальные предикторные переменные в модели «удерживаются фиксированными». В частности, интерпретация β j — это ожидаемое изменение y для изменения x j на одну единицу , когда остальные ковариаты удерживаются фиксированными, то есть ожидаемое значение частной производной y по отношению к x j . Иногда это называют уникальным эффектом x j на y . Напротив, предельный эффект x j на y можно оценить с помощью коэффициента корреляции или простой линейной регрессионной модели , связывающей только x j с y ; этот эффект — это полная производная y по отношению к x j .
При интерпретации результатов регрессии необходимо соблюдать осторожность, поскольку некоторые регрессоры могут не допускать незначительных изменений (например, фиктивные переменные или свободный член), в то время как другие не могут оставаться фиксированными (вспомните пример из введения: было бы невозможно «удерживать t i фиксированным» и в то же время изменять значение t i 2 ).
Возможно, что уникальный эффект будет близок к нулю, даже если предельный эффект велик. Это может означать, что некоторая другая ковариата охватывает всю информацию в x j , так что как только эта переменная оказывается в модели, нет никакого вклада x j в вариацию y . И наоборот, уникальный эффект x j может быть большим, в то время как его предельный эффект близок к нулю. Это произошло бы, если бы другие ковариаты объясняли большую часть вариации y , но они в основном объясняют вариацию способом, который является дополнительным к тому, что охватывается x j . В этом случае включение других переменных в модель уменьшает часть вариации y , которая не связана с x j , тем самым усиливая кажущуюся связь с x j .
Значение выражения «удерживать фиксированными» может зависеть от того, как возникают значения предикторных переменных. Если экспериментатор напрямую устанавливает значения предикторных переменных в соответствии с планом исследования, интересующие сравнения могут буквально соответствовать сравнениям между единицами, предикторные переменные которых были «удержаны фиксированными» экспериментатором. В качестве альтернативы выражение «удерживать фиксированными» может относиться к выбору, который происходит в контексте анализа данных. В этом случае мы «удерживаем переменную фиксированной», ограничивая наше внимание подмножествами данных, которые случайно имеют общее значение для данной предикторной переменной. Это единственная интерпретация «удерживать фиксированными», которая может быть использована в наблюдательном исследовании .
Понятие «уникального эффекта» привлекательно при изучении сложной системы, где множественные взаимосвязанные компоненты влияют на переменную отклика. В некоторых случаях его можно буквально интерпретировать как причинный эффект вмешательства, который связан со значением переменной-предиктора. Однако утверждается, что во многих случаях множественный регрессионный анализ не может прояснить отношения между переменными-предикторами и переменной отклика, когда предикторы коррелируют друг с другом и не назначаются в соответствии с планом исследования. [9]
Расширения
Разработаны многочисленные расширения линейной регрессии, которые позволяют смягчить некоторые или все предположения, лежащие в основе базовой модели.
Простая и множественная линейная регрессия
Простейший случай одной скалярной предикторной переменной x и одной скалярной ответной переменной y известен как простая линейная регрессия . Расширение на множественные и/или векторные предикторные переменные (обозначаемые заглавной буквой X ) известно как множественная линейная регрессия , также известная как многомерная линейная регрессия (не путать с многомерной линейной регрессией ). [10]
Множественная линейная регрессия является обобщением простой линейной регрессии на случай более чем одной независимой переменной и частным случаем общих линейных моделей, ограниченных одной зависимой переменной. Базовая модель для множественной линейной регрессии —
для каждого наблюдения .
В приведенной выше формуле мы рассматриваем n наблюдений одной зависимой переменной и p независимых переменных. Таким образом, Y i — это i- е наблюдение зависимой переменной, X ij — это i- е наблюдение j -й независимой переменной, j = 1, 2, ..., p . Значения β j представляют собой параметры, которые необходимо оценить, а ε i — это i - я независимая одинаково распределенная нормальная ошибка.
В более общей многомерной линейной регрессии существует одно уравнение вышеуказанной формы для каждой из m > 1 зависимых переменных, которые совместно используют один и тот же набор объясняющих переменных и, следовательно, оцениваются одновременно друг с другом:
для всех наблюдений, проиндексированных как i = 1, ... , n , и для всех зависимых переменных, проиндексированных как j = 1, ... , m .
Почти все реальные регрессионные модели включают несколько предикторов, и основные описания линейной регрессии часто формулируются в терминах модели множественной регрессии. Обратите внимание, однако, что в этих случаях переменная отклика y по-прежнему является скаляром. Другой термин, многомерная линейная регрессия , относится к случаям, когда y является вектором, т. е. то же самое, что и общая линейная регрессия .
Общие линейные модели
Общая линейная модель рассматривает ситуацию, когда переменная отклика является не скаляром (для каждого наблюдения), а вектором y i . Условная линейность по-прежнему предполагается, при этом матрица B заменяет вектор β классической линейной регрессионной модели. Разработаны многомерные аналоги обычных наименьших квадратов (OLS) и обобщенных наименьших квадратов (GLS). «Общие линейные модели» также называются «многомерными линейными моделями». Они не то же самое, что многомерные линейные модели (также называемые «множественными линейными моделями»).
Обобщенная линейная модель (GLM) — это структура для моделирования переменных отклика, которые ограничены или дискретны. Она используется, например:
при моделировании положительных величин (например, цен или численности населения), которые изменяются в больших масштабах, — которые лучше описываются с помощью асимметричного распределения, такого как логнормальное распределение или распределение Пуассона (хотя GLM не используются для логнормальных данных, вместо этого переменная отклика просто преобразуется с помощью функции логарифма);
при моделировании порядковых данных , например, оценок по шкале от 0 до 5, где различные результаты могут быть упорядочены, но где сама величина может не иметь абсолютного значения (например, оценка 4 может не быть «вдвое лучше» в каком-либо объективном смысле, чем оценка 2, а просто указывает на то, что она лучше, чем 2 или 3, но не так хороша, как 5).
Обобщенные линейные модели допускают произвольную функцию связи , g , которая связывает среднее значение переменной(ых) отклика с предикторами: . Функция связи часто связана с распределением отклика, и в частности она обычно имеет эффект преобразования между диапазоном линейного предиктора и диапазоном переменной отклика.
Модели с одним индексом [ требуется разъяснение ] допускают некоторую степень нелинейности в отношениях между x и y , сохраняя при этом центральную роль линейного предиктора β ′ x, как в классической модели линейной регрессии. При определенных условиях простое применение OLS к данным из модели с одним индексом будет последовательно оценивать β с точностью до константы пропорциональности. [11]
Иерархические линейные модели
Иерархические линейные модели (или многоуровневая регрессия ) организуют данные в иерархию регрессий, например, где A регрессируется на B , а B регрессируется на C. Это часто используется, когда интересующие переменные имеют естественную иерархическую структуру, например, в образовательной статистике, где ученики вложены в классы, классы вложены в школы, а школы вложены в некоторую административную группировку, например, школьный округ. Переменная отклика может быть мерой успеваемости ученика, например, результатом теста, и различные ковариаты будут собираться на уровнях класса, школы и школьного округа.
Ошибки в переменных
Модели с ошибками в переменных (или «модели ошибок измерения») расширяют традиционную модель линейной регрессии, позволяя наблюдать переменные-предикторы X с ошибкой. Эта ошибка приводит к тому, что стандартные оценки β становятся смещенными. Обычно форма смещения — это ослабление, то есть эффекты смещены в сторону нуля.
Групповые эффекты
В модели множественной линейной регрессии
Параметр переменной-предиктора представляет собой индивидуальный эффект . Он интерпретируется как ожидаемое изменение переменной отклика при увеличении на одну единицу при сохранении других переменных-предиктора постоянными. Когда сильно коррелирует с другими переменными-предикторами, маловероятно, что может увеличиться на одну единицу при сохранении других переменных постоянными. В этом случае интерпретация становится проблематичной, поскольку она основана на маловероятном условии, и эффект не может быть оценен изолированно.
Для группы переменных-предикторов, скажем , групповой эффект определяется как линейная комбинация их параметров
где — вектор веса, удовлетворяющий . Из-за ограничения на , также называется нормализованным групповым эффектом. Групповой эффект интерпретируется как ожидаемое изменение в , когда переменные в группе изменяются на величину , соответственно, в то же время, когда другие переменные (не в группе) остаются постоянными. Он обобщает индивидуальный эффект переменной на группу переменных в том смысле, что ( ) если , то групповой эффект сводится к индивидуальному эффекту, и ( ) если и для , то групповой эффект также сводится к индивидуальному эффекту. Групповой эффект считается значимым, если основные одновременные изменения переменных вероятны .
Групповые эффекты предоставляют средства для изучения коллективного воздействия сильно коррелированных предикторных переменных в моделях линейной регрессии. Индивидуальные эффекты таких переменных не определены четко, поскольку их параметры не имеют хороших интерпретаций. Кроме того, когда размер выборки невелик, ни один из их параметров не может быть точно оценен с помощью регрессии наименьших квадратов из-за проблемы мультиколлинеарности . Тем не менее, существуют значимые групповые эффекты, которые имеют хорошие интерпретации и могут быть точно оценены с помощью регрессии наименьших квадратов. Простой способ определить эти значимые групповые эффекты — использовать схему всех положительных корреляций (APC) сильно коррелированных переменных, при которой попарные корреляции между этими переменными все положительны, и стандартизировать все предикторные переменные в модели так, чтобы все они имели нулевое среднее значение и длину один. Чтобы проиллюстрировать это, предположим, что — группа сильно коррелированных переменных в схеме APC и что они не сильно коррелируют с предикторными переменными вне группы. Пусть будет центрированным и будет стандартизированным . Тогда стандартизированная модель линейной регрессии будет
Параметры в исходной модели, включая , являются простыми функциями в стандартизированной модели. Стандартизация переменных не изменяет их корреляции, поэтому группа сильно коррелированных переменных в схеме APC не сильно коррелирует с другими предикторными переменными в стандартизированной модели. Групповой эффект — это
и его несмещенная линейная оценка с минимальной дисперсией равна
где — оценка наименьших квадратов . В частности, средний групповой эффект стандартизированных переменных равен
что имеет интерпретацию как ожидаемое изменение в когда все в сильно коррелированной группе увеличиваются на th единицы в одно и то же время при переменных вне группы, сохраняющих постоянство. При сильных положительных корреляциях и в стандартизированных единицах переменные в группе приблизительно равны, поэтому они, вероятно, увеличатся в одно и то же время и в схожем количестве. Таким образом, средний групповой эффект является значимым эффектом. Его можно точно оценить с помощью его минимальной дисперсии несмещенной линейной оценки , даже если по отдельности ни один из не может быть точно оценен с помощью .
Не все групповые эффекты значимы или могут быть точно оценены. Например, является особым групповым эффектом с весами и для , но его нельзя точно оценить с помощью . Это также не значимый эффект. В общем, для группы сильно коррелированных предикторных переменных в расположении APC в стандартизированной модели групповые эффекты, весовые векторы которых находятся в центре симплекса ( ) или около него, значимы и могут быть точно оценены с помощью их несмещенных линейных оценщиков с минимальной дисперсией. Эффекты с весовыми векторами, далекими от центра, не значимы, поскольку такие весовые векторы представляют собой одновременные изменения переменных, которые нарушают сильные положительные корреляции стандартизированных переменных в расположении APC. Как таковые, они не являются вероятными. Эти эффекты также не могут быть точно оценены.
Приложения групповых эффектов включают (1) оценку и вывод для значимых групповых эффектов на переменную отклика, (2) тестирование на «групповую значимость» переменных посредством тестирования против и (3) характеристику области пространства предикторных переменных, в которой прогнозы, полученные с помощью модели наименьших квадратов, являются точными.
Групповой эффект исходных переменных может быть выражен как константа, умноженная на групповой эффект стандартизированных переменных . Первое имеет смысл, когда имеет смысл второе. Таким образом, значимые групповые эффекты исходных переменных могут быть найдены через значимые групповые эффекты стандартизированных переменных. [12]
Другие
В теории Демпстера–Шейфера или, в частности, линейной функции доверия , модель линейной регрессии может быть представлена как частично пройденная матрица, которую можно объединить с аналогичными матрицами, представляющими наблюдения и другие предполагаемые нормальные распределения и уравнения состояния. Комбинация пройденных или непройденных матриц обеспечивает альтернативный метод оценки моделей линейной регрессии.
Методы оценки
Было разработано большое количество процедур для оценки параметров и вывода в линейной регрессии. Эти методы отличаются вычислительной простотой алгоритмов, наличием решения в замкнутой форме , надежностью по отношению к распределениям с тяжелыми хвостами и теоретическими предположениями, необходимыми для проверки желаемых статистических свойств, таких как согласованность и асимптотическая эффективность .
Ниже приведены некоторые из наиболее распространенных методов оценки линейной регрессии.
Оценка методом наименьших квадратов и связанные с ним методы
Если предположить, что независимые переменные и параметры модели равны , то прогноз модели будет следующим:
.
Если расширено до , то станет скалярным произведением параметра и независимых векторов, т.е.
.
В случае метода наименьших квадратов оптимальный вектор параметров определяется таким образом, чтобы минимизировать сумму среднеквадратических потерь:
Теперь, поместив независимые и зависимые переменные в матрицы , и соответственно, функцию потерь можно переписать как:
Установка градиента на ноль дает оптимальный параметр:
Примечание: Полученное действительно может быть локальным минимумом, нужно еще раз продифференцировать, чтобы получить матрицу Гессе и показать, что она положительно определена. Это обеспечивается теоремой Гаусса–Маркова .
Линейные методы наименьших квадратов включают в себя в основном:
Оценка максимального правдоподобия и связанные с ней методы
Оценка максимального правдоподобия
Оценка максимального правдоподобия может быть выполнена, когда известно, что распределение членов ошибки принадлежит определенному параметрическому семейству ƒ θ распределений вероятностей . [ 15] Когда f θ является нормальным распределением с нулевым средним и дисперсией θ, результирующая оценка идентична оценке OLS. Оценки GLS являются оценками максимального правдоподобия, когда ε следует многомерному нормальному распределению с известной ковариационной матрицей . Обозначим каждую точку данных как , а параметры регрессии как , а набор всех данных как , а функцию стоимости как .
Как показано ниже, тот же оптимальный параметр, который минимизирует, также достигает максимального правдоподобия. [16] Здесь предполагается, что зависимая переменная является случайной величиной, которая следует гауссовскому распределению , где стандартное отклонение фиксировано, а среднее значение является линейной комбинацией :
Теперь нам нужно найти параметр, который максимизирует эту функцию правдоподобия. Поскольку логарифмическая функция строго возрастает, вместо максимизации этой функции мы можем также максимизировать ее логарифм и таким образом найти оптимальный параметр. [16]
Оптимальный параметр, таким образом, равен: [16]
Таким образом, параметр, который максимизирует, тот же, что и параметр, который минимизирует . Это означает, что в линейной регрессии результат метода наименьших квадратов такой же, как результат метода оценки максимального правдоподобия. [16]
Регуляризованная регрессия
Регрессия гребня [17] [18] [19] и другие формы штрафной оценки, такие как регрессия Лассо [5], намеренно вводят смещение в оценку β , чтобы уменьшить изменчивость оценки. Полученные оценки обычно имеют более низкую среднеквадратичную ошибку , чем оценки OLS, особенно когда присутствует мультиколлинеарность или когда переобучение является проблемой. Они обычно используются, когда цель состоит в том, чтобы предсказать значение переменной отклика y для значений предикторов x , которые еще не наблюдались. Эти методы не так часто используются, когда цель состоит в выводе, поскольку трудно учесть смещение.
Если предположить, что члены ошибки независимы от регрессоров , то оптимальной оценкой является двухшаговый MLE, где первый шаг используется для непараметрической оценки распределения члена ошибки. [21]
Квантильная регрессия фокусируется на условных квантилях y при заданном X , а не на условном среднем значении y при заданном X. Линейная квантильная регрессия моделирует конкретный условный квантиль, например условную медиану, как линейную функцию β T x предикторов.
Смешанные модели широко используются для анализа линейных регрессионных связей, включающих зависимые данные, когда зависимости имеют известную структуру. Обычные приложения смешанных моделей включают анализ данных, включающих повторные измерения, такие как продольные данные или данные, полученные из кластерной выборки. Они, как правило, подходят как параметрические модели, используя максимальное правдоподобие или байесовскую оценку. В случае, когда ошибки моделируются как нормальные случайные величины, существует тесная связь между смешанными моделями и обобщенными наименьшими квадратами. [22] Оценка фиксированных эффектов является альтернативным подходом к анализу этого типа данных.
Регрессия главных компонентов (PCR) [7] [8] используется, когда число переменных-предикторов велико или когда между переменными-предикторами существуют сильные корреляции. Эта двухэтапная процедура сначала уменьшает переменные-предикторы с помощью анализа главных компонентов , а затем использует уменьшенные переменные в подгонке регрессии OLS. Хотя это часто хорошо работает на практике, нет общей теоретической причины, по которой наиболее информативная линейная функция переменных-предикторов должна лежать среди доминирующих главных компонентов многомерного распределения переменных-предикторов. Регрессия с использованием частичных наименьших квадратов является расширением метода PCR, которое не страдает от упомянутого недостатка.
Регрессия с наименьшим углом [6] — это процедура оценки для моделей линейной регрессии, которая была разработана для обработки многомерных векторов ковариатов, потенциально с большим количеством ковариатов, чем наблюдений.
Оценка Тейла –Сена — это простая надежная методика оценки , которая выбирает наклон линии подгонки как медиану наклонов линий через пары точек выборки. Она имеет схожие статистические свойства эффективности с простой линейной регрессией, но гораздо менее чувствительна к выбросам . [23]
Были введены другие надежные методы оценки, включая подход с использованием α-урезанного среднего , а также L-, M-, S- и R-оценки .
Приложения
Линейная регрессия широко используется в биологических, поведенческих и социальных науках для описания возможных связей между переменными. Она считается одним из важнейших инструментов, используемых в этих дисциплинах.
Линия тренда
Линия тренда представляет собой тенденцию, долгосрочное движение в данных временного ряда после того, как были учтены другие компоненты. Она сообщает, увеличился или уменьшился определенный набор данных (например, ВВП, цены на нефть или цены акций) за определенный период времени. Линию тренда можно просто нарисовать на глаз через набор точек данных, но более правильно их положение и наклон рассчитываются с использованием статистических методов, таких как линейная регрессия. Линии тренда обычно являются прямыми линиями, хотя некоторые вариации используют полиномы более высокой степени в зависимости от желаемой степени кривизны линии.
Линии тренда иногда используются в бизнес-аналитике для отображения изменений данных с течением времени. Это имеет преимущество простоты. Линии тренда часто используются для утверждения, что определенное действие или событие (например, обучение или рекламная кампания) вызвало наблюдаемые изменения в определенный момент времени. Это простой метод, и он не требует контрольной группы, экспериментального проектирования или сложной методики анализа. Однако он страдает от отсутствия научной обоснованности в случаях, когда другие потенциальные изменения могут повлиять на данные.
Эпидемиология
Ранние доказательства связи курения табака со смертностью и заболеваемостью были получены из наблюдательных исследований, использующих регрессионный анализ. Чтобы уменьшить ложные корреляции при анализе наблюдательных данных, исследователи обычно включают несколько переменных в свои регрессионные модели в дополнение к переменной, представляющей основной интерес. Например, в регрессионной модели, в которой курение сигарет является независимой переменной, представляющей основной интерес, а зависимой переменной является продолжительность жизни, измеряемая в годах, исследователи могут включать образование и доход в качестве дополнительных независимых переменных, чтобы гарантировать, что любое наблюдаемое влияние курения на продолжительность жизни не обусловлено этими другими социально-экономическими факторами . Однако никогда не представляется возможным включить все возможные смешивающие переменные в эмпирический анализ. Например, гипотетический ген может увеличить смертность, а также заставить людей курить больше. По этой причине рандомизированные контролируемые испытания часто способны генерировать более убедительные доказательства причинно-следственных связей, чем можно получить с помощью регрессионного анализа наблюдательных данных. Если контролируемые эксперименты невозможны, можно использовать варианты регрессионного анализа, такие как регрессия инструментальных переменных , чтобы попытаться оценить причинно-следственные связи на основе данных наблюдений.
Финансы
Модель ценообразования капитальных активов использует линейную регрессию, а также концепцию бета для анализа и количественной оценки систематического риска инвестиций. Это напрямую исходит из коэффициента бета линейной регрессионной модели, которая связывает доходность инвестиций с доходностью всех рискованных активов.
Линейная регрессия находит применение в широком спектре приложений в области науки об окружающей среде, таких как землепользование , [28] инфекционные заболевания , [29] и загрязнение воздуха . [30] Например, линейную регрессию можно использовать для прогнозирования изменяющихся эффектов загрязнения от автомобилей. [31]
Строительная наука
Линейная регрессия обычно используется в полевых исследованиях строительной науки для получения характеристик жильцов здания. В полевых исследованиях теплового комфорта ученые-строители обычно спрашивают у жильцов голоса о тепловом ощущении, которые варьируются от -3 (ощущение холода) до 0 (нейтральное) и +3 (ощущение жары), и измеряют данные о температуре окружающей среды жильцов. Нейтральную или комфортную температуру можно рассчитать на основе линейной регрессии между голосом теплового ощущения и температурой в помещении и установить голос теплового ощущения равным нулю. Однако были дебаты о направлении регрессии: регресс голосов теплового ощущения (ось Y) относительно температуры в помещении (ось X) или наоборот: регресс температуры в помещении (ось Y) относительно голосов теплового ощущения (ось X). [32]
Линейная регрессия наименьших квадратов, как средство нахождения хорошего грубого линейного соответствия для набора точек, была выполнена Лежандром (1805) и Гауссом (1809) для предсказания движения планет. Кетле был ответственен за то, что сделал эту процедуру широко известной и широко использовал ее в социальных науках. [34]
^ Freedman, David A. (2009). Статистические модели: теория и практика . Cambridge University Press . стр. 26. Простое уравнение регрессии имеет в правой части свободный член и объясняющую переменную с коэффициентом наклона. Множественная регрессия e правая часть, каждая со своим собственным коэффициентом наклона
^ Ренчер, Элвин К.; Кристенсен, Уильям Ф. (2012), «Глава 10, Многомерная регрессия – Раздел 10.1, Введение», Методы многомерного анализа, Wiley Series in Probability and Statistics, т. 709 (3-е изд.), John Wiley & Sons, стр. 19, ISBN9781118391679, заархивировано из оригинала 2024-10-04 , извлечено 2015-02-07.
^ "Линейная регрессия в машинном обучении". GeeksforGeeks . 2018-09-13. Архивировано из оригинала 2024-10-04 . Получено 2024-08-25 .
^ Ян, Синь (2009), Линейный регрессионный анализ: теория и вычисления, World Scientific, стр. 1–2, ISBN9789812834119, архивировано из оригинала 2024-10-04 , извлечено 2015-02-07 , Регрессионный анализ ... вероятно, одна из старейших тем в математической статистике, возникшая около двухсот лет назад. Самой ранней формой линейной регрессии был метод наименьших квадратов, опубликованный Лежандром в 1805 году и Гауссом в 1809 году ... Лежандр и Гаусс оба применили этот метод к проблеме определения орбит тел вокруг Солнца по астрономическим наблюдениям.
^ ab Tibshirani, Robert (1996). «Regression Shrinkage and Selection via the Lasso». Журнал Королевского статистического общества, Серия B. 58 ( 1): 267–288. doi :10.1111/j.2517-6161.1996.tb02080.x. JSTOR 2346178.
^ ab Эфрон, Брэдли; Хасти, Тревор; Джонстон, Иэн; Тибширани, Роберт (2004). «Регрессия наименьшего угла». Анналы статистики . 32 (2): 407–451. arXiv : math/0406456 . doi :10.1214/009053604000000067. JSTOR 3448465. S2CID 204004121.
^ ab Хокинс, Дуглас М. (1973). «Об исследовании альтернативных регрессий с помощью анализа главных компонент». Журнал Королевского статистического общества, серия C. 22 ( 3): 275–286. doi :10.2307/2346776. JSTOR 2346776.
^ ab Jolliffe, Ian T. (1982). «Заметка об использовании главных компонент в регрессии». Журнал Королевского статистического общества, серия C. 31 ( 3): 300–303. doi :10.2307/2348005. JSTOR 2348005.
^ Берк, Ричард А. (2007). «Регрессионный анализ: конструктивная критика». Обзор уголовного правосудия . 32 (3): 301–302. doi :10.1177/0734016807304871. S2CID 145389362.
^ Идальго, Берта; Гудман, Мелоди (15.11.2012). «Многомерная или многомерная регрессия?». Американский журнал общественного здравоохранения . 103 (1): 39–40. doi :10.2105/AJPH.2012.300897. ISSN 0090-0036. PMC 3518362. PMID 23153131 .
^ Бриллингер, Дэвид Р. (1977). «Идентификация конкретной нелинейной системы временных рядов». Biometrika . 64 (3): 509–515. doi :10.1093/biomet/64.3.509. JSTOR 2345326.
^ Цао, Мин (2022). «Групповая регрессия наименьших квадратов для линейных моделей с сильно коррелированными предикторными переменными». Анналы Института статистической математики . 75 (2): 233–250. arXiv : 1804.02499 . doi : 10.1007/s10463-022-00841-7. S2CID 237396158.
^ Гальтон, Фрэнсис (1886). «Регрессия к посредственности в наследственном статусе». Журнал Антропологического института Великобритании и Ирландии . 15 : 246–263. doi :10.2307/2841583. ISSN 0959-5295. JSTOR 2841583.
^ Britzger, Daniel (2022). "The Linear Template Fit". Eur. Phys. J. C. 82 ( 8): 731. arXiv : 2112.01548 . Bibcode : 2022EPJC...82..731B. doi : 10.1140/epjc/s10052-022-10581-w. S2CID 244896511.
^ Ланге, Кеннет Л.; Литтл, Родерик JA; Тейлор, Джереми MG (1989). «Надежное статистическое моделирование с использованием распределения Стьюдента» (PDF) . Журнал Американской статистической ассоциации . 84 (408): 881–896. doi :10.2307/2290063. JSTOR 2290063. Архивировано (PDF) из оригинала 2024-10-04 . Получено 2019-09-02 .
^ abcd Машинное обучение: вероятностная перспектива Архивировано 2018-11-04 в Wayback Machine , Кевин П. Мерфи, 2012, стр. 217, Кембридж, Массачусетс
^ Суиндел, Бени Ф. (1981). «Иллюстрированная геометрия гребневой регрессии». Американский статистик . 35 (1): 12–15. doi :10.2307/2683577. JSTOR 2683577.
^ Дрейпер, Норман Р.; ван Ностранд; Р. Крейг (1979). «Регрессия хребта и оценка Джеймса-Стейна: обзор и комментарии». Technometrics . 21 (4): 451–466. doi :10.2307/1268284. JSTOR 1268284.
^ Hoerl, Arthur E.; Kennard, Robert W.; Hoerl, Roger W. (1985). «Практическое использование гребневой регрессии: решенная задача». Журнал Королевского статистического общества, серия C. 34 ( 2): 114–120. JSTOR 2347363.
^ Narula, Subhash C.; Wellington, John F. (1982). «Минимальная сумма абсолютных ошибок регрессии: обзор современного состояния». International Statistical Review . 50 (3): 317–326. doi :10.2307/1402501. JSTOR 1402501.
^ Стоун, CJ (1975). «Адаптивные оценки максимального правдоподобия параметра местоположения». Анналы статистики . 3 (2): 267–284. doi : 10.1214/aos/1176343056 . JSTOR 2958945.
^ Голдштейн, Х. (1986). «Многоуровневый смешанный линейный модельный анализ с использованием итеративных обобщенных наименьших квадратов». Biometrika . 73 (1): 43–56. doi :10.1093/biomet/73.1.43. JSTOR 2336270.
^ Theil, H. (1950). "Рангово-инвариантный метод линейного и полиномиального регрессионного анализа. I, II, III". Nederl. Akad. Wetensch., Proc . 53 : 386–392, 521–525, 1397–1412. MR 0036489.; Сен, Пранаб Кумар (1968). «Оценки коэффициента регрессии на основе тау Кендалла». Журнал Американской статистической ассоциации . 63 (324): 1379–1389. doi :10.2307/2285891. JSTOR 2285891. MR 0258201..
^ Laidler, David EW (1993). Спрос на деньги: теории, доказательства и проблемы (4-е изд.). Нью-Йорк: Harper Collins. ISBN978-0065010985.
^ ab Ehrenberg; Smith (2008). Современная экономика труда (10-е международное изд.). Лондон: Addison-Wesley. ISBN9780321538963.
^ Hoek, Gerard; Beelen, Rob; de Hoogh, Kees; Vienneau, Danielle; Gulliver, John; Fischer, Paul; Briggs, David (2008-10-01). "Обзор моделей регрессии землепользования для оценки пространственной изменчивости загрязнения наружного воздуха". Atmospheric Environment . 42 (33): 7561–7578. Bibcode : 2008AtmEn..42.7561H. doi : 10.1016/j.atmosenv.2008.05.057. ISSN 1352-2310.
^ Имаи, Чисато; Хашизуме, Масахиро (2015). «Систематический обзор методологии: регрессионный анализ временных рядов для факторов окружающей среды и инфекционных заболеваний». Tropical Medicine and Health . 43 ( 1): 1–9. doi :10.2149/tmh.2014-21. hdl : 10069/35301 . PMC 4361341. PMID 25859149. Архивировано из оригинала 2024-10-04 . Получено 2024-02-03 .
^ Milionis, AE; Davies, TD (1994-09-01). «Регрессия и стохастические модели для загрязнения воздуха — I. Обзор, комментарии и предложения». Atmospheric Environment . 28 (17): 2801–2810. Bibcode : 1994AtmEn..28.2801M. doi : 10.1016/1352-2310(94)90083-3. ISSN 1352-2310. Архивировано из оригинала 2024-10-04 . Получено 2024-05-07 .
^ Хоффман, Шимон; Филак, Мариуш; Ясинский, Рафал (8 декабря 2024 г.). «Моделирование качества воздуха с использованием регрессионных нейронных сетей». Int J Environ Res Public Health . 19 (24): 16494. doi : 10.3390/ijerph192416494 . PMC 9779138. PMID 36554373 .
^ Сан, Руиджи; Скьявон, Стефано; Брагер, Гейл; Аренс, Эдвард; Чжан, Хуэй; Паркинсон, Томас; Чжан, Чэньлу (2024). «Причинное мышление: раскрытие скрытых предположений и интерпретаций статистического анализа в строительной науке». Строительство и окружающая среда . 259 . doi : 10.1016/j.buildenv.2024.111530 .
^ "Линейная регрессия (машинное обучение)" (PDF) . Университет Питтсбурга . Архивировано (PDF) из оригинала 2017-02-02 . Получено 2018-06-21 .
^ Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 года . Кембридж: Гарвард. ISBN0-674-40340-1.
Источники
Cohen, J., Cohen P., West, SG, & Aiken, LS (2003). Прикладной множественный регрессионный/корреляционный анализ для поведенческих наук Архивировано 2024-10-04 в Wayback Machine . (2-е изд.) Хиллсдейл, Нью-Джерси: Lawrence Erlbaum Associates
Чарльз Дарвин . Изменчивость животных и растений при одомашнивании . (1868) (Глава XIII описывает то, что было известно о реверсии во времена Гальтона. Дарвин использует термин «реверсия».)
Дрейпер, Н. Р.; Смит, Х. (1998). Прикладной регрессионный анализ (3-е изд.). John Wiley. ISBN 978-0-471-17082-2.
Фрэнсис Гальтон. «Регрессия к посредственности в наследственном статусе», Журнал антропологического института , 15:246–263 (1886). (Факсимильная ссылка: [1] Архивировано 10.03.2016 в Wayback Machine )
Роберт С. Пиндайк и Дэниел Л. Рубинфельд (1998, 4-е изд.). Эконометрические модели и экономические прогнозы , гл. 1 (Введение, включая приложения по операторам Σ и выводу оценки параметров) и Приложение 4.3 (мультирегрессия в матричной форме).
Дальнейшее чтение
Педхазур, Элазар Дж. (1982). Множественная регрессия в поведенческих исследованиях: объяснение и предсказание (2-е изд.). Нью-Йорк: Холт, Райнхарт и Уинстон. ISBN 978-0-03-041760-3.
Матье Руо, 2013: Вероятность, статистика и оценка. Глава 2: Линейная регрессия, линейная регрессия с планками погрешностей и нелинейная регрессия.
Национальная физическая лаборатория (1961). "Глава 1: Линейные уравнения и матрицы: прямые методы". Современные вычислительные методы . Заметки о прикладной науке. Том 16 (2-е изд.). Канцелярия Ее Величества .
Внешние ссылки
В Викиверситете есть обучающие ресурсы по теме Линейная регрессия
В Wikibook R Programming есть страница на тему: Линейные модели.
На Викискладе есть медиафайлы по теме «Линейная регрессия» .
Регрессия наименьших квадратов, интерактивное моделирование PhET , Университет Колорадо в Боулдере