stringtranslate.com

Линейная регрессия

В статистике линейная регрессия — это статистическая модель, которая оценивает линейную связь между скалярным ответом и одной или несколькими объясняющими переменными (также известными как зависимые и независимые переменные ). Случай одной объясняющей переменной называется простой линейной регрессией ; для более чем одного этот процесс называется множественной линейной регрессией . [1] Этот термин отличается от многомерной линейной регрессии , где прогнозируется несколько коррелирующих зависимых переменных, а не одна скалярная переменная. [2] Если объясняющие переменные измеряются с ошибкой, то необходимы модели ошибок в переменных , также известные как модели ошибок измерения.

В линейной регрессии отношения моделируются с использованием линейных предикторных функций , неизвестные параметры модели которых оцениваются на основе данных . Такие модели называются линейными моделями . [3] Чаще всего условное среднее ответа с учетом значений объясняющих переменных (или предикторов) считается аффинной функцией этих значений; реже используют условную медиану или какой-либо другой квантиль . Как и все формы регрессионного анализа , линейная регрессия фокусируется на условном распределении вероятностей ответа с учетом значений предикторов, а не на совместном распределении вероятностей всех этих переменных, что является областью многомерного анализа .

Линейная регрессия была первым типом регрессионного анализа, который тщательно изучался и широко использовался в практических приложениях. [4] Это связано с тем, что модели, которые линейно зависят от неизвестных параметров, легче подобрать, чем модели, которые нелинейно связаны с их параметрами, и потому, что статистические свойства полученных оценок легче определить.

Линейная регрессия имеет множество практических применений. Большинство приложений попадают в одну из следующих двух широких категорий:

Модели линейной регрессии часто подбираются с использованием метода наименьших квадратов , но их можно подбирать и другими способами, например, путем минимизации « несоответствия » какой-либо другой норме (как в случае с регрессией наименьших абсолютных отклонений ) или путем минимизации штрафного версия функции стоимости наименьших квадратов , как в гребневой регрессии ( L 2 - штраф за норму) и лассо ( L 1 - штраф за норму). Использование среднеквадратической ошибки (MSE) в качестве стоимости набора данных, который имеет много крупных выбросов, может привести к тому, что модель будет соответствовать выбросам больше, чем истинным данным, из-за более высокой важности, придаваемой MSE большим ошибкам. Таким образом, если в наборе данных много крупных выбросов , следует использовать функции стоимости, устойчивые к выбросам . И наоборот, метод наименьших квадратов можно использовать для подбора моделей, которые не являются линейными моделями. Таким образом, хотя термины «наименьшие квадраты» и «линейная модель» тесно связаны, они не являются синонимами.

Формулировка

В линейной регрессии предполагается, что наблюдения ( красный ) являются результатом случайных отклонений ( зеленый ) от базовой взаимосвязи ( синий ) между зависимой переменной ( y ) и независимой переменной ( x ).

Учитывая набор данных из n статистических единиц , модель линейной регрессии предполагает, что связь между зависимой переменной y и вектором регрессоров x является линейной . Эта связь моделируется с помощью члена возмущения или переменной ошибки ε — ненаблюдаемой случайной величины , которая добавляет «шум» к линейной зависимости между зависимой переменной и регрессорами. Таким образом, модель принимает вид

Tтранспонированиеx i T βскалярным произведениемx iβ

Часто эти n уравнений складываются вместе и записываются в матричной записи как

где

Обозначения и терминология

Подбор линейной модели к заданному набору данных обычно требует оценки коэффициентов регрессии таким образом, чтобы минимизировать ошибку . Например, в качестве меры минимизации принято использовать сумму квадратов ошибок .

Пример

Рассмотрим ситуацию , когда небольшой шарик подбрасывают в воздух, а затем мы измеряем высоту его подъема hi в различные моменты времени t i . Физика говорит нам, что, игнорируя сопротивление, эту взаимосвязь можно смоделировать как

где β 1 определяет начальную скорость шара, β 2 пропорциональна стандартной силе тяжести , а ε i обусловлена ​​ошибками измерения. Линейную регрессию можно использовать для оценки значений β 1 и β 2 на основе измеренных данных. Эта модель нелинейна по временной переменной, но линейна по параметрам β 1 и β 2 ; если взять регрессоры x i  = ( x i 1 , x i 2 ) = ( t i , t i 2 ), модель примет стандартный вид

Предположения

Стандартные модели линейной регрессии со стандартными методами оценки делают ряд предположений о переменных-предикторах, переменных ответа и их взаимосвязи. Были разработаны многочисленные расширения, которые позволяют ослабить каждое из этих допущений (т.е. привести к более слабой форме), а в некоторых случаях полностью исключить их. Как правило, эти расширения делают процедуру оценки более сложной и трудоемкой, а также могут потребовать больше данных для создания столь же точной модели.

Пример кубической полиномиальной регрессии, которая является разновидностью линейной регрессии. Хотя полиномиальная регрессия соответствует данным нелинейной модели, как задача статистической оценки она является линейной в том смысле, что функция регрессии E( y | x ) линейна относительно неизвестных параметров , которые оцениваются на основе данных . По этой причине полиномиальная регрессия считается частным случаем множественной линейной регрессии .

Ниже приведены основные допущения, сделанные с помощью стандартных моделей линейной регрессии со стандартными методами оценки (например, методом наименьших квадратов ):

Чтобы проверить наличие нарушений предположений о линейности, постоянной дисперсии и независимости ошибок в модели линейной регрессии, остатки обычно строятся в зависимости от прогнозируемых значений (или каждого из отдельных предикторов). На первый взгляд случайный разброс точек вокруг горизонтальной средней линии в точке 0 является идеальным, но не может исключить определенные виды нарушений, такие как автокорреляция ошибок или их корреляция с одной или несколькими ковариатами.

Нарушение этих предположений может привести к смещению оценок β в зависимости от размера выборки, используемой для оценки модели. [9] Помимо этих предположений, на эффективность различных методов оценки сильно влияют несколько других статистических свойств данных:

Интерпретация

Наборы данных в квартете Анскомба имеют примерно одну и ту же линию линейной регрессии (а также почти идентичные средние значения, стандартные отклонения и корреляции), но графически сильно различаются. Это иллюстрирует подводные камни, связанные с использованием только подобранной модели для понимания взаимосвязи между переменными.

Подобранная модель линейной регрессии может использоваться для определения взаимосвязи между одной переменной-предиктором x j и переменной отклика y , когда все остальные переменные-предикторы в модели «удерживаются фиксированными». В частности , интерпретация β j — это ожидаемое изменение y для изменения x j на одну единицу , когда другие ковариаты остаются фиксированными, то есть ожидаемое значение частной производной y по отношению к x j . Иногда это называют уникальным эффектом xj на y . Напротив, предельное влияние x j на y можно оценить с помощью коэффициента корреляции или простой модели линейной регрессии , связывающей только x j с y ; этот эффект является полной производной y по x j .

Необходимо соблюдать осторожность при интерпретации результатов регрессии, поскольку некоторые регрессоры могут не допускать незначительных изменений (например, фиктивные переменные или член-перехват), в то время как другие не могут быть фиксированными (вспомните пример из введения: было бы невозможно «удерживать t i фиксированным» и в то же время изменять значение t i 2 ).

Вполне возможно, что уникальный эффект может быть почти нулевым, даже если предельный эффект велик. Это может означать, что какая-то другая ковариата фиксирует всю информацию в x j , так что, как только эта переменная появится в модели, x j не будет вносить вклад в изменение y . И наоборот, уникальный эффект x j может быть большим, в то время как его предельный эффект почти равен нулю. Это произошло бы, если бы другие ковариаты объясняли большую часть вариаций y , но в основном они объясняют вариацию способом, дополняющим то, что отражается x j . В этом случае включение других переменных в модель уменьшает ту часть изменчивости y , которая не связана с x j , тем самым усиливая очевидную связь с x j .

Значение выражения «удерживается фиксированным» может зависеть от того, как возникают значения переменных-предсказателей. Если экспериментатор непосредственно устанавливает значения переменных-предсказателей в соответствии с планом исследования, интересующие сравнения могут буквально соответствовать сравнениям между единицами, переменные-предикторы которых были «фиксированы» экспериментатором. Альтернативно, выражение «удерживается фиксированным» может относиться к выбору, который происходит в контексте анализа данных. В этом случае мы «фиксируем переменную», ограничивая наше внимание подмножествами данных, которые имеют общее значение для данной переменной-предиктора. Это единственная интерпретация термина «фиксированный», которую можно использовать в обсервационном исследовании.

Идея «уникального эффекта» привлекательна при изучении сложной системы, в которой множество взаимосвязанных компонентов влияют на переменную отклика. В некоторых случаях его можно буквально интерпретировать как причинный эффект вмешательства, связанного со значением предикторной переменной. Однако утверждалось, что во многих случаях множественный регрессионный анализ не может прояснить взаимосвязь между переменными-предикторами и переменной ответа, когда предикторы коррелируют друг с другом и не назначаются в соответствии с дизайном исследования. [10]

Расширения

Были разработаны многочисленные расширения линейной регрессии, которые позволяют ослабить некоторые или все предположения, лежащие в основе базовой модели.

Простая и множественная линейная регрессия

Пример простой линейной регрессии , имеющей одну независимую переменную

Самый простой случай одной скалярной переменной-предиктора x и одной скалярной переменной отклика y известен как простая линейная регрессия . Расширение множественных и/или векторных переменных-предикторов (обозначенных заглавной буквой X ) известно как множественная линейная регрессия , также известная как многомерная линейная регрессия (не путать с многомерной линейной регрессией [11] ).

Множественная линейная регрессия — это обобщение простой линейной регрессии на случай более чем одной независимой переменной и частный случай общих линейных моделей, ограниченных одной зависимой переменной. Базовая модель множественной линейной регрессии:

для каждого наблюдения .

В приведенной выше формуле мы рассматриваем n наблюдений одной зависимой переменной и p независимых переменных. Таким образом, Y i — i - е наблюдение зависимой переменной, X ij — i - е наблюдение j- й независимой переменной, j = 1, 2, ..., p . Значения β j представляют собой параметры, подлежащие оценке, а ε i представляет собой i- ю независимую одинаково распределенную нормальную ошибку.

В более общей многомерной линейной регрессии существует одно уравнение приведенной выше формы для каждой из m > 1 зависимых переменных, которые имеют один и тот же набор объясняющих переменных и, следовательно, оцениваются одновременно друг с другом:

для всех наблюдений, индексированных как i = 1,..., n , и для всех зависимых переменных, индексированных как j = 1,..., m .

Почти все реальные регрессионные модели включают в себя множественные предикторы, и базовые описания линейной регрессии часто формулируются в терминах модели множественной регрессии. Однако обратите внимание, что в этих случаях переменная ответа y по-прежнему является скаляром. Другой термин, многомерная линейная регрессия , относится к случаям, когда y является вектором, то есть то же самое, что и общая линейная регрессия .

Общие линейные модели

Общая линейная модель рассматривает ситуацию, когда переменная отклика является не скаляром (для каждого наблюдения), а вектором y i . Условная линейность по-прежнему предполагается, при этом матрица B заменяет вектор β классической модели линейной регрессии. Разработаны многомерные аналоги обычного метода наименьших квадратов (OLS) и обобщенного метода наименьших квадратов (GLS). «Общие линейные модели» также называют «многомерными линейными моделями». Это не то же самое, что многомерные линейные модели (также называемые «множественными линейными моделями»).

Гетероскедастические модели

Были созданы различные модели, допускающие гетероскедастичность , т.е. ошибки для разных переменных ответа могут иметь разные дисперсии . Например, взвешенный метод наименьших квадратов — это метод оценки моделей линейной регрессии, когда переменные ответа могут иметь разные дисперсии ошибок, возможно, с коррелирующими ошибками. (См. также Взвешенные линейные методы наименьших квадратов и Обобщенные наименьшие квадраты .) Стандартные ошибки, совместимые с гетероскедастичностью , — это улучшенный метод для использования с некоррелированными, но потенциально гетероскедастическими ошибками.

Обобщенные линейные модели

Обобщенные линейные модели (GLM) представляют собой основу для моделирования ограниченных или дискретных переменных отклика. Это используется, например:

Обобщенные линейные модели допускают произвольную функцию связи g , которая связывает среднее значение переменных ответа с предикторами: . Функция связи часто связана с распределением ответа и, в частности, обычно имеет эффект преобразования между диапазоном линейного предиктора и диапазоном переменной ответа.

Некоторые распространенные примеры GLM:

Модели с одним индексом [ необходимы пояснения ] допускают некоторую степень нелинейности во взаимосвязи между x и y , сохраняя при этом центральную роль линейного предиктора βx , как в классической модели линейной регрессии. При определенных условиях простое применение МНК к данным одноиндексной модели позволит последовательно оценить β с точностью до константы пропорциональности. [12]

Иерархические линейные модели

Иерархические линейные модели (или многоуровневая регрессия ) организуют данные в иерархию регрессий, например, где A регрессируется на B , а B регрессируется на C. Он часто используется там, где интересующие переменные имеют естественную иерархическую структуру, например, в статистике образования, где учащиеся вложены в классы, классы вложены в школы, а школы вложены в некоторую административную группу, например школьный округ. Переменная ответа может быть мерой успеваемости учащихся, например, результатом теста, а различные ковариаты будут собираться на уровне класса, школы и школьного округа.

Ошибки в переменных

Модели ошибок в переменных (или «модели ошибок измерения») расширяют традиционную модель линейной регрессии, позволяя наблюдать переменные-предикторы X с ошибкой. Эта ошибка приводит к тому, что стандартные оценки β становятся смещенными. Как правило, формой смещения является затухание, что означает, что эффекты смещаются к нулю.

Групповые эффекты

В модели множественной линейной регрессии

параметр переменной-предиктора представляет индивидуальный эффект . Его интерпретируют как ожидаемое изменение переменной отклика при увеличении на одну единицу, при этом другие переменные-предикторы остаются постоянными. Когда он сильно коррелирует с другими переменными-предикторами, маловероятно, что он может увеличиться на одну единицу, если другие переменные останутся постоянными. В этом случае интерпретация становится проблематичной, поскольку она основана на маловероятном условии, и эффект не может быть оценен изолированно.

Для группы переменных-предикторов, скажем, групповой эффект определяется как линейная комбинация их параметров.

где весовой вектор, удовлетворяющий . Из-за ограничения на эффект также называют нормализованным групповым эффектом. Групповой эффект интерпретируется как ожидаемое изменение, когда переменные в группе изменяются на величину соответственно, в то время как переменные, не входящие в группу, остаются постоянными. Он обобщает индивидуальный эффект переменной на группу переменных в том смысле, что ( ) если , то групповой эффект сводится к индивидуальному эффекту, и ( ) если и для , то групповой эффект также сводится к индивидуальному эффекту. Групповой эффект считается значимым, если вероятны одновременные изменения переменных .

Групповые эффекты предоставляют средства для изучения коллективного влияния сильно коррелированных переменных-предикторов в моделях линейной регрессии. Индивидуальные эффекты таких переменных не определены четко, поскольку их параметры не имеют хорошей интерпретации. Более того, когда размер выборки невелик, ни один из ее параметров не может быть точно оценен с помощью регрессии наименьших квадратов из-за проблемы мультиколлинеарности . Тем не менее, существуют значимые групповые эффекты, которые хорошо интерпретируются и могут быть точно оценены с помощью регрессии наименьших квадратов. Простой способ идентифицировать эти значимые групповые эффекты — использовать схему всех положительных корреляций (APC) сильно коррелирующих переменных, при которой все парные корреляции между этими переменными являются положительными, и стандартизировать все переменные-предикторы в модели так, чтобы все они имели среднее значение. ноль и длина один. Чтобы проиллюстрировать это, предположим, что это группа сильно коррелированных переменных в схеме APC, и что они не сильно коррелируют с переменными-предикторами вне группы. Пусть будет центрированным и стандартизированным . Тогда стандартизованная модель линейной регрессии имеет вид

Параметры исходной модели, включая , являются простыми функциями стандартизованной модели. Стандартизация переменных не меняет их корреляций, как и группа сильно коррелированных переменных в схеме APC, и они не сильно коррелируют с другими переменными-предикторами в стандартизированной модели. Групповой эффект – это

и его несмещенная линейная оценка с минимальной дисперсией равна

где - оценка методом наименьших квадратов . В частности, средний групповой эффект стандартизированных переменных равен

которое интерпретируется как ожидаемое изменение, когда все в сильно коррелированной группе увеличиваются на единицу одновременно, а переменные вне группы остаются постоянными. При сильных положительных корреляциях и в стандартизированных единицах переменные в группе примерно равны, поэтому они, скорее всего, будут увеличиваться одновременно и в одинаковой величине. Таким образом, средний групповой эффект является значимым эффектом. Его можно точно оценить с помощью несмещенной линейной оценки с минимальной дисперсией , даже если по отдельности ни один из них не может быть точно оценен с помощью .

Не все групповые эффекты значимы и не могут быть точно оценены. Например, это особый групповой эффект с весами и для , но его нельзя точно оценить с помощью . Это также не имеет значимого эффекта. В общем, для группы сильно коррелированных переменных-предикторов в схеме APC в стандартизированной модели групповые эффекты, весовые векторы которых находятся в центре симплекса или рядом с ним ( ), являются значимыми и могут быть точно оценены с помощью их несмещенной линейной функции с минимальной дисперсией. оценщики. Эффекты с весовыми векторами, расположенными далеко от центра, не имеют смысла, поскольку такие весовые векторы представляют собой одновременные изменения переменных, которые нарушают сильные положительные корреляции стандартизированных переменных в схеме APC. Как таковые они маловероятны. Эти эффекты также не могут быть точно оценены.

Применения групповых эффектов включают (1) оценку и вывод значимых групповых эффектов на переменную ответа, (2) проверку «групповой значимости» переменных посредством сравнения с и (3) характеристику области пространства переменных-предикторов в течение какие прогнозы по модели наименьших квадратов точны.

Групповой эффект исходных переменных можно выразить как константу, умноженную на групповой эффект стандартизированных переменных . Первое имеет смысл, когда второе. Таким образом, значимые групповые эффекты исходных переменных можно найти через значимые групповые эффекты стандартизированных переменных. [13]

Другие

В теории Демпстера-Шейфера или, в частности, в линейной функции доверия , модель линейной регрессии может быть представлена ​​как частично перемещаемая матрица, которую можно комбинировать с аналогичными матрицами, представляющими наблюдения и другие предполагаемые нормальные распределения и уравнения состояния. Комбинация матриц с качающейся и несверткой обеспечивает альтернативный метод оценки моделей линейной регрессии.

Методы оценки

Было разработано большое количество процедур для оценки параметров и вывода в линейной регрессии. Эти методы отличаются вычислительной простотой алгоритмов, наличием решения в замкнутой форме, устойчивостью к распределениям с тяжелым хвостом и теоретическими предположениями, необходимыми для проверки желаемых статистических свойств, таких как согласованность и асимптотическая эффективность .

Некоторые из наиболее распространенных методов оценки линейной регрессии кратко изложены ниже.

Оценка методом наименьших квадратов и связанные с ней методы

Иллюстрация Фрэнсиса Гальтона 1886 года [14] о корреляции между ростом взрослых и их родителей. Наблюдение за тем, что рост взрослых детей имеет тенденцию меньше отклоняться от среднего роста, чем у их родителей, натолкнуло на мысль о концепции « регрессии к среднему значению », давшей регрессии свое название. «Место горизонтальных касательных точек», проходящее через крайнюю левую и крайнюю правую точки эллипса (который представляет собой кривую уровня двумерного нормального распределения, оцененного на основе данных), представляет собой оценку МНК регрессии роста родителей на рост детей, в то время как «место вертикальных касательных точек» - это оценка OLS регрессии роста детей от роста родителей. Большая ось эллипса — это оценка TLS .

Если предположить, что независимая переменная равна , а параметры модели равны , то прогноз модели будет следующим:

.

Если расширено до , то станет скалярным произведением параметра и независимой переменной, т.е.

.

В методе наименьших квадратов оптимальный параметр определяется как такой, который минимизирует сумму среднеквадратичных потерь:

Теперь помещая независимые и зависимые переменные в матрицы и, соответственно, функцию потерь можно переписать как:

Поскольку потери выпуклы, оптимальное решение находится при нулевом градиенте. Градиент функции потерь (с использованием соглашения о расположении знаменателя ):

Установка градиента на ноль дает оптимальный параметр:

Примечание. Чтобы доказать, что полученное значение действительно является локальным минимумом, необходимо еще раз дифференцировать, чтобы получить матрицу Гессе , и показать, что она положительно определена. Это обеспечивает теорема Гаусса–Маркова .

Линейные методы наименьших квадратов включают в себя в основном:

Оценка максимального правдоподобия и связанные с ней методы

Другие методы оценки

Сравнение оценки Тейла – Сена (черный) и простой линейной регрессии (синий) для набора точек с выбросами

Приложения

Линейная регрессия широко используется в биологических, поведенческих и социальных науках для описания возможных связей между переменными. Он считается одним из наиболее важных инструментов, используемых в этих дисциплинах.

Линия тренда

Линия тренда представляет собой тенденцию, долгосрочное движение данных временного ряда после учета других компонентов. Он показывает, увеличился или уменьшился конкретный набор данных (например, ВВП, цены на нефть или цены на акции) за определенный период времени. Линию тренда можно просто нарисовать на глаз через набор точек данных, но более правильно их положение и наклон рассчитываются с использованием статистических методов, таких как линейная регрессия. Линии тренда обычно представляют собой прямые линии, хотя в некоторых вариантах используются полиномы более высокой степени в зависимости от желаемой степени кривизны линии.

Линии тренда иногда используются в бизнес-аналитике, чтобы показать изменения данных с течением времени. Это имеет то преимущество, что является простым. Линии тренда часто используются, чтобы доказать, что конкретное действие или событие (например, обучение или рекламная кампания) вызвало наблюдаемые изменения в определенный момент времени. Это простой метод, не требующий создания контрольной группы, планирования эксперимента или сложной техники анализа. Однако он страдает отсутствием научной обоснованности в тех случаях, когда другие потенциальные изменения могут повлиять на данные.

Эпидемиология

Первые данные о связи курения табака со смертностью и заболеваемостью были получены в ходе наблюдательных исследований с использованием регрессионного анализа. Чтобы уменьшить ложные корреляции при анализе данных наблюдений, исследователи обычно включают в свои регрессионные модели несколько переменных в дополнение к переменной, представляющей основной интерес. Например, в регрессионную модель, в которой курение сигарет является независимой переменной, представляющей основной интерес, а зависимой переменной является продолжительность жизни, измеряемая в годах, исследователи могут включить образование и доход в качестве дополнительных независимых переменных, чтобы гарантировать, что любое наблюдаемое влияние курения на продолжительность жизни является достоверным. не из-за других социально-экономических факторов . Однако никогда невозможно включить в эмпирический анализ все возможные мешающие переменные. Например, гипотетический ген может увеличить смертность, а также заставить людей больше курить. По этой причине рандомизированные контролируемые исследования часто способны предоставить более убедительные доказательства причинно-следственных связей, чем те, которые можно получить с помощью регрессионного анализа данных наблюдений. Когда контролируемые эксперименты невозможны, можно использовать варианты регрессионного анализа, такие как регрессия инструментальных переменных, чтобы попытаться оценить причинно-следственные связи на основе данных наблюдений.

Финансы

Модель ценообразования капитальных активов использует линейную регрессию, а также концепцию бета-версии для анализа и количественной оценки систематического риска инвестиций. Это происходит непосредственно из бета-коэффициента модели линейной регрессии, которая связывает доходность инвестиций с доходностью всех рискованных активов.

Экономика

Линейная регрессия является преобладающим эмпирическим инструментом в экономике . Например, он используется для прогнозирования потребительских расходов , [24] инвестиций в основной капитал , инвестиций в запасы , закупок экспортной продукции страны , [25] расходов на импорт , [25] потребности в хранении ликвидных активов , [26] спроса на рабочую силу , [27] и предложение рабочей силы . [27]

Наука об окружающей среде

Линейная регрессия находит применение в широком спектре приложений науки об окружающей среде, таких как землепользование [28] , инфекционные заболевания [29] , загрязнение воздуха [30] .

Машинное обучение

Линейная регрессия играет важную роль в области искусственного интеллекта, известной как машинное обучение . Алгоритм линейной регрессии является одним из фундаментальных алгоритмов машинного обучения с учителем благодаря своей относительной простоте и хорошо известным свойствам. [31]

История

Линейная регрессия по методу наименьших квадратов как средство нахождения хорошей грубой линейной аппроксимации набора точек была выполнена Лежандром ( 1805) и Гауссом (1809) для предсказания движения планет. Кетле сделал эту процедуру широко известной и широко использовал ее в социальных науках. [32]

Смотрите также

Рекомендации

Цитаты

  1. ^ Дэвид А. Фридман (2009). Статистические модели: теория и практика . Издательство Кембриджского университета . п. 26. Простое уравнение регрессии имеет в правой части точку пересечения и объясняющую переменную с коэффициентом наклона. Правая часть множественной регрессии, каждая со своим коэффициентом наклона.
  2. ^ Ренчер, Элвин С.; Кристенсен, Уильям Ф. (2012), «Глава 10, Многомерная регрессия - Раздел 10.1, Введение», Методы многомерного анализа, Ряды Уайли по вероятности и статистике, том. 709 (3-е изд.), John Wiley & Sons, с. 19, ISBN 9781118391679.
  3. ^ Хилари Л. Сил (1967). «Историческое развитие линейной модели Гаусса». Биометрика . 54 (1/2): 1–24. дои : 10.1093/biomet/54.1-2.1. JSTOR  2333849.
  4. ^ Ян, Синь (2009), Анализ линейной регрессии: теория и вычисления, World Scientific, стр. 1–2, ISBN 9789812834119, Регрессионный анализ... вероятно, одна из старейших тем математической статистики, возникшая около двухсот лет назад. Самой ранней формой линейной регрессии был метод наименьших квадратов, который был опубликован Лежандром в 1805 году и Гауссом в 1809 году ... Лежандр и Гаусс оба применили этот метод к проблеме определения на основе астрономических наблюдений орбит тел. о солнце.
  5. ^ Аб Тибширани, Роберт (1996). «Регрессионное сокращение и отбор с помощью лассо». Журнал Королевского статистического общества, серия B. 58 (1): 267–288. JSTOR  2346178.
  6. ^ аб Эфрон, Брэдли; Хасти, Тревор; Джонстон, Иэн; Тибширани, Роберт (2004). «Регрессия наименьшего угла». Анналы статистики . 32 (2): 407–451. arXiv : math/0406456 . дои : 10.1214/009053604000000067. JSTOR  3448465. S2CID  204004121.
  7. ^ аб Хокинс, Дуглас М. (1973). «Об исследовании альтернативных регрессий с помощью анализа главных компонентов». Журнал Королевского статистического общества, серия C. 22 (3): 275–286. дои : 10.2307/2346776. JSTOR  2346776.
  8. ^ аб Джоллифф, Ян Т. (1982). «Заметки об использовании главных компонентов в регрессии». Журнал Королевского статистического общества, серия C. 31 (3): 300–303. дои : 10.2307/2348005. JSTOR  2348005.
  9. ^ Уильямс, Мэтт; Грахалес, Карлос; Куркевич, Дэйсон (25 ноября 2019 г.). «Предположения о множественной регрессии: исправление двух заблуждений». Практическая оценка, исследования и оценка . 18 (1). дои : 10.7275/55ч-нед.47. ISSN  1531-7714.
  10. ^ Берк, Ричард А. (2007). «Регрессионный анализ: конструктивная критика». Обзор уголовного правосудия . 32 (3): 301–302. дои : 10.1177/0734016807304871. S2CID  145389362.
  11. ^ Идальго, Берта; Гудман, Мелоди (15 ноября 2012 г.). «Многомерная или многовариантная регрессия?». Американский журнал общественного здравоохранения . 103 (1): 39–40. дои : 10.2105/AJPH.2012.300897. ISSN  0090-0036. ПМЦ 3518362 . ПМИД  23153131. 
  12. ^ Бриллинджер, Дэвид Р. (1977). «Идентификация конкретной нелинейной системы временных рядов». Биометрика . 64 (3): 509–515. дои : 10.1093/biomet/64.3.509. JSTOR  2345326.
  13. ^ Цао, Мин (2022). «Групповая регрессия методом наименьших квадратов для линейных моделей с сильно коррелированными переменными-предикторами». Летопись Института статистической математики . 75 (2): 233–250. arXiv : 1804.02499 . дои : 10.1007/s10463-022-00841-7. S2CID  237396158.
  14. ^ Гальтон, Фрэнсис (1886). «Регрессия к посредственности в наследственном статусе». Журнал Антропологического института Великобритании и Ирландии . 15 : 246–263. дои : 10.2307/2841583. ISSN  0959-5295. JSTOR  2841583.
  15. ^ Бритцгер, Дэниел (2022). «Подгонка линейного шаблона». Евро. Физ. Джей Си . 82 (8): 731. arXiv : 2112.01548 . Бибкод : 2022EPJC...82..731B. doi : 10.1140/epjc/s10052-022-10581-w. S2CID  244896511.
  16. ^ Ланге, Кеннет Л.; Литтл, Родерик Дж.А.; Тейлор, Джереми М.Г. (1989). «Надежное статистическое моделирование с использованием t-распределения» (PDF) . Журнал Американской статистической ассоциации . 84 (408): 881–896. дои : 10.2307/2290063. JSTOR  2290063.
  17. ^ Суиндел, Бени Ф. (1981). «Иллюстрированная геометрия ридж-регрессии». Американский статистик . 35 (1): 12–15. дои : 10.2307/2683577. JSTOR  2683577.
  18. ^ Дрейпер, Норман Р.; ван Ностранд; Р. Крейг (1979). «Риджовая регрессия и оценка Джеймса-Стейна: обзор и комментарии». Технометрика . 21 (4): 451–466. дои : 10.2307/1268284. JSTOR  1268284.
  19. ^ Хорл, Артур Э.; Кеннард, Роберт В.; Хёрл, Роджер В. (1985). «Практическое использование ридж-регрессии: решенная задача». Журнал Королевского статистического общества, серия C. 34 (2): 114–120. JSTOR  2347363.
  20. ^ Нарула, Субхаш К.; Веллингтон, Джон Ф. (1982). «Регрессия минимальной суммы абсолютных ошибок: современное исследование». Международный статистический обзор . 50 (3): 317–326. дои : 10.2307/1402501. JSTOR  1402501.
  21. ^ Стоун, CJ (1975). «Адаптивные оценки максимального правдоподобия параметра местоположения». Анналы статистики . 3 (2): 267–284. дои : 10.1214/aos/1176343056 . JSTOR  2958945.
  22. ^ Гольдштейн, Х. (1986). «Анализ многоуровневой смешанной линейной модели с использованием итерационного обобщенного метода наименьших квадратов». Биометрика . 73 (1): 43–56. дои : 10.1093/biomet/73.1.43. JSTOR  2336270.
  23. ^ Тейл, Х. (1950). «Ранг-инвариантный метод линейного и полиномиального регрессионного анализа. I, II, III». Недерл. Акад. Wetensch., Proc . 53 : 386–392, 521–525, 1397–1412. МР  0036489.; Сен, Пранаб Кумар (1968). «Оценки коэффициента регрессии на основе тау Кендалла». Журнал Американской статистической ассоциации . 63 (324): 1379–1389. дои : 10.2307/2285891. JSTOR  2285891. МР  0258201..
  24. ^ Дитон, Ангус (1992). Понимание потребления . Издательство Оксфордского университета. ISBN 978-0-19-828824-4.
  25. ^ Аб Кругман, Пол Р .; Обстфельд, М .; Мелитц, Марк Дж. (2012). Международная экономика: теория и политика (9-е глобальное изд.). Харлоу: Пирсон. ISBN 9780273754091.
  26. ^ Лейдлер, Дэвид EW (1993). Спрос на деньги: теории, доказательства и проблемы (4-е изд.). Нью-Йорк: Харпер Коллинз. ISBN 978-0065010985.
  27. ^ аб Эренберг; Смит (2008). Современная экономика труда (10-е международное изд.). Лондон: Аддисон-Уэсли. ISBN 9780321538963.
  28. ^ Хук, Джерард; Билен, Роб; де Хуг, Кес; Вьенно, Даниэль; Гулливер, Джон; Фишер, Пол; Бриггс, Дэвид (1 октября 2008 г.). «Обзор регрессионных моделей землепользования для оценки пространственных изменений загрязнения наружного воздуха». Атмосферная среда . 42 (33): 7561–7578. doi :10.1016/j.atmosenv.2008.05.057. ISSN  1352-2310.
  29. ^ Имаи, Чисато; Хашизуме, Масахиро (2015). «Систематический обзор методологии: регрессионный анализ временных рядов факторов окружающей среды и инфекционных заболеваний». Тропическая медицина и здоровье . 43 (1): 1–9. дои : 10.2149/tmh.2014-21. hdl : 10069/35301 .
  30. ^ Милионис, А.Э.; Дэвис, Т.Д. (1 сентября 1994 г.). «Регрессия и стохастические модели загрязнения воздуха — I. Обзор, комментарии и предложения». Атмосферная среда . 28 (17): 2801–2810. дои : 10.1016/1352-2310(94)90083-3. ISSN  1352-2310.
  31. ^ «Линейная регрессия (машинное обучение)» (PDF) . Университет Питтсбурга .
  32. ^ Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 года . Кембридж: Гарвард. ISBN 0-674-40340-1.

Источники

дальнейшее чтение

Внешние ссылки