stringtranslate.com

Регрессивный анализ

Линия регрессии для 50 случайных точек гауссова распределения вокруг линии y=1,5x+2 (не показана)

В статистическом моделировании регрессионный анализ — это набор статистических процессов для оценки взаимосвязей между зависимой переменной (часто называемой «результатной» или «переменной ответа», или «меткой» на языке машинного обучения) и одной или несколькими независимыми переменными ( часто называемые «предикторами», «ковариатами», «объясняющими переменными» или «признаками»). Наиболее распространенной формой регрессионного анализа является линейная регрессия , при которой находится линия (или более сложная линейная комбинация ), которая наиболее точно соответствует данным в соответствии с определенным математическим критерием. Например, метод обычных наименьших квадратов вычисляет уникальную линию (или гиперплоскость ), которая минимизирует сумму квадратов разностей между истинными данными и этой линией (или гиперплоскостью). По конкретным математическим причинам (см. линейную регрессию ) это позволяет исследователю оценить условное ожидание (или среднее значение совокупности ) зависимой переменной, когда независимые переменные принимают заданный набор значений. Менее распространенные формы регрессии используют немного другие процедуры для оценки альтернативных параметров местоположения (например, квантильная регрессия или анализ необходимых условий [1] ) или оценки условного ожидания в более широком наборе нелинейных моделей (например, непараметрическая регрессия ).

Регрессионный анализ в основном используется для двух концептуально различных целей. Во-первых, регрессионный анализ широко используется для прогнозирования и прогнозирования , где его применение существенно пересекается с областью машинного обучения . Во-вторых, в некоторых ситуациях регрессионный анализ можно использовать для вывода причинно-следственных связей между независимыми и зависимыми переменными. Важно отметить, что регрессии сами по себе выявляют только отношения между зависимой переменной и набором независимых переменных в фиксированном наборе данных. Чтобы использовать регрессию для прогнозирования или вывода причинно-следственных связей соответственно, исследователь должен тщательно обосновать, почему существующие взаимосвязи обладают предсказательной силой для нового контекста или почему связь между двумя переменными имеет причинно-следственную интерпретацию. Последнее особенно важно, когда исследователи надеются оценить причинно-следственные связи, используя данные наблюдений . [2] [3]

История

Самой ранней формой регрессии был метод наименьших квадратов , который был опубликован Лежандром в 1805 году [4] и Гауссом в 1809 году . [5] Лежандр и Гаусс оба применили этот метод к проблеме определения на основе астрономических наблюдений орбиты тел вокруг Солнца (в основном комет, но позже и вновь открытых тогда малых планет). Гаусс опубликовал дальнейшее развитие теории наименьших квадратов в 1821 году [6] , включая версию теоремы Гаусса-Маркова .

Термин «регрессия» был придуман Фрэнсисом Гальтоном в 19 веке для описания биологического явления. Феномен заключался в том, что рост потомков высоких предков имеет тенденцию снижаться до нормального среднего значения (феномен, также известный как регрессия к среднему значению ). [7] [8] Для Гальтона регрессия имела только биологический смысл, [9] [10] , но позже его работа была расширена Удни Юлом и Карлом Пирсоном на более общий статистический контекст. [11] [12] В работе Юла и Пирсона совместное распределение отклика и объясняющих переменных предполагается гауссовым . Это предположение было ослаблено Р. А. Фишером в его работах 1922 и 1925 годов. [13] [14] [15] Фишер предположил, что условное распределение переменной отклика является гауссовым, но совместное распределение не обязательно должно быть таким. В этом отношении предположение Фишера ближе к формулировке Гаусса 1821 года.

В 1950-х и 1960-х годах экономисты использовали электромеханические настольные калькуляторы для расчета регрессий. До 1970 года получение результата одной регрессии иногда занимало до 24 часов. [16]

Методы регрессии продолжают оставаться областью активных исследований. В последние десятилетия были разработаны новые методы устойчивой регрессии , регрессии, включающей коррелированные ответы, такие как временные ряды и кривые роста , регрессии, в которой предиктором (независимой переменной) или переменными отклика являются кривые, изображения, графики или другие сложные объекты данных. методы регрессии, учитывающие различные типы отсутствующих данных, непараметрическая регрессия , байесовские методы регрессии, регрессия, в которой переменные-предикторы измеряются с ошибкой, регрессия с большим количеством переменных-предикторов, чем наблюдений, и причинный вывод с регрессией.

Регрессионная модель

На практике исследователи сначала выбирают модель, которую они хотели бы оценить, а затем используют выбранный ими метод (например, обычный метод наименьших квадратов ) для оценки параметров этой модели. Регрессионные модели включают в себя следующие компоненты:

В различных областях применения вместо зависимых и независимых переменных используются разные термины .

Большинство регрессионных моделей предполагают, что это функция ( функция регрессии ) от и , представляющая аддитивную ошибку , которая может заменять немоделированные детерминанты или случайный статистический шум:

Цель исследователей — оценить функцию , которая наиболее точно соответствует данным. Для проведения регрессионного анализа необходимо указать вид функции . Иногда форма этой функции основана на знании взаимосвязи между ними и не зависит от данных. Если таких знаний нет, выбирается гибкая или удобная форма . Например, простая одномерная регрессия может предложить , предполагая, что исследователь считает это разумным приближением для статистического процесса, генерирующего данные.

Как только исследователи определят предпочтительную статистическую модель , различные формы регрессионного анализа предоставляют инструменты для оценки параметров . Например, метод наименьших квадратов (включая его наиболее распространенный вариант, обычный метод наименьших квадратов ) находит значение, которое минимизирует сумму квадратов ошибок . Данный метод регрессии в конечном итоге предоставит оценку , обычно обозначаемую для того, чтобы отличить оценку от истинного (неизвестного) значения параметра, который сгенерировал данные. Используя эту оценку, исследователь может затем использовать подобранное значение для прогнозирования или для оценки точности модели при объяснении данных. Заинтересован ли исследователь в оценке или прогнозируемом значении, будет зависеть от контекста и его целей. Как описано в обычном методе наименьших квадратов , метод наименьших квадратов широко используется, поскольку оценочная функция аппроксимирует условное математическое ожидание . [5] Однако альтернативные варианты (например, наименьшие абсолютные отклонения или квантильная регрессия ) полезны, когда исследователи хотят смоделировать другие функции .

Важно отметить, что для оценки регрессионной модели должно быть достаточно данных. Например, предположим, что исследователь имеет доступ к строкам данных с одной зависимой и двумя независимыми переменными: . Предположим далее, что исследователь хочет оценить двумерную линейную модель методом наименьших квадратов : . Если у исследователя есть доступ только к точкам данных, он может найти бесконечное множество комбинаций , которые одинаково хорошо объясняют данные: можно выбрать любую комбинацию, которая удовлетворяет , все из которых приводят к и, следовательно, являются действительными решениями, минимизирующими сумму квадратов остатков . Чтобы понять, почему вариантов бесконечно много, заметим, что систему уравнений приходится решать с 3 неизвестными, что делает систему недоопределенной . Альтернативно, можно визуализировать бесконечное множество трехмерных плоскостей, проходящих через фиксированные точки.

В более общем смысле, чтобы оценить модель наименьших квадратов с разными параметрами, необходимо иметь разные точки данных. Если , то, как правило, не существует набора параметров, который идеально соответствовал бы данным. Величина часто появляется в регрессионном анализе и называется степенями свободы в модели. Более того, чтобы оценить модель наименьших квадратов, независимые переменные должны быть линейно независимыми : нельзя восстановить ни одну из независимых переменных путем сложения и умножения оставшихся независимых переменных. Как обсуждалось в обычном методе наименьших квадратов , это условие гарантирует, что матрица является обратимой и, следовательно, существует единственное решение .

Скрытые предположения

Сама по себе регрессия — это просто расчет с использованием данных. Чтобы интерпретировать результаты регрессии как значимую статистическую величину, измеряющую реальные отношения, исследователи часто полагаются на ряд классических предположений . Эти предположения часто включают в себя:

Нескольких условий достаточно, чтобы оценщик наименьших квадратов обладал желаемыми свойствами: в частности, предположения Гаусса-Маркова подразумевают, что оценки параметров будут несмещенными , непротиворечивыми и эффективными в классе линейных несмещенных оценщиков. Практики разработали множество методов для поддержания некоторых или всех этих желательных свойств в реальных условиях, поскольку эти классические предположения вряд ли будут выполняться в точности. Например, моделирование ошибок в переменных может привести к разумным оценкам, независимые переменные измеряются с ошибками. Стандартные ошибки, согласованные с гетероскедастичностью, позволяют дисперсии изменяться в зависимости от значений . Коррелированные ошибки, которые существуют в подмножествах данных или следуют определенным закономерностям, могут обрабатываться, среди других методов, с использованием кластерных стандартных ошибок, географической взвешенной регрессии или стандартных ошибок Ньюи-Уэста . Когда строки данных соответствуют местоположениям в пространстве, выбор способа моделирования в пределах географических единиц может иметь важные последствия. [17] [18] Подобласть эконометрики в основном сосредоточена на разработке методов, которые позволяют исследователям делать разумные выводы из реальной жизни в реальных условиях, где классические предположения не выполняются в точности.

Линейная регрессия

В линейной регрессии спецификация модели заключается в том, что зависимая переменная представляет собой линейную комбинацию параметров ( но не обязательно должна быть линейной по независимым переменным ). Например, в простой линейной регрессии для моделирования точек данных имеется одна независимая переменная: , и два параметра, и :

прямая линия:

В множественной линейной регрессии имеется несколько независимых переменных или функций независимых переменных.

Добавление члена к предыдущей регрессии дает:

парабола:

Это все еще линейная регрессия; хотя выражение в правой части является квадратичным по независимой переменной , оно линейно по параметрам , и

В обоих случаях это ошибка, а нижний индекс указывает на конкретное наблюдение.

Возвращаясь к случаю прямой линии: учитывая случайную выборку генеральной совокупности, мы оцениваем параметры генеральной совокупности и получаем выборочную модель линейной регрессии:

Остаток , , представляет собой разницу между значением зависимой переменной, предсказанным моделью, и истинным значением зависимой переменной . Одним из методов оценки является обычный метод наименьших квадратов . Этот метод получает оценки параметров, которые минимизируют сумму квадратов остатков , SSR :

Минимизация этой функции приводит к набору нормальных уравнений , набору одновременных линейных уравнений по параметрам, которые решаются для получения оценок параметров, .

Иллюстрация линейной регрессии на наборе данных

В случае простой регрессии формулы для оценок методом наименьших квадратов имеют вид

где – среднее значение (среднее) значений и – среднее значение .

В предположении, что член ошибки генеральной совокупности имеет постоянную дисперсию, оценка этой дисперсии определяется следующим образом:

Это называется среднеквадратичной ошибкой (MSE) регрессии. Знаменатель представляет собой размер выборки, уменьшенный на количество параметров модели, оцененных на основе одних и тех же данных, для регрессоров или в случае использования метода пересечения. [19] В данном случае знаменатель равен .

Стандартные ошибки оценок параметров определяются выражением

При дальнейшем предположении, что член ошибки генеральной совокупности имеет нормальное распределение, исследователь может использовать эти оцененные стандартные ошибки для создания доверительных интервалов и проведения проверки гипотез о параметрах генеральной совокупности .

Общая линейная модель

В более общей модели множественной регрессии есть независимые переменные:

где -е наблюдение по -й независимой переменной. Если первая независимая переменная принимает значение 1 для всех , то это называется перехватом регрессии .

Оценки параметров методом наименьших квадратов получаются из нормальных уравнений. Остаток можно записать как

Обычные уравнения :

В матричной записи нормальные уравнения записываются как

где элемент is , элемент вектор-столбца is и элемент is . Так есть , есть и есть . Решение

Диагностика

После построения регрессионной модели может оказаться важным подтвердить соответствие модели и статистическую значимость оцененных параметров. Обычно используемые проверки согласия включают R-квадрат , анализ структуры остатков и проверку гипотез. Статистическую значимость можно проверить с помощью F-критерия общего соответствия, за которым следуют t-критерии отдельных параметров.

Интерпретация этих диагностических тестов во многом зависит от предположений модели. Хотя анализ остатков может быть использован для признания модели недействительной, результаты t-теста или F-теста иногда труднее интерпретировать, если предположения модели нарушаются. Например, если член ошибки не имеет нормального распределения, в небольших выборках оцененные параметры не будут соответствовать нормальному распределению, что усложнит вывод. Однако при относительно больших выборках можно применить центральную предельную теорему , чтобы проверка гипотез могла продолжаться с использованием асимптотических приближений.

Ограниченные зависимые переменные

Ограниченные зависимые переменные , которые являются переменными отклика, которые являются категориальными переменными или переменными, ограниченными попаданием только в определенный диапазон, часто возникают в эконометрике .

Переменная ответа может быть прерывистой («ограниченной» и находиться в некотором подмножестве реальной линии). Для бинарных переменных (ноль или одна), если анализ продолжается с помощью линейной регрессии по методу наименьших квадратов, модель называется линейной вероятностной моделью . Нелинейные модели для двоичных зависимых переменных включают пробит- и логит-модель . Многомерная пробит- модель — это стандартный метод оценки совместной связи между несколькими двоичными зависимыми переменными и некоторыми независимыми переменными. Для категориальных переменных с более чем двумя значениями существует полиномиальный логит . Для порядковых переменных с более чем двумя значениями существуют упорядоченные логит-модели и упорядоченные пробит- модели. Модели цензурированной регрессии можно использовать, когда зависимая переменная наблюдается лишь иногда, а модели типа коррекции Хекмана можно использовать, когда выборка не выбрана случайным образом из интересующей совокупности. Альтернативой таким процедурам является линейная регрессия, основанная на полихорической корреляции (или полисерийных корреляциях) между категориальными переменными. Такие процедуры различаются предположениями о распределении переменных в совокупности. Если переменная положительна с низкими значениями и представляет собой повторение возникновения события, то можно использовать модели подсчета, такие как регрессия Пуассона или модель отрицательного бинома .

Нелинейная регрессия

Когда модельная функция не является линейной по параметрам, сумму квадратов необходимо минимизировать с помощью итерационной процедуры. Это создает множество сложностей, которые обобщены в разделе « Различия между линейными и нелинейными методами наименьших квадратов» .

Прогнозирование (интерполяция и экстраполяция)

Интерполированная прямая линия посередине представляет собой лучший баланс между точками выше и ниже этой линии. Пунктирные линии представляют две крайние линии. Первые кривые представляют расчетные значения. Внешние кривые представляют собой прогноз для нового измерения. [20]

Модели регрессии прогнозируют значение переменной Y при известных значениях переменных X. Прогнозирование в диапазоне значений набора данных, используемого для подбора модели, неофициально называется интерполяцией . Прогнозирование за пределами этого диапазона данных известно как экстраполяция . Выполнение экстраполяции во многом зависит от предположений регрессии. Чем дальше экстраполяция выходит за пределы данных, тем больше вероятность того, что модель потерпит неудачу из-за различий между предположениями и выборочными данными или истинными значениями.

Интервал прогнозирования , который представляет неопределенность, может сопровождать точечное прогнозирование. Такие интервалы имеют тенденцию быстро расширяться по мере того, как значения независимой переменной(й) выходят за пределы диапазона, охватываемого наблюдаемыми данными.

По этим и другим причинам некоторые склонны говорить, что было бы неразумно прибегать к экстраполяции. [21]

Однако это не охватывает весь набор ошибок моделирования , которые могут быть допущены: в частности, предположение о конкретной форме связи между Y и X. Правильно проведенный регрессионный анализ будет включать оценку того, насколько хорошо предполагаемая форма соответствует наблюдаемым данным, но он может сделать это только в пределах диапазона значений фактически доступных независимых переменных. Это означает, что любая экстраполяция особенно зависит от предположений о структурной форме регрессионной зависимости. Если это знание включает в себя тот факт, что зависимая переменная не может выйти за пределы определенного диапазона значений, это можно использовать при выборе модели – даже если наблюдаемый набор данных не имеет значений, особенно близких к таким границам. Последствия этого шага выбора подходящей функциональной формы для регрессии могут быть значительными, если рассматривать экстраполяцию. Как минимум, он может гарантировать, что любая экстраполяция, вытекающая из подобранной модели, является «реалистичной» (или соответствует тому, что известно).

Расчеты мощности и размера выборки

Не существует общепринятых методов связи количества наблюдений с количеством независимых переменных в модели. Один метод, предложенный Гудом и Хардином, следующий: , где – размер выборки, – количество независимых переменных и – количество наблюдений, необходимых для достижения желаемой точности, если бы в модели была только одна независимая переменная. [22] Например, исследователь строит модель линейной регрессии, используя набор данных, содержащий 1000 пациентов ( ). Если исследователь решает, что для точного определения прямой линии ( ) необходимы пять наблюдений , то максимальное количество независимых переменных, которые может поддерживать модель, равно 4, потому что

.

Другие методы

Хотя параметры регрессионной модели обычно оцениваются с использованием метода наименьших квадратов, другие используемые методы включают:

Программное обеспечение

Все основные пакеты статистического программного обеспечения выполняют регрессионный анализ и выводы по методу наименьших квадратов . Простую линейную регрессию и множественную регрессию с использованием метода наименьших квадратов можно выполнить в некоторых приложениях для работы с электронными таблицами и на некоторых калькуляторах. Хотя многие пакеты статистического программного обеспечения могут выполнять различные типы непараметрической и устойчивой регрессии, эти методы менее стандартизированы. Различные пакеты программного обеспечения реализуют разные методы, и метод с заданным именем может быть реализован по-разному в разных пакетах. Специализированное программное обеспечение для регрессии было разработано для использования в таких областях, как анализ опросов и нейровизуализация.

Смотрите также

Рекомендации

  1. ^ Необходимый анализ состояния
  2. Дэвид А. Фридман (27 апреля 2009 г.). Статистические модели: теория и практика. Издательство Кембриджского университета. ISBN 978-1-139-47731-4.
  3. ^ Р. Деннис Кук; Сэнфорд Вейсберг Критика и анализ влияния в регрессии, социологическая методология , Vol. 13. (1982), стр. 313–361.
  4. ^ AM Лежандр . «Новые методы определения орбит комет», Фирмен Дидо, Париж, 1805 г. «Sur la Méthode des moindres quarrés» приводится в качестве приложения.
  5. ^ ab Глава 1: Angrist, JD, & Pischke, JS (2008). В основном безобидная эконометрика: спутник эмпирика . Издательство Принстонского университета.
  6. ^ CF Гаусс. Теория комбинаций наблюдений erroribus minimis obnoxiae. (1821/1823)
  7. ^ Могул, Роберт Г. (2004). Прикладная статистика за второй семестр . Кендалл/Хант Издательская компания. п. 59. ИСБН 978-0-7575-1181-3.
  8. ^ Гальтон, Фрэнсис (1989). «Родство и корреляция (переиздано в 1989 г.)». Статистическая наука . 4 (2): 80–86. дои : 10.1214/ss/1177012581 . JSTOR  2245330.
  9. ^ Фрэнсис Гальтон . «Типичные законы наследственности», Nature 15 (1877), 492–495, 512–514, 532–533. (Гальтон использует термин «реверсия» в этой статье, где обсуждается размер горошин.)
  10. ^ Фрэнсис Гальтон. Послание Президента, Раздел H, Антропология. (1885) (Гальтон использует термин «регрессия» в этой статье, где обсуждается рост человека.)
  11. ^ Юл, Г. Удный (1897). «К теории корреляции». Журнал Королевского статистического общества . 60 (4): 812–54. дои : 10.2307/2979746. JSTOR  2979746.
  12. ^ Пирсон, Карл ; Юл, ГУ; Бланшар, Норман; Ли, Алиса (1903). «Закон наследственности». Биометрика . 2 (2): 211–236. дои : 10.1093/биомет/2.2.211. JSTOR  2331683.
  13. ^ Фишер, РА (1922). «Наличие соответствия формул регрессии и распределение коэффициентов регрессии». Журнал Королевского статистического общества . 85 (4): 597–612. дои : 10.2307/2341124. JSTOR  2341124. PMC 1084801 . 
  14. ^ Рональд А. Фишер (1954). Статистические методы для научных работников (Двенадцатое изд.). Эдинбург : Оливер и Бойд. ISBN 978-0-05-002170-5.
  15. ^ Олдрич, Джон (2005). «Фишер и регрессия». Статистическая наука . 20 (4): 401–417. дои : 10.1214/088342305000000331 . JSTOR  20061201.
  16. ^ Родни Рамчаран. Регрессии: почему экономисты одержимы ими? Март 2006 г. По состоянию на 3 декабря 2011 г.
  17. ^ Фотерингем, А. Стюарт; Брансдон, Крис; Чарльтон, Мартин (2002). Географически взвешенная регрессия: анализ пространственно меняющихся отношений (переиздание). Чичестер, Англия: Джон Уайли. ISBN 978-0-471-49616-8.
  18. ^ Фотерингем, AS; Вонг, DWS (1 января 1991 г.). «Проблема модифицируемой единицы площади в многомерном статистическом анализе». Окружающая среда и планирование А . 23 (7): 1025–1044. дои : 10.1068/a231025. S2CID  153979055.
  19. ^ Стил, RGD, и Торри, JH, Принципы и процедуры статистики с особым упором на биологические науки. , МакГроу Хилл , 1960, стр. 288.
  20. ^ Руо, Матье (2013). Вероятность, статистика и оценка (PDF) . п. 60.
  21. ^ Чан, CL, (2003) Статистические методы анализа , World Scientific. ISBN 981-238-310-7 - стр. 274, раздел 9.7.4 «Интерполяция и экстраполяция» 
  22. ^ Хорошо, ИП ; Хардин, JW (2009). Распространенные ошибки в статистике (и как их избежать) (3-е изд.). Хобокен, Нью-Джерси: Уайли. п. 211. ИСБН 978-0-470-45798-6.
  23. ^ Тофалис, К. (2009). «Процентная регрессия по методу наименьших квадратов». Журнал современных прикладных статистических методов . 7 : 526–534. дои : 10.2139/ssrn.1406472. HDL : 2299/965 . ССНН  1406472.
  24. ^ ЯнЦзин Лонг (2009). «Оценка возраста человека с помощью метрического обучения для задач регрессии» (PDF) . Учеб. Международная конференция по компьютерному анализу изображений и узоров : 74–82. Архивировано из оригинала (PDF) 8 января 2010 г.

дальнейшее чтение

Эван Дж. Уильямс, «I. Регрессия», стр. 523–41.
Джулиан К. Стэнли , «II. Дисперсионный анализ», стр. 541–554.

Внешние ссылки