stringtranslate.com

Обычные наименьшие квадраты

В статистике обычный метод наименьших квадратов ( OLS ) — это тип линейного метода наименьших квадратов для выбора неизвестных параметров в модели линейной регрессии (с фиксированными эффектами первого уровня [ необходимы пояснения ] линейной функции набора объясняющих переменных ) путем принцип наименьших квадратов : минимизация суммы квадратов разностей между наблюдаемой зависимой переменной (значениями наблюдаемой переменной) во входном наборе данных и выходом (линейной) функции независимой переменной .

Геометрически это рассматривается как сумма квадратов расстояний, параллельных оси зависимой переменной, между каждой точкой данных в наборе и соответствующей точкой на поверхности регрессии — чем меньше различия, тем лучше модель соответствует данным. . Полученную оценку можно выразить простой формулой, особенно в случае простой линейной регрессии , в которой в правой части уравнения регрессии находится один регрессор .

Оценка OLS согласована для фиксированных эффектов первого уровня, когда регрессоры экзогенны , и формирует идеальную коллинеарность (условие ранга), согласованную для оценки дисперсии остатков, когда регрессоры имеют конечные четвертые моменты [1] и - по формуле Гаусса – Маркова Теоремаоптимальная в классе линейных несмещенных оценок, когда ошибки гомоскедастичны и серийно некоррелированы . В этих условиях метод МНК обеспечивает несмещенную оценку с минимальной дисперсией, когда ошибки имеют конечные дисперсии . При дополнительном предположении, что ошибки обычно распределяются с нулевым средним значением, OLS является оценщиком максимального правдоподобия , который превосходит любой нелинейный несмещенный оценщик.

Линейная модель

Закон Оукена в макроэкономике гласит, что в экономике рост ВВП должен линейно зависеть от изменения уровня безработицы. Здесь обычным методом наименьших квадратов строится линия регрессии, описывающая этот закон.

Предположим, данные состоят из наблюдений . Каждое наблюдение включает в себя скалярный отклик и вектор-столбец параметров (регрессоров), т.е. В модели линейной регрессии переменная отклика является линейной функцией регрессоров:

или в векторной форме,

где , как было введено ранее, представляет собой вектор-столбец -го наблюдения всех независимых переменных; – вектор неизвестных параметров; а скаляр представляет ненаблюдаемые случайные величины ( ошибки ) -го наблюдения. учитывает влияние на ответы источников, отличных от объясняющих переменных . Эту модель также можно записать в матричной записи как

где и — векторы переменных ответа и ошибок наблюдений , а — матрица регрессоров, также иногда называемая матрицей плана , строка которой является и содержит -е наблюдения по всем объясняющим переменным.

Обычно в набор регрессоров включают постоянный член , скажем, взяв за все . Коэффициент , соответствующий этому регрессору, называется интерцептом . Без пересечения подобранная линия вынуждена пересечь начало координат, когда .

Регрессоры не обязательно должны быть независимыми, чтобы оценка была последовательной, но мультиколлинеарность делает оценку непоследовательной. В качестве конкретного примера, когда регрессоры не являются независимыми, мы могли бы предположить, что отклик линейно зависит как от значения, так и от его квадрата; в этом случае мы бы включили один регрессор, значение которого равно квадрату другого регрессора. В этом случае модель будет квадратичной по второму регрессору, но, тем не менее, по-прежнему считается линейной моделью, поскольку модель по-прежнему линейна по параметрам ( ).

Матричная/векторная формулировка

Рассмотрим переопределенную систему

линейных уравнений с неизвестными коэффициентами , , при . Это можно записать в матричной форме как

где

(Примечание: для линейной модели, описанной выше, не все элементы содержат информацию о точках данных. Первый столбец заполняется единицами. Только остальные столбцы содержат фактические данные. Таким образом, здесь равно количеству регрессоров плюс один) .

Такая система обычно не имеет точного решения, поэтому вместо этого цель состоит в том, чтобы найти коэффициенты, которые «наилучшим образом» соответствуют уравнениям в смысле решения задачи квадратичной минимизации .

где целевая функция определяется выражением

Обоснование выбора этого критерия приведено в разделе «Свойства» ниже. Эта задача минимизации имеет единственное решение при условии, что столбцы матрицы линейно независимы , определяемое решением так называемых нормальных уравнений :

Матрица известна как нормальная матрица или матрица Грама , а матрица известна как матрица моментов регресса и регрессоров. [2] Наконец, вектор коэффициентов гиперплоскости наименьших квадратов , выраженный как

или

Оценка

Предположим, b является значением «кандидата» для вектора параметров β . Величина y ix i T b , называемая остатком для i -го наблюдения, измеряет вертикальное расстояние между точкой данных ( x i , y i ) и гиперплоскостью y = x T b и, таким образом, оценивает степень соответствие между фактическими данными и моделью. Сумма квадратов остатков ( SSR ) (также называемая суммой квадратов ошибок ( ESS ) или остаточной суммой квадратов ( RSS )) [3] является мерой общего соответствия модели:

где T обозначает транспонирование матрицы , а строки X , обозначающие значения всех независимых переменных, связанных с конкретным значением зависимой переменной, равны X i = x i T. Значение b , которое минимизирует эту сумму, называется оценкой МНК для β . Функция S ( b ) квадратична по b с положительно определенным гессианом , и поэтому эта функция обладает единственным глобальным минимумом при , который может быть задан явной формулой: [4] [доказательство]

Произведение N = X T X является матрицей Грама , а его обратная матрица Q = N –1 является матрицей-кофактором β , [ 5] [6] [7] тесно связанной с ее ковариационной матрицей C β . Матрица ( X T X ) –1 X T = Q X T называется псевдообратной матрицей Мура–Пенроуза X. Эта формулировка подчеркивает тот факт, что оценка может быть выполнена тогда и только тогда, когда не существует идеальной мультиколлинеарности между объясняющие переменные (которые привели бы к тому, что матрица грамма не имела обратной).

После того, как мы оценили β , подобранные значения (или прогнозируемые значения ) из регрессии будут

где P = X ( X T X ) −1 X Tматрица проекции на пространство V , натянутое на столбцы X . Эту матрицу P также иногда называют шляпной матрицей , потому что она «надевает шляпу» на переменную y . Другая матрица, тесно связанная с P , — это матрица -аннулятор M = I nP ; это матрица проекции на пространство, ортогональное V . Обе матрицы P и M являются симметричными и идемпотентными (это означает, что P 2 = P и M 2 = M ) и относятся к матрице данных X через тождества PX = X и MX = 0 . [8] Матрица M создает остатки регрессии:

Используя эти остатки, мы можем оценить значение σ2 , используя приведенную статистику хи-квадрат :

Знаменатель np — это статистические степени свободы . Первая величина, s 2 , является оценкой МНК для σ 2 , тогда как вторая , является оценкой MLE для σ 2 . Эти две оценки очень похожи в больших выборках; первая оценка всегда несмещена , тогда как вторая оценка смещена, но имеет меньшую среднеквадратическую ошибку . На практике чаще используется s 2 , поскольку он более удобен для проверки гипотез. Квадратный корень из s 2 называется стандартной ошибкой регрессии , [9] стандартной ошибкой регрессии , [10] [11] или стандартной ошибкой уравнения . [8]

Обычно степень соответствия регрессии МНК оценивают путем сравнения того, насколько первоначальная вариация в выборке может быть уменьшена путем регрессии на X. Коэффициент детерминации R 2 определяется как отношение «объясненной» дисперсии к «общей» дисперсии зависимой переменной y в тех случаях, когда сумма квадратов регрессии равна сумме квадратов остатков: [12]

где TSS — общая сумма квадратов зависимой переменной, и — матрица единиц размера n × n . ( является центрирующей матрицей , которая эквивалентна регрессии по константе; она просто вычитает среднее значение из переменной.) Чтобы R 2 имело смысл, матрица X данных о регрессорах должна содержать вектор-столбец из единиц, чтобы представить константа, коэффициент которой является точкой пересечения регрессии. В этом случае R 2 всегда будет числом от 0 до 1, причем значения, близкие к 1, указывают на хорошую степень соответствия.

Дисперсия в предсказании независимой переменной как функции зависимой переменной приведена в статье Полиномиальные наименьшие квадраты .

Простая модель линейной регрессии

Если матрица данных X содержит только две переменные, константу и скалярный регрессор x i , то это называется «простой моделью регрессии». Этот случай часто рассматривается на занятиях по статистике для начинающих, поскольку он дает гораздо более простые формулы, подходящие даже для ручного расчета. Параметры обычно обозначаются как ( α , β ) :

Оценки методом наименьших квадратов в этом случае даются простыми формулами

Альтернативные выводы

В предыдущем разделе оценка методом наименьших квадратов была получена как значение, которое минимизирует сумму квадратов остатков модели. Однако ту же оценку можно получить и из других подходов. Во всех случаях формула для оценки МНК остается той же: ^ β = ( X T X ) −1 X T y ; единственная разница заключается в том, как мы интерпретируем этот результат.

Проекция

Оценку OLS можно рассматривать как проекцию на линейное пространство, охватываемое регрессорами. (Здесь каждый из и относится к столбцу матрицы данных.)

Для математиков МНК — это приближенное решение переопределенной системы линейных уравнений y , где β — неизвестное. Предполагая, что система не может быть решена точно (количество уравнений n намного больше числа неизвестных p ), мы ищем решение, которое могло бы обеспечить наименьшее расхождение между правой и левой частями. Другими словами, мы ищем решение, удовлетворяющее

где · — стандартная  норма L 2 в n -мерном евклидовом пространстве R n . Предсказанная величина представляет собой некую линейную комбинацию векторов регрессоров. Таким образом, вектор остатка y будет иметь наименьшую длину, когда y проецируется ортогонально на линейное подпространство , натянутое столбцами X . Оценщик МНК в этом случае можно интерпретировать как коэффициенты векторного разложения ^ y = Py по базису X .

Другими словами, уравнения градиента в минимуме можно записать как:

Геометрическая интерпретация этих уравнений заключается в том , что вектор остатков ортогонален пространству столбцов X , поскольку скалярное произведение равно нулю для любого конформного вектора v . Это означает, что это самый короткий из всех возможных векторов , то есть дисперсия остатков минимально возможная. Это показано справа.

Вводя матрицу K в предположении, что матрица неособа и K T X = 0 (см. Ортогональные проекции ), вектор невязки должен удовлетворять следующему уравнению:

Таким образом, уравнение и решение линейного метода наименьших квадратов описываются следующим образом:

Другой способ взглянуть на это — рассматривать линию регрессии как средневзвешенное значение линий, проходящих через комбинацию любых двух точек в наборе данных. [13] Хотя этот способ расчета требует больше вычислительных затрат, он обеспечивает лучшую интуицию при использовании МНК.

Максимальная вероятность

Средство оценки OLS идентично средству оценки максимального правдоподобия (MLE) при условии нормальности ошибок. [14] [доказательство] Это предположение о нормальности имеет историческое значение, поскольку оно послужило основой для ранних работ Юла и Пирсона по линейному регрессионному анализу . [ нужна цитата ] Из свойств MLE мы можем сделать вывод, что оценка OLS асимптотически эффективна (в смысле достижения границы Крамера-Рао для дисперсии), если выполняется предположение о нормальности. [15]

Обобщенный метод моментов

В iid случае оценку МНК также можно рассматривать как оценку GMM , возникающую из моментных условий

Эти моментные условия гласят, что регрессоры не должны быть коррелированы с ошибками. Поскольку x i является p -вектором, количество моментных условий равно размерности вектора параметров β и, таким образом, система точно идентифицируется. Это так называемый классический случай GMM, когда оценка не зависит от выбора весовой матрицы.

Обратите внимание, что исходное предположение о строгой экзогенности E[ ε i  | x i ] = 0 подразумевает гораздо более богатый набор моментных условий, чем указано выше. В частности, из этого предположения следует, что для любой вектор-функции ƒ будет выполняться моментное условие E[ ƒ ( x i ) · ε i ] = 0 . Однако с помощью теоремы Гаусса-Маркова можно показать , что оптимальный выбор функции ƒ состоит в том, чтобы взять ƒ ( x ) = x , что приводит к уравнению момента, опубликованному выше.

Характеристики

Предположения

Существует несколько различных схем, в которых можно использовать модель линейной регрессии , чтобы сделать применимым метод МНК. Каждая из этих настроек дает одни и те же формулы и одинаковые результаты. Единственная разница заключается в интерпретации и предположениях, которые необходимо сделать, чтобы метод дал значимые результаты. Выбор применимой структуры зависит главным образом от характера имеющихся данных и от задачи вывода, которую необходимо выполнить.

Одно из различий в интерпретации заключается в том, следует ли рассматривать регрессоры как случайные переменные или как заранее определенные константы. В первом случае ( случайный план ) регрессоры xi являются случайными и выбираются вместе с yi из некоторой совокупности , как в обсервационном исследовании . Такой подход позволяет более естественно изучать асимптотические свойства оценок. В другой интерпретации ( фиксированный план ) регрессоры X рассматриваются как известные константы, заданные планом , а выборка y производится условно по значениям X , как в эксперименте . Для практических целей это различие часто не имеет значения, поскольку оценка и вывод выполняются с учетом X. Все результаты, изложенные в этой статье, находятся в рамках метода случайного планирования.

Классическая модель линейной регрессии

Классическая модель фокусируется на оценке и выводе «конечной выборки», что означает, что количество наблюдений n фиксировано. Это контрастирует с другими подходами, изучающими асимптотическое поведение МНК и изучающими поведение при большом количестве выборок.

Независимые и одинаково распределенные (iid)

В некоторых приложениях, особенно с данными поперечного сечения , налагается дополнительное предположение — что все наблюдения независимы и одинаково распределены. Это означает, что все наблюдения берутся из случайной выборки , что упрощает и облегчает интерпретацию всех перечисленных ранее предположений. Также эта структура позволяет формулировать асимптотические результаты (например, размер выборки n  → ∞ ), которые понимаются как теоретическая возможность получения новых независимых наблюдений из процесса генерации данных . Список предположений в этом случае следующий:

Модель временных рядов

Конечные свойства выборки

Прежде всего, при строгом предположении экзогенности оценки МНК и s 2 являются несмещенными , что означает, что их ожидаемые значения совпадают с истинными значениями параметров: [22] [доказательство]

Если строгая экзогенность не соблюдается (как в случае со многими моделями временных рядов , где экзогенность предполагается только в отношении прошлых потрясений, но не будущих), то эти оценки будут смещены в конечных выборках.

Дисперсионно -ковариационная матрица (или просто ковариационная матрица ) равна [23]

В частности, стандартная ошибка каждого коэффициента равна квадратному корню из j -го диагонального элемента этой матрицы. Оценка этой стандартной ошибки получается заменой неизвестной величины σ2 на ее оценку s2 . Таким образом,

Также можно легко показать, что оценка не коррелирует с остатками модели: [23]

Теорема Гаусса -Маркова утверждает, что при допущении сферических ошибок (т. е. ошибки должны быть некоррелированными и гомоскедастическими ) оценка эффективна в классе линейных несмещенных оценок. Это называется лучшей линейной несмещенной оценкой (СИНИЙ). Эффективность следует понимать так, как если бы мы хотели найти какую-то другую оценку , которая была бы линейной по y и несмещенной, тогда [23]

в том смысле, что это неотрицательно-определенная матрица . Эта теорема устанавливает оптимальность только в классе линейных несмещенных оценок, что весьма ограничительно. В зависимости от распределения ошибок ε другие нелинейные средства оценки могут давать лучшие результаты, чем OLS.

Предполагая нормальность

Все перечисленные выше свойства действительны независимо от основного распределения условий ошибки. Однако если вы готовы предположить, что предположение о нормальности выполнено (то есть, что ε ~ N (0, σ 2 I n ) ), то можно указать дополнительные свойства оценок МНК.

Оценка имеет нормальное распределение со средним значением и дисперсией, указанными ранее: [24]

Эта оценка достигает границы Крамера – Рао для модели и, таким образом, является оптимальной в классе всех несмещенных оценок. [15] Обратите внимание, что в отличие от теоремы Гаусса–Маркова этот результат устанавливает оптимальность как среди линейных, так и среди нелинейных оценок, но только в случае нормально распределенных членов ошибок.

Оценка s 2 будет пропорциональна распределению хи-квадрат : [25]

Дисперсия этой оценки равна 2 σ 4 /( n  −  p ) , что не достигает границы Крамера – Рао для 2 σ 4 / n . Однако было показано, что не существует несмещенных оценок σ 2 с дисперсией меньшей, чем у оценки s 2 . [26] Если мы готовы разрешить использование смещенных оценок и рассмотреть класс оценок, которые пропорциональны сумме квадратов остатков (SSR) модели, то лучшая (в смысле среднеквадратичной ошибки ) оценка в этой класс будет ~ σ 2 = SSR  /  ( n  −  p  + 2) , что даже превосходит границу Крамера – Рао в случае, когда существует только один регрессор ( p = 1 ). [27]

Более того , оценки и s 2 независимы , [28] этот факт полезен при построении t- и F-тестов для регрессии.

Влиятельные наблюдения

Как упоминалось ранее, оценщик является линейным по y , что означает, что он представляет собой линейную комбинацию зависимых переменных y i . Веса в этой линейной комбинации являются функциями регрессоров X и обычно неравны. Наблюдения с высокими весами называются влиятельными , поскольку они оказывают более выраженное влияние на значение оценки.

Чтобы проанализировать, какие наблюдения оказывают влияние, мы удаляем конкретное j -е наблюдение и рассматриваем, насколько изменятся оцененные величины (аналогично методу складного ножа ). Можно показать, что изменение оценки МНК для β будет равно [29]

где h j = x j T  ( X T X ) −1 x jj -й диагональный элемент матрицы шляпки P , а x j — вектор регрессоров, соответствующий j -му наблюдению. Аналогично, изменение прогнозируемого значения для j -го наблюдения в результате исключения этого наблюдения из набора данных будет равно [29]

Судя по свойствам матрицы шляпы, 0 ≤ h j ≤ 1 , и они суммируются до p , так что в среднем h jp/n . Эти величины h j называются рычагами , а наблюдения с высокими h j называются точками рычага . [30] Обычно наблюдения с высоким уровнем рычагов следует проверять более тщательно на случай, если они ошибочны, являются выбросами или каким-либо другим образом нетипичны для остального набора данных.

Разделенная регрессия

Иногда переменные и соответствующие параметры регрессии можно логически разделить на две группы, чтобы регрессия приняла форму

где X 1 и X 2 имеют размеры n × p 1 , n × p 2 , а β 1 , β 2 представляют собой векторы p 1 × 1 и p 2 × 1, причем p 1 + p 2 = p .

Теорема Фриша -Во-Ловелла утверждает, что в этой регрессии остатки и оценка МНК будут численно идентичны остаткам и оценке МНК для β 2 в следующей регрессии: [31]

где M 1матрица аннулятора для регрессоров X 1 .

Теорема может быть использована для установления ряда теоретических результатов. Например, наличие регрессии с константой и другим регрессором эквивалентно вычитанию средних значений из зависимой переменной и регрессора, а затем запуску регрессии для переменных с пониженным значением, но без постоянного члена.

Ограниченная оценка

Предположим, известно, что коэффициенты регрессии удовлетворяют системе линейных уравнений

где Q — матрица p × q полного ранга, а c — вектор известных констант q × 1, где q < p . В этом случае оценка методом наименьших квадратов эквивалентна минимизации суммы квадратов остатков модели с учетом ограничения A. Оценка методом наименьших квадратов с ограничениями (CLS) может быть задана явной формулой: [32]

Это выражение для оценки с ограничениями справедливо до тех пор, пока матрица X T X обратима. В начале статьи предполагалось, что эта матрица имеет полный ранг, и было отмечено, что при невыполнении условия ранга β не будет идентифицируемой. Однако может случиться так, что добавление ограничения A сделает β идентифицируемым, и в этом случае хотелось бы найти формулу для оценки. Оценка равна [33]

где R — матрица размера p ×( p  −  q ) такая, что матрица [ QR ] невырождена, и R T Q = 0 . Такую матрицу всегда можно найти, хотя, как правило, она не единственна. Вторая формула совпадает с первой в случае, когда X T X обратима. [33]

Большой образец недвижимости

Оценщики методом наименьших квадратов представляют собой точечные оценки параметров модели линейной регрессии β . Однако, как правило, мы также хотим знать, насколько близки эти оценки к истинным значениям параметров. Другими словами, мы хотим построить интервальные оценки .

Поскольку мы не сделали никаких предположений о распределении ошибки ε i , невозможно вывести распределение оценок и . Тем не менее, мы можем применить центральную предельную теорему , чтобы получить их асимптотические свойства, когда размер выборки n стремится к бесконечности. Хотя размер выборки обязательно конечен, принято предполагать, что n «достаточно велико», так что истинное распределение оценки OLS близко к своему асимптотическому пределу.

Мы можем показать, что при предположениях модели оценка наименьших квадратов для β непротиворечива (то есть сходится по вероятности к β ) и асимптотически нормальна: [доказательство]

где

Интервалы

Используя это асимптотическое распределение, можно построить приближенные двусторонние доверительные интервалы для j -го компонента вектора как

  на уровне достоверности 1 -  α ,

где q обозначает функцию квантиля стандартного нормального распределения, а [·] jjj -й диагональный элемент матрицы.

Аналогично, оценка методом наименьших квадратов для σ 2 также непротиворечива и асимптотически нормальна (при условии, что существует четвертый момент ε i ) с предельным распределением

Эти асимптотические распределения можно использовать для прогнозирования, проверки гипотез, построения других оценок и т. д. В качестве примера рассмотрим задачу прогнозирования. Предположим , что это некоторая точка в области распределения регрессоров, и нужно знать, какой была бы переменная отклика в этой точке. Средний ответ – это количество , тогда как прогнозируемый ответ – это . Очевидно, что прогнозируемый ответ является случайной величиной, его распределение можно получить из :

что позволяет построить доверительные интервалы для построения среднего ответа:

  на уровне достоверности 1-  α .

Проверка гипотезы

Особенно широко используются два теста гипотез. Во-первых, нужно знать, является ли предполагаемое уравнение регрессии чем-то лучше, чем простое предсказание того, что все значения переменной отклика равны ее выборочному среднему (если нет, то говорят, что оно не имеет объяснительной силы). Нулевая гипотеза об отсутствии объяснительной ценности оцененной регрессии проверяется с помощью F-теста . Если вычисленное значение F оказывается достаточно большим, чтобы превысить его критическое значение для заранее выбранного уровня значимости, нулевая гипотеза отклоняется и принимается альтернативная гипотеза о том, что регрессия имеет объяснительную силу. В противном случае принимается нулевая гипотеза об отсутствии объяснительной силы.

Во-вторых, для каждой интересующей объясняющей переменной нужно знать, значительно ли ее расчетный коэффициент отличается от нуля, то есть действительно ли эта конкретная объясняющая переменная обладает объяснительной силой в предсказании переменной отклика. Здесь нулевая гипотеза состоит в том, что истинный коэффициент равен нулю. Эта гипотеза проверяется путем вычисления t-статистики коэффициента как отношения оценки коэффициента к его стандартной ошибке . Если t-статистика больше заранее определенного значения, нулевая гипотеза отклоняется и обнаруживается, что переменная имеет объяснительную силу, а ее коэффициент значительно отличается от нуля. В противном случае принимается нулевая гипотеза о нулевом значении истинного коэффициента.

Кроме того, тест Чоу используется для проверки того, имеют ли две подвыборки одинаковые значения истинного коэффициента. Сумма квадратов остатков регрессий в каждом из подмножеств и в объединенном наборе данных сравнивается путем вычисления F-статистики; если оно превышает критическое значение, нулевая гипотеза об отсутствии различий между двумя подмножествами отклоняется; в противном случае оно принимается.

Пример с реальными данными

В следующем наборе данных указаны средние показатели роста и веса американских женщин в возрасте 30–39 лет (источник: Всемирный альманах и Книга фактов, 1975 ).

Когда моделируется только одна зависимая переменная, диаграмма рассеяния покажет форму и силу связи между зависимой переменной и регрессорами. Это также может выявить выбросы, гетероскедастичность и другие аспекты данных, которые могут усложнить интерпретацию подобранной регрессионной модели. Диаграмма рассеяния показывает, что связь сильная и может быть аппроксимирована квадратичной функцией. OLS может обрабатывать нелинейные отношения, вводя регрессор HEIGHT 2 . Затем регрессионная модель становится множественной линейной моделью:

Подстроенная регрессия

Вывод большинства популярных статистических пакетов будет выглядеть примерно так:

В этой таблице:

График остатков

Обычный анализ методом наименьших квадратов часто включает использование диагностических графиков, предназначенных для обнаружения отклонений данных от предполагаемой формы модели. Вот некоторые из распространенных диагностических графиков:

Важным фактором при выполнении статистических выводов с использованием регрессионных моделей является способ выборки данных. В этом примере данные представляют собой средние значения, а не измерения по отдельным женщинам. Подгонка модели очень хорошая, но это не означает, что вес отдельной женщины можно с высокой точностью предсказать, основываясь только на ее росте.

Чувствительность к округлению

Этот пример также демонстрирует, что коэффициенты, определенные в результате этих расчетов, чувствительны к тому, как подготавливаются данные. Первоначально высоты были округлены до ближайшего дюйма, а затем были преобразованы и округлены до ближайшего сантиметра. Поскольку коэффициент преобразования составляет один дюйм в 2,54 см, это не точное преобразование. Исходные дюймы можно восстановить с помощью Round(x/0,0254), а затем повторно преобразовать в метрические без округления. Если это сделать, результаты будут такими:

Остатки квадратичной аппроксимации для правильно и неправильно преобразованных данных.

Использование любого из этих уравнений для прогнозирования веса женщины ростом 5 футов 6 дюймов (1,6764 м) дает аналогичные значения: 62,94 кг с округлением против 62,98 кг без округления. Таким образом, кажущееся небольшим изменение данных оказывает реальное влияние на коэффициенты. но небольшое влияние на результаты уравнения.

Хотя это может выглядеть безобидным в середине диапазона данных, оно может стать значимым в крайних точках или в случае, когда подобранная модель используется для проецирования за пределы диапазона данных ( экстраполяция ).

Это подчеркивает распространенную ошибку: этот пример является злоупотреблением МНК, который по своей сути требует, чтобы ошибки в независимой переменной (в данном случае высоте) были нулевыми или, по крайней мере, незначительными. Первоначальное округление до ближайшего дюйма плюс любые фактические ошибки измерения составляют конечную и существенную ошибку. В результате подобранные параметры не являются лучшими оценками, какими они предположительно являются. Хотя это и не совсем ложно, ошибка в оценке будет зависеть от относительного размера ошибок x и y .

Еще один пример с менее реальными данными

Постановка задачи

Мы можем использовать механизм наименьших квадратов, чтобы вычислить уравнение орбиты двух тел в полярных базовых координатах. Обычно используется уравнение: где находится радиус расстояния объекта от одного из тел. В уравнении параметры и используются для определения траектории орбиты. Мы измерили следующие данные.

Нам нужно найти аппроксимацию методом наименьших квадратов и для данных данных.

Решение

Сначала нам нужно представить e и p в линейной форме. Итак, мы собираемся переписать уравнение как . Кроме того, можно было бы использовать апсиды , расширив их дополнительным параметром , который является линейным как по отношению, так и по дополнительной базисной функции , используемой для extra . Мы используем исходную двухпараметрическую форму для представления наших данных наблюдений как:

где is и is и построено так, что первый столбец представляет собой коэффициент , а второй столбец представляет собой коэффициент и представляет собой значения для соответствующих so и

Решив, получим

так и

Смотрите также

Рекомендации

  1. ^ «Каков полный список обычных предположений для линейной регрессии?» Крест проверен . Проверено 28 сентября 2022 г.
  2. ^ Голдбергер, Артур С. (1964). «Классическая линейная регрессия». Эконометрическая теория. Нью-Йорк: Джон Уайли и сыновья. стр. 158. ISBN 0-471-31101-4.
  3. ^ Хаяси, Фумио (2000). Эконометрика . Издательство Принстонского университета. п. 15.
  4. ^ Хаяши (2000, стр. 18)
  5. ^ Гилани, Чарльз Д.; Пол Р. Вольф, доктор философии (12 июня 2006 г.). Корректирующие расчеты: пространственный анализ данных. ISBN 9780471697282.
  6. ^ Хофманн-Велленхоф, Бернхард; Лихтенеггер, Герберт; Васле, Эльмар (20 ноября 2007 г.). GNSS – глобальные навигационные спутниковые системы: GPS, ГЛОНАСС, Galileo и другие. ISBN 9783211730171.
  7. Сюй, Гочан (5 октября 2007 г.). GPS: теория, алгоритмы и приложения. ISBN 9783540727156.
  8. ^ Аб Хаяши (2000, стр. 19)
  9. ^ Джулиан Фарауэй (2000), Практическая регрессия и Anova с использованием R
  10. ^ Кенни, Дж.; Хранение, Е.С. (1963). Математика статистики . ван Ностранд. п. 187.
  11. ^ Цвиллингер, Д. (1995). Стандартные математические таблицы и формулы . Чепмен и Холл/CRC. п. 626. ИСБН 0-8493-2479-3.
  12. ^ Хаяси (2000, стр. 20)
  13. Акбарзаде, Вахаб (7 мая 2014 г.). «Оценка линии».
  14. ^ Хаяси (2000, стр. 49)
  15. ^ Аб Хаяши (2000, стр. 52)
  16. ^ Хаяши (2000, стр. 7)
  17. ^ Хаяши (2000, стр. 187)
  18. ^ Аб Хаяши (2000, стр. 10)
  19. ^ Хаяси (2000, стр. 34)
  20. ^ Уильямс, Миннесота; Грахалес, Калифорния; Куркевич, Д (2013). «Предположения о множественной регрессии: исправление двух заблуждений». Практическая оценка, исследования и оценка . 18 (11).
  21. ^ «Напоминание о выводе EViews» (PDF) . Проверено 28 декабря 2020 г.
  22. ^ Хаяши (2000, стр. 27, 30)
  23. ^ abc Хаяши (2000, стр. 27)
  24. ^ Амемия, Такеши (1985). Продвинутая эконометрика . Издательство Гарвардского университета. п. 13. ISBN 9780674005600.
  25. ^ Амемия (1985, стр. 14)
  26. ^ Рао, CR (1973). Линейный статистический вывод и его приложения (второе изд.). Нью-Йорк: Дж. Уайли и сыновья. п. 319. ИСБН 0-471-70823-2.
  27. ^ Амемия (1985, стр. 20)
  28. ^ Амемия (1985, стр. 27)
  29. ^ Аб Дэвидсон, Рассел; Маккиннон, Джеймс Г. (1993). Оценка и вывод в эконометрике . Нью-Йорк: Издательство Оксфордского университета. п. 33. ISBN 0-19-506011-3.
  30. ^ Дэвидсон и Маккиннон (1993, стр. 36)
  31. ^ Дэвидсон и Маккиннон (1993, стр. 20)
  32. ^ Амемия (1985, стр. 21)
  33. ^ аб Амемия (1985, стр. 22)
  34. ^ Бернэм, Кеннет П.; Дэвид Андерсон (2002). Выбор модели и многомодельный вывод (2-е изд.). Спрингер. ISBN 0-387-95364-7.

дальнейшее чтение