где и заданы и являются переменной, подлежащей вычислению. Когда , как правило, ( 1 ) не имеет решения. Например, не существует удовлетворяющего значения
, поскольку этого требуют первые две строки, но третья строка не удовлетворяется. Таким образом, цель точного решения ( 1 ) обычно заменяется поиском значения, которое минимизирует некоторую ошибку. Существует много способов определения ошибки, но один из наиболее распространенных — определить ее как «
Это создает задачу минимизации, называемую задачей наименьших квадратов».
Решение задачи наименьших квадратов ( 1 ) вычисляется путем решения нормального уравнения [1]
Продолжая приведенный выше пример,
мы находим
и
Решение нормального уравнения дает
Формулировки линейной регрессии
Три основные формулировки линейного метода наименьших квадратов:
Обыкновенный метод наименьших квадратов (OLS) является наиболее распространенным методом оценки. Оценки МНК обычно используются для анализа как экспериментальных , так и наблюдательных данных.Метод МНК минимизирует сумму квадратов остатков и приводит к выражению в замкнутой форме для оценочного значения вектора неизвестных параметров β : где — вектор, i- й элемент которого является i- м наблюдением зависимой переменной , и — матрица, элементом ij которой является i -е наблюдение j -й независимой переменной . Оценка является несмещенной и последовательной , если ошибки имеют конечную дисперсию и не коррелируют с регрессорами: [2] где - транспонирование строки i матрицы. Это также эффективно в предположении, что ошибки имеют конечную дисперсию и гомоскедастичны , что означает что E[ ε я 2 | x i ] не зависит от i . Условие некоррелированности ошибок с регрессорами обычно будет выполняться в эксперименте, но в случае данных наблюдений трудно исключить возможность опущенной ковариаты z , которая связана как с наблюдаемыми ковариатами, так и с переменной отклика. . Существование такой ковариаты обычно приводит к корреляции между регрессорами и переменной отклика и, следовательно, к противоречивой оценке β . Условие гомоскедастичности может не соответствовать как экспериментальным, так и наблюдательным данным. Если целью является либо умозаключение, либо прогнозное моделирование, эффективность оценок МНК может быть низкой при наличии мультиколлинеарности , если только размер выборки не велик.
Обобщенные наименьшие квадраты (GLS) - это расширение метода OLS, которое позволяет эффективно оценивать β , когдасреди ошибок модели присутствуют либо гетероскедастичность , либо корреляции, либо и то, и другое, при условии, что известны форма гетероскедастичности и корреляции. независимо от данных. Чтобы справиться с гетероскедастичностью, когда члены ошибок не коррелируют друг с другом, GLS минимизирует взвешенный аналог суммы квадратов остатков от регрессии OLS, где вес для i- го случая обратно пропорционален var( ε i ). Этот особый случай GLS называется «взвешенным методом наименьших квадратов». GLS-решение задачи оценки состоит втом, что Ω — ковариационная матрица ошибок. GLS можно рассматривать как применение линейного преобразования к данным, чтобы для преобразованных данных выполнялись предположения OLS. Для применения GLS ковариационная структура ошибок должна быть известна с точностью до мультипликативной константы.
Регрессия инструментальных переменных (IV) может быть выполнена, когда регрессоры коррелируют с ошибками. В этом случае нам необходимо существование некоторых вспомогательных инструментальных переменных z i таких, что E[ z i ε i ] = 0. Если Z — матрица инструментов, то оценку можно задать в замкнутой форме:Регрессия оптимальных инструментов — это расширение классической IV-регрессии на ситуацию, когда E[ ε i | z я ] знак равно 0 .
Метод общих наименьших квадратов (TLS) [6] представляет собой подход к оценке методом наименьших квадратов модели линейной регрессии, который рассматривает ковариаты и переменную отклика более геометрически симметрично, чем OLS. Это один из подходов к решению проблемы «ошибок в переменных», который также иногда используется, даже если предполагается, что ковариаты не содержат ошибок.
Линейная подгонка шаблона (LTF) [7] сочетает в себе линейную регрессию с (обобщенным) методом наименьших квадратов для определения наилучшей оценки. Линейная подгонка шаблона решает частую проблему, когда остатки не могут быть выражены аналитически или требуют слишком много времени для повторной оценки, как это часто бывает в итерационных алгоритмах минимизации. При линейной подгонке по шаблону остатки оцениваются на основе случайных величин и линейной аппроксимации базовой истинной модели, в то время как истинная модель должна быть предоставлена как минимум (где равно числу оценщиков) различных эталонных значений β . Затем истинное распределение аппроксимируется с помощью линейной регрессии, и лучшие оценки получаются в закрытой форме, поскольку где обозначает матрицу шаблона со значениями известной или ранее определенной модели для любого из опорных значений β , являются случайными величинами (например, измерение), а матрица и вектор вычисляются по значениям β . LTF также может быть выражен для случайных величин с логнормальным распределением . Обобщением LTF является квадратичная подгонка шаблона, которая предполагает регрессию модели второго порядка, требует прогнозов, по крайней мере, для различных значений β и находит лучшую оценку, используя метод Ньютона .
Метод наименьших квадратов в процентах направлен на уменьшение процентных ошибок, что полезно в области прогнозирования или анализа временных рядов. Это также полезно в ситуациях, когда зависимая переменная имеет широкий диапазон без постоянной дисперсии, поскольку в этом случае при использовании МНК будут доминировать более крупные остатки в верхней части диапазона. Когда процентная или относительная ошибка имеет нормальное распределение, процентная регрессия по методу наименьших квадратов дает оценки максимального правдоподобия. Процентная регрессия связана с моделью мультипликативной ошибки, тогда как МНК связана с моделями, содержащими аддитивную ошибку. [8]
В МНК (т. е. при условии невзвешенных наблюдений) оптимальное значение целевой функции находится путем подстановки оптимального выражения для вектора коэффициентов:
где последнее равенство выполняется, поскольку является симметричным и идемпотентным. Из этого можно показать [9] , что при соответствующем назначении весов ожидаемое значение S равно . Если вместо этого предполагаются единичные веса, ожидаемое значение S равно , где – дисперсия каждого наблюдения.
Если предположить, что остатки принадлежат нормальному распределению, целевая функция, представляющая собой сумму взвешенных квадратов остатков, будет принадлежать распределению хи-квадрат ( ) с m − n степенями свободы . Некоторые иллюстративные значения процентилей приведены в следующей таблице. [10]
Эти значения можно использовать в качестве статистического критерия степени соответствия . При использовании единичных весов числа следует разделить на дисперсию наблюдения.
Для WLS обычная целевая функция, указанная выше, заменяется средневзвешенным значением остатков.
Обсуждение
В статистике и математике линейный метод наименьших квадратов — это подход к подгонке математической или статистической модели к данным в случаях, когда идеализированное значение, предоставляемое моделью для любой точки данных, выражается линейно через неизвестные параметры модели. Полученную в результате подобранную модель можно использовать для обобщения данных, для прогнозирования ненаблюдаемых значений той же системы и для понимания механизмов, которые могут лежать в основе системы.
Математически линейный метод наименьших квадратов — это задача приближенного решения переопределенной системы линейных уравнений A x = b , где b не является элементом пространства столбцов матрицы A. Приближенное решение реализуется как точное решение A x = b' , где b ' — проекция b на пространство столбцов A. Наилучшим приближением является то, которое минимизирует сумму квадратов разностей между значениями данных и соответствующими им смоделированными значениями. Этот подход называется линейным методом наименьших квадратов, поскольку предполагаемая функция линейна по оцениваемым параметрам. Линейные задачи наименьших квадратов являются выпуклыми и имеют единственное решение в замкнутой форме при условии, что количество точек данных, используемых для подгонки, равно или превышает количество неизвестных параметров, за исключением особых вырожденных ситуаций. Напротив, нелинейные задачи наименьших квадратов обычно должны решаться с помощью итерационной процедуры , и проблемы могут быть невыпуклыми с несколькими оптимумами для целевой функции. Если доступны предыдущие распределения, то даже недоопределенную систему можно решить с помощью байесовской оценки MMSE .
В статистике линейные задачи наименьших квадратов соответствуют особенно важному типу статистической модели, называемой линейной регрессией , которая возникает как особая форма регрессионного анализа . Одной из основных форм такой модели является обычная модель наименьших квадратов . Настоящая статья концентрируется на математических аспектах линейных задач наименьших квадратов с обсуждением формулировки и интерпретации моделей статистической регрессии и связанных с ними статистических выводов, которые рассматриваются в только что упомянутых статьях. См. схему регрессионного анализа для ознакомления с темой.
Характеристики
Если экспериментальные ошибки некоррелированы, имеют нулевое среднее значение и постоянную дисперсию, теорема Гаусса-Маркова утверждает, что оценка методом наименьших квадратов имеет минимальную дисперсию среди всех оценок, которые являются линейными комбинациями наблюдений. В этом смысле это лучшая или оптимальная оценка параметров. Особо отметим, что это свойство не зависит от статистической функции распределения ошибок. Другими словами, функция распределения ошибок не обязательно должна быть нормальным распределением . Однако для некоторых распределений вероятностей нет никакой гарантии, что решение методом наименьших квадратов вообще возможно с учетом наблюдений; тем не менее, в таких случаях это лучшая оценка, которая является одновременно линейной и несмещенной.
Например, легко показать, что среднее арифметическое набора измерений величины является оценкой значения этой величины методом наименьших квадратов. Если применимы условия теоремы Гаусса–Маркова, среднее арифметическое является оптимальным, каким бы ни было распределение ошибок измерений.
Однако в случае, когда экспериментальные ошибки действительно принадлежат нормальному распределению, метод наименьших квадратов также является оценщиком максимального правдоподобия . [11]
Эти свойства лежат в основе использования метода наименьших квадратов для всех типов подбора данных, даже когда предположения не являются строго верными.
Ограничения
Предположение, лежащее в основе приведенной выше обработки, заключается в том, что независимая переменная x не содержит ошибок. На практике ошибки измерения независимой переменной обычно намного меньше ошибок измерения зависимой переменной, и поэтому их можно игнорировать. Если это не так, следует использовать метод общих наименьших квадратов или, в более общем плане , модели ошибок в переменных или строгие методы наименьших квадратов . Это можно сделать, скорректировав схему взвешивания для учета ошибок как по зависимым, так и по независимым переменным, а затем следуя стандартной процедуре. [12] [13]
В некоторых случаях матрица (взвешенных) нормальных уравнений X T X является плохо обусловленной . При аппроксимации полиномами матрица нормальных уравнений представляет собой матрицу Вандермонда . Матрицы Вандермонда становятся все более плохо обусловленными по мере увеличения порядка матрицы. [ нужна цитата ] В этих случаях оценка методом наименьших квадратов усиливает шум измерения и может быть крайне неточной. [ нужна цитата ] В таких случаях могут применяться различные методы регуляризации , наиболее распространенный из которых называется гребневой регрессией . Если известна дополнительная информация о параметрах, например диапазон возможных значений , то можно использовать различные методы для повышения устойчивости решения. Например, см. ограниченный метод наименьших квадратов.
Другим недостатком метода наименьших квадратов является тот факт, что норма остатков минимизирована, тогда как в некоторых случаях действительно интересно получить малую ошибку параметра , например, небольшое значение . [ нужна цитация ] Однако, поскольку истинный параметр обязательно неизвестен, эту величину нельзя минимизировать напрямую. Если априорная вероятность известна , то для минимизации среднеквадратической ошибки можно использовать байесовский оценщик . Метод наименьших квадратов часто применяется, когда априорное значение неизвестно. Когда несколько параметров оцениваются совместно, можно построить более точные оценки — эффект, известный как феномен Штейна . Например, если ошибка измерения гауссова , известно несколько методов оценки, которые доминируют или превосходят метод наименьших квадратов; наиболее известным из них является оценщик Джеймса – Стейна . Это пример более общих оценок усадки , которые применялись к задачам регрессии.
Основное применение линейного метода наименьших квадратов – аппроксимация данных . Учитывая набор из m точек данных , состоящий из экспериментально измеренных значений, взятых при m значениях независимой переменной ( могут быть скалярными или векторными величинами), и заданную модельную функцию, желательно найти такие параметры, при которых модельная функция является «лучшей» соответствует данным. В линейном методе наименьших квадратов линейность подразумевается по отношению к параметрам , поэтому
Здесь функции могут быть нелинейными по переменной x .
В идеале функция модели точно соответствует данным, поэтому
для всех. На практике это обычно невозможно, поскольку точек данных больше, чем параметров, которые необходимо определить. Выбранный тогда подход состоит в том, чтобы найти минимально возможное значение суммы квадратов остатков, чтобы
минимизировать функцию
После замены на , а затем на , эта задача минимизации становится приведенной выше задачей квадратичной минимизации с,
и наилучшее соответствие можно найти путем решения нормальных уравнений.
Пример
Гипотетический исследователь проводит эксперимент и получает четыре точки данных: и (показаны красным на диаграмме справа). Из-за исследовательского анализа данных или предварительного знания предмета исследователь подозревает, что -ценности систематически зависят от -ценностей. Предполагается, что значения являются точными, однако значения содержат некоторую неопределенность или «шум» из-за изучаемого явления, несовершенства измерений и т. д.
Установка линии
Одним из простейших возможных отношений между и является линия . Точка пересечения и наклон изначально неизвестны. Исследователь хотел бы найти значения и , которые заставят линию проходить через четыре точки данных. Другими словами, исследователь хотел бы решить систему линейных уравнений
с четырьмя уравнениями с двумя неизвестными, эта система является переопределенной. Точного решения не существует. Чтобы рассмотреть приближенные решения, в уравнения вводятся остатки , , :
Остаток th — это несоответствие между наблюдением th и прогнозом th :
Среди всех приближенных решений исследователь хотел бы найти то, которое является «лучшим» в некотором смысл.
В методе наименьших квадратов основное внимание уделяется сумме квадратов остатков:
лучшим решением считается то, которое минимизируется по отношению к и . Минимум можно вычислить, установив частные производные равными нулю:
эти нормальные уравнения представляют собой систему двух линейных уравнений с двумя неизвестными. Решением является и , поэтому наиболее подходящей линией является . Остатки равны и (см. диаграмму справа). Минимальное значение суммы квадратов остатков равно
Этот расчет можно выразить в матричной записи следующим образом. Исходная система уравнений равна , где
Интуитивно,
Более строго, если обратима, то матрица представляет собой ортогональную проекцию на пространство столбцов . Следовательно, среди всех векторов вида наиболее близким является . Установка
очевидно, что это решение.
Установка параболы
Предположим, что гипотетический исследователь хочет подобрать параболу вида . Важно отметить, что эта модель по-прежнему линейна по неизвестным параметрам (теперь только ), поэтому линейный метод наименьших квадратов по-прежнему применим. Система уравнений с невязками имеет вид
Сумма квадратов остатков равна 0.
Существует только одна частная производная, которую можно установить в 0:
Решение — , а подходящая модель — .
В матричной записи уравнения без остатков снова имеют вид , где теперь
По той же логике, что и выше, решение имеет вид
На рисунке показано расширение для подбора параболы с тремя параметрами с использованием матрицы расчета с тремя столбцами (один для , и ) и одной строкой для каждой из красных точек данных.
Подгонка других кривых и поверхностей
В более общем смысле можно иметь регрессоры и линейную модель.
^ дель Пино, Гвидо (1989). «Объединяющая роль итерационного обобщенного метода наименьших квадратов в статистических алгоритмах». Статистическая наука . 4 (4): 394–403. дои : 10.1214/ss/1177012408 . JSTOR 2245853.
^ Кэрролл, Раймонд Дж. (1982). «Адаптация к гетероскедастичности в линейных моделях». Анналы статистики . 10 (4): 1224–1233. дои : 10.1214/aos/1176345987 . JSTOR 2240725.
^ Коэн, Майкл; Далал, Сиддхартха Р.; Тьюки, Джон В. (1993). «Надежная, плавно-гетерогенная дисперсионная регрессия». Журнал Королевского статистического общества, серия C. 42 (2): 339–353. JSTOR 2986237.
^ Тофалис, К. (2009). «Процентная регрессия по методу наименьших квадратов». Журнал современных прикладных статистических методов . 7 : 526–534. дои : 10.2139/ssrn.1406472. HDL : 2299/965 . ССНН 1406472.
^ Гамильтон, WC (1964). Статистика в физических науках . Нью-Йорк: Рональд Пресс.
^ Шпигель, Мюррей Р. (1975). Очерк теории и проблем вероятности и статистики Шаума . Нью-Йорк: МакГроу-Хилл. ISBN978-0-585-26739-5.
^ Маргенау, Генри; Мерфи, Джордж Мозли (1956). Математика физики и химии . Принстон: Ван Ностранд.
^ аб Ганс, Питер (1992). Подгонка данных в химических науках . Нью-Йорк: Уайли. ISBN978-0-471-93412-7.
^ Деминг, МЫ (1943). Статистическая корректировка данных . Нью-Йорк: Уайли.
^ Актон, Ф.С. (1959). Анализ прямолинейных данных . Нью-Йорк: Уайли.