Наименьшие квадраты

Коническая аппроксимация набора точек с использованием аппроксимации методом наименьших квадратов

Метод наименьших квадратов — это метод оценки параметров в регрессионном анализе, основанный на минимизации суммы квадратов остатков ( остатком является разница между наблюдаемым значением и подобранным значением, предоставленным моделью), полученных в результатах каждого отдельного уравнения. (Проще говоря, наименьшие квадраты — это математическая процедура для нахождения наиболее подходящей кривой для заданного набора точек путем минимизации суммы квадратов смещений («остатков») точек от кривой.)

Наиболее важным применением является подгонка данных . Когда проблема имеет существенные неопределенности в независимой переменной ( переменной x ), то простые методы регрессии и наименьших квадратов имеют проблемы; в таких случаях вместо наименьших квадратов можно рассмотреть методологию, необходимую для подгонки моделей с ошибками в переменных .

Задачи наименьших квадратов делятся на две категории: линейные или обычные наименьшие квадраты и нелинейные наименьшие квадраты , в зависимости от того, являются ли функции модели линейными по всем неизвестным. Линейная задача наименьших квадратов возникает в статистическом регрессионном анализе ; она имеет решение в замкнутой форме . Нелинейная задача обычно решается итеративным уточнением ; на каждой итерации система аппроксимируется линейной, и, таким образом, основные вычисления в обоих случаях схожи.

Полиномиальный метод наименьших квадратов описывает дисперсию в прогнозе зависимой переменной как функцию независимой переменной и отклонения от подобранной кривой.

Когда наблюдения происходят из экспоненциального семейства с тождественностью в качестве его естественной достаточной статистики и выполняются мягкие условия (например, для нормального , экспоненциального , пуассоновского и биномиального распределений ), стандартизированные оценки наименьших квадратов и оценки максимального правдоподобия идентичны. ^[1] Метод наименьших квадратов также может быть выведен как метод оценки моментов .

Последующее обсуждение в основном представлено в терминах линейных функций, но использование наименьших квадратов допустимо и практично для более общих семейств функций. Кроме того, итеративно применяя локальное квадратичное приближение к правдоподобию (через информацию Фишера ), метод наименьших квадратов может быть использован для подгонки обобщенной линейной модели .

Метод наименьших квадратов был официально открыт и опубликован Адриеном-Мари Лежандром (1805) ^[2] , хотя его изобретение обычно приписывают Карлу Фридриху Гауссу (1809) ^[3]^[4], который внес значительный теоретический вклад в этот метод ^[4] и, возможно, также использовал его в своих более ранних работах в 1794 и 1795 годах. ^[5]^[4]

История

Основание

Метод наименьших квадратов возник в областях астрономии и геодезии , когда ученые и математики пытались найти решения проблем навигации в океанах Земли в эпоху Великих географических открытий . Точное описание поведения небесных тел стало ключом к тому, чтобы корабли могли плавать в открытом море, где моряки больше не могли полагаться на наземные наблюдения для навигации.

Этот метод стал кульминацией нескольких достижений, имевших место в течение восемнадцатого века: ^[6]

Сочетание различных наблюдений как наилучшая оценка истинного значения; ошибки уменьшаются при агрегации, а не увеличиваются, возможно, впервые было выражено Роджером Котсом в 1722 году.
Объединение различных наблюдений, сделанных в одних и тех же условиях, в отличие от простого стремления к максимально точному наблюдению и записи одного наблюдения. Этот подход был известен как метод средних. Этот подход в частности использовался Тобиасом Майером при изучении либрации Луны в 1750 году и Пьером-Симоном Лапласом в его работе по объяснению различий в движении Юпитера и Сатурна в 1788 году.
Объединение различных наблюдений, полученных при различных условиях. Метод стал известен как метод наименьшего абсолютного отклонения . Он был в частности применен Роджером Жозефом Босковичем в его работе о форме Земли в 1757 году и Пьером-Симоном Лапласом для той же проблемы в 1789 и 1799 годах.
Разработка критерия, который можно оценить, чтобы определить, когда было достигнуто решение с минимальной ошибкой. Лаплас попытался указать математическую форму плотности вероятности для ошибок и определить метод оценки, который минимизирует ошибку оценки. Для этой цели Лаплас использовал симметричное двустороннее экспоненциальное распределение, которое мы теперь называем распределением Лапласа , чтобы смоделировать распределение ошибок, и использовал сумму абсолютного отклонения в качестве ошибки оценки. Он чувствовал, что это самые простые предположения, которые он мог сделать, и надеялся получить среднее арифметическое в качестве наилучшей оценки. Вместо этого его оценщиком была апостериорная медиана.

Метод

Первое ясное и краткое изложение метода наименьших квадратов было опубликовано Лежандром в 1805 году. ^[7] Метод описывается как алгебраическая процедура подгонки линейных уравнений к данным, и Лежандр демонстрирует новый метод, анализируя те же данные, что и Лаплас для формы Земли. В течение десяти лет после публикации Лежандра метод наименьших квадратов был принят в качестве стандартного инструмента в астрономии и геодезии во Франции , Италии и Пруссии , что представляет собой необычайно быстрое принятие научного метода. ^[6]

В 1809 году Карл Фридрих Гаусс опубликовал свой метод расчета орбит небесных тел. В этой работе он утверждал, что владеет методом наименьших квадратов с 1795 года. ^[8] Это, естественно, привело к приоритетному спору с Лежандром. Однако, к чести Гаусса, он пошел дальше Лежандра и преуспел в соединении метода наименьших квадратов с принципами вероятности и нормальным распределением . Ему удалось завершить программу Лапласа по указанию математической формы плотности вероятности для наблюдений, зависящей от конечного числа неизвестных параметров, и определить метод оценки, который минимизирует ошибку оценки. Гаусс показал, что среднее арифметическое действительно является наилучшей оценкой параметра местоположения, изменив как плотность вероятности , так и метод оценки. Затем он перевернул проблему, спросив, какую форму должна иметь плотность и какой метод оценки следует использовать, чтобы получить среднее арифметическое как оценку параметра местоположения. В этой попытке он изобрел нормальное распределение.

Ранняя демонстрация силы метода Гаусса произошла, когда он был использован для предсказания будущего местоположения недавно открытого астероида Церера . 1 января 1801 года итальянский астроном Джузеппе Пиацци открыл Цереру и смог отслеживать ее путь в течение 40 дней, прежде чем она затерялась в ярком свете Солнца. Основываясь на этих данных, астрономы хотели определить местоположение Цереры после того, как она вышла из-за Солнца, не решая сложные нелинейные уравнения Кеплера для движения планет. Единственными предсказаниями, которые успешно позволили венгерскому астроному Францу Ксаверу фон Заху переместить Цереру, были те, которые были выполнены 24-летним Гауссом с помощью анализа наименьших квадратов.

В 1810 году, прочитав работу Гаусса, Лаплас, доказав центральную предельную теорему , использовал ее для обоснования метода наименьших квадратов и нормального распределения на большой выборке. В 1822 году Гаусс смог заявить, что подход наименьших квадратов к регрессионному анализу является оптимальным в том смысле, что в линейной модели, где ошибки имеют нулевое среднее, некоррелированы, нормально распределены и имеют равные дисперсии, наилучшей линейной несмещенной оценкой коэффициентов является оценка наименьших квадратов. Расширенная версия этого результата известна как теорема Гаусса–Маркова .

Идея анализа наименьших квадратов была также независимо сформулирована американцем Робертом Эдрейном в 1808 году. В течение следующих двух столетий исследователи теории ошибок и статистики нашли много различных способов реализации метода наименьших квадратов. ^[9]

Постановка проблемы

Цель состоит в настройке параметров функции модели для наилучшего соответствия набору данных. Простой набор данных состоит из n точек (пар данных) , i = 1, …, n , где — независимая переменная , а — зависимая переменная , значение которой находится путем наблюдения. Функция модели имеет вид , где m настраиваемых параметров хранятся в векторе . Цель состоит в том, чтобы найти значения параметров для модели, которые «наилучшим образом» соответствуют данным. Соответствие модели точке данных измеряется ее остатком , определяемым как разница между наблюдаемым значением зависимой переменной и значением, предсказанным моделью: $(x_{i},y_{i})\!$ $x_{i}\!$ $y_{i}\!$ ${\ displaystyle f (x, {\boldsymbol {\ beta }})}$ ${\boldsymbol {\beta }}$ $r_{i}=y_{i}-f(x_{i},{\boldsymbol {\beta }}).$

Метод наименьших квадратов находит оптимальные значения параметров путем минимизации суммы квадратов остатков : ^[10] $S$ $S=\sum _{i=1}^{n}r_{i}^{2}.$

В простейшем случае результатом метода наименьших квадратов является среднее арифметическое входных данных. $f(x_{i},{\boldsymbol {\beta }})=\beta$

Примером модели в двух измерениях является модель прямой линии. Обозначая точку пересечения с осью y как и наклон как , функция модели задается как . См. линейный метод наименьших квадратов для полностью разработанного примера этой модели. $\beta _{0}$ $\beta _{1}$ $f(x,{\boldsymbol {\beta }})=\beta _{0}+\beta _{1}x$

Точка данных может состоять из более чем одной независимой переменной. Например, при подгонке плоскости к набору измерений высоты плоскость является функцией двух независимых переменных, скажем, x и z . В самом общем случае в каждой точке данных может быть одна или несколько независимых переменных и одна или несколько зависимых переменных.

Справа находится остаточный график, иллюстрирующий случайные колебания около , что указывает на пригодность линейной модели . — независимая случайная величина. ^[10] $r_{i}=0$ $(Y_{i}=\beta _{0}+\beta _{1}x_{i}+U_{i})$ $U_{i}$

Если бы остаточные точки имели какую-то форму и не флуктуировали случайным образом, линейная модель не подходила бы. Например, если бы остаточный график имел параболическую форму, как показано справа, параболическая модель была бы подходящей для данных. Остатки для параболической модели можно рассчитать с помощью . ^[10] $(Y_{i}=\beta _{0}+\beta _{1}x_{i}+\beta _{2}x_{i}^{2}+U_{i})$ $r_{i}=y_{i}-{\hat {\beta }}_{0}-{\hat {\beta }}_{1}x_{i}-{\hat {\beta }}_{2}x_{i}^{2}$

Ограничения

Эта формулировка регрессии учитывает только ошибки наблюдения в зависимой переменной (но альтернативная общая регрессия наименьших квадратов может учитывать ошибки в обеих переменных). Существуют два довольно разных контекста с разными последствиями:

Регрессия для прогнозирования. Здесь модель подгоняется, чтобы предоставить правило прогнозирования для применения в аналогичной ситуации, к которой применяются данные, используемые для подгонки. Здесь зависимые переменные, соответствующие такому будущему применению, будут подвержены тем же типам ошибок наблюдения, что и в данных, используемых для подгонки. Поэтому логически последовательно использовать правило прогнозирования наименьших квадратов для таких данных.
Регрессия для подгонки «истинной связи». В стандартном регрессионном анализе , который приводит к подгонке наименьшими квадратами, есть неявное предположение, что ошибки в независимой переменной равны нулю или строго контролируются, чтобы быть пренебрежимо малыми. Когда ошибки в независимой переменной не пренебрежимо малы, можно использовать модели погрешности измерения ; такие методы могут привести к оценкам параметров , проверке гипотез и доверительным интервалам , которые учитывают наличие ошибок наблюдения в независимых переменных. ^[11] Альтернативный подход заключается в подгонке модели с помощью общих наименьших квадратов ; это можно рассматривать как принятие прагматичного подхода к уравновешиванию эффектов различных источников ошибок при формулировании целевой функции для использования в подгонке модели.

Решение задачи наименьших квадратов

Минимум суммы квадратов находится путем установки градиента в ноль. Поскольку модель содержит m параметров, имеется m уравнений градиента : и поскольку , уравнения градиента становятся ${\frac {\partial S}{\partial \beta _{j}}}=2\sum _{i}r_{i}{\frac {\partial r_{i}}{\partial \beta _{j}}}=0,\ j=1,\ldots ,m,$ $r_{i}=y_{i}-f(x_{i},{\boldsymbol {\beta }})$ $-2\sum _{i}r_{i}{\frac {\partial f(x_{i},{\boldsymbol {\beta }})}{\partial \beta _{j}}}=0,\ j=1,\ldots ,m.$

Уравнения градиента применяются ко всем задачам наименьших квадратов. Каждая конкретная задача требует конкретных выражений для модели и ее частных производных . ^[12]

Линейный метод наименьших квадратов

Регрессионная модель является линейной, когда модель представляет собой линейную комбинацию параметров, т. е. когда функция является функцией . ^[12] $f(x,{\boldsymbol {\beta }})=\sum _{j=1}^{m}\beta _{j}\phi _{j}(x),$ $\phi _{j}$ $x$

Позволяя и помещая независимые и зависимые переменные в матрицы и , соответственно, мы можем вычислить наименьшие квадраты следующим образом. Обратите внимание, что это набор всех данных. ^[12]^[13] $X_{ij}=\phi _{j}(x_{i})$ $X$ $Y$ $D$ $L(D,{\boldsymbol {\beta }})=\left\|Y-X{\boldsymbol {\beta }}\right\|^{2}=(Y-X{\boldsymbol {\beta }})^{\mathsf {T}}(Y-X{\boldsymbol {\beta }})=Y^{\mathsf {T}}Y-Y^{\mathsf {T}}X{\boldsymbol {\beta }}-{\boldsymbol {\beta }}^{\mathsf {T}}X^{\mathsf {T}}Y+{\boldsymbol {\beta }}^{\mathsf {T}}X^{\mathsf {T}}X{\boldsymbol {\beta }}$ $=Y^{\mathsf {T}}Y-X^{\mathsf {T}}Y{\boldsymbol {\beta }}-X^{\mathsf {T}}Y{\boldsymbol {\beta }}+X^{\mathsf {T}}X{\boldsymbol {\beta }}^{2}$

Градиент потерь составляет: ${\frac {\partial L(D,{\boldsymbol {\beta }})}{\partial {\boldsymbol {\beta }}}}={\frac {\partial \left(Y^{\mathsf {T}}Y-X^{\mathsf {T}}Y{\boldsymbol {\beta }}-X^{\mathsf {T}}Y{\boldsymbol {\beta }}+X^{\mathsf {T}}X{\boldsymbol {\beta }}^{2}\right)}{\partial {\boldsymbol {\beta }}}}=-2X^{\mathsf {T}}Y+2X^{\mathsf {T}}X{\boldsymbol {\beta }}$

Приравнивая градиент потерь к нулю и решая для , получаем: ^[13]^[12] ${\boldsymbol {\beta }}$ $-2X^{\mathsf {T}}Y+2X^{\mathsf {T}}X{\boldsymbol {\beta }}=0\Rightarrow X^{\mathsf {T}}Y=X^{\mathsf {T}}X{\boldsymbol {\beta }}$ ${\boldsymbol {\hat {\beta }}}=\left(X^{\mathsf {T}}X\right)^{-1}X^{\mathsf {T}}Y$

Нелинейный метод наименьших квадратов

В некоторых случаях существует замкнутое решение нелинейной задачи наименьших квадратов, но в общем случае его нет. В случае отсутствия замкнутого решения используются численные алгоритмы для нахождения значения параметров, которое минимизирует цель. Большинство алгоритмов включают выбор начальных значений для параметров. Затем параметры уточняются итеративно, то есть значения получаются путем последовательного приближения: где верхний индекс k — это номер итерации, а вектор приращений называется вектором сдвига. В некоторых часто используемых алгоритмах на каждой итерации модель может быть линеаризована путем приближения к разложению в ряд Тейлора первого порядка около : $\beta$ ${\beta _{j}}^{k+1}={\beta _{j}}^{k}+\Delta \beta _{j},$ $\Delta \beta _{j}$ ${\boldsymbol {\beta }}^{k}$ ${\begin{aligned}f(x_{i},{\boldsymbol {\beta }})&=f^{k}(x_{i},{\boldsymbol {\beta }})+\sum _{j}{\frac {\partial f(x_{i},{\boldsymbol {\beta }})}{\partial \beta _{j}}}\left(\beta _{j}-{\beta _{j}}^{k}\right)\\[1ex]&=f^{k}(x_{i},{\boldsymbol {\beta }})+\sum _{j}J_{ij}\,\Delta \beta _{j}.\end{aligned}}$

Якобиан J является функцией констант, независимой переменной и параметров, поэтому он меняется от одной итерации к другой. Остатки задаются как $r_{i}=y_{i}-f^{k}(x_{i},{\boldsymbol {\beta }})-\sum _{k=1}^{m}J_{ik}\,\Delta \beta _{k}=\Delta y_{i}-\sum _{j=1}^{m}J_{ij}\,\Delta \beta _{j}.$

Чтобы минимизировать сумму квадратов , градиентное уравнение приравнивается к нулю и решается относительно : которые при перестановке становятся m совместными линейными уравнениями, нормальными уравнениями : $r_{i}$ $\Delta \beta _{j}$ $-2\sum _{i=1}^{n}J_{ij}\left(\Delta y_{i}-\sum _{k=1}^{m}J_{ik}\,\Delta \beta _{k}\right)=0,$ $\sum _{i=1}^{n}\sum _{k=1}^{m}J_{ij}J_{ik}\,\Delta \beta _{k}=\sum _{i=1}^{n}J_{ij}\,\Delta y_{i}\qquad (j=1,\ldots ,m).$

Нормальные уравнения записываются в матричной форме как $\left(\mathbf {J} ^{\mathsf {T}}\mathbf {J} \right)\Delta {\boldsymbol {\beta }}=\mathbf {J} ^{\mathsf {T}}\Delta \mathbf {y} .$

Это определяющие уравнения алгоритма Гаусса–Ньютона .

Различия между линейным и нелинейным методом наименьших квадратов

Функция модели f в LLSQ (линейный метод наименьших квадратов) представляет собой линейную комбинацию параметров вида Модель может представлять собой прямую линию, параболу или любую другую линейную комбинацию функций. В NLLSQ (нелинейный метод наименьших квадратов) параметры появляются как функции, такие как и так далее. Если производные либо постоянны, либо зависят только от значений независимой переменной, модель линейна по параметрам. В противном случае модель нелинейна. $f=X_{i1}\beta _{1}+X_{i2}\beta _{2}+\cdots$ $\beta ^{2},e^{\beta x}$ $\partial f/\partial \beta _{j}$
Для решения задачи NLLSQ необходимы начальные значения параметров; для LLSQ они не требуются.
Алгоритмы решения для NLLSQ часто требуют, чтобы якобиан можно было вычислить аналогично LLSQ. Аналитические выражения для частных производных могут быть сложными. Если аналитические выражения получить невозможно, то либо частные производные должны быть вычислены с помощью численного приближения, либо должна быть сделана оценка якобиана, часто с помощью конечных разностей .
Несходимость (неспособность алгоритма найти минимум) является распространенным явлением в NLLSQ.
LLSQ является глобально вогнутым, поэтому неконвергенция не является проблемой.
Решение NLLSQ обычно является итеративным процессом, который должен быть остановлен, когда удовлетворен критерий сходимости. Решения LLSQ могут быть вычислены с использованием прямых методов, хотя задачи с большим количеством параметров обычно решаются с использованием итеративных методов, таких как метод Гаусса–Зейделя .
В LLSQ решение единственно, но в NLLSQ может быть несколько минимумов в сумме квадратов.
При условии, что ошибки не коррелируют с предикторными переменными, LLSQ дает несмещенные оценки, но даже при этом условии оценки NLLSQ, как правило, смещены.

Эти различия необходимо учитывать всякий раз, когда ищется решение нелинейной задачи наименьших квадратов. ^[12]

Пример

Рассмотрим простой пример из физики. Пружина должна подчиняться закону Гука , который гласит, что удлинение пружины $y$ пропорционально силе, F , приложенной к ней. составляет модель, где F — независимая переменная. Чтобы оценить силовую постоянную , k , мы проводим серию из n измерений с различными силами, чтобы получить набор данных, , где y _i — измеренное удлинение пружины. ^[14] Каждое экспериментальное наблюдение будет содержать некоторую ошибку, , и поэтому мы можем указать эмпирическую модель для наших наблюдений, $y=f(F,k)=kF$ $(F_{i},y_{i}),\ i=1,\dots ,n\!$ $\varepsilon$ $y_{i}=kF_{i}+\varepsilon _{i}.$

Существует много методов, которые мы могли бы использовать для оценки неизвестного параметра k . Поскольку n уравнений в m переменных в наших данных составляют переопределенную систему с одним неизвестным и n уравнениями, мы оцениваем k с помощью наименьших квадратов. Сумма квадратов, которая должна быть минимизирована, равна ^[12] $S=\sum _{i=1}^{n}\left(y_{i}-kF_{i}\right)^{2}.$

Оценка константы силы k методом наименьших квадратов определяется выражением ${\hat {k}}={\frac {\sum _{i}F_{i}y_{i}}{\sum _{i}F_{i}^{2}}}.$

Мы предполагаем, что приложение силы заставляет пружину расширяться. После того, как мы вывели константу силы методом наименьших квадратов, мы предсказываем расширение по закону Гука.

Количественная оценка неопределенности

При расчете наименьших квадратов с единичными весами или в линейной регрессии дисперсия j -го параметра, обозначенная , обычно оценивается с помощью где истинная дисперсия ошибки σ ² заменяется оценкой, приведенной статистикой хи-квадрат , основанной на минимизированном значении остаточной суммы квадратов (целевой функции), S . Знаменатель, n − m , представляет собой статистические степени свободы ; см. эффективные степени свободы для обобщений. ^[12]C — ковариационная матрица . $\operatorname {var} ({\hat {\beta }}_{j})$ $\operatorname {var} ({\hat {\beta }}_{j})=\sigma ^{2}\left(\left[X^{\mathsf {T}}X\right]^{-1}\right)_{jj}\approx {\hat {\sigma }}^{2}C_{jj},$ ${\hat {\sigma }}^{2}\approx {\frac {S}{n-m}}$ $C=\left(X^{\mathsf {T}}X\right)^{-1},$

Статистическое тестирование

Если распределение вероятностей параметров известно или сделано асимптотическое приближение, можно найти пределы доверия . Аналогично, статистические тесты остатков могут быть проведены, если распределение вероятностей остатков известно или предполагается. Мы можем вывести распределение вероятностей любой линейной комбинации зависимых переменных, если распределение вероятностей экспериментальных ошибок известно или предполагается. Вывод прост, если предположить, что ошибки следуют нормальному распределению, следовательно, подразумевая, что оценки параметров и остатки также будут нормально распределены в зависимости от значений независимых переменных. ^[12]

Необходимо сделать предположения о природе экспериментальных ошибок, чтобы статистически проверить результаты. Распространенное предположение заключается в том, что ошибки принадлежат нормальному распределению. Центральная предельная теорема поддерживает идею о том, что это хорошее приближение во многих случаях.

Теорема Гаусса –Маркова . В линейной модели, в которой ошибки имеют нулевое ожидание , обусловленное независимыми переменными, некоррелированы и имеют равные дисперсии , наилучшей линейной несмещенной оценкой любой линейной комбинации наблюдений является ее оценка наименьших квадратов. «Наилучшая» означает, что оценки наименьших квадратов параметров имеют минимальную дисперсию. Предположение о равной дисперсии справедливо, когда все ошибки принадлежат одному и тому же распределению. ^[15]
Если ошибки подчиняются нормальному распределению, оценки наименьших квадратов являются также оценками максимального правдоподобия в линейной модели.

Однако предположим, что ошибки распределены не нормально. В этом случае центральная предельная теорема часто все же подразумевает, что оценки параметров будут приблизительно нормально распределены, пока выборка достаточно велика. По этой причине, учитывая важное свойство, что среднее значение ошибки не зависит от независимых переменных, распределение члена ошибки не является важным вопросом в регрессионном анализе. В частности, обычно не важно, следует ли член ошибки нормальному распределению.

Взвешенные наименьшие квадраты

Особый случай обобщенных наименьших квадратов, называемый взвешенными наименьшими квадратами, возникает, когда все недиагональные элементы Ω (корреляционная матрица остатков) равны нулю; дисперсии наблюдений (вдоль диагонали ковариационной матрицы) могут быть по-прежнему неравными ( гетероскедастичность ). Проще говоря, гетероскедастичность — это когда дисперсия зависит от значения , что заставляет график остатков создавать эффект «разветвления» в сторону больших значений, как показано на графике остатков справа. С другой стороны, гомоскедастичность предполагает, что дисперсия и дисперсия равны. ^[10] $Y_{i}$ $x_{i}$ $Y_{i}$ $Y_{i}$ $U_{i}$

Связь с главными компонентами

Первый главный компонент о среднем значении набора точек может быть представлен той линией, которая наиболее близко подходит к точкам данных (измеряемым квадратом расстояния наибольшего приближения, т.е. перпендикулярно линии). Напротив, линейный метод наименьших квадратов пытается минимизировать расстояние только в направлении. Таким образом, хотя оба используют схожую метрику ошибки, линейный метод наименьших квадратов является методом, который обрабатывает одно измерение данных предпочтительно, в то время как PCA обрабатывает все измерения одинаково. $y$

Связь с теорией измерения

Известный статистик Сара ван де Гир использовала теорию эмпирических процессов и размерность Вапника–Червоненкиса, чтобы доказать, что оценка наименьших квадратов может быть интерпретирована как мера на пространстве квадратично интегрируемых функций . ^[16]

Регуляризация

Регуляризация Тихонова

В некоторых контекстах регуляризованная версия решения наименьших квадратов может быть предпочтительнее. Регуляризация Тихонова (или гребневая регрессия ) добавляет ограничение, что , квадрат -нормы вектора параметров, не больше заданного значения в формулировке наименьших квадратов, что приводит к проблеме ограниченной минимизации. Это эквивалентно проблеме неограниченной минимизации, где целевая функция является остаточной суммой квадратов плюс штрафной член и является параметром настройки (это лагранжева форма проблемы ограниченной минимизации). ^[17] $\left\|\beta \right\|_{2}^{2}$ $\ell _{2}$ $\alpha \left\|\beta \right\|_{2}^{2}$ $\alpha$

В байесовском контексте это эквивалентно размещению нормально распределенной априорной вероятности с нулевым средним значением на векторе параметров.

Метод лассо

Альтернативной регуляризованной версией наименьших квадратов является Лассо (оператор наименьшего абсолютного сжатия и выбора), который использует ограничение , что L 1 -норма вектора параметров не больше заданного значения. ^[18]^[19]^[20] (Можно показать, как и выше, используя множители Лагранжа, что это эквивалентно безусловной минимизации штрафа наименьших квадратов с добавлением.) В байесовском контексте это эквивалентно размещению априорного распределения Лапласа с нулевым средним на векторе параметров. ^[21] Задача оптимизации может быть решена с помощью квадратичного программирования или более общих методов выпуклой оптимизации , а также с помощью специальных алгоритмов, таких как алгоритм регрессии наименьшего угла . $\|\beta \|_{1}$ $\alpha \|\beta \|_{1}$

Одно из главных различий между Lasso и гребневой регрессией заключается в том, что в гребневой регрессии по мере увеличения штрафа все параметры уменьшаются, оставаясь при этом ненулевыми, в то время как в Lasso увеличение штрафа приведет к тому, что все больше и больше параметров будут сведены к нулю. Это преимущество Lasso перед гребневой регрессией, поскольку сведение параметров к нулю отменяет выборку признаков из регрессии. Таким образом, Lasso автоматически выбирает более релевантные признаки и отбрасывает другие, тогда как гребневая регрессия никогда полностью не отбрасывает какие-либо признаки. Некоторые методы выбора признаков разработаны на основе LASSO, включая Bolasso, который бутстрапит выборки, ^[22] и FeaLect, который анализирует коэффициенты регрессии, соответствующие различным значениям для оценки всех признаков. ^[23] $\alpha$

L 1 -регуляризованная формулировка полезна в некоторых контекстах из-за ее тенденции предпочитать решения, где больше параметров равны нулю, что дает решения, зависящие от меньшего количества переменных. ^[^18] По этой причине Лассо и его варианты являются основополагающими в области сжатого зондирования . Расширением этого подхода является эластичная сетевая регуляризация .

Смотрите также

Ссылки

^ Чарнс, А.; Фром, Э.Л.; Ю, П.Л. (1976). «Эквивалентность обобщенных наименьших квадратов и оценок максимального правдоподобия в экспоненциальном семействе». Журнал Американской статистической ассоциации . 71 (353): 169–171. doi :10.1080/01621459.1976.10481508.
^ Мэнсфилд Мерриман, «Список работ, относящихся к методу наименьших квадратов»
^ Бретшер, Отто (1995). Линейная алгебра с приложениями (3-е изд.). Аппер Сэдл Ривер, Нью-Джерси: Prentice Hall.
^ abc Stigler, Stephen M. (1981). «Гаусс и изобретение наименьших квадратов». Ann. Stat . 9 (3): 465–474. doi : 10.1214/aos/1176345451 .
^ Плакетт, Р. Л. (1972). «Открытие метода наименьших квадратов» (PDF) . Biometrika . 59 (2): 239–251.
^ ab Stigler, Stephen M. (1986). История статистики: измерение неопределенности до 1900 года . Кембридж, Массачусетс: Belknap Press of Harvard University Press. ISBN 978-0-674-40340-6.
^ Лежандр, Адриен-Мари (1805), Nouvelles méthodes pour la détermination des Orbites des comètes [ Новые методы определения орбит комет ] (на французском языке), Париж: Ф. Дидо, hdl : 2027/nyp.33433069112559
^ "Открытие статистической регрессии". Priceonomics . 2015-11-06 . Получено 2023-04-04 .
^ Олдрич, Дж. (1998). «Выполнение наименьших квадратов: перспективы Гаусса и Юла». Международный статистический обзор . 66 (1): 61–81. doi :10.1111/j.1751-5823.1998.tb00406.x. S2CID 121471194.
^ abcd Современное введение в вероятность и статистику: понимание почему и как . Деккинг, Мишель, 1946-. Лондон: Springer. 2005. ISBN 978-1-85233-896-1. OCLC 262680588.{{cite book}}: CS1 maint: others (link)
^ Для хорошего введения в ошибку в переменных см. Fuller, WA (1987). Модели ошибок измерения . John Wiley & Sons. ISBN 978-0-471-86187-4.
^ abcdefgh Уильямс, Джеффри Х. (Джеффри Хью), 1956- (ноябрь 2016). Количественное измерение: тирания чисел . Morgan & Claypool Publishers, Институт физики (Великобритания). Сан-Рафаэль [Калифорния] (40 Oak Drive, San Rafael, CA, 94903, США). ISBN 978-1-68174-433-9. OCLC 962422324.{{cite book}}: CS1 maint: location (link) CS1 maint: location missing publisher (link) CS1 maint: multiple names: authors list (link) CS1 maint: numeric names: authors list (link)
^ ab Rencher, Alvin C.; Christensen, William F. (2012-08-15). Методы многомерного анализа. John Wiley & Sons. стр. 155. ISBN 978-1-118-39167-9.
^ Гир, Джеймс М.; Гудно, Барри Дж. (2013). Механика материалов (8-е изд.). Стэмфорд, Коннектикут: Cengage Learning. ISBN 978-1-111-57773-5. OCLC 741541348.
^ Холлин, Марк (2012). "Теорема Гаусса-Маркова". Энциклопедия Environmetrics . Wiley. doi :10.1002/9780470057339.vnn102. ISBN 978-0-471-89997-6. Получено 18 октября 2023 г. .
^ Ван де Гир, Сара (июнь 1987 г.). «Новый подход к оценке наименьших квадратов с приложениями». Annals of Statistics . 15 (2): 587–602. doi : 10.1214/aos/1176350362 . S2CID 123088844.
^ ван Виринген, Вессель Н. (2021). «Конспекты лекций по гребневой регрессии». arXiv : 1509.09169 [stat.ME].
^ ab Tibshirani, R. (1996). «Регрессионное сокращение и выбор через лассо». Журнал Королевского статистического общества, Серия B. 58 ( 1): 267–288. JSTOR 2346178.
^ Хасти, Тревор ; Тибширани, Роберт; Фридман, Джером Х. (2009). Элементы статистического обучения (второе изд.). Springer-Verlag. ISBN 978-0-387-84858-7. Архивировано из оригинала 2009-11-10.
^ Бюльманн, Питер; ван де Гир, Сара (2011). Статистика многомерных данных: методы, теория и приложения . Springer. ISBN 9783642201929.
^ Парк, Тревор; Каселла, Джордж (2008). «Байесовское лассо». Журнал Американской статистической ассоциации . 103 (482): 681–686. doi :10.1198/016214508000000337. S2CID 11797924.
^ Бах, Фрэнсис Р. (2008). "Болассо". Труды 25-й международной конференции по машинному обучению - ICML '08 . С. 33–40. arXiv : 0804.1302 . Bibcode : 2008arXiv0804.1302B. doi : 10.1145/1390156.1390161. ISBN 9781605582054. S2CID 609778.
^ Заре, Хабил (2013). «Оценка релевантности признаков на основе комбинаторного анализа Лассо с применением к диагностике лимфомы». BMC Genomics . 14 (Suppl 1): S14. doi : 10.1186/1471-2164-14-S1-S14 . PMC 3549810 . PMID 23369194.

Дальнейшее чтение

Бьорк, О. (1996). Численные методы решения задач наименьших квадратов . СИАМ. ISBN 978-0-89871-360-2.
Кария, Т.; Курата, Х. (2004). Обобщенный метод наименьших квадратов . Хобокен: Уайли. ISBN 978-0-470-86697-9.
Luenberger, DG (1997) [1969]. "Оценка наименьших квадратов". Оптимизация методами векторного пространства . Нью-Йорк: John Wiley & Sons. стр. 78–102. ISBN 978-0-471-18117-0.
Рао, CR ; Тоутенбург, Х.; и др. (2008). Линейные модели: наименьшие квадраты и альтернативы. Springer Series in Statistics (3-е изд.). Берлин: Springer. ISBN 978-3-540-74226-5.
Ван де Мортель, Коэн (апрель 2021 г.). «Многонаправленный регрессионный анализ».
Вольберг, Дж. (2005). Анализ данных с использованием метода наименьших квадратов: извлечение наибольшей информации из экспериментов . Берлин: Springer. ISBN 978-3-540-25674-8.

Внешние ссылки

Медиа, связанные с методом наименьших квадратов на Wikimedia Commons