stringtranslate.com

Линейный метод наименьших квадратов

Линейный метод наименьших квадратов ( МНК ) — это аппроксимация линейных функций данными методом наименьших квадратов . Это набор формул для решения статистических задач, связанных с линейной регрессией , включая варианты для обычных (невзвешенных), взвешенных и обобщенных (коррелированных) остатков . Численные методы для линейных наименьших квадратов включают обращение матрицы нормальных уравнений и методы ортогонального разложения .

Основная формула

Рассмотрим линейное уравнение

где и заданы и является переменной для вычисления. Когда это обычно так, что ( 1 ) не имеет решения. Например, нет значения , которое удовлетворяет, потому что первые две строки требуют этого , но тогда третья строка не удовлетворяет. Таким образом, для цели решения ( 1 ) точно обычно заменяется нахождением значения , которое минимизирует некоторую ошибку. Существует много способов определения ошибки, но один из наиболее распространенных — определить ее как Это создает задачу минимизации, называемую задачей наименьших квадратов

Решение задачи наименьших квадратов ( 1 ) вычисляется путем решения нормального уравнения [1]

где обозначает транспонирование . ​

Продолжая пример выше, находим и Решение нормального уравнения дает

Формулировки для линейной регрессии

Три основные формулы линейного метода наименьших квадратов:

Альтернативные формулировки

Другие формулировки включают:

Целевая функция

В OLS (т.е. предполагая невзвешенные наблюдения) оптимальное значение целевой функции находится путем подстановки оптимального выражения для вектора коэффициентов: где , последнее равенство выполняется, поскольку является симметричным и идемпотентным. Из этого можно показать [9] , что при соответствующем назначении весов ожидаемое значение S равно . Если вместо этого предполагаются единичные веса, ожидаемое значение S равно , где — дисперсия каждого наблюдения.

Если предположить, что остатки принадлежат нормальному распределению, то целевая функция, будучи суммой взвешенных квадратов остатков, будет принадлежать распределению хи-квадрат ( ) с m  −  n степенями свободы . Некоторые иллюстративные процентильные значения приведены в следующей таблице. [10]

Эти значения могут быть использованы для статистического критерия качества соответствия . При использовании удельных весов числа следует делить на дисперсию наблюдения.

Для WLS обычная целевая функция, указанная выше, заменяется на средневзвешенное значение остатков.

Обсуждение

В статистике и математике линейный метод наименьших квадратов представляет собой подход к подгонке математической или статистической модели к данным в случаях, когда идеализированное значение, предоставляемое моделью для любой точки данных, линейно выражается через неизвестные параметры модели. Полученная подогнанная модель может использоваться для обобщения данных, для прогнозирования ненаблюдаемых значений из той же системы и для понимания механизмов, которые могут лежать в основе системы.

Математически линейный метод наименьших квадратов — это задача приближенного решения переопределенной системы линейных уравнений A x = b , где b не является элементом пространства столбцов матрицы A . Приближенное решение реализуется как точное решение A x = b' , где b' — проекция b на пространство столбцов матрицы A . Наилучшим приближением тогда является то, которое минимизирует сумму квадратов разностей между значениями данных и их соответствующими смоделированными значениями. Подход называется линейным методом наименьших квадратов, поскольку предполагаемая функция линейна по оцениваемым параметрам. Линейные задачи наименьших квадратов являются выпуклыми и имеют решение в замкнутой форме , которое является единственным, при условии, что число точек данных, используемых для подгонки, равно или превышает число неизвестных параметров, за исключением особых вырожденных ситуаций. Напротив, нелинейные задачи наименьших квадратов обычно должны решаться с помощью итеративной процедуры , и задачи могут быть невыпуклыми с несколькими оптимумами для целевой функции. Если доступны априорные распределения, то даже недоопределенную систему можно решить с помощью байесовского оценщика MMSE .

В статистике линейные задачи наименьших квадратов соответствуют особо важному типу статистической модели, называемой линейной регрессией , которая возникает как особая форма регрессионного анализа . Одной из основных форм такой модели является обычная модель наименьших квадратов. Настоящая статья концентрируется на математических аспектах линейных задач наименьших квадратов, а обсуждение формулировки и интерпретации статистических регрессионных моделей и статистических выводов , связанных с ними, рассматривается в только что упомянутых статьях. См. схему регрессионного анализа для краткого обзора темы.

Характеристики

Если экспериментальные ошибки, , некоррелированы, имеют нулевое среднее значение и постоянную дисперсию, , теорема Гаусса-Маркова утверждает, что оценка наименьших квадратов, , имеет минимальную дисперсию всех оценок, которые являются линейными комбинациями наблюдений. В этом смысле это наилучшая или оптимальная оценка параметров. Обратите особое внимание, что это свойство не зависит от статистической функции распределения ошибок. Другими словами, функция распределения ошибок не обязательно должна быть нормальным распределением . Однако для некоторых распределений вероятностей нет гарантии, что решение наименьших квадратов вообще возможно с учетом наблюдений; тем не менее, в таких случаях это наилучшая оценка, которая является как линейной, так и несмещенной.

Например, легко показать, что среднее арифметическое набора измерений величины является оценкой наименьших квадратов значения этой величины. Если условия теоремы Гаусса–Маркова применимы, среднее арифметическое является оптимальным, каким бы ни было распределение ошибок измерений.

Однако в случае, если экспериментальные ошибки действительно принадлежат нормальному распределению, оценка наименьших квадратов также является оценкой максимального правдоподобия . [11]

Эти свойства лежат в основе использования метода наименьших квадратов для всех типов подгонки данных, даже если предположения не являются строго верными.

Ограничения

Предположение, лежащее в основе обработки, приведенной выше, заключается в том, что независимая переменная x не содержит ошибок. На практике ошибки измерений независимой переменной обычно намного меньше ошибок зависимой переменной и поэтому могут быть проигнорированы. Если это не так, следует использовать общие наименьшие квадраты или, в более общем смысле, модели ошибок в переменных , или строгие наименьшие квадраты . Это можно сделать, скорректировав схему взвешивания, чтобы учесть ошибки как зависимой, так и независимой переменных, а затем следуя стандартной процедуре. [12] [13]

В некоторых случаях (взвешенная) матрица нормальных уравнений X T X плохо обусловлена . При подгонке полиномов матрица нормальных уравнений является матрицей Вандермонда . Матрицы Вандермонда становятся все более плохо обусловленными по мере увеличения порядка матрицы. [ необходима цитата ] В этих случаях оценка наименьших квадратов усиливает шум измерения и может быть крайне неточной. [ необходима цитата ] В таких случаях могут применяться различные методы регуляризации , наиболее распространенный из которых называется гребневой регрессией . Если известна дополнительная информация о параметрах, например, диапазон возможных значений , то для повышения устойчивости решения могут использоваться различные методы. Например, см. ограниченные наименьшие квадраты.

Другим недостатком метода наименьших квадратов является тот факт, что норма остатков, минимизируется, тогда как в некоторых случаях действительно заинтересованы в получении небольшой ошибки в параметре , например, небольшого значения . [ необходима цитата ] Однако, поскольку истинный параметр обязательно неизвестен, эта величина не может быть напрямую минимизирована. Если известна априорная вероятность , то можно использовать байесовскую оценку для минимизации среднеквадратической ошибки , . Метод наименьших квадратов часто применяется, когда априорная вероятность неизвестна. Когда несколько параметров оцениваются совместно, можно построить лучшие оценки, эффект, известный как явление Стейна . Например, если ошибка измерения гауссова , известно несколько оценок, которые доминируют или превосходят метод наименьших квадратов; наиболее известной из них является оценка Джеймса–Стейна . Это пример более общих оценок сжатия , которые применялись к задачам регрессии.

Приложения

Аппроксимация методом наименьших квадратов с линейными, квадратичными и кубическими полиномами.

Использование в подгонке данных

Основное применение метода наименьших квадратов — подгонка данных . Дан набор из m точек данных , состоящий из экспериментально измеренных значений, взятых при m значениях независимой переменной ( могут быть скалярными или векторными величинами), и дана модельная функция с желательно найти параметры , чтобы модельная функция «лучше всего» соответствовала данным. В методе наименьших квадратов линейность подразумевается относительно параметров, поэтому

Здесь функции могут быть нелинейными относительно переменной x .

В идеале модельная функция точно соответствует данным, поэтому для всех На практике это обычно невозможно, поскольку точек данных больше, чем параметров, которые нужно определить. Выбранный подход заключается в том, чтобы найти минимально возможное значение суммы квадратов остатков , чтобы минимизировать функцию

После замены на , а затем на эта задача минимизации становится квадратичной задачей минимизации, представленной выше, причем наилучшее соответствие можно найти, решив нормальные уравнения.

Пример

График точек данных (красный), линия наименьших квадратов наилучшего соответствия (синий) и остатки (зеленый)

Гипотетический исследователь проводит эксперимент и получает четыре точки данных: и (показаны красным на диаграмме справа). Из-за разведочного анализа данных или предшествующих знаний о предмете исследователь подозревает, что -значения зависят от -значений систематически. Предполагается, что -значения точны, но -значения содержат некоторую неопределенность или «шум» из-за изучаемого явления, несовершенств измерений и т. д.

Установка линии

Одной из самых простых возможных связей между и является линия . Пересечение и наклон изначально неизвестны. Исследователь хотел бы найти значения и , которые заставят линию проходить через четыре точки данных. Другими словами, исследователь хотел бы решить систему линейных уравнений С четырьмя уравнениями с двумя неизвестными эта система является переопределенной. Точного решения нет. Чтобы рассмотреть приближенные решения, в уравнения вводятся остатки , , , : Остаток th — это несоответствие между th наблюдением и th предсказанием : Среди всех приближенных решений исследователь хотел бы найти то, которое является «лучшим» в некотором смысле.

В методе наименьших квадратов основное внимание уделяется сумме квадратов остатков: Наилучшее решение определяется как решение, которое минимизирует по отношению к и . Минимум можно вычислить, установив частные производные от равными нулю: Эти нормальные уравнения представляют собой систему из двух линейных уравнений с двумя неизвестными. Решением является и , а наилучшей линией соответствия является . Остатки равны и (см. диаграмму справа). Минимальное значение суммы квадратов остатков равно

Это вычисление можно выразить в матричной записи следующим образом. Исходная система уравнений имеет вид , где Интуитивно, Более строго, если обратимо, то матрица представляет собой ортогональную проекцию на пространство столбцов . Следовательно, среди всех векторов вида наиболее близким к является . Задавая его, очевидно, что является решением.

Подгонка параболы

Результат подгонки квадратичной функции (синего цвета) через набор точек данных (красного цвета). В линейном методе наименьших квадратов функция не обязательно должна быть линейной по аргументу, а только по параметрам , которые определяются для наилучшего подгона.

Предположим, что гипотетический исследователь хочет подогнать параболу формы . Важно, что эта модель все еще линейна по неизвестным параметрам (теперь просто ), поэтому линейный метод наименьших квадратов все еще применим. Система уравнений, включающая остатки, имеет вид

Сумма квадратов остатков равна Остается только одна частная производная, которую нужно приравнять к 0: Решение равно , а подходящая модель равна .

В матричной записи уравнения без остатков снова будут иметь вид , где теперь По той же логике, что и выше, решение будет иметь вид

На рисунке показано расширение подгонки трехпараметрической параболы с использованием матрицы проектирования с тремя столбцами (по одному для , , и ) и одной строкой для каждой из красных точек данных.

Подгонка других кривых и поверхностей

В более общем смысле можно иметь регрессоры и линейную модель

Смотрите также

Ссылки

  1. ^ Weisstein, Eric W. "Normal Equation". MathWorld . Wolfram . Получено 18 декабря 2023 г. .
  2. ^ Lai, TL; Robbins, H.; Wei, CZ (1978). «Сильная согласованность оценок наименьших квадратов во множественной регрессии». PNAS . 75 (7): 3034–3036. Bibcode :1978PNAS...75.3034L. doi : 10.1073/pnas.75.7.3034 . JSTOR  68164. PMC 392707 . PMID  16592540. 
  3. ^ дель Пино, Гвидо (1989). «Объединяющая роль итеративных обобщенных наименьших квадратов в статистических алгоритмах». Статистическая наука . 4 (4): 394–403. doi : 10.1214/ss/1177012408 . JSTOR  2245853.
  4. ^ Кэрролл, Рэймонд Дж. (1982). «Адаптация к гетероскедастичности в линейных моделях». Анналы статистики . 10 (4): 1224–1233. doi : 10.1214/aos/1176345987 . JSTOR  2240725.
  5. ^ Коэн, Майкл; Далал, Сиддхартха Р.; Тьюки, Джон В. (1993). «Надежная, гладко неоднородная дисперсионная регрессия». Журнал Королевского статистического общества, Серия C. 42 ( 2): 339–353. JSTOR  2986237.
  6. ^ Нивергельт, Ив (1994). «Общие наименьшие квадраты: современная регрессия в численном анализе». Обзор SIAM . 36 (2): 258–264. doi :10.1137/1036055. JSTOR  2132463.
  7. ^ Britzger, Daniel (2022). "The Linear Template Fit". Eur. Phys. J. C. 82 ( 8): 731. arXiv : 2112.01548 . Bibcode : 2022EPJC...82..731B. doi : 10.1140/epjc/s10052-022-10581-w. S2CID  244896511.
  8. ^ Tofallis, C (2009). «Процентная регрессия по наименьшим квадратам». Журнал современных прикладных статистических методов . 7 : 526–534. doi :10.2139/ssrn.1406472. hdl : 2299/965 . SSRN  1406472.
  9. ^ Гамильтон, WC (1964). Статистика в физических науках . Нью-Йорк: Ronald Press.
  10. ^ Шпигель, Мюррей Р. (1975). Очерк Шаума по теории и проблемам вероятности и статистики . Нью-Йорк: McGraw-Hill. ISBN 978-0-585-26739-5.
  11. ^ Маргенау, Генри; Мерфи, Джордж Мозели (1956). Математика физики и химии . Принстон: Van Nostrand.
  12. ^ ab Gans, Peter (1992). Подгонка данных в химических науках . Нью-Йорк: Wiley. ISBN 978-0-471-93412-7.
  13. ^ Деминг, У. Э. (1943). Статистическая корректировка данных . Нью-Йорк: Wiley.
  14. ^ Актон, Ф. С. (1959). Анализ линейных данных . Нью-Йорк: Wiley.
  15. ^ Гест, ПГ (1961). Численные методы подгонки кривых . Кембридж: Издательство Кембриджского университета.[ нужна страница ]

Дальнейшее чтение

Внешние ссылки