Локальная регрессия или локальная полиномиальная регрессия , [1] также известная как скользящая регрессия , [2] является обобщением скользящего среднего и полиномиальной регрессии . [3] Наиболее распространенными ее методами, изначально разработанными для сглаживания диаграмм рассеяния , являются LOESS ( локально оцененное сглаживание диаграмм рассеяния ) и LOWESS ( локально взвешенное сглаживание диаграмм рассеяния ), оба произносятся как / ˈ l oʊ ɛ s / LOH -ess . Это два тесно связанных непараметрических метода регрессии, которые объединяют модели множественной регрессии в метамодели на основе k -ближайших соседей . В некоторых областях LOESS известен и обычно называется фильтром Савицкого–Голея [4] [5] (предложен за 15 лет до LOESS).
Таким образом, LOESS и LOWESS основываются на «классических» методах , таких как линейная и нелинейная регрессия наименьших квадратов . Они решают ситуации, в которых классические процедуры не работают хорошо или не могут быть эффективно применены без неоправданного труда. LOESS сочетает в себе большую часть простоты линейной регрессии наименьших квадратов с гибкостью нелинейной регрессии . Он делает это путем подгонки простых моделей под локализованные подмножества данных для построения функции, которая описывает детерминированную часть вариации в данных, точка за точкой. Фактически, одно из главных преимуществ этого метода заключается в том, что аналитику данных не требуется указывать глобальную функцию любой формы для подгонки модели к данным, а только для подгонки сегментов данных.
Компромиссом для этих функций является увеличение вычислений. Поскольку это настолько вычислительно интенсивно, LOESS было бы практически невозможно использовать в эпоху, когда разрабатывалась регрессия наименьших квадратов. Большинство других современных методов моделирования процессов похожи на LOESS в этом отношении. Эти методы были сознательно разработаны для использования наших текущих вычислительных возможностей с максимально возможным преимуществом для достижения целей, которые нелегко достичь традиционными подходами.
Гладкая кривая через набор точек данных, полученных с помощью этого статистического метода, называется кривой лесса , в частности, когда каждое сглаженное значение дается взвешенной квадратичной регрессией наименьших квадратов по диапазону значений критериальной переменной диаграммы рассеяния оси y . Когда каждое сглаженное значение дается взвешенной линейной регрессией наименьших квадратов по диапазону, это известно как кривая лоусса ; однако некоторые специалисты рассматривают лоус и лоус как синонимы. [6] [7]
В 1964 году Савицкий и Голей предложили метод, эквивалентный LOESS, который обычно называют фильтром Савицкого–Голея . Уильям С. Кливленд заново открыл метод в 1979 году и дал ему отдельное название. Метод был дополнительно разработан Кливлендом и Сьюзен Дж. Девлин (1988). LOWESS также известен как локально взвешенная полиномиальная регрессия.
В каждой точке диапазона набора данных полином низкой степени подгоняется к подмножеству данных со значениями объясняющей переменной вблизи точки, ответ которой оценивается. Полином подгоняется с использованием взвешенных наименьших квадратов , давая больший вес точкам вблизи точки, ответ которой оценивается, и меньший вес точкам, расположенным дальше. Значение функции регрессии для точки затем получается путем оценки локального полинома с использованием значений объясняющей переменной для этой точки данных. Подгонка LOESS завершается после вычисления значений функции регрессии для каждой из точек данных. Многие детали этого метода, такие как степень полиномиальной модели и веса, являются гибкими. Диапазон выбора для каждой части метода и типичные значения по умолчанию кратко обсуждаются далее.
Подмножества данных , используемые для каждого взвешенного наименьшего квадрата в LOESS, определяются алгоритмом ближайших соседей. Указанный пользователем ввод в процедуру, называемый «полосой пропускания» или «параметром сглаживания», определяет, какая часть данных используется для подгонки каждого локального полинома. Параметр сглаживания, , представляет собой долю от общего числа n точек данных, которые используются в каждом локальном подгоне. Подмножество данных, используемое в каждом взвешенном наименьшем квадрате, таким образом, включает точки (округленные до следующего большего целого числа), значения объясняющих переменных которых находятся ближе всего к точке, в которой оценивается отклик. [7]
Поскольку для подгонки полинома степени k требуется не менее k + 1 точек, параметр сглаживания должен быть в пределах от 0 до 1, при этом обозначается степень локального полинома.
называется параметром сглаживания, поскольку он контролирует гибкость функции регрессии LOESS. Большие значения создают самые гладкие функции, которые меньше всего колеблются в ответ на колебания данных. Чем меньше , тем лучше функция регрессии будет соответствовать данным. Однако использование слишком малого значения параметра сглаживания нежелательно, поскольку функция регрессии в конечном итоге начнет улавливать случайную ошибку в данных.
Локальные полиномы, соответствующие каждому подмножеству данных, почти всегда имеют первую или вторую степень; то есть либо локально линейны (в смысле прямой линии), либо локально квадратичны. Использование полинома нулевой степени превращает LOESS во взвешенное скользящее среднее . Полиномы более высокой степени работали бы в теории, но давали бы модели, которые на самом деле не соответствуют духу LOESS. LOESS основан на идеях о том, что любая функция может быть хорошо аппроксимирована в небольшой окрестности полиномом низкого порядка и что простые модели могут быть легко подогнаны к данным. Полиномы высокой степени имеют тенденцию переподгонять данные в каждом подмножестве и являются численно нестабильными, что затрудняет точные вычисления.
Как упоминалось выше, весовая функция дает наибольший вес точкам данных, ближайшим к точке оценки, и наименьший вес точкам данных, которые находятся дальше всего. Использование весов основано на идее, что точки, расположенные близко друг к другу в пространстве объясняющих переменных, с большей вероятностью будут связаны друг с другом простым образом, чем точки, которые находятся дальше друг от друга. Следуя этой логике, точки, которые, скорее всего, будут следовать локальной модели, больше всего влияют на оценки параметров локальной модели. Точки, которые с меньшей вероятностью фактически соответствуют локальной модели, оказывают меньшее влияние на оценки параметров локальной модели .
Традиционная весовая функция, используемая для LOESS, — это трехкубовая весовая функция ,
где d — расстояние заданной точки данных от точки на подгоняемой кривой, масштабированное так, чтобы находиться в диапазоне от 0 до 1. [7]
Однако можно использовать и любую другую весовую функцию, которая удовлетворяет свойствам, перечисленным в Cleveland (1979). Вес для конкретной точки в любом локализованном подмножестве данных получается путем оценки весовой функции на расстоянии между этой точкой и точкой оценки после масштабирования расстояния таким образом, чтобы максимальное абсолютное расстояние по всем точкам в подмножестве данных было ровно единицей.
Рассмотрим следующее обобщение линейной регрессионной модели с метрикой на целевом пространстве , которая зависит от двух параметров, . Предположим, что линейная гипотеза основана на входных параметрах и что, как обычно в таких случаях, мы встраиваем входное пространство в , и рассмотрим следующую функцию потерь
Здесь — вещественная матрица коэффициентов, а индекс i перечисляет входные и выходные векторы из обучающего набора. Поскольку — метрика, это симметричная, положительно определенная матрица, и, как таковая, существует другая симметричная матрица, такая что . Вышеуказанную функцию потерь можно преобразовать в след, заметив, что . Расположив векторы и в столбцах матрицы и матрицы соответственно , вышеприведенную функцию потерь можно записать как
где — квадратная диагональная матрица, элементами которой являются s. Дифференцируя по и приравнивая результат к 0, находим экстремальное матричное уравнение
Если далее предположить, что квадратная матрица невырожденная, то функция потерь достигает своего минимума при
Типичным выбором является гауссовский вес
Как обсуждалось выше, самое большое преимущество LOESS перед многими другими методами заключается в том, что процесс подгонки модели к данным выборки не начинается со спецификации функции. Вместо этого аналитик должен только указать значение параметра сглаживания и степень локального полинома. Кроме того, LOESS очень гибок, что делает его идеальным для моделирования сложных процессов, для которых не существует теоретических моделей. Эти два преимущества в сочетании с простотой метода делают LOESS одним из самых привлекательных современных методов регрессии для приложений, которые соответствуют общей структуре регрессии наименьших квадратов, но которые имеют сложную детерминированную структуру.
Хотя это менее очевидно, чем для некоторых других методов, связанных с линейной регрессией наименьших квадратов, LOESS также получает большинство преимуществ, обычно разделяемых этими процедурами. Наиболее важной из них является теория вычисления неопределенностей для прогнозирования и калибровки. Многие другие тесты и процедуры, используемые для проверки моделей наименьших квадратов, также могут быть распространены на модели LOESS [ требуется цитата ] .
LOESS менее эффективно использует данные, чем другие методы наименьших квадратов. Для создания хороших моделей требуются довольно большие, плотно отобранные наборы данных. Это связано с тем, что LOESS опирается на локальную структуру данных при выполнении локальной подгонки. Таким образом, LOESS обеспечивает менее сложный анализ данных в обмен на более высокие экспериментальные затраты. [7]
Другим недостатком LOESS является тот факт, что он не создает функцию регрессии, которую легко представить математической формулой. Это может затруднить передачу результатов анализа другим людям. Чтобы передать функцию регрессии другому человеку, ему понадобятся набор данных и программное обеспечение для расчетов LOESS. С другой стороны, в нелинейной регрессии необходимо только записать функциональную форму, чтобы предоставить оценки неизвестных параметров и оцененной неопределенности. В зависимости от приложения это может быть как основным, так и незначительным недостатком использования LOESS. В частности, простая форма LOESS не может использоваться для механистического моделирования, где подобранные параметры определяют конкретные физические свойства системы.
Наконец, как обсуждалось выше, LOESS является вычислительно интенсивным методом (за исключением равномерно распределенных данных, где регрессия может быть сформулирована как некаузальный фильтр с конечной импульсной характеристикой ). LOESS также подвержен влиянию выбросов в наборе данных, как и другие методы наименьших квадратов. Существует итеративная, надежная версия LOESS [Кливленд (1979)], которая может быть использована для снижения чувствительности LOESS к выбросам , но слишком большое количество экстремальных выбросов все еще может преодолеть даже надежный метод.
{{cite journal}}
: Цитировать журнал требует |journal=
( помощь ){{cite journal}}
: Цитировать журнал требует |journal=
( помощь )В статье использованы материалы, являющиеся общественным достоянием Национального института стандартов и технологий.