Статистическая методика
Сглаживание ядра — это статистический метод оценки действительнозначной функции как средневзвешенного значения соседних наблюдаемых данных. Вес определяется ядром , так что более близким точкам присваиваются более высокие веса. Оцениваемая функция является гладкой, а уровень гладкости задается одним параметром. Ядерное сглаживание — это тип взвешенной скользящей средней .![{\displaystyle f:\mathbb {R} ^{p}\to \mathbb {R}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Определения
Пусть – ядро, определенное формулой![{\displaystyle K_{h_{\lambda }}(X_{0},X)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle K_{h_{\lambda }}(X_{0},X)=D\left({\frac {\left\|X-X_{0}\right\|}{h_{\lambda }( X_{0})}}\вправо)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
где:
![{\displaystyle X,X_{0}\in \mathbb {R} ^{p}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
это евклидова норма
это параметр (радиус ядра)- D ( t ) обычно является положительной вещественной функцией, значение которой уменьшается (или не увеличивается) с увеличением расстояния между X и X0 .
Популярные ядра, используемые для сглаживания, включают параболическое ядро (Епанечникова), трехкубическое и гауссовское .
Пусть – непрерывная функция от X . Для каждого средневзвешенное по ядру Надарая-Ватсона (гладкая оценка Y ( X )) определяется выражением![{\ displaystyle Y (X): \ mathbb {R} ^ {p} \ to \ mathbb {R}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle X_{0}\in \mathbb {R} ^{p}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\hat {Y}}(X_{0})={\frac {\sum \limits _{i=1}^{N}{K_{h_{\lambda }}(X_{0}, X_{i})Y(X_{i})}}{\sum \limits _{i=1}^{N}{K_{h_{\lambda }}(X_{0},X_{i})} }}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
где:
- N — количество наблюдаемых точек
- Y ( X i ) — наблюдения в точках X i .
В следующих разделах мы опишем некоторые частные случаи сглаживателей ядра.
Гауссово ядро более гладкое
Ядро Гаусса является одним из наиболее широко используемых ядер и выражается уравнением, приведенным ниже.
![{\displaystyle K(x^{*},x_{i})=\exp \left(- {\frac {(x^{*}-x_{i})^{2}}{2b^{2} }}\верно)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Здесь b — масштаб входного пространства.
Ближайший сосед более плавный
Идея сглаживания ближайшего соседа заключается в следующем. Для каждой точки X 0 возьмите m ближайших соседей и оцените значение Y ( X 0 ) путем усреднения значений этих соседей.
Формально , где – m -й ближайший к X 0 сосед, а![{\displaystyle h_{m}(X_{0})=\left\|X_{0}-X_{[m]}\right\|}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle X_{[м]}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle D(t)={\begin{cases}1/m&{\text{if }}|t|\leq 1\\0& {\text{иначе}}\end{cases}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Пример:
![](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
В этом примере X является одномерным. Для каждого X 0 это среднее значение, равное 16 ближайшим к X 0 точкам (обозначено красным).![{\displaystyle {\hat {Y}}(X_{0})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Ядро в среднем более плавное
Идея сглаживания среднего ядра заключается в следующем. Для каждой точки данных X 0 выберите постоянный размер расстояния λ (радиус ядра или ширину окна для измерения p = 1) и вычислите средневзвешенное значение для всех точек данных, которые ближе, чем к X 0 (чем ближе к X 0 точки получить больший вес).![{\displaystyle \lambda }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Формально и D ( t ) — одно из популярных ядер.![{\displaystyle h_{\lambda }(X_{0})=\lambda = {\text{константа}},}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Пример:
![](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Для каждого X 0 ширина окна постоянна, а вес каждой точки окна схематически обозначен желтой цифрой на графике. Видно, что оценка гладкая, но граничные точки смещены. Причиной тому является неодинаковое количество точек (справа и слева от X 0 ) в окне, когда X 0 находится достаточно близко к границе.
Локальная линейная регрессия
В двух предыдущих разделах мы предполагали, что базовая функция Y(X) является локально постоянной, поэтому мы смогли использовать для оценки средневзвешенное значение. Идея локальной линейной регрессии состоит в том, чтобы локально соответствовать прямой линии (или гиперплоскости для более высоких измерений), а не константе (горизонтальной линии). После подгонки линии оценка осуществляется по значению этой линии в точке X 0 . Повторив эту процедуру для каждого X0 , можно получить оценочную функцию . Как и в предыдущем разделе, ширина окна постоянна.
Формально локальная линейная регрессия вычисляется путем решения взвешенной задачи наименьших квадратов.![{\displaystyle {\hat {Y}}(X_{0})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\hat {Y}}(X)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle h_{\lambda }(X_{0})=\lambda = {\text{константа}}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Для одного измерения ( p = 1):
![{\displaystyle {\begin{aligned}&\min _{\alpha (X_{0}),\beta (X_{0})}\sum \limits _{i=1}^{N}{K_{h_ {\lambda }}(X_{0},X_{i})\left(Y(X_{i})-\alpha (X_{0})-\beta (X_{0})X_{i}\right )^{2}}\\&\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\ ,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\ ,\,\,\,\Кнопка "Стрелка вниз \\&\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\, \,\,\,\,\,\,{\hat {Y}}(X_{0})=\alpha (X_{0})+\beta (X_{0})X_{0}\\\ конец {выровнено}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Решение в закрытой форме определяется следующим образом:
![{\displaystyle {\hat {Y}}(X_{0})=\left(1,X_{0}\right)\left(B^{T}W(X_{0})B\right)^{ -1}B^{T}W(X_{0})y}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
где:
![{\displaystyle y=\left(Y(X_{1}),\dots,Y(X_{N})\right)^{T}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle W(X_{0})=\operatorname {diag} \left(K_{h_{\lambda }}(X_{0},X_{i})\right)_{N\times N}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle B^{T}=\left({\begin{matrix}1&1&\dots &1\\X_{1}&X_{2}&\dots &X_{N}\\\end{matrix}}\right) }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Пример:
![](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Полученная функция является гладкой, и проблема со смещенными граничными точками уменьшается.
Локальную линейную регрессию можно применять к любому размерному пространству, хотя вопрос о том, что такое локальная окрестность, становится более сложным. Обычно используется k ближайших точек обучения к контрольной точке, чтобы соответствовать локальной линейной регрессии. Это может привести к высокой дисперсии подобранной функции. Чтобы ограничить дисперсию, набор обучающих точек должен содержать тестовую точку в своей выпуклой оболочке (см. ссылку Гупта и др.).
Локальная полиномиальная регрессия
Вместо подгонки локально линейных функций можно подогнать полиномиальные функции.
При p=1 следует минимизировать:
![{\displaystyle {\underset {\alpha (X_{0}),\beta _{j}(X_{0}),j=1,...,d}{\mathop {\min } }}\, \sum \limits _{i=1}^{N}{K_{h_{\lambda }}(X_{0},X_{i})\left(Y(X_{i})-\alpha (X_{ 0})-\sum \limits _{j=1}^{d}{\beta _{j}(X_{0})X_{i}^{j}}\right)^{2}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
с![{\displaystyle {\hat {Y}}(X_{0})=\alpha (X_{0})+\sum \limits _{j=1}^{d}{\beta _{j}(X_{ 0})X_{0}^{j}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
В общем случае (p>1) следует минимизировать:
![{\displaystyle {\begin{aligned}&{\hat {\beta }}(X_{0})={\underset {\beta (X_{0})}{\mathop {\arg \min } }}\ ,\sum \limits _{i=1}^{N}{K_{h_{\lambda }}(X_{0},X_{i})\left(Y(X_{i})-b(X_{ i})^{T}\beta (X_{0})\right)}^{2}\\&b(X)=\left({\begin{matrix}1,&X_{1},&X_{2} ,...&X_{1}^{2},&X_{2}^{2},...&X_{1}X_{2}\,\,\,...\\\end{matrix}} \right)\\&{\hat {Y}}(X_{0})=b(X_{0})^{T}{\hat {\beta }}(X_{0})\\\end{ выровнено}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Смотрите также
Рекомендации
- Ли, К. и Дж. С. Расин. Непараметрическая эконометрика: теория и практика . Издательство Принстонского университета, 2007, ISBN 0-691-12161-3 .
- Т. Хасти, Р. Тибширани и Дж. Фридман, «Элементы статистического обучения» , глава 6, Springer, 2001. ISBN 0-387-95284-5 (сайт сопутствующей книги).
- М. Гупта, Э. Гарсия и Э. Чин, «Адаптивная локальная линейная регрессия с применением к управлению цветом принтера», IEEE Trans. Обработка изображений 2008.