Регрессия хребта

Гребневая регрессия — это метод оценки коэффициентов моделей множественной регрессии в сценариях, где независимые переменные сильно коррелируют. ^[1] Он использовался во многих областях, включая эконометрику, химию и инженерию. ^[2] Также известный как регуляризация Тихонова , названный в честь Андрея Тихонова , это метод регуляризации некорректно поставленных задач . ^[a] Он особенно полезен для смягчения проблемы мультиколлинеарности в линейной регрессии , которая обычно возникает в моделях с большим количеством параметров. ^[3] В целом, метод обеспечивает повышенную эффективность в задачах оценки параметров в обмен на приемлемое количество смещения (см. компромисс смещения и дисперсии ). ^[4]

Теория была впервые представлена Хёрлом и Кеннардом в 1970 году в их работах в журнале Technometrics «Регрессии хребтов: смещенная оценка неортогональных задач» и «Регрессии хребтов: применение в неортогональных задачах». ^[5]^[6]^[1] Это стало результатом десятилетних исследований в области анализа хребтов. ^[7]

Регрессия гребня была разработана как возможное решение проблемы неточности оценок наименьших квадратов, когда линейные регрессионные модели имеют некоторые мультиколлинеарные (высококоррелированные) независимые переменные — путем создания оценки регрессии гребня (RR). Это обеспечивает более точную оценку параметров гребня, поскольку ее дисперсия и оценка среднего квадрата часто меньше, чем оценки наименьших квадратов, полученные ранее. ^[8]^[2]

Обзор

В простейшем случае проблема почти сингулярной матрицы моментов облегчается добавлением положительных элементов к диагоналям , тем самым уменьшая ее число обусловленности . Аналогично обычной оценке наименьших квадратов , простая оценка гребня затем задается как где — регрессанд , — матрица дизайна , — единичная матрица , а параметр гребня служит константой, сдвигающей диагонали матрицы моментов. ^[9] Можно показать, что эта оценка является решением задачи наименьших квадратов при ограничении , которое можно выразить как лагранжиан: что показывает, что — не что иное, как множитель Лагранжа ограничения. ^[10] Обычно выбирается в соответствии с эвристическим критерием, так что ограничение не будет удовлетворено точно. В частности, в случае , в котором ограничение не является обязательным , оценка гребня сводится к обычной оценке наименьших квадратов . Более общий подход к регуляризации Тихонова обсуждается ниже. $\mathbf {X} ^{\mathsf {T}}\mathbf {X}$ ${\hat {\beta }}_{R}=\left(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +\lambda \mathbf {I} \right)^{ -1}\mathbf {X} ^{\mathsf {T}}\mathbf {y}$ $\mathbf {y}$ $\mathbf {X}$ $\mathbf {Я}$ $\lambda \geq 0$ $\beta ^{\mathsf {T}}\beta =c$ $\min _{\beta }\,\left(\mathbf {y} -\mathbf {X} \beta \right)^{\mathsf {T}}\left(\mathbf {y} -\mathbf {X} \beta \right)+\lambda \left(\beta ^{\mathsf {T}}\beta -c\right)$ $\лямбда$ $\лямбда$ $\лямбда =0$

История

Регуляризация Тихонова была изобретена независимо во многих различных контекстах. Она стала широко известна благодаря ее применению к интегральным уравнениям в работах Андрея Тихонова ^[11]^[12]^[13]^[14]^[15] и Дэвида Л. Филлипса. ^[16] Некоторые авторы используют термин регуляризация Тихонова–Филлипса . Конечномерный случай был изложен Артуром Э. Хёрлом, который использовал статистический подход, ^[17] и Манусом Фостером, который интерпретировал этот метод как фильтр Винера–Колмогорова (Кригинг) . ^[18] После Хёрла она известна в статистической литературе как гребневая регрессия, ^[19] названная в честь гребневого анализа («гребень» относится к пути от ограниченного максимума). ^[20]

Регуляризация Тихонова

Предположим, что для известной действительной матрицы и вектора мы хотим найти вектор такой, что и могут быть разных размеров и не быть квадратными. $А$ $\mathbf {б}$ $\mathbf {x}$ $A\mathbf {x} =\mathbf {b},$ $\mathbf {x}$ $\mathbf {б}$ $А$

Стандартный подход — это линейная регрессия с использованием обычного метода наименьших квадратов . ^{[ необходимо разъяснение ]} Однако, если ни один из них не удовлетворяет уравнению или удовлетворяет более чем одному — то есть решение не является единственным — говорят, что задача некорректно поставлена . В таких случаях оценка обычного метода наименьших квадратов приводит к переопределенной или, что чаще всего, к недоопределенной системе уравнений. Большинство явлений реального мира имеют эффект фильтров нижних частот ^[^{необходимо разъяснение}^] в прямом направлении, где отображается в . Поэтому при решении обратной задачи обратное отображение действует как фильтр верхних частот , который имеет нежелательную тенденцию к усилению шума ( собственные значения / сингулярные значения являются наибольшими в обратном отображении, тогда как они были наименьшими в прямом отображении). Кроме того, обычный метод наименьших квадратов неявно сводит на нет каждый элемент реконструированной версии , который находится в нулевом пространстве , вместо того, чтобы позволить использовать модель в качестве априорной для . Метод наименьших квадратов стремится минимизировать сумму квадратов остатков , что можно компактно записать в виде , где — евклидова норма . $\mathbf {x}$ $\mathbf {x}$ $А$ $\mathbf {x}$ $\mathbf {б}$ $\mathbf {x}$ $А$ $\mathbf {x}$ $\left\|A\mathbf {x} -\mathbf {b} \right\|_{2}^{2},$ $\|\cdot \|_{2}$

Чтобы отдать предпочтение конкретному решению с желаемыми свойствами, в эту минимизацию можно включить член регуляризации: для некоторой подходящим образом выбранной матрицы Тихонова . Во многих случаях эта матрица выбирается как скалярное множитель единичной матрицы ( ), отдавая предпочтение решениям с меньшими нормами ; это известно как регуляризация $L$ $2$ . ^[21] В других случаях операторы высоких частот (например, оператор разности или взвешенный оператор Фурье ) могут использоваться для обеспечения гладкости, если предполагается, что базовый вектор в основном непрерывен. Эта регуляризация улучшает обусловленность задачи, тем самым позволяя получить прямое численное решение. Явное решение, обозначаемое , задается как Эффект регуляризации может варьироваться в зависимости от масштаба матрицы . Для это сводится к нерегуляризованному решению наименьших квадратов при условии, что существует ( A ^TA ) ⁻¹ . Обратите внимание, что в случае комплексной матрицы , как обычно, транспонирование должно быть заменено эрмитовой матрицей . $\left\|A\mathbf {x} -\mathbf {b} \right\|_{2}^{2}+\left\|\Gamma \mathbf {x} \right\|_{2 }^{2}$ $\Гамма$ $\Гамма =\альфа I$ ${\hat {x}}$ ${\hat {x}}=\left(A^{\mathsf {T}}A+\Gamma ^{\mathsf {T}}\Gamma \right)^{-1}A^{\mathsf {T}}\mathbf {b} .$ $\Gamma$ $\Gamma =0$ $A$ $A^{\mathsf {T}}$ $A^{\mathsf {H}}$

$Регуляризация L 2$ используется во многих контекстах помимо линейной регрессии, таких как классификация с логистической регрессией или машинами опорных векторов ^[22] иматричной факторизацией.^[23]

Применение к существующим результатам подгонки

Поскольку регуляризация Тихонова просто добавляет квадратичный член к целевой функции в задачах оптимизации, это можно сделать после того, как нерегуляризованная оптимизация уже имела место. Например, если указанная выше задача с дает решение , то решение при наличии может быть выражено как: с «матрицей регуляризации» . $\Gamma =0$ ${\hat {x}}_{0}$ $\Gamma \neq 0$ ${\hat {x}}=B{\hat {x}}_{0},$ $B=\left(A^{\mathsf {T}}A+\Gamma ^{\mathsf {T}}\Gamma \right)^{-1}A^{\mathsf {T}}A$

Если параметрическая подгонка сопровождается ковариационной матрицей оцененных неопределенностей параметров , то регуляризационная матрица будет иметь вид и регуляризированный результат будет иметь новую ковариацию $V_{0}$ $B=(V_{0}^{-1}+\Gamma ^{\mathsf {T}}\Gamma )^{-1}V_{0}^{-1},$ $V=BV_{0}B^{\mathsf {T}}.$

В контексте произвольных приближений правдоподобия это справедливо, пока квадратичное приближение функции правдоподобия справедливо. Это означает, что пока возмущение от нерегуляризованного результата мало, можно регуляризовать любой результат, представленный как точка наилучшего соответствия с ковариационной матрицей. Не требуется никаких подробных знаний базовой функции правдоподобия. ^[24]

Обобщенная регуляризация Тихонова

Для общих многомерных нормальных распределений для и погрешности данных можно применить преобразование переменных для сведения к случаю выше. Эквивалентно, можно искать для минимизации , где мы использовали для обозначения квадрата взвешенной нормы (сравните с расстоянием Махаланобиса ). В байесовской интерпретации — обратная ковариационная матрица , — ожидаемое значение , а — обратная ковариационная матрица . Матрица Тихонова затем задается как факторизация матрицы (например, факторизация Холецкого ) и считается отбеливающим фильтром . $\mathbf {x}$ $\mathbf {x}$ $\left\|A\mathbf {x} -\mathbf {b} \right\|_{P}^{2}+\left\|\mathbf {x} -\mathbf {x} _{0}\right\|_{Q}^{2},$ $\left\|\mathbf {x} \right\|_{Q}^{2}$ $\mathbf {x} ^{\mathsf {T}}Q\mathbf {x}$ $P$ $\mathbf {b}$ $\mathbf {x} _{0}$ $\mathbf {x}$ $Q$ $\mathbf {x}$ $Q=\Gamma ^{\mathsf {T}}\Gamma$

Эта обобщенная задача имеет оптимальное решение , которое можно записать явно с помощью формулы или эквивалентно, когда Q не является нулевой матрицей: $\mathbf {x} ^{*}$ $\mathbf {x} ^{*}=\left(A^{\mathsf {T}}PA+Q\right)^{-1}\left(A^{\mathsf {T}}P\mathbf {b} +Q\mathbf {x} _{0}\right),$ $\mathbf {x} ^{*}=\mathbf {x} _{0}+\left(A^{\mathsf {T}}PA+Q\right)^{-1}\left(A^{\mathsf {T}}P\left(\mathbf {b} -A\mathbf {x} _{0}\right)\right).$

Регуляризация Лаврентьева

В некоторых ситуациях можно избежать использования транспонирования , как предложил Михаил Лаврентьев . ^[25] Например, если симметрично положительно определено, т.е. , то таково и его обратное , которое, таким образом, может быть использовано для установления квадрата весовой нормы в обобщенной регуляризации Тихонова, что приводит к минимизации или, что эквивалентно, к постоянному члену, $A^{\mathsf {T}}$ $A$ $A=A^{\mathsf {T}}>0$ $A^{-1}$ $\left\|\mathbf {x} \right\|_{P}^{2}=\mathbf {x} ^{\mathsf {T}}A^{-1}\mathbf {x}$ $\left\|A\mathbf {x} -\mathbf {b} \right\|_{A^{-1}}^{2}+\left\|\mathbf {x} -\mathbf {x} _{0}\right\|_{Q}^{2}$ $\mathbf {x} ^{\mathsf {T}}\left(A+Q\right)\mathbf {x} -2\mathbf {x} ^{\mathsf {T}}\left(\mathbf {b} +Q\mathbf {x} _{0}\right).$

Эта задача минимизации имеет оптимальное решение , которое можно явно записать с помощью формулы , которая есть не что иное, как решение обобщенной задачи Тихонова, где $\mathbf {x} ^{*}$ $\mathbf {x} ^{*}=\left(A+Q\right)^{-1}\left(\mathbf {b} +Q\mathbf {x} _{0}\right),$ $A=A^{\mathsf {T}}=P^{-1}.$

Регуляризация Лаврентьева, если она применима, имеет преимущество перед исходной регуляризацией Тихонова, поскольку матрица Лаврентьева может быть лучше обусловлена, т.е. иметь меньшее число обусловленности , по сравнению с матрицей Тихонова. $A+Q$ $A^{\mathsf {T}}A+\Gamma ^{\mathsf {T}}\Gamma .$

Регуляризация в гильбертовом пространстве

Обычно дискретные линейные плохо обусловленные задачи возникают в результате дискретизации интегральных уравнений , и можно сформулировать регуляризацию Тихонова в исходном бесконечномерном контексте. В приведенном выше примере мы можем интерпретировать как компактный оператор в гильбертовых пространствах , и как элементы в области и области определения . Тогда оператор является самосопряженным ограниченным обратимым оператором. $A$ $x$ $b$ $A$ $A^{*}A+\Gamma ^{\mathsf {T}}\Gamma$

Связь с сингулярным разложением и фильтром Винера

При , это решение наименьших квадратов может быть проанализировано особым образом с использованием разложения по сингулярным значениям . Учитывая разложение по сингулярным значениям с сингулярными значениями , регуляризованное по Тихонову решение может быть выражено как , где имеет диагональные значения и равно нулю в других местах. Это демонстрирует влияние параметра Тихонова на число обусловленности регуляризованной задачи. Для обобщенного случая аналогичное представление может быть получено с использованием обобщенного разложения по сингулярным значениям . ^[26] $\Gamma =\alpha I$ $A=U\Sigma V^{\mathsf {T}}$ $\sigma _{i}$ ${\hat {x}}=VDU^{\mathsf {T}}b,$ $D$ $D_{ii}={\frac {\sigma _{i}}{\sigma _{i}^{2}+\alpha ^{2}}}$

Наконец, это связано с фильтром Винера : где веса Винера равны , а — ранг . ${\hat {x}}=\sum _{i=1}^{q}f_{i}{\frac {u_{i}^{\mathsf {T}}b}{\sigma _{i}}}v_{i},$ $f_{i}={\frac {\sigma _{i}^{2}}{\sigma _{i}^{2}+\alpha ^{2}}}$ $q$ $A$

Определение коэффициента Тихонова

Оптимальный параметр регуляризации обычно неизвестен и часто в практических задачах определяется методом ad hoc . Возможный подход основан на байесовской интерпретации, описанной ниже. Другие подходы включают принцип расхождения, перекрестную проверку , метод L-кривой, ^[27]ограниченное максимальное правдоподобие и несмещенную предсказательную оценку риска. Грейс Вахба доказала, что оптимальный параметр в смысле перекрестной проверки с исключением одного минимизирует ^[28]^[29] где — остаточная сумма квадратов , а — эффективное число степеней свободы . $\alpha$ $G={\frac {\operatorname {RSS} }{\tau ^{2}}}={\frac {\left\|X{\hat {\beta }}-y\right\|^{2}}{\left[\operatorname {Tr} \left(I-X\left(X^{\mathsf {T}}X+\alpha ^{2}I\right)^{-1}X^{\mathsf {T}}\right)\right]^{2}}},$ $\operatorname {RSS}$ $\tau$

Используя предыдущее разложение SVD, мы можем упростить приведенное выше выражение: и $\operatorname {RSS} =\left\|y-\sum _{i=1}^{q}(u_{i}'b)u_{i}\right\|^{2}+\left\|\sum _{i=1}^{q}{\frac {\alpha ^{2}}{\sigma _{i}^{2}+\alpha ^{2}}}(u_{i}'b)u_{i}\right\|^{2},$ $\operatorname {RSS} =\operatorname {RSS} _{0}+\left\|\sum _{i=1}^{q}{\frac {\alpha ^{2}}{\sigma _{i}^{2}+\alpha ^{2}}}(u_{i}'b)u_{i}\right\|^{2},$ $\tau =m-\sum _{i=1}^{q}{\frac {\sigma _{i}^{2}}{\sigma _{i}^{2}+\alpha ^{2}}}=m-q+\sum _{i=1}^{q}{\frac {\alpha ^{2}}{\sigma _{i}^{2}+\alpha ^{2}}}.$

Отношение к вероятностной формулировке

Вероятностная формулировка обратной задачи вводит (когда все неопределенности являются гауссовыми) ковариационную матрицу, представляющую априорные неопределенности параметров модели, и ковариационную матрицу, представляющую неопределенности наблюдаемых параметров. ^[30] В частном случае, когда эти две матрицы диагональны и изотропны, и , и в этом случае уравнения обратной теории сводятся к уравнениям выше, с . $C_{M}$ $C_{D}$ $C_{M}=\sigma _{M}^{2}I$ $C_{D}=\sigma _{D}^{2}I$ $\alpha ={\sigma _{D}}/{\sigma _{M}}$

Байесовская интерпретация

Хотя на первый взгляд выбор решения этой регуляризованной задачи может выглядеть искусственным, и действительно матрица кажется довольно произвольной, процесс может быть оправдан с байесовской точки зрения . ^[31] Обратите внимание, что для некорректно поставленной задачи необходимо обязательно ввести некоторые дополнительные предположения, чтобы получить единственное решение. Статистически априорное распределение вероятностей иногда принимается за многомерное нормальное распределение . Для простоты здесь сделаны следующие предположения: средние значения равны нулю; их компоненты независимы; компоненты имеют одинаковое стандартное отклонение . Данные также подвержены ошибкам, и ошибки в также предполагаются независимыми с нулевым средним и стандартным отклонением . При этих предположениях регуляризованное по Тихонову решение является наиболее вероятным решением с учетом данных и априорного распределения , согласно теореме Байеса . ^[32] $\Gamma$ $x$ $\sigma _{x}$ $b$ $\sigma _{b}$ $x$

Если предположение о нормальности заменить предположениями о гомоскедастичности и некоррелированности ошибок , и если по-прежнему предполагать нулевое среднее значение, то теорема Гаусса-Маркова подразумевает, что решение представляет собой минимальную несмещенную линейную оценку . ^[33]

Смотрите также

Оценка LASSO — еще один метод регуляризации в статистике.
Эластичная сетевая регуляризация
Матричная регуляризация

Примечания

^ В статистике этот метод известен как гребневая регрессия , в машинном обучении он и его модификации известны как весовой распад , и с несколькими независимыми открытиями он также известен как метод Тихонова–Миллера , метод Филлипса–Твоми , метод ограниченной линейной инверсии , регуляризация $L 2$ и метод линейной регуляризации . Он связан с алгоритмом Левенберга–Марквардта для нелинейных задач наименьших квадратов.

Ссылки

^ ab Хилт, Дональд Э.; Сигрист, Дональд В. (1977). Ridge, компьютерная программа для расчета оценок регрессии гребня. doi :10.5962/bhl.title.68934.^{[ нужна страница ]}
^ ab Gruber, Marvin (1998). Повышение эффективности за счет сокращения: оценки регрессии Джеймса--Стейна и гребня. CRC Press. стр. 2. ISBN 978-0-8247-0156-7.
^ Кеннеди, Питер (2003). Руководство по эконометрике (Пятое изд.). Кембридж: The MIT Press. С. 205–206. ISBN 0-262-61183-X.
^ Грубер, Марвин (1998). Повышение эффективности за счет сокращения: оценки регрессии Джеймса–Стейна и гребня. Бока-Ратон: CRC Press. стр. 7–15. ISBN 0-8247-0156-9.
^ Hoerl, Arthur E.; Kennard, Robert W. (1970). «Ridge Regression: Biased Estimation for Nonorthogonal Problems». Technometrics . 12 (1): 55–67. doi :10.2307/1267351. JSTOR 1267351.
^ Hoerl, Arthur E.; Kennard, Robert W. (1970). «Ridge Regression: Applications to Nonorthogonal Problems». Technometrics . 12 (1): 69–82. doi :10.2307/1267352. JSTOR 1267352.
^ Бек, Джеймс Вере; Арнольд, Кеннет Дж. (1977). Оценка параметров в инженерии и науке. Джеймс Бек. стр. 287. ISBN 978-0-471-06118-2.
^ Джоллифф, IT (2006). Анализ главных компонент. Springer Science & Business Media. стр. 178. ISBN 978-0-387-22440-4.
^ О выборе на практике см. Khalaf, Ghadban; Shukur, Ghazi (2005). «Выбор параметра хребта для задач регрессии». Communications in Statistics – Theory and Methods . 34 (5): 1177–1182. doi :10.1081/STA-200056836. S2CID 122983724. $\lambda$
^ ван Виринген, Вессель (31 мая 2021 г.). «Конспекты лекций по гребневой регрессии». arXiv : 1509.09169 [stat.ME].
^ Тихонов, Андрей Николаевич (1943). «Об устойчивости обратных задач». Доклады Академии наук СССР . 39 (5): 195–198. Архивировано из оригинала 27 февраля 2005 г.
^ Тихонов, А.Н. (1963). «Об обеспечении некорректно поставленных задач и методе регламентации». Доклады Академии наук СССР . 151 : 501–504.. Переведено в «Решение некорректно поставленных задач и метод регуляризации». Советская математика . 4 : 1035–1038.
^ Тихонов, А. Н.; В. Я. Арсенин (1977). Решение некорректных задач . Вашингтон: Winston & Sons. ISBN 0-470-99124-0.
^ Тихонов, Андрей Николаевич; Гончарский, А.; Степанов, В.В.; Ягола, Анатолий Григорьевич (30 июня 1995 г.). Численные методы решения некорректных задач. Нидерланды: Springer Netherlands. ISBN 0-7923-3583-X. Получено 9 августа 2018 г.
^ Тихонов, Андрей Николаевич; Леонов, Александр С.; Ягола, Анатолий Григорьевич (1998). Нелинейные некорректные задачи. Лондон: Чепмен и Холл. ISBN 0-412-78660-5. Получено 9 августа 2018 г.
^ Филлипс, DL (1962). «Метод численного решения некоторых интегральных уравнений первого рода». Журнал ACM . 9 : 84–97. doi : 10.1145/321105.321114 . S2CID 35368397.
^ Hoerl, Arthur E. (1962). «Применение гребневого анализа к проблемам регрессии». Chemical Engineering Progress . 58 (3): 54–59.
^ Фостер, М. (1961). «Применение теории сглаживания Винера-Колмогорова к обращению матриц». Журнал Общества промышленной и прикладной математики . 9 (3): 387–392. doi :10.1137/0109031.
^ Hoerl, AE; RW Kennard (1970). «Регрессия хребта: смещенная оценка для неортогональных задач». Technometrics . 12 (1): 55–67. doi :10.1080/00401706.1970.10488634.
^ Hoerl, Roger W. (2020-10-01). «Регрессия хребта: исторический контекст». Technometrics . 62 (4): 420–425. doi :10.1080/00401706.2020.1742207. ISSN 0040-1706.
^ Нг, Эндрю Ю. (2004). Выбор признаков, регуляризация L1 против L2 и вращательная инвариантность (PDF) . Proc. ICML .
^ R.-E. Fan; K.-W. Chang; C.-J. Hsieh; X.-R. Wang; C.-J. Lin (2008). «LIBLINEAR: Библиотека для большой линейной классификации». Журнал исследований машинного обучения . 9 : 1871–1874.
^ Гуань, Найян; Тао, Дачэн; Ло, Чжиган; Юань, Бо (2012). «Онлайн-факторизация неотрицательных матриц с надежной стохастической аппроксимацией». Труды IEEE по нейронным сетям и системам обучения . 23 (7): 1087–1099. doi :10.1109/TNNLS.2012.2197827. PMID 24807135. S2CID 8755408.
^ Кох, Лукас (2022). "Post-hoc regularization of unfolded cross-section measurements". Журнал приборостроения . 17 (10): 10021. arXiv : 2207.02125 . Bibcode : 2022JInst..17P0021K. doi : 10.1088/1748-0221/17/10/P10021.
^ Лаврентьев, М. М. (1967). Некоторые некорректно поставленные задачи математической физики . Нью-Йорк: Springer.
^ Хансен, Пер Кристиан (1 января 1998 г.). Недостаточно ранговые и дискретные некорректные задачи: численные аспекты линейной инверсии (1-е изд.). Филадельфия, США: SIAM. ISBN 978-0-89871-403-6.
^ PC Hansen, «L-кривая и ее использование в численном решении обратных задач», [1]
^ Вахба, Г. (1990). "Сплайновые модели для данных наблюдений". Серия региональных конференций CBMS-NSF по прикладной математике . Общество промышленной и прикладной математики. Bibcode : 1990smod.conf.....W.
^ Голуб, Г.; Хит, М.; Вахба, Г. (1979). «Обобщенная кросс-валидация как метод выбора хорошего параметра гребня» (PDF) . Технометрика . 21 (2): 215–223. doi :10.1080/00401706.1979.10489751.
^ Тарантола, Альберт (2005). Теория обратных задач и методы оценки параметров модели (1-е изд.). Филадельфия: Общество промышленной и прикладной математики (SIAM). ISBN 0-89871-792-2. Получено 9 августа 2018 г.
^ Гринберг, Эдвард; Вебстер, Чарльз Э. младший (1983). Продвинутая эконометрика: мост к литературе . Нью-Йорк: John Wiley & Sons. С. 207–213. ISBN 0-471-09077-8.
^ Фогель, Кертис Р. (2002). Вычислительные методы для обратных задач . Филадельфия: Общество промышленной и прикладной математики. ISBN 0-89871-550-4.
^ Амемия, Такеши (1985). Продвинутая эконометрика . Издательство Гарвардского университета. С. 60–61. ISBN 0-674-00560-0.

Дальнейшее чтение

Грубер, Марвин (1998). Повышение эффективности за счет сокращения: оценки регрессии Джеймса–Стейна и гребня. Бока-Ратон: CRC Press. ISBN 0-8247-0156-9.
Кресс, Райнер (1998). «Регуляризация Тихонова». Численный анализ . Нью-Йорк: Springer. С. 86–90. ISBN 0-387-98408-9.
Press, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007). "Раздел 19.5. Методы линейной регуляризации". Numerical Recipes: The Art of Scientific Computing (3-е изд.). Нью-Йорк: Cambridge University Press. ISBN 978-0-521-88068-8.
Салех, А. К. М. Эхсанес; Араши, Мохаммад; Кибрия, Б. М. Голам (2019). Теория оценки гребневой регрессии с приложениями. Нью-Йорк: John Wiley & Sons. ISBN 978-1-118-64461-4.
Тэдди, Мэтт (2019). «Регуляризация». Business Data Science: Объединение машинного обучения и экономики для оптимизации, автоматизации и ускорения принятия бизнес-решений . Нью-Йорк: McGraw-Hill. С. 69–104. ISBN 978-1-260-45277-8.