Метод регуляризации для некорректно поставленных задач
Гребневая регрессия — это метод оценки коэффициентов моделей множественной регрессии в сценариях, где независимые переменные сильно коррелируют. [1] Он использовался во многих областях, включая эконометрику, химию и инженерию. [2] Также известный как регуляризация Тихонова , названный в честь Андрея Тихонова , это метод регуляризации некорректно поставленных задач . [a] Он особенно полезен для смягчения проблемы мультиколлинеарности в линейной регрессии , которая обычно возникает в моделях с большим количеством параметров. [3] В целом, метод обеспечивает повышенную эффективность в задачах оценки параметров в обмен на приемлемое количество смещения (см. компромисс смещения и дисперсии ). [4]
Теория была впервые представлена Хёрлом и Кеннардом в 1970 году в их работах в журнале Technometrics «Регрессии хребтов: смещенная оценка неортогональных задач» и «Регрессии хребтов: применение в неортогональных задачах». [5] [6] [1] Это стало результатом десятилетних исследований в области анализа хребтов. [7]
Регрессия гребня была разработана как возможное решение проблемы неточности оценок наименьших квадратов, когда линейные регрессионные модели имеют некоторые мультиколлинеарные (высококоррелированные) независимые переменные — путем создания оценки регрессии гребня (RR). Это обеспечивает более точную оценку параметров гребня, поскольку ее дисперсия и оценка среднего квадрата часто меньше, чем оценки наименьших квадратов, полученные ранее. [8] [2]
Обзор
В простейшем случае проблема почти сингулярной матрицы моментов облегчается добавлением положительных элементов к диагоналям , тем самым уменьшая ее число обусловленности . Аналогично обычной оценке наименьших квадратов , простая оценка гребня затем задается как
где — регрессанд , — матрица дизайна , — единичная матрица , а параметр гребня служит константой, сдвигающей диагонали матрицы моментов. [9] Можно показать, что эта оценка является решением задачи наименьших квадратов при ограничении , которое можно выразить как лагранжиан:
что показывает, что — не что иное, как множитель Лагранжа ограничения. [10] Обычно выбирается в соответствии с эвристическим критерием, так что ограничение не будет удовлетворено точно. В частности, в случае , в котором ограничение не является обязательным , оценка гребня сводится к обычной оценке наименьших квадратов . Более общий подход к регуляризации Тихонова обсуждается ниже.
История
Регуляризация Тихонова была изобретена независимо во многих различных контекстах. Она стала широко известна благодаря ее применению к интегральным уравнениям в работах Андрея Тихонова [11] [12] [13] [14] [15] и Дэвида Л. Филлипса. [16] Некоторые авторы используют термин регуляризация Тихонова–Филлипса . Конечномерный случай был изложен Артуром Э. Хёрлом, который использовал статистический подход, [17] и Манусом Фостером, который интерпретировал этот метод как фильтр Винера–Колмогорова (Кригинг) . [18] После Хёрла она известна в статистической литературе как гребневая регрессия, [19] названная в честь гребневого анализа («гребень» относится к пути от ограниченного максимума). [20]
Регуляризация Тихонова
Предположим, что для известной действительной матрицы и вектора мы хотим найти вектор такой, что
и могут быть разных размеров и не быть квадратными.
Стандартный подход — это линейная регрессия с использованием обычного метода наименьших квадратов . [ необходимо разъяснение ] Однако, если ни один из них не удовлетворяет уравнению или удовлетворяет более чем одному — то есть решение не является единственным — говорят, что задача некорректно поставлена . В таких случаях оценка обычного метода наименьших квадратов приводит к переопределенной или, что чаще всего, к недоопределенной системе уравнений. Большинство явлений реального мира имеют эффект фильтров нижних частот [ необходимо разъяснение ] в прямом направлении, где отображается в . Поэтому при решении обратной задачи обратное отображение действует как фильтр верхних частот , который имеет нежелательную тенденцию к усилению шума ( собственные значения / сингулярные значения являются наибольшими в обратном отображении, тогда как они были наименьшими в прямом отображении). Кроме того, обычный метод наименьших квадратов неявно сводит на нет каждый элемент реконструированной версии , который находится в нулевом пространстве , вместо того, чтобы позволить использовать модель в качестве априорной для . Метод наименьших квадратов стремится минимизировать сумму квадратов остатков , что можно компактно записать в виде ,
где — евклидова норма .
Чтобы отдать предпочтение конкретному решению с желаемыми свойствами, в эту минимизацию можно включить член регуляризации:
для некоторой подходящим образом выбранной матрицы Тихонова . Во многих случаях эта матрица выбирается как скалярное множитель единичной матрицы ( ), отдавая предпочтение решениям с меньшими нормами ; это известно как регуляризация L 2 . [21] В других случаях операторы высоких частот (например, оператор разности или взвешенный оператор Фурье ) могут использоваться для обеспечения гладкости, если предполагается, что базовый вектор в основном непрерывен. Эта регуляризация улучшает обусловленность задачи, тем самым позволяя получить прямое численное решение. Явное решение, обозначаемое , задается как
Эффект регуляризации может варьироваться в зависимости от масштаба матрицы . Для это сводится к нерегуляризованному решению наименьших квадратов при условии, что существует ( A T A ) −1 . Обратите внимание, что в случае комплексной матрицы , как обычно, транспонирование должно быть заменено эрмитовой матрицей .
Регуляризация L 2 используется во многих контекстах помимо линейной регрессии, таких как классификация с логистической регрессией или машинами опорных векторов [22] иматричной факторизацией. [23]
Применение к существующим результатам подгонки
Поскольку регуляризация Тихонова просто добавляет квадратичный член к целевой функции в задачах оптимизации, это можно сделать после того, как нерегуляризованная оптимизация уже имела место. Например, если указанная выше задача с дает решение , то решение при наличии может быть выражено как:
с «матрицей регуляризации» .
Если параметрическая подгонка сопровождается ковариационной матрицей оцененных неопределенностей параметров , то регуляризационная матрица будет иметь вид
и регуляризированный результат будет иметь новую ковариацию
В контексте произвольных приближений правдоподобия это справедливо, пока квадратичное приближение функции правдоподобия справедливо. Это означает, что пока возмущение от нерегуляризованного результата мало, можно регуляризовать любой результат, представленный как точка наилучшего соответствия с ковариационной матрицей. Не требуется никаких подробных знаний базовой функции правдоподобия. [24]
Обобщенная регуляризация Тихонова
Для общих многомерных нормальных распределений для и погрешности данных можно применить преобразование переменных для сведения к случаю выше. Эквивалентно, можно искать для минимизации
, где мы использовали для обозначения квадрата взвешенной нормы (сравните с расстоянием Махаланобиса ). В байесовской интерпретации — обратная ковариационная матрица , — ожидаемое значение , а — обратная ковариационная матрица . Матрица Тихонова затем задается как факторизация матрицы (например, факторизация Холецкого ) и считается отбеливающим фильтром .
Эта обобщенная задача имеет оптимальное решение , которое можно записать явно с помощью формулы
или эквивалентно, когда Q не является нулевой матрицей:
Регуляризация Лаврентьева
В некоторых ситуациях можно избежать использования транспонирования , как предложил Михаил Лаврентьев . [25] Например, если симметрично положительно определено, т.е. , то таково и его обратное , которое, таким образом, может быть использовано для установления квадрата весовой нормы в обобщенной регуляризации Тихонова, что приводит к минимизации
или, что эквивалентно, к постоянному члену,
Эта задача минимизации имеет оптимальное решение , которое можно явно записать с помощью формулы
, которая есть не что иное, как решение обобщенной задачи Тихонова, где
Регуляризация Лаврентьева, если она применима, имеет преимущество перед исходной регуляризацией Тихонова, поскольку матрица Лаврентьева может быть лучше обусловлена, т.е. иметь меньшее число обусловленности , по сравнению с матрицей Тихонова.
Регуляризация в гильбертовом пространстве
Обычно дискретные линейные плохо обусловленные задачи возникают в результате дискретизации интегральных уравнений , и можно сформулировать регуляризацию Тихонова в исходном бесконечномерном контексте. В приведенном выше примере мы можем интерпретировать как компактный оператор в гильбертовых пространствах , и как элементы в области и области определения . Тогда оператор является самосопряженным ограниченным обратимым оператором.
Связь с сингулярным разложением и фильтром Винера
При , это решение наименьших квадратов может быть проанализировано особым образом с использованием разложения по сингулярным значениям . Учитывая разложение по сингулярным значениям
с сингулярными значениями , регуляризованное по Тихонову решение может быть выражено как
, где имеет диагональные значения
и равно нулю в других местах. Это демонстрирует влияние параметра Тихонова на число обусловленности регуляризованной задачи. Для обобщенного случая аналогичное представление может быть получено с использованием обобщенного разложения по сингулярным значениям . [26]
Наконец, это связано с фильтром Винера :
где веса Винера равны , а — ранг .
Определение коэффициента Тихонова
Оптимальный параметр регуляризации обычно неизвестен и часто в практических задачах определяется методом ad hoc . Возможный подход основан на байесовской интерпретации, описанной ниже. Другие подходы включают принцип расхождения, перекрестную проверку , метод L-кривой, [27] ограниченное максимальное правдоподобие и несмещенную предсказательную оценку риска. Грейс Вахба доказала, что оптимальный параметр в смысле перекрестной проверки с исключением одного минимизирует [28] [29]
где — остаточная сумма квадратов , а — эффективное число степеней свободы .
Используя предыдущее разложение SVD, мы можем упростить приведенное выше выражение:
и
Отношение к вероятностной формулировке
Вероятностная формулировка обратной задачи вводит (когда все неопределенности являются гауссовыми) ковариационную матрицу, представляющую априорные неопределенности параметров модели, и ковариационную матрицу, представляющую неопределенности наблюдаемых параметров. [30] В частном случае, когда эти две матрицы диагональны и изотропны, и , и в этом случае уравнения обратной теории сводятся к уравнениям выше, с .
Байесовская интерпретация
Хотя на первый взгляд выбор решения этой регуляризованной задачи может выглядеть искусственным, и действительно матрица кажется довольно произвольной, процесс может быть оправдан с байесовской точки зрения . [31] Обратите внимание, что для некорректно поставленной задачи необходимо обязательно ввести некоторые дополнительные предположения, чтобы получить единственное решение. Статистически априорное распределение вероятностей иногда принимается за многомерное нормальное распределение . Для простоты здесь сделаны следующие предположения: средние значения равны нулю; их компоненты независимы; компоненты имеют одинаковое стандартное отклонение . Данные также подвержены ошибкам, и ошибки в также предполагаются независимыми с нулевым средним и стандартным отклонением . При этих предположениях регуляризованное по Тихонову решение является наиболее вероятным решением с учетом данных и априорного распределения , согласно теореме Байеса . [32]
Если предположение о нормальности заменить предположениями о гомоскедастичности и некоррелированности ошибок , и если по-прежнему предполагать нулевое среднее значение, то теорема Гаусса-Маркова подразумевает, что решение представляет собой минимальную несмещенную линейную оценку . [33]
Смотрите также
Примечания
- ^ В статистике этот метод известен как гребневая регрессия , в машинном обучении он и его модификации известны как весовой распад , и с несколькими независимыми открытиями он также известен как метод Тихонова–Миллера , метод Филлипса–Твоми , метод ограниченной линейной инверсии , регуляризация L 2 и метод линейной регуляризации . Он связан с алгоритмом Левенберга–Марквардта для нелинейных задач наименьших квадратов.
Ссылки
- ^ ab Хилт, Дональд Э.; Сигрист, Дональд В. (1977). Ridge, компьютерная программа для расчета оценок регрессии гребня. doi :10.5962/bhl.title.68934.[ нужна страница ]
- ^ ab Gruber, Marvin (1998). Повышение эффективности за счет сокращения: оценки регрессии Джеймса--Стейна и гребня. CRC Press. стр. 2. ISBN 978-0-8247-0156-7.
- ^ Кеннеди, Питер (2003). Руководство по эконометрике (Пятое изд.). Кембридж: The MIT Press. С. 205–206. ISBN 0-262-61183-X.
- ^ Грубер, Марвин (1998). Повышение эффективности за счет сокращения: оценки регрессии Джеймса–Стейна и гребня. Бока-Ратон: CRC Press. стр. 7–15. ISBN 0-8247-0156-9.
- ^ Hoerl, Arthur E.; Kennard, Robert W. (1970). «Ridge Regression: Biased Estimation for Nonorthogonal Problems». Technometrics . 12 (1): 55–67. doi :10.2307/1267351. JSTOR 1267351.
- ^ Hoerl, Arthur E.; Kennard, Robert W. (1970). «Ridge Regression: Applications to Nonorthogonal Problems». Technometrics . 12 (1): 69–82. doi :10.2307/1267352. JSTOR 1267352.
- ^ Бек, Джеймс Вере; Арнольд, Кеннет Дж. (1977). Оценка параметров в инженерии и науке. Джеймс Бек. стр. 287. ISBN 978-0-471-06118-2.
- ^ Джоллифф, IT (2006). Анализ главных компонент. Springer Science & Business Media. стр. 178. ISBN 978-0-387-22440-4.
- ^ О выборе на практике см. Khalaf, Ghadban; Shukur, Ghazi (2005). «Выбор параметра хребта для задач регрессии». Communications in Statistics – Theory and Methods . 34 (5): 1177–1182. doi :10.1081/STA-200056836. S2CID 122983724.
- ^ ван Виринген, Вессель (31 мая 2021 г.). «Конспекты лекций по гребневой регрессии». arXiv : 1509.09169 [stat.ME].
- ^ Тихонов, Андрей Николаевич (1943). «Об устойчивости обратных задач». Доклады Академии наук СССР . 39 (5): 195–198. Архивировано из оригинала 27 февраля 2005 г.
- ^ Тихонов, А.Н. (1963). «Об обеспечении некорректно поставленных задач и методе регламентации». Доклады Академии наук СССР . 151 : 501–504.. Переведено в «Решение некорректно поставленных задач и метод регуляризации». Советская математика . 4 : 1035–1038.
- ^ Тихонов, А. Н.; В. Я. Арсенин (1977). Решение некорректных задач . Вашингтон: Winston & Sons. ISBN 0-470-99124-0.
- ^ Тихонов, Андрей Николаевич; Гончарский, А.; Степанов, В.В.; Ягола, Анатолий Григорьевич (30 июня 1995 г.). Численные методы решения некорректных задач. Нидерланды: Springer Netherlands. ISBN 0-7923-3583-X. Получено 9 августа 2018 г.
- ^ Тихонов, Андрей Николаевич; Леонов, Александр С.; Ягола, Анатолий Григорьевич (1998). Нелинейные некорректные задачи. Лондон: Чепмен и Холл. ISBN 0-412-78660-5. Получено 9 августа 2018 г.
- ^ Филлипс, DL (1962). «Метод численного решения некоторых интегральных уравнений первого рода». Журнал ACM . 9 : 84–97. doi : 10.1145/321105.321114 . S2CID 35368397.
- ^ Hoerl, Arthur E. (1962). «Применение гребневого анализа к проблемам регрессии». Chemical Engineering Progress . 58 (3): 54–59.
- ^ Фостер, М. (1961). «Применение теории сглаживания Винера-Колмогорова к обращению матриц». Журнал Общества промышленной и прикладной математики . 9 (3): 387–392. doi :10.1137/0109031.
- ^ Hoerl, AE; RW Kennard (1970). «Регрессия хребта: смещенная оценка для неортогональных задач». Technometrics . 12 (1): 55–67. doi :10.1080/00401706.1970.10488634.
- ^ Hoerl, Roger W. (2020-10-01). «Регрессия хребта: исторический контекст». Technometrics . 62 (4): 420–425. doi :10.1080/00401706.2020.1742207. ISSN 0040-1706.
- ^ Нг, Эндрю Ю. (2004). Выбор признаков, регуляризация L1 против L2 и вращательная инвариантность (PDF) . Proc. ICML .
- ^ R.-E. Fan; K.-W. Chang; C.-J. Hsieh; X.-R. Wang; C.-J. Lin (2008). «LIBLINEAR: Библиотека для большой линейной классификации». Журнал исследований машинного обучения . 9 : 1871–1874.
- ^ Гуань, Найян; Тао, Дачэн; Ло, Чжиган; Юань, Бо (2012). «Онлайн-факторизация неотрицательных матриц с надежной стохастической аппроксимацией». Труды IEEE по нейронным сетям и системам обучения . 23 (7): 1087–1099. doi :10.1109/TNNLS.2012.2197827. PMID 24807135. S2CID 8755408.
- ^ Кох, Лукас (2022). "Post-hoc regularization of unfolded cross-section measurements". Журнал приборостроения . 17 (10): 10021. arXiv : 2207.02125 . Bibcode : 2022JInst..17P0021K. doi : 10.1088/1748-0221/17/10/P10021.
- ^ Лаврентьев, М. М. (1967). Некоторые некорректно поставленные задачи математической физики . Нью-Йорк: Springer.
- ^ Хансен, Пер Кристиан (1 января 1998 г.). Недостаточно ранговые и дискретные некорректные задачи: численные аспекты линейной инверсии (1-е изд.). Филадельфия, США: SIAM. ISBN 978-0-89871-403-6.
- ^ PC Hansen, «L-кривая и ее использование в численном решении обратных задач», [1]
- ^ Вахба, Г. (1990). "Сплайновые модели для данных наблюдений". Серия региональных конференций CBMS-NSF по прикладной математике . Общество промышленной и прикладной математики. Bibcode : 1990smod.conf.....W.
- ^ Голуб, Г.; Хит, М.; Вахба, Г. (1979). «Обобщенная кросс-валидация как метод выбора хорошего параметра гребня» (PDF) . Технометрика . 21 (2): 215–223. doi :10.1080/00401706.1979.10489751.
- ^ Тарантола, Альберт (2005). Теория обратных задач и методы оценки параметров модели (1-е изд.). Филадельфия: Общество промышленной и прикладной математики (SIAM). ISBN 0-89871-792-2. Получено 9 августа 2018 г.
- ^ Гринберг, Эдвард; Вебстер, Чарльз Э. младший (1983). Продвинутая эконометрика: мост к литературе . Нью-Йорк: John Wiley & Sons. С. 207–213. ISBN 0-471-09077-8.
- ^ Фогель, Кертис Р. (2002). Вычислительные методы для обратных задач . Филадельфия: Общество промышленной и прикладной математики. ISBN 0-89871-550-4.
- ^ Амемия, Такеши (1985). Продвинутая эконометрика . Издательство Гарвардского университета. С. 60–61. ISBN 0-674-00560-0.
Дальнейшее чтение
- Грубер, Марвин (1998). Повышение эффективности за счет сокращения: оценки регрессии Джеймса–Стейна и гребня. Бока-Ратон: CRC Press. ISBN 0-8247-0156-9.
- Кресс, Райнер (1998). «Регуляризация Тихонова». Численный анализ . Нью-Йорк: Springer. С. 86–90. ISBN 0-387-98408-9.
- Press, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007). "Раздел 19.5. Методы линейной регуляризации". Numerical Recipes: The Art of Scientific Computing (3-е изд.). Нью-Йорк: Cambridge University Press. ISBN 978-0-521-88068-8.
- Салех, А. К. М. Эхсанес; Араши, Мохаммад; Кибрия, Б. М. Голам (2019). Теория оценки гребневой регрессии с приложениями. Нью-Йорк: John Wiley & Sons. ISBN 978-1-118-64461-4.
- Тэдди, Мэтт (2019). «Регуляризация». Business Data Science: Объединение машинного обучения и экономики для оптимизации, автоматизации и ускорения принятия бизнес-решений . Нью-Йорк: McGraw-Hill. С. 69–104. ISBN 978-1-260-45277-8.