stringtranslate.com

Гребневая регрессия

Ридж-регрессия — это метод оценки коэффициентов моделей множественной регрессии в сценариях, где независимые переменные сильно коррелируют. [1] Он использовался во многих областях, включая эконометрику, химию и инженерию. [2] Также известный как Тихоновская регуляризация , названный в честь Андрея Тихонова , это метод регуляризации некорректных задач . [a] Особенно полезно смягчить проблему мультиколлинеарности в линейной регрессии , которая обычно возникает в моделях с большим количеством параметров. [3] В целом, метод обеспечивает повышенную эффективность в задачах оценки параметров в обмен на допустимую величину систематической ошибки (см. компромисс между смещением и дисперсией ). [4]

Теория была впервые представлена ​​Хёрлом и Кеннардом в 1970 году в их статьях по технометрике «Риджевые регрессии: смещенная оценка неортогональных задач» и «Риджевые регрессии: приложения в неортогональных задачах». [5] [6] [1] Это результат десятилетних исследований в области анализа гребней. [7]

Гребневая регрессия была разработана как возможное решение проблемы неточности оценок наименьших квадратов, когда модели линейной регрессии имеют некоторые мультиколлинеарные (высоко коррелированные) независимые переменные, - путем создания оценки гребневой регрессии (RR). Это обеспечивает более точную оценку параметров гребня, поскольку его дисперсия и среднеквадратическая оценка часто меньше, чем полученные ранее оценки наименьших квадратов. [8] [2]

Обзор

В простейшем случае проблема матрицы моментов, близкой к сингулярной, облегчается добавлением положительных элементов к диагоналям , тем самым уменьшая ее число обусловленности . Аналогично обычной оценке методом наименьших квадратов , простая оценка гребня тогда определяется выражением

регрессияматрица расчетаединичная матрица[9]наименьших квадратовограничения
множитель Лагранжа[10]ограничение не является обязательнымобычному методу наименьших квадратов

История

Регуляризация Тихонова была изобретена независимо во многих различных контекстах. Оно стало широко известно благодаря его применению к интегральным уравнениям в работах Андрея Тихонова [11] [12] [13] [14] [15] и Дэвида Л. Филлипса. [16] Некоторые авторы используют термин регуляризация Тихонова–Филлипса . Конечномерный случай был изложен Артуром Э. Хёрлом, который использовал статистический подход, [17] и Манусом Фостером, который интерпретировал этот метод как фильтр Винера-Колмогорова (Кригинг) . [18] Вслед за Хёрлем в статистической литературе она известна как гребневая регрессия, [19] названная в честь гребневого анализа («гребень» относится к пути от ограниченного максимума). [20]

Тихоновская регуляризация

Предположим, что для известных матрицы и вектора мы хотим найти вектор такой, что

Стандартный подход — это обычная линейная регрессия по методу наименьших квадратов . [ необходимо пояснение ] Однако, если ни одно из уравнений не удовлетворяет уравнению или более чем одно (то есть решение не является единственным), задача считается некорректной . В таких случаях обычное оценивание методом наименьших квадратов приводит к переопределенной или чаще недоопределенной системе уравнений. Большинство реальных явлений имеют эффект фильтров нижних частот [ необходимы пояснения ] в прямом направлении, где отображается . Следовательно, при решении обратной задачи обратное отображение действует как фильтр верхних частот , который имеет нежелательную тенденцию к усилению шума ( собственные значения /сингулярные значения являются наибольшими при обратном отображении, тогда как они были наименьшими при прямом отображении). Кроме того, обычный метод наименьших квадратов неявно обнуляет каждый элемент реконструированной версии, который находится в нулевом пространстве , вместо того, чтобы позволить использовать модель в качестве априорной для . Обычный метод наименьших квадратов стремится минимизировать сумму квадратов остатков , которую можно компактно записать как

норма

Чтобы отдать предпочтение конкретному решению с желаемыми свойствами, в эту минимизацию можно включить член регуляризации:

тихоновской матрицыматриценормамикак регуляризация L2[21]оператор разностиоператор Фурье
A T A−1

Регуляризация L 2 используется во многих контекстах, помимо линейной регрессии, таких как классификация с помощью логистической регрессии или машин опорных векторов , [22] и матричной факторизации. [23]

Применение к существующим результатам подгонки

Поскольку регуляризация Тихонова просто добавляет квадратичный член к целевой функции в задачах оптимизации, это можно сделать после того, как произошла нерегуляризованная оптимизация. Например, если вышеуказанная задача с дает решение , решение при наличии можно выразить как:

Если при подборе параметров используется ковариационная матрица оцененных неопределенностей параметров , то матрица регуляризации будет иметь вид

В контексте произвольной аппроксимации правдоподобия это справедливо, пока действует квадратичная аппроксимация функции правдоподобия. Это означает, что, пока возмущение от нерегуляризованного результата невелико, можно регуляризовать любой результат, который представлен как точка наилучшего соответствия с помощью ковариационной матрицы. Никаких детальных знаний об основной функции правдоподобия не требуется. [24]

Обобщенная тихоновская регуляризация

Для общих многомерных нормальных распределений и ошибки данных можно применить преобразование переменных, чтобы свести их к описанному выше случаю. Эквивалентно, можно попытаться минимизировать

расстоянием Махаланобисаковариационная матрицазначениефакторизация Холецкогофильтром отбеливания

Эта обобщенная задача имеет оптимальное решение , которое можно записать в явном виде по формуле

Q не

Лаврентьевская регуляризация

В некоторых ситуациях можно обойтись без использования транспонирования , как предложил Михаил Лаврентьев . [25] Например, если является симметричным положительно определенным, т. е . то же самое относится и к его обратному , что, таким образом, может быть использовано для установления квадрата взвешенной нормы в обобщенной регуляризации Тихонова, что приводит к минимизации

Эта задача минимизации имеет оптимальное решение , которое можно записать явно по формуле

Регуляризация Лаврентьева, если она применима, предпочтительнее исходной регуляризации Тихонова, поскольку матрица Лаврентьева может быть лучше обусловлена, т. е. иметь меньшее число обусловленности , по сравнению с матрицей Тихонова

Регуляризация в гильбертовом пространстве

Обычно дискретные линейные плохо обусловленные задачи возникают в результате дискретизации интегральных уравнений , и можно сформулировать тихоновскую регуляризацию в исходном бесконечномерном контексте. Выше мы можем интерпретировать как компактный оператор в гильбертовом пространстве и как элементы в области определения и области значений . Тогда оператор является самосопряженным ограниченным обратимым оператором.

Связь с разложением по сингулярным значениям и фильтром Винера

При , это решение методом наименьших квадратов можно проанализировать особым образом, используя разложение по сингулярным значениям . Учитывая разложение по сингулярным значениям

число обусловленностиобобщенного разложения по сингулярным значениям[26]

Наконец, это связано с фильтром Винера :

ранг

Определение коэффициента Тихонова

Оптимальный параметр регуляризации обычно неизвестен и часто в практических задачах определяется специальным методом . Возможный подход основан на байесовской интерпретации, описанной ниже. Другие подходы включают принцип несоответствия, перекрестную проверку , метод L-кривой, [27] ограниченное максимальное правдоподобие и несмещенную прогнозирующую оценку риска. Грейс Вахба доказала, что оптимальный параметр в смысле перекрестной проверки с исключением одного минимизирует [28] [29]

остаточная сумма квадратовэффективное число степеней свободы

Используя предыдущее разложение SVD, мы можем упростить приведенное выше выражение:

Связь с вероятностной формулировкой

Вероятностная формулировка обратной задачи вводит (когда все неопределенности гауссовы) матрицу ковариаций, представляющую априорные неопределенности параметров модели, и матрицу ковариаций, представляющую неопределенности наблюдаемых параметров. [30] В частном случае, когда эти две матрицы диагональны и изотропны, и , и в этом случае уравнения обратной теории сводятся к приведенным выше уравнениям с .

Байесовская интерпретация

Хотя на первый взгляд выбор решения этой регуляризованной задачи может показаться искусственным, да и сама матрица кажется довольно произвольной, процесс можно оправдать с байесовской точки зрения . [31] Заметим, что для некорректной задачи необходимо обязательно ввести некоторые дополнительные предположения, чтобы получить единственное решение. Статистически априорное распределение вероятностей иногда считается многомерным нормальным распределением . Для простоты здесь сделаны следующие предположения: средние значения равны нулю; их компоненты независимы; компоненты имеют одинаковое стандартное отклонение . Данные также подвержены ошибкам, и ошибки также считаются независимыми с нулевым средним значением и стандартным отклонением . При этих предположениях регуляризованное по Тихонову решение является наиболее вероятным решением с учетом данных и априорного распределения , согласно теореме Байеса . [32]

Если предположение о нормальности заменяется предположениями о гомоскедастичности и некоррелированности ошибок и если по-прежнему предполагается нулевое среднее, то из теоремы Гаусса-Маркова следует, что решением является минимальная несмещенная линейная оценка . [33]

Смотрите также

Примечания

  1. ^ В статистике этот метод известен как гребневая регрессия , в машинном обучении он и его модификации известны как затухание веса , а после многочисленных независимых открытий он также известен по-разному как метод Тихонова-Миллера , метод Филлипса-Туми , метод Филлипса-Туми . метод линейной инверсии с ограничениями , L 2- регуляризация и метод линейной регуляризации . Он связан с алгоритмом Левенберга – Марквардта для нелинейных задач наименьших квадратов.

Рекомендации

  1. ^ аб Хилт, Дональд Э.; Сигрист, Дональд В. (1977). Ridge — компьютерная программа для расчета оценок регрессии гребня. дои : 10.5962/bhl.title.68934.[ нужна страница ]
  2. ^ Аб Грубер, Марвин (1998). Повышение эффективности за счет сокращения: Оценщики регрессии Джеймса-Стейна и Риджа. ЦРК Пресс. п. 2. ISBN 978-0-8247-0156-7.
  3. ^ Кеннеди, Питер (2003). Руководство по эконометрике (Пятое изд.). Кембридж: MIT Press. стр. 205–206. ISBN 0-262-61183-Х.
  4. ^ Грубер, Марвин (1998). Повышение эффективности за счет сокращения: оценки регрессии Джеймса-Стейна и Риджа. Бока-Ратон: CRC Press. стр. 7–15. ISBN 0-8247-0156-9.
  5. ^ Хорл, Артур Э.; Кеннард, Роберт В. (1970). «Гребетная регрессия: смещенная оценка неортогональных задач». Технометрика . 12 (1): 55–67. дои : 10.2307/1267351. JSTOR  1267351.
  6. ^ Хорл, Артур Э.; Кеннард, Роберт В. (1970). «Гребетная регрессия: приложения к неортогональным задачам». Технометрика . 12 (1): 69–82. дои : 10.2307/1267352. JSTOR  1267352.
  7. ^ Бек, Джеймс Вер; Арнольд, Кеннет Дж. (1977). Оценка параметров в технике и науке. Джеймс Бек. п. 287. ИСБН 978-0-471-06118-2.
  8. ^ Джоллифф, IT (2006). Анализ главных компонентов. Springer Science & Business Media. п. 178. ИСБН 978-0-387-22440-4.
  9. ^ О практическом выборе см. Халаф, Гадбан; Шукур, Гази (2005). «Выбор параметра гребня для задач регрессии». Коммуникации в статистике – теория и методы . 34 (5): 1177–1182. doi : 10.1081/STA-200056836. S2CID  122983724.
  10. ^ ван Виринген, Вессель (31 мая 2021 г.). «Конспекты лекций по гребневой регрессии». arXiv : 1509.09169 [stat.ME].
  11. ^ Тихонов, Андрей Николаевич (1943). «Об устойчивости обратных задач». Доклады Академии наук СССР . 39 (5): 195–198. Архивировано из оригинала 27 февраля 2005 г.
  12. ^ Тихонов, А.Н. (1963). «Об обеспечении некорректно поставленных задач и методе регламентации». Доклады Академии наук СССР . 151 : 501–504.. Переведено в «Решение неправильно сформулированных задач и метод регуляризации». Советская математика . 4 : 1035–1038.
  13. ^ Тихонов, АН; В.Я. Арсенин (1977). Решение некорректных задач . Вашингтон: Уинстон и сыновья. ISBN 0-470-99124-0.
  14. ^ Тихонов, Андрей Николаевич; Гончарский А.; Степанов В.В.; Ягола, Анатолий Григорьевич (30 июня 1995 г.). Численные методы решения некорректных задач. Нидерланды: Спрингер Нидерланды. ISBN 0-7923-3583-Х. Проверено 9 августа 2018 г.
  15. ^ Тихонов, Андрей Николаевич; Леонов, Александр С.; Ягола, Анатолий Григорьевич (1998). Нелинейные некорректные задачи. Лондон: Чепмен и Холл. ISBN 0-412-78660-5. Проверено 9 августа 2018 г.
  16. ^ Филлипс, DL (1962). «Методика численного решения некоторых интегральных уравнений первого рода». Журнал АКМ . 9 : 84–97. дои : 10.1145/321105.321114 . S2CID  35368397.
  17. ^ Хорл, Артур Э. (1962). «Применение гребневого анализа к задачам регрессии». Химический технологический прогресс . 58 (3): 54–59.
  18. ^ Фостер, М. (1961). «Применение теории сглаживания Винера-Колмогорова к обращению матриц». Журнал Общества промышленной и прикладной математики . 9 (3): 387–392. дои : 10.1137/0109031.
  19. ^ Хорл, А.Э.; Р.В. Кеннард (1970). «Гребетная регрессия: смещенная оценка неортогональных задач». Технометрика . 12 (1): 55–67. дои : 10.1080/00401706.1970.10488634.
  20. ^ Хорл, Роджер В. (01 октября 2020 г.). «Гребетная регрессия: исторический контекст». Технометрика . 62 (4): 420–425. дои : 10.1080/00401706.2020.1742207. ISSN  0040-1706.
  21. ^ Нг, Эндрю Ю. (2004). Выбор функций, регуляризация L1 и L2 и вращательная инвариантность (PDF) . Учеб. ИКМЛ .
  22. ^ Р.-Э. Вентилятор; К.-В. Чанг; К.-Ж. Се; Х.-Р. Ван; К.-Ж. Лин (2008). «LIBLINEAR: библиотека для большой линейной классификации». Журнал исследований машинного обучения . 9 : 1871–1874.
  23. ^ Гуань, Найян; Тао, Даченг; Ло, Чжиган; Юань, Бо (2012). «Онлайн-факторизация неотрицательной матрицы с устойчивой стохастической аппроксимацией». Транзакции IEEE в нейронных сетях и системах обучения . 23 (7): 1087–1099. дои : 10.1109/TNNLS.2012.2197827. PMID  24807135. S2CID  8755408.
  24. ^ Кох, Лукас (2022). «Последующая регуляризация измерений развернутого поперечного сечения». Журнал приборостроения . 17 (10): Р10021. arXiv : 2207.02125 . дои : 10.1088/1748-0221/17/10/P10021.
  25. ^ Лаврентьев, ММ (1967). Некоторые некорректно поставленные задачи математической физики . Нью-Йорк: Спрингер.
  26. Хансен, Пер Кристиан (1 января 1998 г.). Недостаточные ранги и дискретные некорректные задачи: численные аспекты линейной инверсии (1-е изд.). Филадельфия, США: СИАМ. ISBN 978-0-89871-403-6.
  27. ^ ПК Хансен, «L-кривая и ее использование при численном решении обратных задач», [1]
  28. ^ Вахба, Г. (1990). «Сплайн-модели для данных наблюдений». Серия региональных конференций CBMS-NSF по прикладной математике . Общество промышленной и прикладной математики. Бибкод : 1990smod.conf.....W.
  29. ^ Голуб, Г.; Хит, М.; Вахба, Г. (1979). «Обобщенная перекрестная проверка как метод выбора хорошего параметра гребня» (PDF) . Технометрика . 21 (2): 215–223. дои : 10.1080/00401706.1979.10489751.
  30. ^ Тарантола, Альберт (2005). Теория обратных задач и методы оценки параметров модели (1-е изд.). Филадельфия: Общество промышленной и прикладной математики (SIAM). ISBN 0-89871-792-2. Проверено 9 августа 2018 г.
  31. ^ Гринберг, Эдвард; Вебстер, Чарльз Э. младший (1983). Продвинутая эконометрика: мост к литературе . Нью-Йорк: Джон Уайли и сыновья. стр. 207–213. ISBN 0-471-09077-8.
  32. ^ Фогель, Кертис Р. (2002). Вычислительные методы решения обратных задач . Филадельфия: Общество промышленной и прикладной математики. ISBN 0-89871-550-4.
  33. ^ Амемия, Такеши (1985). Продвинутая эконометрика . Издательство Гарвардского университета. стр. 60–61. ISBN 0-674-00560-0.

дальнейшее чтение