stringtranslate.com

Гребневая регрессия

Ридж-регрессия — это метод оценки коэффициентов моделей множественной регрессии в сценариях, где независимые переменные сильно коррелируют. [1] Он использовался во многих областях, включая эконометрику, химию и инженерию. [2] Также известный как Тихоновская регуляризация , названный в честь Андрея Тихонова , это метод регуляризации некорректных задач . [a] Это особенно полезно для смягчения проблемы мультиколлинеарности в линейной регрессии , которая обычно возникает в моделях с большим количеством параметров. [3] В целом, метод обеспечивает повышенную эффективность в задачах оценки параметров в обмен на допустимую величину систематической ошибки (см . компромисс между смещением и дисперсией ). [4]

Теория была впервые представлена ​​Хёрлом и Кеннардом в 1970 году в их статьях по технометрике «Риджевые регрессии: смещенная оценка неортогональных задач» и «Риджевые регрессии: приложения в неортогональных задачах». [5] [6] [1] Это результат десятилетних исследований в области анализа гребней. [7]

Гребневая регрессия была разработана как возможное решение проблемы неточности оценок наименьших квадратов, когда модели линейной регрессии имеют некоторые мультиколлинеарные (высоко коррелированные) независимые переменные, - путем создания оценки гребневой регрессии (RR). Это обеспечивает более точную оценку параметров гребня, поскольку его дисперсия и среднеквадратическая оценка часто меньше, чем полученные ранее оценки наименьших квадратов. [8] [2]

Обзор

В простейшем случае проблема матрицы моментов, близкой к сингулярной, облегчается добавлением положительных элементов к диагоналям , тем самым уменьшая ее число обусловленности . Аналогично обычной оценке методом наименьших квадратов , простая оценка гребня тогда определяется выражением

регрессияматрица расчетаединичная матрица[9]наименьших квадратовограничения
множитель Лагранжа[10]ограничение не является обязательнымобычному методу наименьших квадратов

История

Регуляризация Тихонова была изобретена независимо во многих различных контекстах. Оно стало широко известно благодаря его применению к интегральным уравнениям в работах Андрея Тихонова [11] [12] [13] [14] [15] и Дэвида Л. Филлипса. [16] Некоторые авторы используют термин регуляризация Тихонова–Филлипса . Конечномерный случай был изложен Артуром Э. Хёрлом, который использовал статистический подход, [17] и Манусом Фостером, который интерпретировал этот метод как фильтр Винера-Колмогорова (Кригинг) . [18] Вслед за Хёрлем в статистической литературе она известна как гребневая регрессия, [19] названная в честь гребневого анализа («гребень» относится к пути от ограниченного максимума). [20]

Тихоновская регуляризация

Предположим, что для известных матрицы и вектора мы хотим найти вектор такой, что

Стандартный подход — это обычная линейная регрессия по методу наименьших квадратов. [ необходимо пояснение ] Однако, если ни одно из уравнений не удовлетворяет уравнению или более чем одно (то есть решение не является единственным), задача считается некорректной . В таких случаях обычное оценивание методом наименьших квадратов приводит к переопределенной или чаще недоопределенной системе уравнений. Большинство реальных явлений имеют эффект фильтров нижних частот [ необходимы пояснения ] в прямом направлении, где отображается . Следовательно, при решении обратной задачи обратное отображение действует как фильтр верхних частот , который имеет нежелательную тенденцию к усилению шума ( собственные значения /сингулярные значения являются наибольшими при обратном отображении, тогда как они были наименьшими при прямом отображении). Кроме того, обычный метод наименьших квадратов неявно обнуляет каждый элемент реконструированной версии, находящийся в нулевом пространстве , вместо того, чтобы позволить использовать модель в качестве априорной для . Обычный метод наименьших квадратов стремится минимизировать сумму квадратов остатков , которую можно компактно записать как

норма

Чтобы отдать предпочтение конкретному решению с желаемыми свойствами, в эту минимизацию можно включить член регуляризации:

тихоновской матрицыматриценормамикак регуляризация L2[21]оператор разностиоператор Фурье
A T A−1

Регуляризация L 2 используется во многих контекстах, помимо линейной регрессии, таких как классификация с помощью логистической регрессии или машин опорных векторов , [22] и матричной факторизации. [23]

Обобщенная тихоновская регуляризация

Для общих многомерных нормальных распределений и ошибки данных можно применить преобразование переменных, чтобы свести их к описанному выше случаю. Эквивалентно, можно попытаться минимизировать

где мы привыкли обозначать квадрат взвешенной нормы (ср. с расстоянием Махаланобиса ). В байесовской интерпретации – обратная ковариационная матрица , – ожидаемое значение , и – обратная ковариационная матрица . Матрица Тихонова затем задается как факторизация матрицы (например, факторизация Холецкого ) и считается фильтром отбеливания .

Эта обобщенная задача имеет оптимальное решение , которое можно записать в явном виде по формуле

или, что то же самое, когда Q не является нулевой матрицей:

Лаврентьевская регуляризация

В некоторых ситуациях можно обойтись без использования транспонирования , как предложил Михаил Лаврентьев . [24] Например, если является симметричным положительно определенным, т. е . то же самое относится и к его обратному , что, таким образом, может быть использовано для установления квадрата взвешенной нормы в обобщенной регуляризации Тихонова, что приводит к минимизации

Эта задача минимизации имеет оптимальное решение , которое можно записать явно по формуле

Регуляризация Лаврентьева, если она применима, предпочтительнее исходной регуляризации Тихонова, поскольку матрица Лаврентьева может быть лучше обусловлена, т. е. иметь меньшее число обусловленности , по сравнению с матрицей Тихонова

Регуляризация в гильбертовом пространстве

Обычно дискретные линейные плохо обусловленные задачи возникают в результате дискретизации интегральных уравнений , и можно сформулировать тихоновскую регуляризацию в исходном бесконечномерном контексте. Выше мы можем интерпретировать как компактный оператор в гильбертовом пространстве и как элементы в области определения и области значений . Тогда оператор является самосопряженным ограниченным обратимым оператором.

Связь с разложением по сингулярным значениям и фильтром Винера

При , это решение методом наименьших квадратов можно проанализировать особым образом, используя разложение по сингулярным значениям . Учитывая разложение по сингулярным значениям

с сингулярными значениями регуляризованное решение Тихонова можно выразить как

где имеет диагональные значения

и равен нулю в другом месте. Это демонстрирует влияние параметра Тихонова на число обусловленности регуляризованной задачи. Для обобщенного случая аналогичное представление можно получить с помощью обобщенного разложения по сингулярным значениям . [25]

Наконец, это связано с фильтром Винера :

где веса Винера и – ранг .

Определение коэффициента Тихонова

Оптимальный параметр регуляризации обычно неизвестен и часто в практических задачах определяется специальным методом. Возможный подход основан на байесовской интерпретации, описанной ниже. Другие подходы включают принцип несоответствия, перекрестную проверку , метод L-кривой, [26] ограниченное максимальное правдоподобие и несмещенную прогнозирующую оценку риска. Грейс Вахба доказала, что оптимальный параметр в смысле перекрестной проверки с исключением одного минимизирует [27] [28]

где – остаточная сумма квадратов , – эффективное число степеней свободы .

Используя предыдущее разложение SVD, мы можем упростить приведенное выше выражение:

и

Связь с вероятностной формулировкой

Вероятностная формулировка обратной задачи вводит (когда все неопределенности гауссовы) матрицу ковариаций, представляющую априорные неопределенности параметров модели, и матрицу ковариаций, представляющую неопределенности наблюдаемых параметров. [29] В частном случае, когда эти две матрицы диагональны и изотропны, и , и в этом случае уравнения обратной теории сводятся к приведенным выше уравнениям с .

Байесовская интерпретация

Хотя на первый взгляд выбор решения этой регуляризованной задачи может показаться искусственным, да и сама матрица кажется довольно произвольной, процесс можно оправдать с байесовской точки зрения . [30] Заметим, что для некорректной задачи необходимо обязательно ввести некоторые дополнительные предположения, чтобы получить единственное решение. Статистически априорное распределение вероятностей иногда считается многомерным нормальным распределением . Для простоты здесь сделаны следующие предположения: средние значения равны нулю; их компоненты независимы; компоненты имеют одинаковое стандартное отклонение . Данные также подвержены ошибкам, и ошибки также считаются независимыми с нулевым средним значением и стандартным отклонением . При этих предположениях регуляризованное по Тихонову решение является наиболее вероятным решением с учетом данных и априорного распределения , согласно теореме Байеса . [31]

Если предположение о нормальности заменяется предположениями о гомоскедастичности и некоррелированности ошибок и если по-прежнему предполагается нулевое среднее, то из теоремы Гаусса-Маркова следует, что решением является минимальная несмещенная линейная оценка . [32]

Смотрите также

Примечания

  1. ^ В статистике этот метод известен как гребневая регрессия , в машинном обучении он и его модификации известны как затухание веса , а после многочисленных независимых открытий он также известен по-разному как метод Тихонова-Миллера , метод Филлипса-Твуми, метод Филлипса-Твуми . метод линейной инверсии с ограничениями , L 2 -регуляризация и метод линейной регуляризации . Он связан с алгоритмом Левенберга – Марквардта для нелинейных задач наименьших квадратов.

Рекомендации

  1. ^ аб Хилт, Дональд Э.; Сигрист, Дональд В. (1977). Ridge — компьютерная программа для расчета оценок регрессии гребня. дои : 10.5962/bhl.title.68934.[ нужна страница ]
  2. ^ Аб Грубер, Марвин (1998). Повышение эффективности за счет сокращения: Оценщики регрессии Джеймса-Стейна и Риджа. ЦРК Пресс. п. 2. ISBN 978-0-8247-0156-7.
  3. ^ Кеннеди, Питер (2003). Руководство по эконометрике (Пятое изд.). Кембридж: MIT Press. стр. 205–206. ISBN 0-262-61183-Х.
  4. ^ Грубер, Марвин (1998). Повышение эффективности за счет сокращения: оценки регрессии Джеймса-Стейна и Риджа. Бока-Ратон: CRC Press. стр. 7–15. ISBN 0-8247-0156-9.
  5. ^ Хорл, Артур Э.; Кеннард, Роберт В. (1970). «Гребетная регрессия: смещенная оценка неортогональных задач». Технометрика . 12 (1): 55–67. дои : 10.2307/1267351. JSTOR  1267351.
  6. ^ Хорл, Артур Э.; Кеннард, Роберт В. (1970). «Гребетная регрессия: приложения к неортогональным задачам». Технометрика . 12 (1): 69–82. дои : 10.2307/1267352. JSTOR  1267352.
  7. ^ Бек, Джеймс Вер; Арнольд, Кеннет Дж. (1977). Оценка параметров в технике и науке. Джеймс Бек. п. 287. ИСБН 978-0-471-06118-2.
  8. ^ Джоллифф, IT (2006). Анализ главных компонентов. Springer Science & Business Media. п. 178. ИСБН 978-0-387-22440-4.
  9. ^ О практическом выборе см. Халаф, Гадбан; Шукур, Гази (2005). «Выбор параметра гребня для задач регрессии». Коммуникации в статистике – теория и методы . 34 (5): 1177–1182. doi : 10.1081/STA-200056836. S2CID  122983724.
  10. ^ ван Виринген, Вессель (31 мая 2021 г.). «Конспекты лекций по гребневой регрессии». arXiv : 1509.09169 [stat.ME].
  11. ^ Тихонов, Андрей Николаевич (1943). «Об устойчивости обратных задач». Доклады Академии наук СССР . 39 (5): 195–198. Архивировано из оригинала 27 февраля 2005 г.
  12. ^ Тихонов, А.Н. (1963). «Об обеспечении некорректно поставленных задач и методе регламентации». Доклады Академии наук СССР . 151 : 501–504.. Переведено в «Решение неправильно сформулированных задач и метод регуляризации». Советская математика . 4 : 1035–1038.
  13. ^ Тихонов, АН; В.Я. Арсенин (1977). Решение некорректных задач . Вашингтон: Уинстон и сыновья. ISBN 0-470-99124-0.
  14. ^ Тихонов, Андрей Николаевич; Гончарский А.; Степанов В.В.; Ягола, Анатолий Григорьевич (30 июня 1995 г.). Численные методы решения некорректных задач. Нидерланды: Спрингер Нидерланды. ISBN 0-7923-3583-Х. Проверено 9 августа 2018 г.
  15. ^ Тихонов, Андрей Николаевич; Леонов, Александр С.; Ягола, Анатолий Григорьевич (1998). Нелинейные некорректные задачи. Лондон: Чепмен и Холл. ISBN 0-412-78660-5. Проверено 9 августа 2018 г.
  16. ^ Филлипс, DL (1962). «Методика численного решения некоторых интегральных уравнений первого рода». Журнал АКМ . 9 : 84–97. дои : 10.1145/321105.321114 . S2CID  35368397.
  17. ^ Хорл, Артур Э. (1962). «Применение гребневого анализа к задачам регрессии». Химический технологический прогресс . 58 (3): 54–59.
  18. ^ Фостер, М. (1961). «Применение теории сглаживания Винера-Колмогорова к обращению матриц». Журнал Общества промышленной и прикладной математики . 9 (3): 387–392. дои : 10.1137/0109031.
  19. ^ Хорл, А.Э.; Р.В. Кеннард (1970). «Гребетная регрессия: смещенная оценка неортогональных задач». Технометрика . 12 (1): 55–67. дои : 10.1080/00401706.1970.10488634.
  20. ^ Хорл, Роджер В. (01 октября 2020 г.). «Гребетная регрессия: исторический контекст». Технометрика . 62 (4): 420–425. дои : 10.1080/00401706.2020.1742207. ISSN  0040-1706.
  21. ^ Нг, Эндрю Ю. (2004). Выбор функций, регуляризация L1 и L2 и вращательная инвариантность (PDF) . Учеб. ИКМЛ .
  22. ^ Р.-Э. Вентилятор; К.-В. Чанг; К.-Ж. Се; Х.-Р. Ван; К.-Ж. Лин (2008). «LIBLINEAR: библиотека для большой линейной классификации». Журнал исследований машинного обучения . 9 : 1871–1874.
  23. ^ Гуань, Найян; Тао, Даченг; Ло, Чжиган; Юань, Бо (2012). «Онлайн-факторизация неотрицательной матрицы с устойчивой стохастической аппроксимацией». Транзакции IEEE в нейронных сетях и системах обучения . 23 (7): 1087–1099. дои : 10.1109/TNNLS.2012.2197827. PMID  24807135. S2CID  8755408.
  24. ^ Лаврентьев, ММ (1967). Некоторые некорректно поставленные задачи математической физики . Нью-Йорк: Спрингер.
  25. Хансен, Пер Кристиан (1 января 1998 г.). Недостаточные ранги и дискретные некорректные задачи: численные аспекты линейной инверсии (1-е изд.). Филадельфия, США: СИАМ. ISBN 978-0-89871-403-6.
  26. ^ ПК Хансен, «L-кривая и ее использование при численном решении обратных задач», [1]
  27. ^ Вахба, Г. (1990). «Сплайн-модели для данных наблюдений». Серия региональных конференций CBMS-NSF по прикладной математике . Общество промышленной и прикладной математики. Бибкод : 1990smod.conf.....W.
  28. ^ Голуб, Г.; Хит, М.; Вахба, Г. (1979). «Обобщенная перекрестная проверка как метод выбора хорошего параметра гребня» (PDF) . Технометрика . 21 (2): 215–223. дои : 10.1080/00401706.1979.10489751.
  29. ^ Тарантола, Альберт (2005). Теория обратных задач и методы оценки параметров модели (1-е изд.). Филадельфия: Общество промышленной и прикладной математики (SIAM). ISBN 0-89871-792-2. Проверено 9 августа 2018 г.
  30. ^ Гринберг, Эдвард; Вебстер, Чарльз Э. младший (1983). Продвинутая эконометрика: мост к литературе . Нью-Йорк: Джон Уайли и сыновья. стр. 207–213. ISBN 0-471-09077-8.
  31. ^ Фогель, Кертис Р. (2002). Вычислительные методы решения обратных задач . Филадельфия: Общество промышленной и прикладной математики. ISBN 0-89871-550-4.
  32. ^ Амемия, Такеши (1985). Продвинутая эконометрика . Издательство Гарвардского университета. стр. 60–61. ISBN 0-674-00560-0.

дальнейшее чтение