stringtranslate.com

Регуляризация (математика)

Зелёная и синяя функции обе несут нулевую потерю на заданных точках данных. Обученная модель может быть вызвана для предпочтения зелёной функции, которая может лучше обобщать больше точек, взятых из базового неизвестного распределения, путём корректировки веса члена регуляризации.

В математике , статистике , финансах , [1] и информатике , особенно в машинном обучении и обратных задачах , регуляризация — это процесс, который преобразует ответ задачи в более простой. Он часто используется при решении некорректно поставленных задач или для предотвращения переобучения . [2]

Хотя процедуры регуляризации можно разделить по-разному, следующее разграничение особенно полезно:

В явной регуляризации, независимо от проблемы или модели, всегда есть термин данных, который соответствует вероятности измерения, и термин регуляризации, который соответствует априорной величине. Объединяя оба с помощью байесовской статистики, можно вычислить апостериорную величину, которая включает оба источника информации и, следовательно, стабилизирует процесс оценки. Обменяв обе цели, можно выбрать более сильное привыкание к данным или принудительное выполнение регуляризации (для предотвращения переобучения). Существует целая исследовательская ветвь, занимающаяся всеми возможными регуляризациями. На практике обычно пробуют определенную регуляризацию, а затем вычисляют плотность вероятности, которая соответствует этой регуляризации, чтобы оправдать выбор. Это также может быть физически мотивировано здравым смыслом или интуицией.

В машинном обучении термин data соответствует обучающим данным, а регуляризация — это либо выбор модели, либо модификации алгоритма. Она всегда направлена ​​на уменьшение ошибки обобщения , т. е. оценки ошибки с обученной моделью на оценочном наборе, а не с обучающими данными. [3]

Одним из самых ранних применений регуляризации является регуляризация Тихонова (гребневая регрессия), связанная с методом наименьших квадратов.

Регуляризация в машинном обучении

В машинном обучении ключевой проблемой является обеспечение возможности моделям точно предсказывать результаты на неизвестных данных, а не только на знакомых обучающих данных. Регуляризация имеет решающее значение для решения проблемы переобучения — когда модель запоминает детали обучающих данных, но не может обобщить их на новые данные — и недообучения , когда модель слишком проста, чтобы охватить сложность обучающих данных. Эта концепция отражает обучение студентов применению изученных концепций к новым проблемам, а не простому воспроизведению запомненных ответов. [4] Цель регуляризации — побудить модели изучать более широкие закономерности в данных, а не запоминать их. Такие методы, как ранняя остановка , регуляризация L1 и L2 и исключение , предназначены для предотвращения переобучения и недообучения, тем самым повышая способность модели адаптироваться и хорошо работать с новыми данными, тем самым улучшая обобщение модели. [4]

Ранняя остановка

Останавливает обучение, когда качество проверки ухудшается, предотвращая переобучение путем остановки до того, как модель запомнит данные обучения. [4]

Регуляризация L1 и L2

Добавляет штрафные члены к функции стоимости, чтобы препятствовать использованию сложных моделей:

Выбывать

Случайным образом игнорирует подмножество нейронов во время обучения, имитируя обучение нескольких архитектур нейронных сетей для улучшения обобщения. [4]

Классификация

Эмпирическое обучение классификаторов (на основе конечного набора данных) всегда является недоопределенной проблемой, поскольку оно пытается вывести функцию из любых заданных только примеров .

Член регуляризации (или регуляризатор) добавляется к функции потерь : где — базовая функция потерь, которая описывает стоимость прогнозирования , когда метка равна , например, квадратная потеря или потеря шарнира ; и — параметр, который контролирует важность члена регуляризации. обычно выбирается для наложения штрафа на сложность . Конкретные используемые понятия сложности включают ограничения на гладкость и границы нормы векторного пространства . [5] [ нужна страница ]

Теоретическое обоснование регуляризации заключается в том, что она пытается применить бритву Оккама к решению (как показано на рисунке выше, где зеленая функция, более простая, может быть предпочтительнее). С байесовской точки зрения многие методы регуляризации соответствуют наложению определенных априорных распределений на параметры модели. [6]

Регуляризация может служить нескольким целям, включая обучение более простым моделям, приведение моделей к разреженным и введение групповой структуры [ необходимо разъяснение ] в задачу обучения.

Та же идея возникла во многих областях науки . Простая форма регуляризации, применяемая к интегральным уравнениям ( регуляризация Тихонова ), по сути является компромиссом между подгонкой данных и уменьшением нормы решения. В последнее время стали популярны методы нелинейной регуляризации, включая регуляризацию полной вариации .

Обобщение

Регуляризацию можно рассматривать как метод улучшения обобщаемости изученной модели.

Цель этой обучающей задачи — найти функцию, которая соответствует или предсказывает результат (метку), который минимизирует ожидаемую ошибку по всем возможным входным данным и меткам. Ожидаемая ошибка функции равна: где и — домены входных данных и их метки соответственно.

Обычно в задачах обучения доступно только подмножество входных данных и меток, измеренное с некоторым шумом. Поэтому ожидаемая ошибка неизмерима, и лучшим доступным суррогатом является эмпирическая ошибка по доступным образцам: Без ограничений на сложность доступного функционального пространства (формально, воспроизводящего ядра Гильбертова пространства ) будет обучена модель, которая несет нулевую потерю на суррогатной эмпирической ошибке. Если измерения (например , ) были сделаны с шумом, эта модель может страдать от переобучения и показывать плохую ожидаемую ошибку. Регуляризация вводит штраф за исследование определенных областей функционального пространства, используемых для построения модели, что может улучшить обобщение.

Регуляризация Тихонова (гребневая регрессия)

Эти методы названы в честь Андрея Николаевича Тихонова , который применил регуляризацию к интегральным уравнениям и внес важный вклад во многие другие области.

При обучении линейной функции , характеризующейся неизвестным вектором таким, что , можно добавить -норму вектора к выражению потерь, чтобы предпочесть решения с меньшими нормами. Регуляризация Тихонова является одной из наиболее распространенных форм. Она также известна как гребневая регрессия. Она выражается как: где будет представлять образцы, используемые для обучения.

В случае общей функции норма функции в воспроизводящем ее ядре гильбертовом пространстве равна:

Поскольку норма дифференцируема , обучение можно продвигать с помощью градиентного спуска .

Метод наименьших квадратов, регуляризованный по Тихонову

Задача обучения с функцией потерь наименьших квадратов и регуляризацией Тихонова может быть решена аналитически. Записанная в матричной форме, оптимальная — та, для которой градиент функции потерь относительно равен 0. где третье утверждение — условие первого порядка .

По построению задачи оптимизации другие значения дают большие значения для функции потерь. Это можно проверить, изучив вторую производную .

Во время обучения этот алгоритм занимает время . Термины соответствуют обращению матрицы и вычислению , соответственно. Тестирование занимает время.

Ранняя остановка

Раннюю остановку можно рассматривать как регуляризацию во времени. Интуитивно, процедура обучения, такая как градиентный спуск, имеет тенденцию изучать все более сложные функции с увеличением итераций. Регуляризируя по времени, можно контролировать сложность модели, улучшая обобщение.

Ранняя остановка реализуется с использованием одного набора данных для обучения, одного статистически независимого набора данных для проверки и еще одного для тестирования. Модель обучается до тех пор, пока производительность на наборе проверки не перестанет улучшаться, а затем применяется к тестовому набору.

Теоретическая мотивация в методе наименьших квадратов

Рассмотрим конечную аппроксимацию ряда Неймана для обратимой матрицы A , где :

Это можно использовать для аппроксимации аналитического решения нерегуляризованного метода наименьших квадратов, если ввести γ , чтобы гарантировать, что норма меньше единицы.

Точное решение нерегуляризованной задачи обучения наименьшими квадратами минимизирует эмпирическую ошибку, но может потерпеть неудачу. Ограничивая T , единственный свободный параметр в алгоритме выше, задача регуляризуется по времени, что может улучшить ее обобщение.

Приведенный выше алгоритм эквивалентен ограничению числа итераций градиентного спуска для эмпирического риска с обновлением градиентного спуска:

Базовый случай тривиален. Индуктивный случай доказывается следующим образом:

Регуляризаторы для разреженности

Предположим, что задан словарь с размерностью, такой что функция в функциональном пространстве может быть выражена как:

Сравнение шара L1 и шара L2 в двух измерениях дает интуитивное представление о том, как регуляризация L1 достигает разреженности.

Наложение ограничения разреженности может привести к более простым и интерпретируемым моделям. Это полезно во многих реальных приложениях, таких как вычислительная биология . Примером может служить разработка простого предсказательного теста на заболевание, чтобы минимизировать стоимость проведения медицинских тестов и при этом максимально увеличить предсказательную силу.

Разумное ограничение разреженности — это норма , определяемая как число ненулевых элементов в . Однако было показано, что решение регуляризованной задачи обучения является NP-трудным . [7]

Норма (см. также Нормы ) может быть использована для аппроксимации оптимальной нормы посредством выпуклой релаксации. Можно показать, что норма вызывает разреженность. В случае наименьших квадратов эта проблема известна как LASSO в статистике и поиск базиса в обработке сигналов.

Эластичная сетевая регуляризация

Регуляризация может иногда давать неуникальные решения. Простой пример показан на рисунке, когда пространство возможных решений лежит на линии под углом 45 градусов. Это может быть проблематично для некоторых приложений и преодолевается путем объединения с регуляризацией в эластичной сетевой регуляризации , которая принимает следующую форму:

Эластичная сетевая регуляризация имеет тенденцию оказывать группирующий эффект, когда коррелированным входным признакам присваиваются равные веса.

Регуляризация эластичной сети широко применяется на практике и реализована во многих библиотеках машинного обучения.

Проксимальные методы

Хотя норма не приводит к NP-трудной задаче, норма выпукла, но не строго дифференцируема из-за перегиба при x = 0. Субградиентные методы , которые опираются на субпроизводную, могут использоваться для решения регуляризованных задач обучения. Однако более быстрой сходимости можно добиться с помощью проксимальных методов.

Для такой задачи , которая является выпуклой, непрерывной, дифференцируемой, с непрерывным по Липшицу градиентом (например, функцией потерь наименьших квадратов), и является выпуклой, непрерывной и собственной, то проксимальный метод решения задачи следующий. Сначала определите проксимальный оператор , а затем выполните итерацию

Проксимальный метод итеративно выполняет градиентный спуск, а затем проецирует результат обратно в пространство, разрешенное .

Когда — регуляризатор L 1 , проксимальный оператор эквивалентен оператору мягкого порога,

Это позволяет проводить эффективные вычисления.

Групповая разреженность без перекрытий

Группы признаков можно упорядочить с помощью ограничения разреженности, что может быть полезно для выражения определенных априорных знаний в задаче оптимизации.

В случае линейной модели с непересекающимися известными группами можно определить регуляризатор: где

Это можно рассматривать как введение регуляризатора по норме для членов каждой группы, за которым следует норма для групп.

Эту задачу можно решить с помощью проксимального метода, где проксимальный оператор представляет собой блочную функцию мягкого порога:

Групповая разреженность с перекрытиями

Алгоритм, описанный для разреженности групп без перекрытий, может быть применен к случаю, когда группы перекрываются, в определенных ситуациях. Это, скорее всего, приведет к некоторым группам со всеми нулевыми элементами, а также к другим группам с некоторыми ненулевыми и некоторыми нулевыми элементами.

Если желательно сохранить структуру группы, можно определить новый регуляризатор:

Для каждого определяется как вектор такой, что ограничение на группу равно , а все остальные элементы равны нулю. Регуляризатор находит оптимальное разложение на части. Его можно рассматривать как дублирование всех элементов, которые существуют в нескольких группах. Задачи обучения с этим регуляризатором также можно решить с помощью проксимального метода с усложнением. Проксимальный оператор не может быть вычислен в замкнутой форме, но может быть эффективно решен итеративно, вызывая внутреннюю итерацию внутри итерации проксимального метода.

Регуляризаторы для полуконтролируемого обучения

Когда сбор меток обходится дороже, чем сбор входных примеров, может быть полезным полуконтролируемое обучение. Регуляризаторы были разработаны для того, чтобы направлять алгоритмы обучения для изучения моделей, которые уважают структуру неконтролируемых обучающих образцов. Если задана симметричная матрица весов, можно определить регуляризатор:

Если кодирует результат некоторой метрики расстояния для точек и , желательно, чтобы . Этот регуляризатор отражает эту интуицию и эквивалентен: где — матрица Лапласа графика, индуцированного .

Задача оптимизации может быть решена аналитически, если ограничение применяется ко всем контролируемым образцам. Помеченная часть вектора , таким образом, очевидна. Непомеченная часть решается для: Псевдообратная может быть взята, поскольку имеет тот же диапазон, что и .

Регуляризаторы для многозадачного обучения

В случае многозадачного обучения проблемы рассматриваются одновременно, каждая из которых связана каким-либо образом. Цель состоит в том, чтобы изучить функции, в идеале заимствуя силу из связанности задач, которые имеют предсказательную силу. Это эквивалентно изучению матрицы .

Разреженный регуляризатор на столбцах

Этот регуляризатор определяет норму L2 по каждому столбцу и норму L1 по всем столбцам. Его можно решить проксимальными методами.

Регуляризация ядерной нормы

где — собственные значения в сингулярном разложении .

Регуляризация с ограничением по среднему

Этот регуляризатор ограничивает функции, изученные для каждой задачи, чтобы они были похожи на общее среднее значение функций по всем задачам. Это полезно для выражения предварительной информации, которой каждая задача, как ожидается, будет делиться с каждой другой задачей. Примером является прогнозирование уровня железа в крови, измеренного в разное время дня, где каждая задача представляет отдельного человека.

Регуляризация с ограничением кластерного среднего

где находится кластер задач.

Этот регуляризатор похож на регуляризатор с ограничением по среднему, но вместо этого обеспечивает сходство между задачами в пределах одного кластера. Это может захватывать более сложную априорную информацию. Этот метод использовался для прогнозирования рекомендаций Netflix . Кластер будет соответствовать группе людей, которые разделяют схожие предпочтения.

Сходство на основе графа

В более общем смысле, чем выше, сходство между задачами может быть определено функцией. Регуляризатор побуждает модель изучать схожие функции для схожих задач. для заданной симметричной матрицы сходства .

Другие применения регуляризации в статистике и машинном обучении

Байесовские методы обучения используют априорную вероятность , которая (обычно) дает более низкую вероятность для более сложных моделей. Известные методы выбора модели включают критерий информации Акаике (AIC), минимальную длину описания (MDL) и критерий информации Байеса (BIC). Альтернативные методы контроля переобучения, не включающие регуляризацию, включают перекрестную проверку .

Примерами применения различных методов регуляризации к линейной модели являются:

Смотрите также

Примечания

  1. ^ Kratsios, Anastasis (2020). «Глубокое обучение без арбитража в обобщенной структуре HJM с помощью данных регуляризации арбитража». Риски. 8 (2): [1]. doi : 10.3390/risks8020040 . hdl : 20.500.11850/456375 . Модели временной структуры могут быть регуляризированы для устранения возможностей арбитража [ sic ? ]. {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  2. ^ Бюльманн, Питер; Ван де Гир, Сара (2011). Статистика для многомерных данных . Springer Series in Statistics. стр. 9. doi :10.1007/978-3-642-20192-9. ISBN 978-3-642-20191-2. Если p > n, то обычная оценка наименьших квадратов не является уникальной и будет сильно переобучать данные. Таким образом, будет необходима форма регуляризации сложности.
  3. ^ Гудфеллоу, Ян; Бенджио, Йошуа; Курвилль, Аарон. Deep Learning Book . Получено 29.01.2021 .
  4. ^ abcde Го, Цзинжу. "Заметки об ИИ: регуляризация нейронных сетей". deeplearning.ai . Получено 2024-02-04 .
  5. ^ ab Bishop, Christopher M. (2007). Распознавание образов и машинное обучение (исправительное издание). Нью-Йорк: Springer. ISBN 978-0-387-31073-2.
  6. ^ О связи между максимальной апостериорной оценкой и гребневой регрессией см. Weinberger, Kilian (11 июля 2018 г.). "Линейная / гребневая регрессия". Лекция по машинному обучению CS4780 13. Корнелл.
  7. ^ Натараджан, Б. (1995-04-01). «Разреженные приближенные решения линейных систем». Журнал SIAM по вычислениям . 24 (2): 227–234. doi :10.1137/S0097539792240406. ISSN  0097-5397. S2CID  2072045.
  8. ^ Дуда, Ричард О. (2004). Классификация шаблонов + компьютерное руководство: набор в твердом переплете (2-е изд.). Нью-Йорк [ua]: Wiley. ISBN 978-0-471-70350-1.
  9. ^ Тибширани, Роберт (1996). «Сжатие регрессии и выбор с помощью лассо» ( PostScript ) . Журнал Королевского статистического общества, серия B. 58 ( 1): 267–288. doi :10.1111/j.2517-6161.1996.tb02080.x. MR  1379242. Получено 19.03.2009 .
  10. ^ Артур Э. Хёрл; Роберт В. Кеннард (1970). «Регрессия хребта: смещенная оценка для неортогональных задач». Технометрика . 12 (1): 55–67. doi :10.2307/1267351. JSTOR  1267351.
  11. ^ Ли Ванг; Майкл Д. Гордон; Цзи Чжу (2006). «Регуляризованная регрессия наименьших абсолютных отклонений и эффективный алгоритм настройки параметров». Шестая международная конференция по интеллектуальному анализу данных . С. 690–700. doi :10.1109/ICDM.2006.134. ISBN 978-0-7695-2701-7.
  12. ^ Кандес, Эммануэль ; Тао, Теренс (2007). «Селектор Данцига: статистическая оценка, когда p намного больше n ». Annals of Statistics . 35 (6): 2313–2351. arXiv : math/0506081 . doi :10.1214/009053606000001523. MR  2382644. S2CID  88524200.
  13. ^ Малгожата Богдан ; Эвоут ван ден Берг; Вэйцзе Су; Эммануэль Дж. Кандес (2013). «Статистическая оценка и тестирование по упорядоченной норме L1». arXiv : 1310.1969 [stat.ME].

Ссылки