stringtranslate.com

Гиперпараметр (машинное обучение)

В машинном обучении гиперпараметр — это параметр , который можно задать для определения любой настраиваемой части процесса обучения модели . Гиперпараметры можно классифицировать как гиперпараметры модели (например, топология и размер нейронной сети ) или гиперпараметры алгоритма (например, скорость обучения и размер пакета оптимизатора ) . Они называются гиперпараметрами в отличие от параметров , которые являются характеристиками, которые модель изучает из данных.

Гиперпараметры требуются не для каждой модели или алгоритма. Некоторые простые алгоритмы, такие как обычная регрессия наименьших квадратов, не требуют ничего. Однако, например, алгоритм LASSO добавляет гиперпараметр регуляризации к обычным наименьшим квадратам, который должен быть установлен перед обучением. [1] Даже модели и алгоритмы без строгих требований к определению гиперпараметров могут не давать значимых результатов, если они не выбраны тщательно. Однако оптимальные значения гиперпараметров не всегда легко предсказать. Некоторые гиперпараметры могут не иметь значимого эффекта, или одна важная переменная может зависеть от значения другой. Часто требуется отдельный процесс настройки гиперпараметров , чтобы найти подходящую комбинацию для данных и задачи.

Помимо улучшения производительности модели, исследователи могут использовать гиперпараметры для придания надежности и воспроизводимости своей работе, особенно если они используют модели, включающие генерацию случайных чисел .

Соображения

Время, необходимое для обучения и тестирования модели, может зависеть от выбора ее гиперпараметров. [2] Гиперпараметр обычно имеет непрерывный или целочисленный тип, что приводит к проблемам оптимизации смешанного типа. [2] Существование некоторых гиперпараметров обусловлено значением других, например, размер каждого скрытого слоя в нейронной сети может быть обусловлен количеством слоев. [2]

Параметры сложности обучения

Целевая функция обычно недифференцируема относительно гиперпараметров. [ необходимо уточнение ] В результате в большинстве случаев гиперпараметры не могут быть изучены с использованием методов оптимизации на основе градиента (таких как градиентный спуск), которые обычно применяются для изучения параметров модели. Эти гиперпараметры — это те параметры, которые описывают представление модели, которое не может быть изучено обычными методами оптимизации, но тем не менее влияет на функцию потерь. Примером может служить гиперпараметр толерантности к ошибкам в машинах опорных векторов .

Необучаемые параметры

Иногда гиперпараметры не могут быть изучены из обучающих данных, поскольку они агрессивно увеличивают емкость модели и могут свести функцию потерь к нежелательному минимуму ( переобучение данным), в отличие от правильного отображения богатства структуры в данных. Например, если мы рассматриваем степень полиномиального уравнения, соответствующего регрессионной модели, как обучаемый параметр , степень будет увеличиваться до тех пор, пока модель не будет идеально соответствовать данным, что даст низкую ошибку обучения, но плохую производительность обобщения.

Настраиваемость

Большинство изменений производительности можно отнести всего к нескольким гиперпараметрам. [3] [2] [4] Настраиваемость алгоритма, гиперпараметра или взаимодействующих гиперпараметров является мерой того, насколько производительность может быть получена путем его настройки. [5] Для LSTM , хотя скорость обучения, за которой следует размер сети, являются его наиболее важными гиперпараметрами, [6] пакетирование и импульс не оказывают существенного влияния на его производительность. [7]

Хотя некоторые исследования рекомендуют использовать мини-партии размером в тысячи, другие работы показали, что наилучшую производительность обеспечивают мини-партии размером от 2 до 32. [8]

Надежность

Присущая обучению стохастичность напрямую подразумевает, что эмпирическая производительность гиперпараметров не обязательно является их истинной производительностью. [2] Методы, которые не являются устойчивыми к простым изменениям гиперпараметров, случайным начальным числам или даже различным реализациям одного и того же алгоритма, не могут быть интегрированы в критически важные системы управления без существенного упрощения и повышения надежности. [9]

В частности, алгоритмы обучения с подкреплением требуют измерения их производительности по большому количеству случайных начальных значений, а также измерения их чувствительности к выбору гиперпараметров. [9] Их оценка с небольшим количеством случайных начальных значений не отражает производительность адекватно из-за высокой дисперсии. [9] Некоторые методы обучения с подкреплением, например DDPG (Deep Deterministic Policy Gradient), более чувствительны к выбору гиперпараметров, чем другие. [9]

Оптимизация

Оптимизация гиперпараметров находит кортеж гиперпараметров, который дает оптимальную модель, минимизирующую предопределенную функцию потерь на заданных тестовых данных. [2] Целевая функция берет кортеж гиперпараметров и возвращает связанные потери. [2] Обычно эти методы не основаны на градиенте, а вместо этого применяют концепции оптимизации без производных или оптимизации черного ящика.

Воспроизводимость

Помимо настройки гиперпараметров, машинное обучение включает в себя хранение и организацию параметров и результатов, а также обеспечение их воспроизводимости. [10] При отсутствии надежной инфраструктуры для этой цели исследовательский код часто быстро развивается и ставит под угрозу такие важные аспекты, как учет и воспроизводимость . [11] Онлайн-платформы для совместной работы в области машинного обучения идут дальше, позволяя ученым автоматически обмениваться, организовывать и обсуждать эксперименты, данные и алгоритмы. [12] Воспроизводимость может быть особенно сложной для моделей глубокого обучения . [13] Например, исследования показали, что модели глубокого обучения очень сильно зависят даже от случайного выбора начального числа генератора случайных чисел . [14]

Смотрите также

Ссылки

  1. ^ Янг, Ли; Шами, Абдалла (2020-11-20). «О гиперпараметрической оптимизации алгоритмов машинного обучения: теория и практика». Neurocomputing . 415 : 295–316. arXiv : 2007.15745 . doi : 10.1016/j.neucom.2020.07.061. ISSN  0925-2312. S2CID  220919678.
  2. ^ abcdefg "Клэзен, Марк и Барт Де Мур. "Поиск гиперпараметров в машинном обучении". Препринт arXiv arXiv:1502.02127 (2015)". arXiv : 1502.02127 . Bibcode :2015arXiv150202127C.
  3. ^ Лейтон-Браун, Кевин; Хус, Хольгер; Хаттер, Фрэнк (27 января 2014 г.). «Эффективный подход к оценке важности гиперпараметров»: 754–762 – через Transactions.mlr.press. {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  4. ^ "van Rijn, Jan N. и Frank Hutter. "Важность гиперпараметров в наборах данных". Препринт arXiv arXiv:1710.04725 (2017)". arXiv : 1710.04725 . Bibcode :2017arXiv171004725V.
  5. ^ "Пробст, Филипп, Бернд Бишль и Энн-Лор Булестейкс. "Настраиваемость: важность гиперпараметров алгоритмов машинного обучения". Препринт arXiv arXiv:1802.09596 (2018)". arXiv : 1802.09596 . Bibcode :2018arXiv180209596P.
  6. ^ Грефф, К.; Шривастава, РК; Коутник, Дж.; Стеунебринк, БР; Шмидхубер, Дж. (23 октября 2017 г.). «LSTM: Одиссея пространства поиска». Труды IEEE по нейронным сетям и системам обучения . 28 (10): 2222–2232. arXiv : 1503.04069 . doi : 10.1109/TNNLS.2016.2582924. PMID  27411231. S2CID  3356463.
  7. ^ "Брюэль, Томас М. "Бенчмаркинг сетей LSTM". Препринт arXiv arXiv:1508.02774 (2015)". arXiv : 1508.02774 . Bibcode :2015arXiv150802774B.
  8. ^ «Повторный взгляд на обучение малыми партиями для глубоких нейронных сетей (2018)». arXiv : 1804.07612 . Bibcode :2018arXiv180407612M.
  9. ^ abcd "Mania, Horia, Aurelia Guy и Benjamin Recht. "Простой случайный поиск обеспечивает конкурентный подход к обучению с подкреплением". Препринт arXiv arXiv:1803.07055 (2018)". arXiv : 1803.07055 . Bibcode :2018arXiv180307055M.
  10. ^ "Грефф, Клаус и Юрген Шмидхубер. "Введение в сакральное: инструмент для облегчения воспроизводимых исследований." (PDF) . 2015.
  11. ^ "Greff, Klaus, et al. "The Sacred Infrastructure for Computational Research."" (PDF) . 2017. Архивировано из оригинала (PDF) 2020-09-29 . Получено 2018-04-06 .
  12. ^ "Ваншорен, Хоакин и др. "OpenML: сетевая наука в машинном обучении". Препринт arXiv arXiv:1407.7722 (2014)". arXiv : 1407.7722 . Bibcode :2014arXiv1407.7722V.
  13. ^ Вилла, Дженнифер; Циммерман, Йоав (25 мая 2018 г.). «Воспроизводимость в МО: почему это важно и как ее достичь». Блог Defined AI . Получено 31 августа 2020 г.
  14. ^ Бетхард, С. (2022). Нам нужно поговорить о случайных семенах. ArXiv, abs/2210.13393.