В машинном обучении гиперпараметр — это параметр , который можно задать для определения любой настраиваемой части процесса обучения модели . Гиперпараметры можно классифицировать как гиперпараметры модели (например, топология и размер нейронной сети ) или гиперпараметры алгоритма (например, скорость обучения и размер пакета оптимизатора ) . Они называются гиперпараметрами в отличие от параметров , которые являются характеристиками, которые модель изучает из данных.
Гиперпараметры требуются не для каждой модели или алгоритма. Некоторые простые алгоритмы, такие как обычная регрессия наименьших квадратов, не требуют ничего. Однако, например, алгоритм LASSO добавляет гиперпараметр регуляризации к обычным наименьшим квадратам, который должен быть установлен перед обучением. [1] Даже модели и алгоритмы без строгих требований к определению гиперпараметров могут не давать значимых результатов, если они не выбраны тщательно. Однако оптимальные значения гиперпараметров не всегда легко предсказать. Некоторые гиперпараметры могут не иметь значимого эффекта, или одна важная переменная может зависеть от значения другой. Часто требуется отдельный процесс настройки гиперпараметров , чтобы найти подходящую комбинацию для данных и задачи.
Помимо улучшения производительности модели, исследователи могут использовать гиперпараметры для придания надежности и воспроизводимости своей работе, особенно если они используют модели, включающие генерацию случайных чисел .
Время, необходимое для обучения и тестирования модели, может зависеть от выбора ее гиперпараметров. [2] Гиперпараметр обычно имеет непрерывный или целочисленный тип, что приводит к проблемам оптимизации смешанного типа. [2] Существование некоторых гиперпараметров обусловлено значением других, например, размер каждого скрытого слоя в нейронной сети может быть обусловлен количеством слоев. [2]
Целевая функция обычно недифференцируема относительно гиперпараметров. [ необходимо уточнение ] В результате в большинстве случаев гиперпараметры не могут быть изучены с использованием методов оптимизации на основе градиента (таких как градиентный спуск), которые обычно применяются для изучения параметров модели. Эти гиперпараметры — это те параметры, которые описывают представление модели, которое не может быть изучено обычными методами оптимизации, но тем не менее влияет на функцию потерь. Примером может служить гиперпараметр толерантности к ошибкам в машинах опорных векторов .
Иногда гиперпараметры не могут быть изучены из обучающих данных, поскольку они агрессивно увеличивают емкость модели и могут свести функцию потерь к нежелательному минимуму ( переобучение данным), в отличие от правильного отображения богатства структуры в данных. Например, если мы рассматриваем степень полиномиального уравнения, соответствующего регрессионной модели, как обучаемый параметр , степень будет увеличиваться до тех пор, пока модель не будет идеально соответствовать данным, что даст низкую ошибку обучения, но плохую производительность обобщения.
Большинство изменений производительности можно отнести всего к нескольким гиперпараметрам. [3] [2] [4] Настраиваемость алгоритма, гиперпараметра или взаимодействующих гиперпараметров является мерой того, насколько производительность может быть получена путем его настройки. [5] Для LSTM , хотя скорость обучения, за которой следует размер сети, являются его наиболее важными гиперпараметрами, [6] пакетирование и импульс не оказывают существенного влияния на его производительность. [7]
Хотя некоторые исследования рекомендуют использовать мини-партии размером в тысячи, другие работы показали, что наилучшую производительность обеспечивают мини-партии размером от 2 до 32. [8]
Присущая обучению стохастичность напрямую подразумевает, что эмпирическая производительность гиперпараметров не обязательно является их истинной производительностью. [2] Методы, которые не являются устойчивыми к простым изменениям гиперпараметров, случайным начальным числам или даже различным реализациям одного и того же алгоритма, не могут быть интегрированы в критически важные системы управления без существенного упрощения и повышения надежности. [9]
В частности, алгоритмы обучения с подкреплением требуют измерения их производительности по большому количеству случайных начальных значений, а также измерения их чувствительности к выбору гиперпараметров. [9] Их оценка с небольшим количеством случайных начальных значений не отражает производительность адекватно из-за высокой дисперсии. [9] Некоторые методы обучения с подкреплением, например DDPG (Deep Deterministic Policy Gradient), более чувствительны к выбору гиперпараметров, чем другие. [9]
Оптимизация гиперпараметров находит кортеж гиперпараметров, который дает оптимальную модель, минимизирующую предопределенную функцию потерь на заданных тестовых данных. [2] Целевая функция берет кортеж гиперпараметров и возвращает связанные потери. [2] Обычно эти методы не основаны на градиенте, а вместо этого применяют концепции оптимизации без производных или оптимизации черного ящика.
Помимо настройки гиперпараметров, машинное обучение включает в себя хранение и организацию параметров и результатов, а также обеспечение их воспроизводимости. [10] При отсутствии надежной инфраструктуры для этой цели исследовательский код часто быстро развивается и ставит под угрозу такие важные аспекты, как учет и воспроизводимость . [11] Онлайн-платформы для совместной работы в области машинного обучения идут дальше, позволяя ученым автоматически обмениваться, организовывать и обсуждать эксперименты, данные и алгоритмы. [12] Воспроизводимость может быть особенно сложной для моделей глубокого обучения . [13] Например, исследования показали, что модели глубокого обучения очень сильно зависят даже от случайного выбора начального числа генератора случайных чисел . [14]
{{cite journal}}
: Цитировать журнал требует |journal=
( помощь )