Координатный спуск

Координатный спуск — это алгоритм оптимизации , который последовательно минимизируется по координатным направлениям, чтобы найти минимум функции. На каждой итерации алгоритм определяет координату или блок координат с помощью правила выбора координат, затем точно или неточно минимизирует соответствующую гиперплоскость координат, фиксируя при этом все остальные координаты или блоки координат. Поиск линии по направлению координат может выполняться на текущей итерации, чтобы определить подходящий размер шага. Координатный спуск применим как в дифференцируемом, так и в свободном от производных контекстах.

Описание

Координатный спуск основан на идее о том, что минимизации функции многих переменных можно достичь, минимизируя ее по одному направлению за раз, т. е. решая одномерные (или, по крайней мере, гораздо более простые) задачи оптимизации в цикле. ^[1] В простейшем случае циклического спуска по координатам происходит циклическое перебор направлений по одному, минимизируя целевую функцию по отношению к каждому направлению координат за раз. То есть начиная с начальных значений переменных $F(\mathbf {x})$

\mathbf {x} ^{0}=(x_{1}^{0},\ldots,x_{n}^{0})

раунд определяет путем итеративного решения задач оптимизации с одной переменной $k+1$ $\mathbf {x} ^{k+1}$ $\mathbf {x} ^{k}$

x_{i}^{k+1}={\underset {y\in \mathbb {R} {\operatorname {arg\,min} }}\;f(x_{1}^{k+ 1},\dots ,x_{i-1}^{k+1},y,x_{i+1}^{k},\dots ,x_{n}^{k})

^[2]

для каждой переменной , от 1 до . $x_{i}$ $\mathbf {x}$ $я$ $п$

Таким образом, мы начинаем с первоначального предположения о локальном минимуме и итеративно получаем последовательность . $\mathbf {x} ^{0}$ $F$ $\mathbf {x} ^{0},\mathbf {x} ^{1},\mathbf {x} ^{2},\dots$

Выполняя поиск строки на каждой итерации, автоматически получаем

F(\mathbf {x} ^{0})\geq F(\mathbf {x} ^{1})\geq F(\mathbf {x} ^{2})\geq \dots .

Можно показать, что эта последовательность имеет те же свойства сходимости, что и наискорейший спуск. Отсутствие улучшения после одного цикла поиска линии по направлениям координат означает достижение стационарной точки.

Этот процесс проиллюстрирован ниже.

Дифференцируемый случай

В случае непрерывно дифференцируемой функции $F$ алгоритм спуска по координатам можно представить следующим образом: ^[1]

Выберите начальный вектор параметров $x$ .
До тех пор, пока не будет достигнута сходимость, или в течение некоторого фиксированного количества итераций:
- Выберите индекс $i$ от $1$ до $n$ .
- Выберите размер шага $α$ .
- Обновить $x i$ до $x i − α.mw-parser-output .sfrac{white-space:nowrap}.mw-parser-output .sfrac.tion,.mw-parser-output .sfrac .tion{display:inline-block;vertical-align:-0.5em;font-size:85%;text-align:center}.mw-parser-output .sfrac .num,.mw-parser-output .sfrac .den{display:block;line-height:1em;margin:0 0.1em}.mw-parser-output .sfrac .den{border-top:1px solid}.mw-parser-output .sr-only{border:0;clip:rect(0,0,0,0);height:1px;margin:-1px;overflow:hidden;padding:0;position:absolute;width:1px}∂ Ф/∂ х я( Икс )$ .

Размер шага можно выбрать различными способами, например, путем поиска точного минимизатора $f (x i) = F (x)$ (т. е. $F$ со всеми переменными, кроме $x i,$ фиксированными) или с помощью традиционных критериев поиска строки. ^[1]

Ограничения

Координатный спуск имеет две проблемы. Один из них — наличие негладкой функции многих переменных. На следующем рисунке показано, что итерация спуска по координате может застрять в нестационарной точке , если кривые уровня функции не являются гладкими. Предположим, что алгоритм находится в точке $(-2, -2)$ ; тогда есть два направления, выровненных по оси, которые он может рассмотреть для совершения шага, обозначенные красными стрелками. Однако каждый шаг в этих двух направлениях будет увеличивать значение целевой функции (при условии задачи минимизации), поэтому алгоритм не будет предпринимать никаких шагов, даже если оба шага вместе приблизят алгоритм к оптимальному. Хотя этот пример показывает, что спуск по координатам не обязательно сходится к оптимальному, при разумных условиях можно продемонстрировать формальную сходимость. ^[3]

Другая проблема — сложность параллелизма. Поскольку природа координатного спуска заключается в циклическом переборе направлений и минимизации целевой функции по отношению к каждому координатному направлению, координатный спуск не является очевидным кандидатом на массовый параллелизм. Недавние исследовательские работы показали, что массивный параллелизм применим к спуску по координатам за счет ослабления изменения целевой функции по отношению к каждому направлению координат. ^[4]^[5]^[6]

Приложения

Алгоритмы координатного спуска популярны среди практиков благодаря своей простоте, но это же свойство привело к тому, что исследователи оптимизации в значительной степени игнорировали их в пользу более интересных (сложных) методов. ^[1] Раннее применение оптимизации координатного спуска было в области компьютерной томографии ^[7] , где было обнаружено, что она имеет быструю сходимость ^[8] и впоследствии использовалась для клинической многосрезовой КТ-реконструкции со спиральным сканированием. ^[9] Алгоритм спуска циклических координат (CCD) применялся для предсказания структуры белка. ^[10] Более того, возрос интерес к использованию координатного спуска с появлением крупномасштабных задач в машинном обучении , где координатный спуск оказался конкурентоспособным по сравнению с другими методами применительно к таким задачам, как обучение машин с линейными опорными векторами ^{[10] 11]} (см. LIBLINEAR ) и неотрицательную матричную факторизацию . ^[12] Они привлекательны для задач, где вычисление градиентов невозможно, возможно, потому, что необходимые для этого данные распределены по компьютерным сетям. ^[13]

Смотрите также