Условие оптимальности в теории оптимального управления
Уравнение Гамильтона-Якоби-Беллмана ( HJB ) представляет собой нелинейное уравнение в частных производных , которое обеспечивает необходимые и достаточные условия для оптимальности управления относительно функции потерь . [1] Его решение представляет собой функцию значения задачи оптимального управления, которая, будучи известной, может быть использована для получения оптимального управления путем взятия максимизатора (или минимизатора) гамильтониана, участвующего в уравнении HJB. [2] [3]
Уравнение является результатом теории динамического программирования , которая была впервые разработана в 1950-х годах Ричардом Беллманом и его коллегами. [4] [5] [6] Связь с уравнением Гамильтона–Якоби из классической физики впервые была установлена Рудольфом Кальманом . [7] В задачах с дискретным временем аналогичное разностное уравнение обычно называют уравнением Беллмана .
В то время как классические вариационные задачи , такие как задача брахистохроны , могут быть решены с помощью уравнения Гамильтона–Якоби–Беллмана, [8] метод может быть применен к более широкому спектру задач. Кроме того, его можно обобщить на стохастические системы, в этом случае уравнение HJB является эллиптическим уравнением в частных производных второго порядка . [9] Однако основным недостатком является то, что уравнение HJB допускает классические решения только для достаточно гладкой функции значения, что не гарантируется в большинстве ситуаций. Вместо этого требуется понятие вязкостного решения , в котором обычные производные заменяются (множественно-значными) субпроизводными . [10]
Задачи оптимального управления
Рассмотрим следующую задачу детерминированного оптимального управления за определенный период времени :
где — скалярная функция скорости затрат, а — функция, которая дает значение наследства в конечном состоянии, — вектор состояния системы, предполагается заданным, а для — вектор управления, который мы пытаемся найти. Таким образом, — функция значения .
Система также должна быть объектом
где дает вектор, определяющий физическую эволюцию вектора состояния с течением времени.
Уравнение с частными производными
Для этой простой системы уравнение в частных производных Гамильтона–Якоби–Беллмана имеет вид
в зависимости от конечного состояния
Как и прежде, неизвестная скалярная функция в приведенном выше частном дифференциальном уравнении представляет собой функцию значения Беллмана , которая представляет собой затраты, понесенные при запуске в состоянии в момент времени и оптимальном управлении системой с этого момента до момента времени .
Вывод уравнения
Интуитивно уравнение HJB можно вывести следующим образом. Если — оптимальная функция стоимости-к-переходу (также называемая «функцией ценности»), то по принципу оптимальности Ричарда Беллмана , переходя от времени t к t + dt , мы имеем
Обратите внимание, что разложение Тейлора первого члена в правой части равно
где обозначает члены в разложении Тейлора более высокого порядка, чем один в нотации little- o . Затем, если мы вычтем из обеих сторон, разделим на dt и возьмем предел, когда dt стремится к нулю, мы получим уравнение HJB, определенное выше.
Решение уравнения
Уравнение HJB обычно решается в обратном направлении во времени , начиная с и заканчивая в . [11]
При решении по всему пространству состояний и непрерывной дифференцируемости уравнение HJB является необходимым и достаточным условием для оптимума, когда конечное состояние не ограничено. [12] Если мы можем решить для , то мы можем найти из него управление , которое достигает минимальной стоимости.
В общем случае уравнение HJB не имеет классического (гладкого) решения. Было разработано несколько понятий обобщенных решений, чтобы охватить такие ситуации, включая вязкостное решение ( Пьер-Луи Лионс и Майкл Крэндалл ), [13] минимаксное решение (Андрей Измайлович Субботин [ru] ) и другие.
Приближенное динамическое программирование было введено DP Bertsekas и JN Tsitsiklis с использованием искусственных нейронных сетей ( многослойных персептронов ) для аппроксимации функции Беллмана в целом. [14] Это эффективная стратегия смягчения для уменьшения влияния размерности путем замены запоминания полного отображения функции для всей области пространства на запоминание параметров единственной нейронной сети. В частности, для систем с непрерывным временем был введен подход приближенного динамического программирования, который объединяет обе итерации политики с нейронными сетями. [15] В дискретном времени был введен подход к решению уравнения HJB, объединяющий итерации значений и нейронные сети. [16]
В качестве альтернативы было показано, что оптимизация по сумме квадратов может дать приближенное полиномиальное решение уравнения Гамильтона–Якоби–Беллмана произвольно хорошо относительно нормы . [17]
Расширение для стохастических задач
Идея решения проблемы управления путем применения принципа оптимальности Беллмана и последующей разработки стратегии оптимизации в обратном направлении во времени может быть обобщена на стохастические проблемы управления. Рассмотрим аналогичное выше
теперь со стохастическим процессом для оптимизации и управления. Сначала используя Беллмана, а затем расширяя с помощью правила Ито , можно найти стохастическое уравнение HJB
где представляет собой оператор стохастического дифференцирования , и при условии конечного условия
Обратите внимание, что случайность исчезла. В этом случае решение последней не обязательно решает основную задачу, это всего лишь кандидат, и требуется дальнейший проверочный аргумент. Этот метод широко используется в финансовой математике для определения оптимальных инвестиционных стратегий на рынке (см., например, задачу портфеля Мертона ).
Заявка на LQG-Control
В качестве примера можно рассмотреть систему с линейной стохастической динамикой и квадратичной стоимостью. Если динамика системы задана как
и стоимость накапливается по ставке , уравнение HJB задается как
с оптимальным действием, заданным
Предполагая квадратичную форму для функции ценности, мы получаем обычное уравнение Риккати для гессиана функции ценности, как это обычно бывает для линейно-квадратично-гауссовского управления .
Смотрите также
- Уравнение Беллмана , дискретный аналог уравнения Гамильтона–Якоби–Беллмана.
- Принцип максимума Понтрягина , необходимое, но недостаточное условие оптимума, путем максимизации гамильтониана , но он имеет преимущество перед принципом Гамильтона-Якоба, поскольку должен быть удовлетворен только для одной рассматриваемой траектории.
Ссылки
- ^ Кирк, Дональд Э. (1970). Оптимальная теория управления: Введение. Englewood Cliffs, NJ: Prentice-Hall. С. 86–90. ISBN 0-13-638098-0.
- ^ Yong, Jiongmin; Zhou, Xun Yu (1999). "Динамическое программирование и уравнения HJB". Стохастическое управление: гамильтоновы системы и уравнения HJB . Springer. стр. 157–215 [стр. 163]. ISBN 0-387-98723-1.
- ^ Найду, Десинени С. (2003). «Уравнение Гамильтона–Якоби–Беллмана». Оптимальные системы управления . Boca Raton: CRC Press. стр. 277–283 [стр. 280]. ISBN 0-8493-0892-5.
- ^ Беллман, RE (1954). «Динамическое программирование и новый формализм в вариационном исчислении». Proc. Natl. Acad. Sci. 40 (4): 231–235. Bibcode :1954PNAS...40..231B. doi : 10.1073/pnas.40.4.231 . PMC 527981 . PMID 16589462.
- ^ Беллман, Р. Э. (1957). Динамическое программирование . Принстон, Нью-Джерси: Princeton University Press.
- ^ Беллман, Р.; Дрейфус, С. (1959). «Применение динамического программирования к определению оптимальных траекторий спутников». J. Br. Interplanet. Soc . 17 : 78–83.
- ^ Кальман, Рудольф Э. (1963). «Теория оптимального управления и вариационное исчисление». В Bellman, Richard (ред.). Математические методы оптимизации . Беркли: Издательство Калифорнийского университета. С. 309–331. OCLC 1033974.
- ^ Кемаджу-Браун, Изабель (2016). «Краткая история теории оптимального управления и некоторые недавние разработки». В Budzban, Gregory; Hughes, Harry Randolph; Schurz, Henri (ред.). Вероятность в алгебраических и геометрических структурах . Contemporary Mathematics. Т. 668. С. 119–130. doi :10.1090/conm/668/13400. ISBN 9781470419455.
- ^ Чанг, Фву-Ранк (2004). Стохастическая оптимизация в непрерывном времени. Кембридж, Великобритания: Cambridge University Press. С. 113–168. ISBN 0-521-83406-6.
- ^ Барди, Мартино; Капуццо-Дольчетта, Итало (1997). Оптимальное управление и решения вязкости уравнений Гамильтона–Якоби–Беллмана . Бостон: Birkhäuser. ISBN 0-8176-3640-4.
- ^ Льюис, Фрэнк Л.; Врабие, Драгуна; Сирмос, Василис Л. (2012). Оптимальное управление (3-е изд.). Уайли. п. 278. ИСБН 978-0-470-63349-6.
- ^ Берцекас, Димитрий П. (2005). Динамическое программирование и оптимальное управление . Athena Scientific.
- ^ Барди, Мартино; Капуццо-Дольчетта, Итало (1997). Оптимальное управление и решения вязкости уравнений Гамильтона-Якоби-Беллмана . Бостон: Birkhäuser. ISBN 0-8176-3640-4.
- ^ Берцекас, Димитрий П.; Цициклис, Джон Н. (1996). Нейродинамическое программирование . Athena Scientific. ISBN 978-1-886529-10-6.
- ^ Абу-Халаф, Мурад; Льюис, Фрэнк Л. (2005). «Почти оптимальные законы управления для нелинейных систем с насыщающими приводами с использованием подхода HJB нейронной сети». Automatica . 41 (5): 779–791. doi :10.1016/j.automatica.2004.11.034. S2CID 14757582.
- ^ Аль-Тамими, Асма; Льюис, Фрэнк Л.; Абу-Халаф, Мурад (2008). «Дискретное нелинейное решение HJB с использованием приближенного динамического программирования: доказательство сходимости». Труды IEEE по системам, человеку и кибернетике — часть B: Кибернетика . 38 (4): 943–949. doi :10.1109/TSMCB.2008.926614. PMID 18632382. S2CID 14202785.
- ^ Джонс, Морган; Пит, Мэтью (2020). «Полиномиальная аппроксимация функций значений и нелинейная разработка контроллера с ограничениями производительности». arXiv : 2010.06828 [math.OC].
Дальнейшее чтение
- Берцекас, Димитрий П. (2005). Динамическое программирование и оптимальное управление . Athena Scientific.
- Фам, Хуен (2009). «Классический подход PDE к динамическому программированию». Стохастическое управление и оптимизация в непрерывном времени с финансовыми приложениями . Springer. стр. 37–60. ISBN 978-3-540-89499-5.
- Стенгель, Роберт Ф. (1994). «Условия оптимальности». Оптимальное управление и оценка . Нью-Йорк: Довер. С. 201–222. ISBN 0-486-68200-5.