stringtranslate.com

Уравнение Гамильтона–Якоби–Беллмана

Уравнение Гамильтона-Якоби-Беллмана ( HJB ) представляет собой нелинейное уравнение в частных производных , которое обеспечивает необходимые и достаточные условия для оптимальности управления относительно функции потерь . [1] Его решение представляет собой функцию значения задачи оптимального управления, которая, будучи известной, может быть использована для получения оптимального управления путем взятия максимизатора (или минимизатора) гамильтониана, участвующего в уравнении HJB. [2] [3]

Уравнение является результатом теории динамического программирования , которая была впервые разработана в 1950-х годах Ричардом Беллманом и его коллегами. [4] [5] [6] Связь с уравнением Гамильтона–Якоби из классической физики впервые была установлена ​​Рудольфом Кальманом . [7] В задачах с дискретным временем аналогичное разностное уравнение обычно называют уравнением Беллмана .

В то время как классические вариационные задачи , такие как задача брахистохроны , могут быть решены с помощью уравнения Гамильтона–Якоби–Беллмана, [8] метод может быть применен к более широкому спектру задач. Кроме того, его можно обобщить на стохастические системы, в этом случае уравнение HJB является эллиптическим уравнением в частных производных второго порядка . [9] Однако основным недостатком является то, что уравнение HJB допускает классические решения только для достаточно гладкой функции значения, что не гарантируется в большинстве ситуаций. Вместо этого требуется понятие вязкостного решения , в котором обычные производные заменяются (множественно-значными) субпроизводными . [10]

Задачи оптимального управления

Рассмотрим следующую задачу детерминированного оптимального управления за определенный период времени :

где — скалярная функция скорости затрат, а — функция, которая дает значение наследства в конечном состоянии, — вектор состояния системы, предполагается заданным, а для — вектор управления, который мы пытаемся найти. Таким образом, — функция значения .

Система также должна быть объектом

где дает вектор, определяющий физическую эволюцию вектора состояния с течением времени.

Уравнение с частными производными

Для этой простой системы уравнение в частных производных Гамильтона–Якоби–Беллмана имеет вид

в зависимости от конечного состояния

Как и прежде, неизвестная скалярная функция в приведенном выше частном дифференциальном уравнении представляет собой функцию значения Беллмана , которая представляет собой затраты, понесенные при запуске в состоянии в момент времени и оптимальном управлении системой с этого момента до момента времени .

Вывод уравнения

Интуитивно уравнение HJB можно вывести следующим образом. Если — оптимальная функция стоимости-к-переходу (также называемая «функцией ценности»), то по принципу оптимальности Ричарда Беллмана , переходя от времени t к t  +  dt , мы имеем

Обратите внимание, что разложение Тейлора первого члена в правой части равно

где обозначает члены в разложении Тейлора более высокого порядка, чем один в нотации little- o . Затем, если мы вычтем из обеих сторон, разделим на dt и возьмем предел, когда dt стремится к нулю, мы получим уравнение HJB, определенное выше.

Решение уравнения

Уравнение HJB обычно решается в обратном направлении во времени , начиная с и заканчивая в . [11]

При решении по всему пространству состояний и непрерывной дифференцируемости уравнение HJB является необходимым и достаточным условием для оптимума, когда конечное состояние не ограничено. [12] Если мы можем решить для , то мы можем найти из него управление , которое достигает минимальной стоимости.

В общем случае уравнение HJB не имеет классического (гладкого) решения. Было разработано несколько понятий обобщенных решений, чтобы охватить такие ситуации, включая вязкостное решение ( Пьер-Луи Лионс и Майкл Крэндалл ), [13] минимаксное решение (Андрей Измайлович Субботин  [ru] ) и другие.

Приближенное динамическое программирование было введено DP Bertsekas и JN Tsitsiklis с использованием искусственных нейронных сетей ( многослойных персептронов ) для аппроксимации функции Беллмана в целом. [14] Это эффективная стратегия смягчения для уменьшения влияния размерности путем замены запоминания полного отображения функции для всей области пространства на запоминание параметров единственной нейронной сети. В частности, для систем с непрерывным временем был введен подход приближенного динамического программирования, который объединяет обе итерации политики с нейронными сетями. [15] В дискретном времени был введен подход к решению уравнения HJB, объединяющий итерации значений и нейронные сети. [16]

В качестве альтернативы было показано, что оптимизация по сумме квадратов может дать приближенное полиномиальное решение уравнения Гамильтона–Якоби–Беллмана произвольно хорошо относительно нормы . [17]

Расширение для стохастических задач

Идея решения проблемы управления путем применения принципа оптимальности Беллмана и последующей разработки стратегии оптимизации в обратном направлении во времени может быть обобщена на стохастические проблемы управления. Рассмотрим аналогичное выше

теперь со стохастическим процессом для оптимизации и управления. Сначала используя Беллмана, а затем расширяя с помощью правила Ито , можно найти стохастическое уравнение HJB

где представляет собой оператор стохастического дифференцирования , и при условии конечного условия

Обратите внимание, что случайность исчезла. В этом случае решение последней не обязательно решает основную задачу, это всего лишь кандидат, и требуется дальнейший проверочный аргумент. Этот метод широко используется в финансовой математике для определения оптимальных инвестиционных стратегий на рынке (см., например, задачу портфеля Мертона ).

Заявка на LQG-Control

В качестве примера можно рассмотреть систему с линейной стохастической динамикой и квадратичной стоимостью. Если динамика системы задана как

и стоимость накапливается по ставке , уравнение HJB задается как

с оптимальным действием, заданным

Предполагая квадратичную форму для функции ценности, мы получаем обычное уравнение Риккати для гессиана функции ценности, как это обычно бывает для линейно-квадратично-гауссовского управления .

Смотрите также

Ссылки

  1. ^ Кирк, Дональд Э. (1970). Оптимальная теория управления: Введение. Englewood Cliffs, NJ: Prentice-Hall. С. 86–90. ISBN 0-13-638098-0.
  2. ^ Yong, Jiongmin; Zhou, Xun Yu (1999). "Динамическое программирование и уравнения HJB". Стохастическое управление: гамильтоновы системы и уравнения HJB . Springer. стр. 157–215 [стр. 163]. ISBN 0-387-98723-1.
  3. ^ Найду, Десинени С. (2003). «Уравнение Гамильтона–Якоби–Беллмана». Оптимальные системы управления . Boca Raton: CRC Press. стр. 277–283 [стр. 280]. ISBN 0-8493-0892-5.
  4. ^ Беллман, RE (1954). «Динамическое программирование и новый формализм в вариационном исчислении». Proc. Natl. Acad. Sci. 40 (4): 231–235. Bibcode :1954PNAS...40..231B. doi : 10.1073/pnas.40.4.231 . PMC 527981 . PMID  16589462.  
  5. ^ Беллман, Р. Э. (1957). Динамическое программирование . Принстон, Нью-Джерси: Princeton University Press.
  6. ^ Беллман, Р.; Дрейфус, С. (1959). «Применение динамического программирования к определению оптимальных траекторий спутников». J. Br. Interplanet. Soc . 17 : 78–83.
  7. ^ Кальман, Рудольф Э. (1963). «Теория оптимального управления и вариационное исчисление». В Bellman, Richard (ред.). Математические методы оптимизации . Беркли: Издательство Калифорнийского университета. С. 309–331. OCLC  1033974.
  8. ^ Кемаджу-Браун, Изабель (2016). «Краткая история теории оптимального управления и некоторые недавние разработки». В Budzban, Gregory; Hughes, Harry Randolph; Schurz, Henri (ред.). Вероятность в алгебраических и геометрических структурах . Contemporary Mathematics. Т. 668. С. 119–130. doi :10.1090/conm/668/13400. ISBN 9781470419455.
  9. ^ Чанг, Фву-Ранк (2004). Стохастическая оптимизация в непрерывном времени. Кембридж, Великобритания: Cambridge University Press. С. 113–168. ISBN 0-521-83406-6.
  10. ^ Барди, Мартино; Капуццо-Дольчетта, Итало (1997). Оптимальное управление и решения вязкости уравнений Гамильтона–Якоби–Беллмана . Бостон: Birkhäuser. ISBN 0-8176-3640-4.
  11. ^ Льюис, Фрэнк Л.; Врабие, Драгуна; Сирмос, Василис Л. (2012). Оптимальное управление (3-е изд.). Уайли. п. 278. ИСБН 978-0-470-63349-6.
  12. ^ Берцекас, Димитрий П. (2005). Динамическое программирование и оптимальное управление . Athena Scientific.
  13. ^ Барди, Мартино; Капуццо-Дольчетта, Итало (1997). Оптимальное управление и решения вязкости уравнений Гамильтона-Якоби-Беллмана . Бостон: Birkhäuser. ISBN 0-8176-3640-4.
  14. ^ Берцекас, Димитрий П.; Цициклис, Джон Н. (1996). Нейродинамическое программирование . Athena Scientific. ISBN 978-1-886529-10-6.
  15. ^ Абу-Халаф, Мурад; Льюис, Фрэнк Л. (2005). «Почти оптимальные законы управления для нелинейных систем с насыщающими приводами с использованием подхода HJB нейронной сети». Automatica . 41 (5): 779–791. doi :10.1016/j.automatica.2004.11.034. S2CID  14757582.
  16. ^ Аль-Тамими, Асма; Льюис, Фрэнк Л.; Абу-Халаф, Мурад (2008). «Дискретное нелинейное решение HJB с использованием приближенного динамического программирования: доказательство сходимости». Труды IEEE по системам, человеку и кибернетике — часть B: Кибернетика . 38 (4): 943–949. doi :10.1109/TSMCB.2008.926614. PMID  18632382. S2CID  14202785.
  17. ^ Джонс, Морган; Пит, Мэтью (2020). «Полиномиальная аппроксимация функций значений и нелинейная разработка контроллера с ограничениями производительности». arXiv : 2010.06828 [math.OC].

Дальнейшее чтение