Функция ценности

Функция ценности задачи оптимизации дает значение , достигаемое целевой функцией при решении, при этом зависящее только от параметров задачи. ^[1]^[2] В управляемой динамической системе функция ценности представляет собой оптимальный выигрыш системы на интервале [t, t ₁ ] при запуске в момент времени t переменной состояния x(t)=x . ^[3] Если целевая функция представляет собой некоторую стоимость, которую необходимо минимизировать, то функция ценности может быть интерпретирована как стоимость завершения оптимальной программы, и поэтому называется «функцией стоимости для перехода». ^[4]^[5] В экономическом контексте, где целевая функция обычно представляет собой полезность , функция ценности концептуально эквивалентна косвенной функции полезности . ^[6]^[7]

В задаче оптимального управления функция ценности определяется как супремум целевой функции, взятой по множеству допустимых управлений. При условии , что типичная задача оптимального управления состоит в том, чтобы $(t_{0},x_{0})\in [0,t_{1}]\times \mathbb {R} ^{d}$

{\text{максимизировать}}\quad J(t_{0},x_{0};u)=\int _{t_{0}}^{t_{1}}I(t,x(t),u(t))\,\mathrm {d} t+\phi (x(t_{1}))

при условии

{\frac {\mathrm {d} x(t)}{\mathrm {d} t}}=f(t,x(t),u(t))

с начальной переменной состояния . ^[8] Целевая функция должна быть максимизирована по всем допустимым управлениям , где — измеримая по Лебегу функция от до некоторого заданного произвольного набора в . Функция значения тогда определяется как $x(t_{0})=x_{0}$ $J(t_{0},x_{0};u)$ $u\in U[t_{0},t_{1}]$ $u$ $[t_{0},t_{1}]$ $\mathbb {R} ^{м}$

$V(t,x(t))=\max _{u\in U}\int _{t}^{t_{1}}I(\tau,x(\tau),u(\tau ))\,\mathrm {d} \tau +\phi (x(t_{1}))$

с , где - "стоимость отходов". Если оптимальная пара траекторий управления и состояния - , то . Функция , которая дает оптимальное управление на основе текущего состояния , называется политикой управления с обратной связью, ^[4] или просто функцией политики. ^[9] $V(t_{1},x(t_{1}))=\phi (x(t_{1}))$ $\фи (x(t_{1}))$ $(x^{\ast},u^{\ast})$ $V(t_{0},x_{0})=J(t_{0},x_{0};u^{\ast })$ $ч$ $u^{\ast}$ $x$

Принцип оптимальности Беллмана грубо утверждает, что любая оптимальная политика в момент времени , принимая текущее состояние как «новое» начальное условие, должна быть оптимальной для оставшейся проблемы. Если функция ценности оказывается непрерывно дифференцируемой , ^[10] это приводит к важному уравнению в частных производных, известному как уравнение Гамильтона–Якоби–Беллмана , $т$ $t_{0}\leq t\leq t_{1}$ $x(t)$

-{\frac {\partial V(t,x)}{\partial t}}=\max _{u}\left\{I(t,x,u)+{\frac {\partial V(t,x)}{\partial x}}f(t,x,u)\right\}

где максимизируемый параметр в правой части также может быть переписан как гамильтониан , , как $H\left(t,x,u,\lambda \right)=I(t,x,u)+\lambda (t)f(t,x,u)$

-{\frac {\partial V(t,x)}{\partial t}}=\max _{u}H(t,x,u,\lambda )

с ролью сопутствующих переменных . ^[11] Учитывая это определение, мы далее имеем , и после дифференцирования обеих частей уравнения HJB по , $\partial V(t,x)/\partial x=\lambda (t)$ $\mathrm {d} \lambda (t)/\mathrm {d} t=\partial ^{2}V(t,x)/\partial x\partial t+\partial ^{2}V(t,x)/\partial x^{2}\cdot f(x)$ $x$

-{\frac {\partial ^{2}V(t,x)}{\partial t\partial x}}={\frac {\partial I}{\partial x}}+{\frac {\partial ^{2}V(t,x)}{\partial x^{2}}}f(x)+{\frac {\partial V(t,x)}{\partial x}}{\frac {\partial f(x)}{\partial x}}

который после замены соответствующих членов восстанавливает уравнение состояния

-{\dot {\lambda }}(t)=\underbrace {{\frac {\partial I}{\partial x}}+\lambda (t){\frac {\partial f(x)}{\partial x}}} _{={\frac {\partial H}{\partial x}}}

где — обозначение Ньютона для производной по времени. ^[12] ${\точка {\лямбда}}(т)$

Функция ценности является единственным решением вязкости для уравнения Гамильтона–Якоби–Беллмана. ^[13] В замкнутом контуре приближенного оптимального управления функция ценности также является функцией Ляпунова , которая устанавливает глобальную асимптотическую устойчивость замкнутой системы. ^[14]

Ссылки

^ Флеминг, Венделл Х.; Ришель, Рэймонд У. (1975). Детерминированное и стохастическое оптимальное управление. Нью-Йорк: Springer. С. 81–83. ISBN 0-387-90155-8.
^ Капуто, Майкл Р. (2005). Основы динамического экономического анализа: теория оптимального управления и ее применение. Нью-Йорк: Cambridge University Press. стр. 185. ISBN 0-521-60368-4.
^ Вебер, Томас А. (2011). Оптимальная теория управления: с приложениями в экономике . Кембридж: The MIT Press. стр. 82. ISBN 978-0-262-01573-8.
^ ab Bertsekas, Dimitri P.; Tsitsiklis, John N. (1996). Нейродинамическое программирование . Belmont: Athena Scientific. стр. 2. ISBN 1-886529-10-8.
^ «EE365: Динамическое программирование» (PDF) .
^ Мас-Колелл, Андре ; Уинстон, Майкл Д .; Грин, Джерри Р. (1995). Микроэкономическая теория . Нью-Йорк: Oxford University Press. стр. 964. ISBN 0-19-507340-1.
^ Corbae, Dean; Stinchcombe, Maxwell B.; Zeman, Juraj (2009). Введение в математический анализ для экономической теории и эконометрики. Princeton University Press. стр. 145. ISBN 978-0-691-11867-3.
^ Камьен, Мортон И .; Шварц, Нэнси Л. (1991). Динамическая оптимизация: вариационное исчисление и оптимальное управление в экономике и менеджменте (2-е изд.). Амстердам: Северная Голландия. стр. 259. ISBN 0-444-01609-0.
^ Льюнгквист, Ларс ; Сарджент, Томас Дж. (2018). Рекурсивная макроэкономическая теория (четвертое изд.). Кембридж: MIT Press. стр. 106. ISBN 978-0-262-03866-9.
^ Бенвенист и Шейнкман установили достаточные условия для дифференцируемости функции ценности, что в свою очередь позволяет применять теорему об огибающей , см. Бенвенист, Л. М.; Шейнкман, Дж. А. (1979). «О дифференцируемости функции ценности в динамических моделях экономики». Econometrica . 47 (3): 727–732. doi :10.2307/1910417. JSTOR 1910417.См. также Seierstad, Atle (1982). «Свойства дифференцируемости функции оптимального значения в теории управления». Журнал экономической динамики и управления . 4 : 303–310. doi :10.1016/0165-1889(82)90019-7.
^ Кирк, Дональд Э. (1970). Теория оптимального управления . Энглвуд Клиффс, Нью-Джерси: Prentice-Hall. стр. 88. ISBN 0-13-638098-0.
^ Чжоу, XY (1990). «Принцип максимума, динамическое программирование и их связь в детерминированном управлении». Журнал теории оптимизации и приложений . 65 (2): 363–373. doi :10.1007/BF01102352. S2CID 122333807.
^ Теорема 10.1 в Bressan, Alberto (2019). "Вязкостные решения уравнений Гамильтона-Якоби и задачи оптимального управления" (PDF) . Заметки к лекциям .
^ Камалапуркар, Рушикеш; Уолтерс, Патрик; Розенфельд, Джоэл; Диксон, Уоррен (2018). «Оптимальное управление и устойчивость по Ляпунову». Обучение с подкреплением для оптимального управления с обратной связью: подход на основе Ляпунова . Берлин: Springer. стр. 26–27. ISBN 978-3-319-78383-3.

Дальнейшее чтение

Капуто, Майкл Р. (2005). «Необходимые и достаточные условия для изопериметрических задач». Основы динамического экономического анализа: теория оптимального управления и ее применение . Нью-Йорк: Cambridge University Press. С. 174–210. ISBN 0-521-60368-4.
Кларк, Фрэнк Х.; Лоуэн, Филип Д. (1986). «Функция ценности в оптимальном управлении: чувствительность, управляемость и оптимальность по времени». Журнал SIAM по управлению и оптимизации . 24 (2): 243–263. doi :10.1137/0324014.
ЛаФранс, Джеффри Т.; Барни, Л. Дуэйн (1991). "Теорема огибающей в динамической оптимизации" (PDF) . Журнал экономической динамики и управления . 15 (2): 355–385. doi :10.1016/0165-1889(91)90018-V.
Стенгель, Роберт Ф. (1994). «Условия оптимальности». Оптимальное управление и оценка . Нью-Йорк: Довер. С. 201–222. ISBN 0-486-68200-5.