Функция, используемая в теории оптимального управления
Гамильтониан — это функция, используемая для решения задачи оптимального управления для динамической системы . Его можно понимать как мгновенное приращение лагранжева выражения задачи, которая должна быть оптимизирована за определенный период времени. [1] Вдохновленный гамильтонианом классической механики, но отличающийся от него , гамильтониан теории оптимального управления был разработан Львом Понтрягиным как часть его принципа максимума . [2] Понтрягин доказал, что необходимым условием решения задачи оптимального управления является то, что управление должно быть выбрано таким образом, чтобы оптимизировать гамильтониан. [3]
Постановка задачи и определение гамильтониана
Рассмотрим динамическую систему дифференциальных уравнений первого порядка
где обозначает вектор переменных состояния, а вектор переменных управления. После того, как начальные условия и элементы управления заданы, можно найти решение дифференциальных уравнений, называемое траекторией . Задача оптимального управления состоит в выборе (из некоторого набора ) так, чтобы максимизировать или минимизировать определенную целевую функцию между начальным временем и конечным временем (где может быть бесконечность ). В частности, цель состоит в оптимизации по индексу производительности, определенному в каждый момент времени,
- , с
в соответствии с приведенными выше уравнениями движения переменных состояния. Метод решения включает определение вспомогательной функции, известной как гамильтониан управления
который объединяет целевую функцию и уравнения состояния подобно лагранжиану в статической задаче оптимизации, за исключением того, что множители, называемые переменными состояния , являются функциями времени, а не константами.
Цель состоит в том, чтобы найти оптимальную функцию политики управления и, вместе с ней, оптимальную траекторию переменной состояния , которые по принципу максимума Понтрягина являются аргументами, максимизирующими гамильтониан,
- для всех
Необходимые условия первого порядка для максимума задаются формулой
- что является принципом максимума,
- которая генерирует функцию перехода состояния ,
- который генерирует уравнения состояния
Вместе уравнения состояния и состояния описывают динамическую систему Гамильтона (опять же аналогичную, но отличную от гамильтоновой системы в физике), решение которой включает двухточечную граничную задачу , учитывая, что существуют граничные условия, включающие две различные точки во времени, начальное время ( дифференциальные уравнения для переменных состояния) и конечное время ( дифференциальные уравнения для переменных состояния; если не указана конечная функция, граничные условия имеют вид , или для бесконечных временных горизонтов). [4]
Достаточным условием максимума является вогнутость гамильтониана, вычисленного в решении, т.е.
где — оптимальное управление, а — результирующая оптимальная траектория для переменной состояния. [5] В качестве альтернативы, согласно результату Олви Л. Мангасаряна , необходимые условия достаточны, если функции и являются вогнутыми по и . [6]
Вывод из лагранжиана
Задача ограниченной оптимизации , подобная той, что изложена выше, обычно предполагает выражение Лагранжа, а именно:
где сравнивается с множителем Лагранжа в статической задаче оптимизации, но теперь, как отмечено выше, является функцией времени. Чтобы исключить , последний член в правой части можно переписать с использованием интегрирования по частям , так что
которое можно подставить обратно в выражение Лагранжа, чтобы получить
Чтобы вывести условия первого порядка для оптимума, предположим, что решение найдено и лагранжиан максимизирован. Тогда любое возмущение или должно привести к снижению значения лагранжиана. В частности, полная производная подчиняется
Для того чтобы это выражение было равно нулю, необходимы следующие условия оптимальности:
Если и начальное значение , и конечное значение фиксированы, т. е . , то не требуется никаких условий на и . Если конечное значение свободно, как это часто бывает, то дополнительное условие необходимо для оптимальности. Последнее называется условием трансверсальности для задачи с фиксированным горизонтом. [7]
Видно, что необходимые условия идентичны указанным выше для гамильтониана. Таким образом, гамильтониан можно понимать как устройство для генерации необходимых условий первого порядка. [8]
Гамильтониан в дискретном времени
Когда задача формулируется в дискретном времени, гамильтониан определяется как:
и уравнения состояния являются
(Обратите внимание, что дискретный по времени гамильтониан во времени включает в себя переменную регрессии во времени [9]. Эта небольшая деталь имеет важное значение, так как при дифференцировании по мы получаем член, включающий в правой части уравнений регрессии. Использование неправильного соглашения здесь может привести к неверным результатам, т. е. уравнению регрессии, которое не является обратным разностным уравнением).
Поведение гамильтониана с течением времени
Из принципа максимума Понтрягина можно вывести специальные условия для гамильтониана. [10] Когда конечное время фиксировано и гамильтониан не зависит явно от времени , тогда: [11]
или если терминальное время свободно, то:
Далее, если конечное время стремится к бесконечности , то применяется условие трансверсальности гамильтониана. [12]
Гамильтониан управления в сравнении с гамильтонианом механики
Уильям Роуэн Гамильтон определил гамильтониан для описания механики системы. Это функция трех переменных, связанная с лагранжианом как
где - лагранжиан , экстремум которого определяет динамику ( не лагранжиан, определенный выше), а - переменная состояния. Лагранжиан оценивается с представлением производной по времени эволюции состояния и , так называемый " сопряженный импульс ", относится к нему как
- .
Затем Гамильтон сформулировал свои уравнения, описывающие динамику системы следующим образом:
Гамильтониан теории управления описывает не динамику системы, а условия экстремизации некоторой ее скалярной функции (лагранжиана) относительно управляющей переменной . Как обычно определяется, это функция 4 переменных
где — переменная состояния, а — управляющая переменная по отношению к той, которую мы экстремизируем.
Соответствующие условия для максимума:
Это определение согласуется с определением, данным в статье Сассмана и Виллемса. [13] (см. стр. 39, уравнение 14). Сассман и Виллемс показывают, как можно использовать гамильтониан управления в динамике, например, для задачи брахистохроны , но не упоминают предыдущую работу Каратеодори по этому подходу. [14]
Текущее значение и текущая стоимость Гамильтона
В экономике целевая функция в задачах динамической оптимизации часто напрямую зависит от времени только через экспоненциальное дисконтирование , так что она принимает вид
где называется функцией мгновенной полезности или функцией удачи. [15] Это позволяет переопределить гамильтониан как где
который называется текущим значением Гамильтона, в отличие от текущего значения Гамильтона, определенного в первом разделе. Наиболее примечательно, что переменные costate переопределяются как , что приводит к измененным условиям первого порядка.
- ,
что следует непосредственно из правила продукта . С экономической точки зрения представляют собой текущие теневые цены на капитальные блага .
Пример: модель Рэмси–Касса–Купманса
В экономике модель Рэмси –Касса–Купманса используется для определения оптимального поведения сбережений для экономики. Целевая функция – это функция общественного благосостояния ,
максимизироваться путем выбора оптимального пути потребления . Функция указывает полезность репрезентативного агента потребления в любой заданный момент времени. Фактор представляет собой дисконтирование . Задача максимизации подчиняется следующему дифференциальному уравнению для интенсивности капитала , описывающему временную эволюцию капитала на эффективного работника:
где - потребление периода t, - капитал периода t на одного работника (при ), - производство периода t, - темп прироста населения, - норма амортизации капитала, агент дисконтирует будущую полезность по ставке , при и .
Здесь, — переменная состояния, которая развивается согласно приведенному выше уравнению, а — управляющая переменная. Гамильтониан становится
Условия оптимальности:
в дополнение к условию трансверсальности . Если мы допустим , то логарифмическое дифференцирование первого условия оптимальности относительно дает
Подставляя это уравнение во второе условие оптимальности, получаем
которое известно как правило Кейнса-Рэмси , устанавливающее условие потребления в каждом периоде, соблюдение которого обеспечивает максимальную полезность в течение жизни.
Ссылки
- ^ Фергюсон, Брайан С.; Лим, GC (1998). Введение в динамические экономические проблемы . Манчестер: Manchester University Press. стр. 166–167. ISBN 0-7190-4996-2.
- ^ Диксит, Авинаш К. (1990). Оптимизация в экономической теории. Нью-Йорк: Oxford University Press. С. 145–161. ISBN 978-0-19-877210-1.
- ^ Кирк, Дональд Э. (1970). Оптимальная теория управления: Введение . Englewood Cliffs: Prentice Hall. стр. 232. ISBN 0-13-638098-0.
- ^ Гандольфо, Джанкарло (1996). Экономическая динамика (третье изд.). Берлин: Springer. С. 375–376. ISBN 3-540-60988-1.
- ^ Seierstad, Atle; Sydsæter, Knut (1987). Оптимальная теория управления с экономическими приложениями . Амстердам: Северная Голландия. С. 107–110. ISBN 0-444-87923-4.
- ^ Мангасарян, О. Л. (1966). «Достаточные условия оптимального управления нелинейными системами». Журнал SIAM по управлению . 4 (1): 139–152. doi :10.1137/0304013.
- ^ Леонард, Даниэль; Лонг, Нго Ван (1992). «Ограничения конечной точки и условия трансверсальности». Оптимальная теория управления и статическая оптимизация в экономике . Нью-Йорк: Cambridge University Press. стр. 222 [Теорема 7.1.1]. ISBN 0-521-33158-7.
- ^ Камьен, Мортон И.; Шварц, Нэнси Л. (1991). Динамическая оптимизация: дисперсионное исчисление и оптимальное управление в экономике и менеджменте (второе изд.). Амстердам: Северная Голландия. С. 126–127. ISBN 0-444-01609-0.
- ^ Йонссон, У. (2005). «ДИСКРЕТНАЯ ВЕРСИЯ PMP» (PDF) . стр. 25. Архивировано из оригинала (PDF) 22 января 2023 г.
- ^ Найду, Десинени С. (2003). Оптимальные системы управления . Бока-Ратон: CRC Press. стр. 259–260. ISBN 0-8493-0892-5.
- ^ Torres, Delfim FM (2002). "Замечательное свойство экстремалей динамической оптимизации". Investigacao Operacional . 22 (2): 253–263. arXiv : math/0212102 . Bibcode :2002math.....12102T.
- ^ Мишель, Филипп (1982). «Об условии трансверсальности в оптимальных задачах с бесконечным горизонтом». Econometrica . 50 (4): 975–985. doi :10.2307/1912772. JSTOR 1912772. S2CID 16503488.
- ^ Sussmann; Willems (июнь 1997 г.). "300 лет оптимального управления" (PDF) . Журнал IEEE Control Systems . doi :10.1109/37.588098. Архивировано из оригинала (PDF) 30 июля 2010 г.
- ^ См. Pesch, HJ; Bulirsch, R. (1994). «Принцип максимума, уравнение Беллмана и работа Каратеодори». Журнал теории оптимизации и приложений . 80 (2): 199–225. doi :10.1007/BF02192933. S2CID 121749702.
- ^ Бевр, Коре (весна 2005 г.). «Экономика 4350: Рост и инвестиции: конспект лекций 7» (PDF) . Факультет экономики Университета Осло.
Дальнейшее чтение
- Леонард, Даниэль; Лонг, Нго Ван (1992). «Принцип максимума». Оптимальная теория управления и статическая оптимизация в экономике . Нью-Йорк: Cambridge University Press. С. 127–168. ISBN 0-521-33158-7.
- Такаяма, Акира (1985). «Развитие теории оптимального управления и ее применения». Математическая экономика (2-е изд.). Нью-Йорк: Cambridge University Press. С. 600–719. ISBN 0-521-31498-4.
- Wulwick, Nancy (1995). "Гамильтонов формализм и теория оптимального роста". В Rima, IH (ред.). Измерение, квантификация и экономический анализ . Лондон: Routledge. ISBN 978-0-415-08915-9.