stringtranslate.com

Оптимальное управление

Эталон задачи оптимального управления (Луус) с интегральной целью, неравенством и дифференциальным ограничением

Теория оптимального управления — это раздел теории управления , который занимается поиском управления динамической системой в течение определенного периода времени, при котором целевая функция оптимизируется. [1] Он имеет множество применений в науке, технике и исследованиях операций. Например, динамическая система может представлять собой космический корабль с органами управления, соответствующими ракетным двигателям, и целью может быть достижение Луны с минимальными затратами топлива. [2] Или динамической системой может быть национальная экономика с целью минимизировать безработицу ; средствами контроля в этом случае могут быть фискальная и монетарная политика . [3] Динамическая система также может быть введена для включения задач исследования операций в рамках теории оптимального управления. [4] [5]

Оптимальное управление является расширением вариационного исчисления и представляет собой метод математической оптимизации для разработки политики управления . [6] Этот метод во многом обязан работе Льва Понтрягина и Ричарда Беллмана в 1950-х годах, после вклада в вариационное исчисление Эдварда Дж. МакШейна . [7] Оптимальное управление можно рассматривать как стратегию управления в теории управления . [1]

Общий метод

Оптимальное управление занимается проблемой поиска закона управления данной системой, при котором достигается определенный критерий оптимальности . Задача управления включает в себя функционал стоимости , который является функцией переменных состояния и управления. Оптимальное управление — это набор дифференциальных уравнений , описывающих пути переменных управления, которые минимизируют функцию стоимости. Оптимальное управление может быть получено с использованием принципа максимума Понтрягина ( необходимое условие , также известное как принцип минимума Понтрягина или просто принцип Понтрягина) [8] или путем решения уравнения Гамильтона-Якоби-Беллмана ( достаточное условие ).

Начнем с простого примера. Рассмотрим автомобиль, едущий прямолинейно по холмистой дороге. Вопрос в том, как водителю следует нажимать педаль акселератора, чтобы минимизировать общее время в пути? В этом примере термин « закон управления» относится конкретно к тому, как водитель нажимает на педаль газа и переключает передачи. Система состоит как из автомобиля, так и из дороги, а критерием оптимальности является минимизация общего времени в пути. Проблемы управления обычно включают вспомогательные ограничения . Например, количество доступного топлива может быть ограничено, педаль акселератора нельзя проталкивать через пол автомобиля, ограничения скорости и т. д.

Правильная функция стоимости будет представлять собой математическое выражение, показывающее время в пути как функцию скорости, геометрических соображений и начальных условий системы. Ограничения часто взаимозаменяемы с функцией стоимости.

Другая связанная с этим задача оптимального управления может состоять в том, чтобы найти способ управления автомобилем так, чтобы минимизировать расход топлива, учитывая, что он должен пройти заданный курс за время, не превышающее некоторого времени. Еще одна связанная с этим проблема управления может заключаться в минимизации общих денежных затрат на завершение поездки с учетом предполагаемых денежных цен на время и топливо.

Более абстрактная схема выглядит следующим образом. [1] Минимизируйте функционал стоимости непрерывного времени.

уравнение состояния
ограничения
конечные условия
состояниеуправлениеконечной стоимостьюэксплуатационными расходамилагранжианом-неравенствамлокально минимизирующим

Линейное квадратичное управление

Частным случаем общей нелинейной задачи оптимального управления, приведенной в предыдущем разделе, является линейно-квадратичная (LQ) задача оптимального управления . Задача LQ формулируется следующим образом. Минимизируйте квадратичный функционал стоимости непрерывного времени

С учетом линейных динамических ограничений первого порядка

Особая форма проблемы LQ, которая возникает во многих задачах системы управления, - это линейный квадратичный регулятор (LQR), где все матрицы (т. е. , , и ) постоянны , начальное время произвольно установлено равным нулю, и конечное время принимается в пределе (это последнее предположение и есть то, что известно как бесконечный горизонт ). Задача ЛКР формулируется следующим образом. Минимизируйте квадратичный функционал стоимости непрерывного времени с бесконечным горизонтом

С учетом линейных, нестационарных динамических ограничений первого порядка.

В случае конечного горизонта матрицы ограничены в этом и являются положительно полуопределенными и положительно определенными соответственно. Однако в случае бесконечного горизонта матрицы и являются не только положительно-полуопределенными и положительно-определенными соответственно, но и постоянными . Эти дополнительные ограничения в случае бесконечного горизонта применяются для обеспечения того, чтобы функционал стоимости оставался положительным. Кроме того, чтобы гарантировать ограниченность функции стоимости , накладывается дополнительное ограничение на управляемость пары . Обратите внимание, что функционал стоимости LQ или LQR можно физически рассматривать как попытку минимизировать энергию управления (измеряемую как квадратичную форму).

Проблема бесконечного горизонта (т.е. LQR) может показаться чрезмерно ограничительной и по существу бесполезной, поскольку она предполагает, что оператор переводит систему в нулевое состояние и, следовательно, приводит к нулю выходной сигнал системы. Это действительно правильно. Однако проблема доведения выходного сигнала до желаемого ненулевого уровня может быть решена после достижения нулевого выходного уровня. Фактически можно доказать, что эту вторичную проблему LQR можно решить очень простым способом. В классической теории оптимального управления было показано, что оптимальное управление LQ (или LQR) имеет форму обратной связи

уравнения Риккати

Для задачи LQ на конечном горизонте уравнение Риккати интегрируется назад во времени с использованием терминального граничного условия

Для задачи LQR с бесконечным горизонтом дифференциальное уравнение Риккати заменяется алгебраическим уравнением Риккати (ARE), задаваемым как

Понимая, что ARE возникает из-за проблемы бесконечного горизонта, матрицы , , , и все постоянны . Следует отметить, что, как правило, существует несколько решений алгебраического уравнения Риккати, и положительно определенное (или положительно полуопределенное) решение используется для расчета коэффициента усиления обратной связи. Проблема LQ (LQR) была элегантно решена Рудольфом Э. Кальманом . [9]

Численные методы оптимального управления

Задачи оптимального управления, как правило, нелинейны и поэтому обычно не имеют аналитических решений (например, как линейно-квадратичная задача оптимального управления). В результате для решения задач оптимального управления необходимо использовать численные методы. В первые годы оптимального управления ( около 1950-1980-х годов) предпочтительным подходом к решению задач оптимального управления были косвенные методы . В косвенном методе для получения условий оптимальности первого порядка используется вариационное исчисление. Эти условия приводят к двухточечной (или, в случае сложной задачи, многоточечной) краевой задаче . Эта краевая задача на самом деле имеет особую структуру, поскольку возникает в результате взятия производной гамильтониана . Таким образом, полученная динамическая система является гамильтоновой системой вида [1]

расширенный гамильтониантрансверсальности[10]

Подход, который приобрел известность в численном оптимальном управлении с 1980-х годов, — это так называемые прямые методы . В прямом методе состояние или управление или и то, и другое аппроксимируются с использованием соответствующей аппроксимации функции (например, полиномиальной аппроксимации или кусочно-постоянной параметризации). При этом функционал стоимости аппроксимируется как функция стоимости . Затем коэффициенты аппроксимации функции рассматриваются как переменные оптимизации, и задача «транскрибируется» в задачу нелинейной оптимизации вида:

Минимизировать

В зависимости от типа используемого прямого метода размер задачи нелинейной оптимизации может быть весьма малым (например, как в методе прямой стрельбы или методе квазилинеаризации), умеренным (например, псевдоспектральное оптимальное управление [11] ) или может быть довольно большим (например, , метод прямой коллокации [12] ). В последнем случае (т. е. метод коллокации) задача нелинейной оптимизации может заключаться буквально в тысячах и десятках тысяч переменных и ограничений. Учитывая размер многих НЛП, возникающих в результате прямого метода, может показаться несколько нелогичным, что решение задачи нелинейной оптимизации проще, чем решение краевой задачи. Однако дело в том, что НЛП легче решить, чем краевую задачу. Причина относительной простоты вычислений, особенно метода прямой коллокации, заключается в том, что NLP является разреженным и существует множество известных программ (например, SNOPT [13] ) для решения больших разреженных NLP. В результате круг задач, которые можно решить прямыми методами (особенно очень популярными в настоящее время методами прямой коллокации ), значительно шире, чем круг задач, которые можно решить косвенными методами. Фактически, в наши дни прямые методы стали настолько популярны, что многие люди написали сложные программы, использующие эти методы. В частности, к числу таких программ относятся DIRCOL , [14] SOCS, [15] OTIS, [16] GESOP/ ASTOS , [17] DITAN. [18] и PyGMO/PyKEP. [19] В последние годы, в связи с появлением языка программирования MATLAB , программное обеспечение оптимального управления в MATLAB стало более распространенным. Примеры академически разработанных программных инструментов MATLAB, реализующих прямые методы, включают RIOTS , [20] DIDO , [21] DIRECT , [22] FALCON.m, [23] и GPOPS, [24] , а примером разработанного в отрасли инструмента MATLAB является PROPT. . [25] Эти программные инструменты значительно расширили возможности людей исследовать сложные проблемы оптимального управления как для академических исследований, так и для промышленных проблем. [26] Наконец, следует отметить, что среды оптимизации MATLAB общего назначения, такие как TOMLAB, сделали кодирование сложных задач оптимального управления значительно проще, чем это было возможно ранее в таких языках, как C и FORTRAN .

Оптимальное управление с дискретным временем

До сих пор примеры демонстрировали системы непрерывного времени и решения по управлению. Фактически, поскольку решения по оптимальному управлению теперь часто реализуются в цифровом виде , современная теория управления теперь в первую очередь занимается системами и решениями с дискретным временем . Теория согласованных приближений [27] [28] обеспечивает условия, при которых решения серии все более точных дискретизированных задач оптимального управления сходятся к решению исходной задачи с непрерывным временем. Не все методы дискретизации обладают этим свойством, даже, казалось бы, очевидным. [29] Например, использование процедуры с переменным размером шага для интегрирования динамических уравнений задачи может привести к появлению градиента, который не сходится к нулю (или указывает в правильном направлении) по мере приближения к решению. Прямой метод RIOTS основан на теории последовательной аппроксимации.

Примеры

Общей стратегией решения многих задач оптимального управления является определение стоимости (иногда называемой теневой ценой ) . Костата суммирует в одном числе предельное значение расширения или сжатия переменной состояния на следующем ходу. Предельная ценность — это не только выгоды, полученные на следующем ходу, но и связанные с продолжительностью программы. Хорошо, когда можно решить аналитически, но обычно самое большее, что можно сделать, — это описать это достаточно хорошо, чтобы интуиция могла уловить характер решения, а решатель уравнений мог найти значения численно.

Получив , оптимальное значение поворота t для управления обычно можно решить как дифференциальное уравнение, зависящее от знания . Опять же, нечасто, особенно в задачах с непрерывным временем, можно получить явное значение управления или состояния. Обычно стратегия состоит в том, чтобы найти пороговые значения и области, которые характеризуют оптимальное управление, и использовать числовой решатель для изоляции фактических значений выбора во времени.

Конечное время

Рассмотрим задачу владельца шахты, который должен решить, с какой скоростью добывать руду из своей шахты. Они владеют правами на руду с сегодняшнего дня . На данный момент в земле есть руда, и зависящее от времени количество руды , оставшейся в земле, уменьшается со скоростью, с которой владелец шахты ее добывает. Владелец шахты добывает руду по себестоимости (стоимость добычи увеличивается пропорционально квадрату скорости добычи и обратному значению количества оставшейся руды) и продает руду по постоянной цене . Любая руда, оставшаяся в земле, не может быть продана и не имеет ценности (нет «ценности лома»). Владелец выбирает скорость добычи, меняющуюся со временем, чтобы максимизировать прибыль в течение периода владения без дисконтирования по времени.

  1. Версия с дискретным временем

    Менеджер максимизирует прибыль :

    подчиняется закону движения переменной состояния

    Составьте гамильтониан и продифференцируйте:

    Поскольку владелец шахты не оценивает оставшуюся на данный момент руду ,

    Используя приведенные выше уравнения, легко решить ряды и

    и используя начальные условия и условия поворота T, ряд можно решить явно, получив .
  2. Непрерывная версия

    Менеджер максимизирует прибыль :

    где переменная состояния развивается следующим образом:

    Составьте гамильтониан и продифференцируйте:

    Поскольку владелец шахты не оценивает оставшуюся на данный момент руду ,

    Используя приведенные выше уравнения, легко решить дифференциальные уравнения, определяющие и

    и используя начальные условия и условия поворота T, функции можно решить, чтобы получить

Смотрите также

Рекомендации

  1. ^ abcd Росс, Исаак (2015). Введение в принцип Понтрягина в оптимальном управлении . Сан-Франциско: Университетские издательства. ISBN 978-0-9843571-0-9. ОСЛК  625106088.
  2. ^ Люенбергер, Дэвид Г. (1979). «Оптимальное управление». Введение в динамические системы . Нью-Йорк: Джон Уайли и сыновья. стр. 393–435. ISBN 0-471-02594-1.
  3. ^ Камен, Мортон И. (2013). Динамическая оптимизация: вариационное исчисление и оптимальное управление в экономике и менеджменте. Дуврские публикации. ISBN 978-1-306-39299-0. ОСЛК  869522905.
  4. ^ Росс, IM; Пру, Р.Дж.; Карпенко М. (6 мая 2020 г.). «Теория оптимального управления для задачи коммивояжера и ее вариантов». arXiv : 2005.03186 [math.OC].
  5. ^ Росс, Исаак М.; Карпенко, Марк; Пру, Рональд Дж. (1 января 2016 г.). «Негладкое исчисление для решения некоторых задач теории графов ** Это исследование спонсировалось ВМС США». IFAC-PapersOnLine . 10-й симпозиум IFAC по нелинейным системам управления NOLCOS 2016. 49 (18): 462–467. дои : 10.1016/j.ifacol.2016.10.208 . ISSN  2405-8963.
  6. ^ Сарджент, RWH (2000). «Оптимальное управление». Журнал вычислительной и прикладной математики . 124 (1–2): 361–371. Бибкод : 2000JCoAM.124..361S. дои : 10.1016/S0377-0427(00)00418-0 .
  7. ^ Брайсон, AE (1996). «Оптимальное управление - 1950–1985». Журнал IEEE Control Systems . 16 (3): 26–33. дои : 10.1109/37.506395.
  8. ^ Росс, IM (2009). Введение в принцип Понтрягина в оптимальном управлении . Коллегиальные издательства. ISBN 978-0-9843571-0-9.
  9. ^ Кальман, Рудольф. Новый подход к задачам линейной фильтрации и прогнозирования . Труды ASME, Журнал фундаментальной инженерии, 82: 34–45, 1960 г.
  10. ^ Оберле, Х.Дж. и Гримм, В., «Программа BNDSCO-A для численного решения задач оптимального управления», Институт динамики летных систем, DLR, Оберпфаффенхофен, 1989.
  11. ^ Росс, IM ; Карпенко, М. (2012). «Обзор псевдоспектрального оптимального управления: от теории к полету» . Ежегодные обзоры под контролем . 36 (2): 182–197. doi :10.1016/j.arcontrol.2012.09.002.
  12. ^ Беттс, JT (2010). Практические методы оптимального управления с помощью нелинейного программирования (2-е изд.). Филадельфия, Пенсильвания: SIAM Press. ISBN 978-0-89871-688-7.
  13. ^ Гилл, П.Е., Мюррей, В.М., и Сондерс, Массачусетс, Руководство пользователя для SNOPT версии 7: Программное обеспечение для крупномасштабного нелинейного программирования , Калифорнийский университет, отчет Сан-Диего, 24 апреля 2007 г.
  14. ^ фон Стрик, О., Руководство пользователя для DIRCOL (версия 2.1): Метод прямого коллокации для численного решения задач оптимального управления , Fachgebiet Simulation und Systemoptimierung (SIM), Technische Universität Darmstadt (2000, версия от ноября 1999 г.).
  15. ^ Беттс, Дж. Т. и Хаффман, WP, Программное обеспечение для разреженного оптимального управления, SOCS , Служба информации и поддержки Boeing, Сиэтл, Вашингтон, июль 1997 г.
  16. ^ Харгрейвс, ЧР; Париж, Юго-Запад (1987). «Прямая оптимизация траектории с использованием нелинейного программирования и коллокации». Журнал руководства, контроля и динамики . 10 (4): 338–342. Бибкод : 1987JGCD...10..338H. дои : 10.2514/3.20223.
  17. ^ Гат, П.Ф., Ну, К.Х., «Оптимизация траектории с использованием комбинации прямой многократной стрельбы и коллокации», AIAA 2001–4047, Конференция AIAA по руководству, навигации и контролю, Монреаль, Квебек, Канада, 6–9 августа 2001 г.
  18. ^ Василе М., Бернелли-Заззера Ф., Форнасари Н., Масарати П., «Проектирование межпланетных и лунных миссий, сочетающих малую тягу и гравитацию», Заключительный отчет исследовательского контракта ЕКА/ESOC № 14126/00/ Д/КС, сентябрь 2002 г.
  19. ^ Иззо, Дарио. «PyGMO и PyKEP: инструменты с открытым исходным кодом для массовой параллельной оптимизации в астродинамике (на примере оптимизации межпланетных траекторий)». Продолжить. Пятая Международная конференция. Астродинам. Инструменты и методы, ICATT. 2012.
  20. ^ БУНТЫ. Архивировано 16 июля 2011 года в Wayback Machine , на основе Шварца, Адама (1996). Теория и реализация методов на основе интегрирования Рунге – Кутты для решения задач оптимального управления (доктор философии). Калифорнийский университет в Беркли. ОСЛК  35140322.
  21. ^ Росс, И.М., Улучшения в наборе инструментов оптимального управления DIDO, arXiv 2020. https://arxiv.org/abs/2004.13112
  22. ^ Уильямс, П., Руководство пользователя по DIRECT, версия 2.00, Мельбурн, Австралия, 2008 г.
  23. ^ FALCON.m, описано в книге Рик М., Биттнер М., Грютер Б., Диполдер Дж. и Пипрек П., FALCON.m - Руководство пользователя , Институт динамики летных систем, Мюнхенский технический университет. , октябрь 2019 г.
  24. ^ GPOPS. Архивировано 24 июля 2011 г. в Wayback Machine , описано в Рао, А.В., Бенсоне, Д.А., Хантингтоне, Г.Т., Франколине, К., Дарби, К.Л. и Паттерсоне, Массачусетс, Руководство пользователя для GPOPS: пакет MATLAB для динамической оптимизации. Использование псевдоспектрального метода Гаусса , отчет Университета Флориды, август 2008 г.
  25. ^ Рутквист, П. и Эдвалл, М.М., PROPT – Программное обеспечение для оптимального управления MATLAB», 1260 SE Bishop Blvd Ste E, Пуллман, Вашингтон, 99163, США: Tomlab Optimization, Inc.
  26. ^ И. М. Росс, Вычислительное оптимальное управление, 3-й семинар по вычислительным проблемам нелинейного управления, 8 октября 2019 г., Монтерей, Калифорния
  27. ^ Э. Полак, Об использовании непротиворечивых приближений при решении задач полубесконечной оптимизации и оптимального управления. Математика. Прог. 62 стр. 385–415 (1993).
  28. ^ Росс, И.М. (1 декабря 2005 г.). «Дорожная карта оптимального управления: правильный способ передвижения». Анналы Нью-Йоркской академии наук . 1065 (1): 210–231. Бибкод : 2005NYASA1065..210R. дои : 10.1196/анналы.1370.015. ISSN  0077-8923. PMID  16510411. S2CID  7625851.
  29. ^ Фару, Фариба; Росс, И. Майкл (сентябрь 2008 г.). «Сближение затрат не означает сближение контроля». Журнал руководства, контроля и динамики . 31 (5): 1492–1497. Бибкод : 2008JGCD...31.1492F. дои : 10.2514/1.37331. ISSN  0731-5090. S2CID  756939.

дальнейшее чтение

Внешние ссылки