Теория оптимального управления — это раздел теории управления , который занимается поиском управления динамической системой в течение определенного периода времени, при котором целевая функция оптимизируется. [1] Он имеет множество применений в науке, технике и исследованиях операций. Например, динамическая система может представлять собой космический корабль с органами управления, соответствующими ракетным двигателям, и целью может быть достижение Луны с минимальными затратами топлива. [2] Или динамической системой может быть национальная экономика с целью минимизировать безработицу ; средствами контроля в этом случае могут быть фискальная и монетарная политика . [3] Динамическая система также может быть введена для включения задач исследования операций в рамках теории оптимального управления. [4] [5]
Оптимальное управление является расширением вариационного исчисления и представляет собой метод математической оптимизации для разработки политики управления . [6] Этот метод во многом обязан работе Льва Понтрягина и Ричарда Беллмана в 1950-х годах, после вклада в вариационное исчисление Эдварда Дж. МакШейна . [7] Оптимальное управление можно рассматривать как стратегию управления в теории управления . [1]
Оптимальное управление занимается проблемой поиска закона управления данной системой, при котором достигается определенный критерий оптимальности . Задача управления включает в себя функционал стоимости , который является функцией переменных состояния и управления. Оптимальное управление — это набор дифференциальных уравнений , описывающих пути переменных управления, которые минимизируют функцию стоимости. Оптимальное управление может быть получено с использованием принципа максимума Понтрягина ( необходимое условие , также известное как принцип минимума Понтрягина или просто принцип Понтрягина) [8] или путем решения уравнения Гамильтона-Якоби-Беллмана ( достаточное условие ).
Начнем с простого примера. Рассмотрим автомобиль, едущий прямолинейно по холмистой дороге. Вопрос в том, как водителю следует нажимать педаль акселератора, чтобы минимизировать общее время в пути? В этом примере термин « закон управления» относится конкретно к тому, как водитель нажимает на педаль газа и переключает передачи. Система состоит как из автомобиля, так и из дороги, а критерием оптимальности является минимизация общего времени в пути. Проблемы управления обычно включают вспомогательные ограничения . Например, количество доступного топлива может быть ограничено, педаль акселератора нельзя проталкивать через пол автомобиля, ограничения скорости и т. д.
Правильная функция стоимости будет представлять собой математическое выражение, показывающее время в пути как функцию скорости, геометрических соображений и начальных условий системы. Ограничения часто взаимозаменяемы с функцией стоимости.
Другая связанная с этим задача оптимального управления может состоять в том, чтобы найти способ управления автомобилем так, чтобы минимизировать расход топлива, учитывая, что он должен пройти заданный курс за время, не превышающее некоторого времени. Еще одна связанная с этим проблема управления может заключаться в минимизации общих денежных затрат на завершение поездки с учетом предполагаемых денежных цен на время и топливо.
Более абстрактная схема выглядит следующим образом. [1] Минимизируйте функционал стоимости непрерывного времени.
Частным случаем общей нелинейной задачи оптимального управления, приведенной в предыдущем разделе, является линейно-квадратичная (LQ) задача оптимального управления . Задача LQ формулируется следующим образом. Минимизируйте квадратичный функционал стоимости непрерывного времени
С учетом линейных динамических ограничений первого порядка
Особая форма проблемы LQ, которая возникает во многих задачах системы управления, - это линейный квадратичный регулятор (LQR), где все матрицы (т. е. , , и ) постоянны , начальное время произвольно установлено равным нулю, и конечное время принимается в пределе (это последнее предположение и есть то, что известно как бесконечный горизонт ). Задача ЛКР формулируется следующим образом. Минимизируйте квадратичный функционал стоимости непрерывного времени с бесконечным горизонтом
С учетом линейных, нестационарных динамических ограничений первого порядка.
В случае конечного горизонта матрицы ограничены в этом и являются положительно полуопределенными и положительно определенными соответственно. Однако в случае бесконечного горизонта матрицы и являются не только положительно-полуопределенными и положительно-определенными соответственно, но и постоянными . Эти дополнительные ограничения в случае бесконечного горизонта применяются для обеспечения того, чтобы функционал стоимости оставался положительным. Кроме того, чтобы гарантировать ограниченность функции стоимости , накладывается дополнительное ограничение на управляемость пары . Обратите внимание, что функционал стоимости LQ или LQR можно физически рассматривать как попытку минимизировать энергию управления (измеряемую как квадратичную форму).
Проблема бесконечного горизонта (т.е. LQR) может показаться чрезмерно ограничительной и по существу бесполезной, поскольку она предполагает, что оператор переводит систему в нулевое состояние и, следовательно, приводит к нулю выходной сигнал системы. Это действительно правильно. Однако проблема доведения выходного сигнала до желаемого ненулевого уровня может быть решена после достижения нулевого выходного уровня. Фактически можно доказать, что эту вторичную проблему LQR можно решить очень простым способом. В классической теории оптимального управления было показано, что оптимальное управление LQ (или LQR) имеет форму обратной связи
Для задачи LQ на конечном горизонте уравнение Риккати интегрируется назад во времени с использованием терминального граничного условия
Для задачи LQR с бесконечным горизонтом дифференциальное уравнение Риккати заменяется алгебраическим уравнением Риккати (ARE), задаваемым как
Понимая, что ARE возникает из-за проблемы бесконечного горизонта, матрицы , , , и все постоянны . Следует отметить, что, как правило, существует несколько решений алгебраического уравнения Риккати, и положительно определенное (или положительно полуопределенное) решение используется для расчета коэффициента усиления обратной связи. Проблема LQ (LQR) была элегантно решена Рудольфом Э. Кальманом . [9]
Задачи оптимального управления, как правило, нелинейны и поэтому обычно не имеют аналитических решений (например, как линейно-квадратичная задача оптимального управления). В результате для решения задач оптимального управления необходимо использовать численные методы. В первые годы оптимального управления ( около 1950-1980-х годов) предпочтительным подходом к решению задач оптимального управления были косвенные методы . В косвенном методе для получения условий оптимальности первого порядка используется вариационное исчисление. Эти условия приводят к двухточечной (или, в случае сложной задачи, многоточечной) краевой задаче . Эта краевая задача на самом деле имеет особую структуру, поскольку возникает в результате взятия производной гамильтониана . Таким образом, полученная динамическая система является гамильтоновой системой вида [1]
Подход, который приобрел известность в численном оптимальном управлении с 1980-х годов, — это так называемые прямые методы . В прямом методе состояние или управление или и то, и другое аппроксимируются с использованием соответствующей аппроксимации функции (например, полиномиальной аппроксимации или кусочно-постоянной параметризации). При этом функционал стоимости аппроксимируется как функция стоимости . Затем коэффициенты аппроксимации функции рассматриваются как переменные оптимизации, и задача «транскрибируется» в задачу нелинейной оптимизации вида:
Минимизировать
В зависимости от типа используемого прямого метода размер задачи нелинейной оптимизации может быть весьма малым (например, как в методе прямой стрельбы или методе квазилинеаризации), умеренным (например, псевдоспектральное оптимальное управление [11] ) или может быть довольно большим (например, , метод прямой коллокации [12] ). В последнем случае (т. е. метод коллокации) задача нелинейной оптимизации может заключаться буквально в тысячах и десятках тысяч переменных и ограничений. Учитывая размер многих НЛП, возникающих в результате прямого метода, может показаться несколько нелогичным, что решение задачи нелинейной оптимизации проще, чем решение краевой задачи. Однако дело в том, что НЛП легче решить, чем краевую задачу. Причина относительной простоты вычислений, особенно метода прямой коллокации, заключается в том, что NLP является разреженным и существует множество известных программ (например, SNOPT [13] ) для решения больших разреженных NLP. В результате круг задач, которые можно решить прямыми методами (особенно очень популярными в настоящее время методами прямой коллокации ), значительно шире, чем круг задач, которые можно решить косвенными методами. Фактически, в наши дни прямые методы стали настолько популярны, что многие люди написали сложные программы, использующие эти методы. В частности, к числу таких программ относятся DIRCOL , [14] SOCS, [15] OTIS, [16] GESOP/ ASTOS , [17] DITAN. [18] и PyGMO/PyKEP. [19] В последние годы, в связи с появлением языка программирования MATLAB , программное обеспечение оптимального управления в MATLAB стало более распространенным. Примеры академически разработанных программных инструментов MATLAB, реализующих прямые методы, включают RIOTS , [20] DIDO , [21] DIRECT , [22] FALCON.m, [23] и GPOPS, [24] , а примером разработанного в отрасли инструмента MATLAB является PROPT. . [25] Эти программные инструменты значительно расширили возможности людей исследовать сложные проблемы оптимального управления как для академических исследований, так и для промышленных проблем. [26] Наконец, следует отметить, что среды оптимизации MATLAB общего назначения, такие как TOMLAB, сделали кодирование сложных задач оптимального управления значительно проще, чем это было возможно ранее в таких языках, как C и FORTRAN .
До сих пор примеры демонстрировали системы непрерывного времени и решения по управлению. Фактически, поскольку решения по оптимальному управлению теперь часто реализуются в цифровом виде , современная теория управления теперь в первую очередь занимается системами и решениями с дискретным временем . Теория согласованных приближений [27] [28] обеспечивает условия, при которых решения серии все более точных дискретизированных задач оптимального управления сходятся к решению исходной задачи с непрерывным временем. Не все методы дискретизации обладают этим свойством, даже, казалось бы, очевидным. [29] Например, использование процедуры с переменным размером шага для интегрирования динамических уравнений задачи может привести к появлению градиента, который не сходится к нулю (или указывает в правильном направлении) по мере приближения к решению. Прямой метод RIOTS основан на теории последовательной аппроксимации.
Общей стратегией решения многих задач оптимального управления является определение стоимости (иногда называемой теневой ценой ) . Костата суммирует в одном числе предельное значение расширения или сжатия переменной состояния на следующем ходу. Предельная ценность — это не только выгоды, полученные на следующем ходу, но и связанные с продолжительностью программы. Хорошо, когда можно решить аналитически, но обычно самое большее, что можно сделать, — это описать это достаточно хорошо, чтобы интуиция могла уловить характер решения, а решатель уравнений мог найти значения численно.
Получив , оптимальное значение поворота t для управления обычно можно решить как дифференциальное уравнение, зависящее от знания . Опять же, нечасто, особенно в задачах с непрерывным временем, можно получить явное значение управления или состояния. Обычно стратегия состоит в том, чтобы найти пороговые значения и области, которые характеризуют оптимальное управление, и использовать числовой решатель для изоляции фактических значений выбора во времени.
Рассмотрим задачу владельца шахты, который должен решить, с какой скоростью добывать руду из своей шахты. Они владеют правами на руду с сегодняшнего дня . На данный момент в земле есть руда, и зависящее от времени количество руды , оставшейся в земле, уменьшается со скоростью, с которой владелец шахты ее добывает. Владелец шахты добывает руду по себестоимости (стоимость добычи увеличивается пропорционально квадрату скорости добычи и обратному значению количества оставшейся руды) и продает руду по постоянной цене . Любая руда, оставшаяся в земле, не может быть продана и не имеет ценности (нет «ценности лома»). Владелец выбирает скорость добычи, меняющуюся со временем, чтобы максимизировать прибыль в течение периода владения без дисконтирования по времени.
Менеджер максимизирует прибыль :
Составьте гамильтониан и продифференцируйте:
Поскольку владелец шахты не оценивает оставшуюся на данный момент руду ,
Используя приведенные выше уравнения, легко решить ряды и
Менеджер максимизирует прибыль :
Составьте гамильтониан и продифференцируйте:
Поскольку владелец шахты не оценивает оставшуюся на данный момент руду ,
Используя приведенные выше уравнения, легко решить дифференциальные уравнения, определяющие и