Допуская ограничения неравенства, подход KKT к нелинейному программированию обобщает метод множителей Лагранжа , который допускает только ограничения равенства. Подобно подходу Лагранжа, задача ограниченной максимизации (минимизации) переписывается как функция Лагранжа, оптимальная точка которой является глобальным максимумом или минимумом по области выбора переменных и глобальным минимумом (максимумом) по множителям. Теорему Каруша–Куна–Таккера иногда называют теоремой о седловой точке. [1]
Условия ККТ были первоначально названы в честь Гарольда В. Куна и Альберта В. Такера , которые впервые опубликовали эти условия в 1951 году. [2] Позднее ученые обнаружили, что необходимые условия для этой задачи были сформулированы Уильямом Карушем в его магистерской диссертации в 1939 году. [3] [4]
Нелинейная задача оптимизации
Рассмотрим следующую нелинейную задачу оптимизации в стандартной форме :
минимизировать
при условии
где — это переменная оптимизации, выбранная из выпуклого подмножества , — целевая функция или функция полезности , — функции ограничений неравенства и — функции ограничений равенства . Числа неравенств и равенств обозначаются как и соответственно. В соответствии с задачей ограниченной оптимизации можно сформировать функцию Лагранжа
Теорема — (достаточность) Если — седловая точка в , то — оптимальный вектор для указанной выше задачи оптимизации .
(необходимость) Предположим, что и , , выпуклы в и что существует такое, что (т.е. выполняется условие Слейтера ). Тогда с оптимальным вектором для указанной выше задачи оптимизации связан вектор, удовлетворяющий , такой, что является седловой точкой . [5]
Система уравнений и неравенств, соответствующая условиям ККТ, обычно не решается напрямую, за исключением нескольких особых случаев, когда аналитическое решение в замкнутой форме может быть получено. В общем, многие алгоритмы оптимизации можно интерпретировать как методы численного решения системы уравнений и неравенств ККТ. [7]
Необходимые условия
Предположим, что целевая функция и функции ограничений и имеют производные в точке . Если — локальный оптимум и задача оптимизации удовлетворяет некоторым условиям регулярности (см. ниже), то существуют константы и , называемые множителями ККТ, такие, что выполняются следующие четыре группы условий: [8]
Стационарность
Для минимизации :
Для максимизации :
Первичная осуществимость
Двойная осуществимость
Дополнительная расслабленность
Последнее условие иногда записывают в эквивалентной форме:
В частном случае , т. е. когда отсутствуют ограничения-неравенства, условия ККТ превращаются в условия Лагранжа, а множители ККТ называются множителями Лагранжа .
Доказательство
Теорема — (достаточность) Если существует решение основной задачи, решение двойственной задачи, такие, что вместе они удовлетворяют условиям ККТ, то пара задач имеет сильную двойственность и является парой решений основной и двойственной задач.
(необходимость) Если пара задач имеет сильную двойственность, то для любого решения основной задачи и любого решения двойственной задачи пара должна удовлетворять условиям ККТ. [9]
Доказательство
Во-первых, для того чтобы удовлетворялись условия ККТ, необходимо, чтобы они были равновесием Нэша .
Фиксируйте и изменяйте : равновесие эквивалентно первичной стационарности.
Фиксируйте и варьируйте : равновесие эквивалентно изначальной осуществимости и дополнительной нежесткости.
Достаточность: пара решений удовлетворяет условиям ККТ, следовательно, является равновесием Нэша и, следовательно, закрывает разрыв двойственности.
Необходимость: любая пара решений должна закрывать разрыв двойственности, таким образом, они должны составлять равновесие Нэша (поскольку ни одна из сторон не может добиться лучшего), таким образом, они удовлетворяют условиям ККТ.
Интерпретация: условия ККТ как уравновешивающие силы ограничений в пространстве состояний
Первичную задачу можно интерпретировать как перемещение частицы в пространстве и воздействие на нее трех видов силовых полей:
потенциальное поле, которое минимизирует частица. Сила, генерируемая .
являются односторонними поверхностями ограничения. Частице разрешено двигаться внутри , но всякий раз, когда она касается , она вталкивается внутрь.
являются двусторонними поверхностями ограничения. Частице разрешено двигаться только по поверхности .
Первичная стационарность утверждает, что «сила» точно уравновешивается линейной суммой сил и .
Двойственная осуществимость дополнительно утверждает, что все силы должны быть односторонними, направленными внутрь допустимого множества для .
Дополнительная нежесткость утверждает, что если , то сила, исходящая от , должна быть равна нулю, т.е. , поскольку частица не находится на границе, односторонняя сила ограничения не может активироваться.
Матричное представление
Необходимые условия можно записать с помощью матриц Якоби функций ограничений. Пусть будет определено как и пусть будет определено как . Пусть и . Тогда необходимые условия можно записать как:
Стационарность
Для максимизации :
Для минимизации :
Первичная осуществимость
Двойная осуществимость
Дополнительная расслабленность
Условия регулярности (или ограничения квалификации)
Можно спросить, должна ли точка минимизации исходной задачи ограниченной оптимизации (предполагая, что она существует) удовлетворять указанным выше условиям KKT. Это похоже на вопрос, при каких условиях минимизатор функции в задаче без ограничений должен удовлетворять условию . Для случая с ограничениями ситуация более сложная, и можно сформулировать множество (все более сложных) условий «регулярности», при которых ограниченный минимизатор также удовлетворяет условиям KKT. Некоторые общие примеры условий, которые гарантируют это, приведены в следующей таблице, причем LICQ является наиболее часто используемым:
Строгие импликации могут быть показаны
LICQ ⇒ MFCQ ⇒ CPLD ⇒ QNCQ
и
LICQ ⇒ CRCQ ⇒ CPLD ⇒ QNCQ
На практике предпочтительны более слабые ограничения, поскольку они применимы к более широкому кругу проблем.
Достаточные условия
В некоторых случаях необходимые условия также достаточны для оптимальности. В общем случае необходимые условия недостаточны для оптимальности и требуется дополнительная информация, например, достаточные условия второго порядка (SOSC). Для гладких функций SOSC включает вторые производные, что объясняет его название.
Необходимые условия достаточны для оптимальности, если целевая функция задачи максимизации является дифференцируемой вогнутой функцией , ограничения-неравенства являются дифференцируемыми выпуклыми функциями , ограничения-равенства являются аффинными функциями и выполняется условие Слейтера . [11] Аналогично, если целевая функция задачи минимизации является дифференцируемой выпуклой функцией , необходимые условия также достаточны для оптимальности.
В 1985 году Мартин показал, что более широкий класс функций, в которых условия ККТ гарантируют глобальную оптимальность, — это так называемые функции invex типа 1. [12] [13]
Достаточные условия второго порядка
Для гладких нелинейных задач оптимизации достаточное условие второго порядка задается следующим образом.
Решение, найденное в предыдущем разделе, представляет собой ограниченный локальный минимум, если для лагранжиана
затем,
где — вектор, удовлетворяющий следующему условию:
где применяются только те активные ограничения неравенства, которые соответствуют строгой дополнительности (т.е. где ). Решение представляет собой строгий ограниченный локальный минимум в случае, если неравенство также является строгим.
Если , то для проверки локального минимума следует использовать разложение Тейлора третьего порядка лагранжиана . Минимизация является хорошим контрпримером, см. также Поверхность Пеано .
Экономика
Часто в математической экономике подход KKT используется в теоретических моделях для получения качественных результатов. Например, [14] рассмотрим фирму, которая максимизирует свой доход от продаж при условии ограничения минимальной прибыли. Пусть будет количеством произведенного продукта (которое должно быть выбрано), будет доходом от продаж с положительной первой производной и с нулевым значением при нулевом выходе, будут издержками производства с положительной первой производной и с неотрицательным значением при нулевом выходе, и будет положительным минимально приемлемым уровнем прибыли , тогда задача имеет смысл, если функция дохода выравнивается, так что в конечном итоге она становится менее крутой, чем функция затрат. Задача, выраженная в ранее заданной форме минимизации, имеет вид
Свернуть
при условии
и условия ККТ таковы
Так как нарушит ограничение минимальной прибыли, то имеем и, следовательно, третье условие подразумевает, что первое условие выполняется с равенством. Решение этого равенства дает
Поскольку было задано, что и строго положительны, это неравенство вместе с условием неотрицательности гарантий является положительным, и поэтому фирма, максимизирующая доход, работает на уровне выпуска, при котором предельный доход меньше предельных издержек — результат, представляющий интерес, поскольку он контрастирует с поведением фирмы, максимизирующей прибыль , которая работает на уровне, при котором они равны.
Функция ценности
Если мы переосмыслим задачу оптимизации как задачу максимизации с постоянными ограничениями-неравенствами:
Функция ценности определяется как
поэтому домен - это
Учитывая это определение, каждый коэффициент — это скорость, с которой функция ценности увеличивается по мере увеличения. Таким образом, если каждый из них интерпретируется как ограничение ресурса, коэффициенты говорят вам, насколько увеличение ресурса увеличит оптимальное значение нашей функции . Такая интерпретация особенно важна в экономике и используется, например, в задачах максимизации полезности .
Обобщения
При наличии дополнительного множителя , который может быть равен нулю (при условии ), перед ККТ условия стационарности превращаются в
которые называются условиями Фрица Джона . Эти условия оптимальности выполняются без ограничений и эквивалентны условию оптимальности KKT или (не-MFCQ) .
Условия KKT относятся к более широкому классу необходимых условий первого порядка (FONC), которые допускают негладкие функции с использованием субпроизводных .
^ Табак, Дэниел; Куо, Бенджамин С. (1971). Оптимальное управление с помощью математического программирования . Энглвуд Клиффс, Нью-Джерси: Prentice-Hall. С. 19–20. ISBN 0-13-638106-5.
^ Kuhn, HW ; Tucker, AW (1951). «Нелинейное программирование». Труды 2-го симпозиума в Беркли . Беркли: Издательство Калифорнийского университета. С. 481–492. MR 0047303.
^ В. Каруш (1939). Минимумы функций многих переменных с неравенствами в качестве побочных ограничений (диссертация на степень магистра наук). Кафедра математики, Чикагский университет, Чикаго, Иллинойс.
^ Кьельдсен, Тинне Хофф (2000). «Контекстуализированный исторический анализ теоремы Куна-Таккера в нелинейном программировании: влияние Второй мировой войны». Historia Math . 27 (4): 331–361. doi : 10.1006/hmat.2000.2289 . MR 1800317.
^ Уолш, GR (1975). "Свойство седловой точки функции Лагранжа". Методы оптимизации . Нью-Йорк: John Wiley & Sons. стр. 39–44. ISBN0-471-91922-5.
^ Кемп, Мюррей С.; Кимура, Ёсио (1978). Введение в математическую экономику. Нью-Йорк: Springer. С. 38–44. ISBN0-387-90304-6.
^ Мартин, Д. Х. (1985). «Сущность извращения». J. Optim. Theory Appl . 47 (1): 65–76. doi :10.1007/BF00941316. S2CID 122906371.
^ Хансон, MA (1999). «Invexity и теорема Куна-Таккера». J. Math. Anal. Appl . 236 (2): 594–604. doi : 10.1006/jmaa.1999.6484 .
^ Чан, Альфа С. Фундаментальные методы математической экономики , 3-е издание, 1984, стр. 750–752.
Дальнейшее чтение
Андреани, Р.; Мартинес, Дж. М.; Шувердт, М. Л. (2005). «О связи между условием постоянной положительной линейной зависимости и квалификацией ограничения квазинормальности». Журнал теории оптимизации и приложений . 125 (2): 473–485. doi :10.1007/s10957-004-1861-9. S2CID 122212394.
Avriel, Mordecai (2003). Нелинейное программирование: анализ и методы . Dover. ISBN 0-486-43227-0.
Болтянски, В.; Мартини, Х.; Солтан, В. (1998). «Теорема Куна–Таккера». Геометрические методы и проблемы оптимизации . Нью-Йорк: Springer. С. 78–92. ISBN 0-7923-5454-0.
Boyd, S.; Vandenberghe, L. (2004). "Условия оптимальности" (PDF) . Выпуклая оптимизация . Cambridge University Press. стр. 241–249. ISBN 0-521-83378-7.
Кемп, Мюррей К.; Кимура, Ёсио (1978). Введение в математическую экономику. Нью-Йорк: Springer. С. 38–73. ISBN 0-387-90304-6.
Рау, Николас (1981). «Множители Лагранжа». Матрицы и математическое программирование . Лондон: Macmillan. С. 156–174. ISBN 0-333-27768-6.
Сундарам, Рангараджан К. (1996). «Ограничения неравенства и теорема Куна и Такера». Первый курс теории оптимизации . Нью-Йорк: Cambridge University Press. С. 145–171. ISBN 0-521-49770-1.