stringtranslate.com

Матрица Гессе

В математике матрица Гессе , матрица Гессе или (реже) матрица Гессе — это квадратная матрица частных производных второго порядка скалярной функции , или скалярного поля . Он описывает локальную кривизну функции многих переменных. Матрица Гессе была разработана в XIX веке немецким математиком Людвигом Отто Гессе и позже названа в его честь. Гессен первоначально использовал термин «функциональные детерминанты». Гессиан иногда обозначается H или, что неоднозначно, ∇ 2 .

Определения и свойства

Предположим , что это функция, принимающая в качестве входных данных вектор и выдающая скаляр. Если все частные производные второго порядка существуют , то матрица Гессе представляет собой квадратную матрицу, обычно определяемую и упорядочиваемую как

ij-

Если, кроме того, все вторые частные производные непрерывны, матрица Гессе является симметричной матрицей в силу симметрии вторых производных .

Определитель матрицы Гессе называется определителем Гессе . [1]

Матрица Гессе функции представляет собой транспонированную матрицу Якоби градиента функции ; то есть:

Приложения

Точки перегиба

Если — однородный многочлен от трех переменных, уравнение является неявным уравнением плоской проективной кривой . Точками перегиба кривой являются именно те неособые точки, в которых определитель Гессе равен нулю. Из теоремы Безу следует , что кубическая плоская кривая имеет не более чем точки перегиба, поскольку определитель Гессе является многочленом степени

Тест второй производной

Матрица Гессе выпуклой функции положительно полуопределена . Уточнение этого свойства позволяет нам проверить, является ли критическая точка локальным максимумом, локальным минимумом или седловой точкой, следующим образом:

Если гессиан положительно определен при, то достигает изолированного локального минимума при. Если гессиан отрицательно определен при , то достигает изолированного локального максимума при . Если гессиан имеет как положительные, так и отрицательные собственные значения , то является седловой точкой для. В противном случае тест безрезультатно. Это означает, что в локальном минимуме гессиан является положительно-полуопределенным, а в локальном максимуме гессиан является отрицательно-полуопределенным.

Для положительно-полуопределенных и отрицательно-полуопределенных гессианов тест не дает результатов (критическая точка, где гессиан является полуопределенным, но не определенным, может быть локальным экстремумом или седловой точкой). Однако с точки зрения теории Морса можно сказать больше .

Проверка второй производной для функций одной и двух переменных проще, чем общий случай. В одной переменной гессиан содержит ровно одну вторую производную; если он положителен, то это локальный минимум, а если отрицателен, то является локальным максимумом; если он равен нулю, то тест не дает результатов. В двух переменных можно использовать определитель , поскольку определитель является произведением собственных значений. Если оно положительное, то собственные значения либо положительные, либо оба отрицательные. Если оно отрицательное, то два собственных значения имеют разные знаки. Если оно равно нулю, то тест второй производной не дает результатов.

Эквивалентно, условия второго порядка, достаточные для локального минимума или максимума, могут быть выражены через последовательность главных (самых верхних левых) миноров (определителей подматриц) гессиана; эти условия являются частным случаем условий, приведенных в следующем разделе для граничных гессианов для оптимизации с ограничениями — случая, когда количество ограничений равно нулю. В частности, достаточным условием минимума является то, что все эти главные миноры являются положительными, тогда как достаточным условием максимума является то, что миноры чередуются по знаку, причем минор является отрицательным.

Критические точки

Если градиент (вектор частных производных) функции равен нулю в некоторой точке, то он имеет критическую точку (или стационарную точку ) в. Определитель гессиана в некоторых контекстах называется дискриминантом . Если этот определитель равен нулю, то он называется вырожденной критической точкой или неморсовской критической точкой . В противном случае он невырожден и называется критической точкой Морса .

Матрица Гессе играет важную роль в теории Морса и теории катастроф , поскольку ее ядро ​​и собственные значения позволяют классифицировать критические точки. [2] [3] [4]

Определитель матрицы Гессе, вычисленный в критической точке функции, равен гауссовой кривизне функции, рассматриваемой как многообразие. Собственные значения гессиана в этой точке являются главными кривизнами функции, а собственные векторы — главными направлениями кривизны. (См. Гауссову кривизну § Связь с главными кривизнами .)

Использование в оптимизации

Матрицы Гессе используются в крупномасштабных задачах оптимизации в методах типа Ньютона , поскольку они являются коэффициентом квадратичного члена локального разложения Тейлора функции. То есть,

.функции потерьсетейусловные случайные полястатистические моделиусеченного Ньютонаквазиньютона . BFGS[5]

Такие аппроксимации могут использовать тот факт, что алгоритм оптимизации использует гессиан только как линейный оператор , и сначала заметят, что гессиан также появляется в локальном разложении градиента:

Учитывая некоторую скалярную величину, это дает

[6]

В частности, что касается эвристики рандомизированного поиска, ковариационная матрица стратегии эволюции адаптируется к обратной матрице Гессе с точностью до скалярного коэффициента и небольших случайных флуктуаций. Этот результат был формально доказан для стратегии с одним родителем и статической модели по мере увеличения размера популяции на основе квадратичного приближения. [7]

Другие приложения

Матрица Гессиана обычно используется для выражения операторов обработки изображений в обработке изображений и компьютерном зрении (см. Лапласиан гауссовского детектора капель (LoG), определитель детектора каплей Гессиана (DoH) и масштабное пространство ). Его можно использовать в обычном режиме анализа для расчета различных молекулярных частот в инфракрасной спектроскопии . [8] Его также можно использовать для диагностики местной чувствительности и статистической диагностики. [9]

Обобщения

Гессен с границей

Гессиан с границами используется для теста второй производной в некоторых задачах оптимизации с ограничениями. Учитывая функцию, рассмотренную ранее, но добавив ограничительную функцию, такую, что ограниченный гессиан является гессианом функции Лагранжа [10]

Если есть, скажем, ограничения, то ноль в верхнем левом углу представляет собой блок нулей, а сверху есть граничные строки, а слева — граничные столбцы.

Приведенные выше правила, гласящие, что экстремумы характеризуются (среди критических точек с неособым гессианом) положительно-определенным или отрицательно-определенным гессианом, здесь неприменимы, поскольку окаймленный гессиан не может быть ни отрицательно-определенным, ни положительно-определенным, как если бы любой вектор, единственная ненулевая запись которого является первой.

Второй критерий производной состоит здесь из знаковых ограничений определителей некоторого набора подматриц гессиана с границами. [11] Интуитивно ограничения можно рассматривать как сведение задачи к задаче со свободными переменными. (Например, максимизация объекта с учетом ограничения может быть сведена к максимизации объекта без ограничений.)

В частности, к последовательности ведущих главных миноров (определителей выровненных в верхнем левом углу подматриц) граничащего гессиана накладываются знаковые условия, для которых пренебрегают первыми ведущими главными минорами, причем наименьший минор состоит из усеченных первых строк и столбцы, следующий состоит из усеченных первых строк и столбцов и так далее, причем последний представляет собой весь гессен с рамкой; если больше, то наименьший ведущий главный минор - это сам гессиан. [12] Таким образом, необходимо учитывать второстепенные значения, каждый из которых оценивается в определенной точке и считается возможным максимумом или минимумом . Достаточным условием локального максимума является то, что эти миноры чередуются по знаку с наименьшим, имеющим знак. Достаточным условием локального минимума является то, что все эти миноры имеют знак (В неограниченном случае эти условия совпадают с условия, при которых гессиан без границ может быть отрицательно определенным или положительно определенным соответственно).

Векторные функции

Вместо этого if является векторным полем , то есть

тензором

Обобщение на сложный случай

В контексте нескольких комплексных переменных гессиан можно обобщить. Предположим и запишем Тогда обобщенный гессиан равен Если удовлетворяет n-мерным условиям Коши–Римана , то комплексная матрица гессиана равна тождественному нулю.

Обобщения на римановы многообразия

Пусть – риманово многообразие и его связность Леви-Чивита . Пусть — гладкая функция. Определите тензор Гессе с помощью

Кристоффелевские символы

Смотрите также

Примечания

  1. ^ Бинмор, Кен ; Дэвис, Джоан (2007). Концепции и методы исчисления . Издательство Кембриджского университета. п. 190. ИСБН 978-0-521-77541-0. ОСЛК  717598615.
  2. ^ Каллахан, Джеймс Дж. (2010). Продвинутое исчисление: геометрический взгляд. Springer Science & Business Media. п. 248. ИСБН 978-1-4419-7332-0.
  3. ^ Кашаро, Б.; Фортунато, Д.; Франкавилья, М.; Масиелло, А., ред. (2011). Последние достижения в общей теории относительности. Springer Science & Business Media. п. 178. ИСБН 9788847021136.
  4. ^ Доменико П.Л. Кастриджано; Сандра А. Хейс (2004). Теория катастроф . Вествью Пресс. п. 18. ISBN 978-0-8133-4126-2.
  5. ^ Носедал, Хорхе ; Райт, Стивен (2000). Численная оптимизация . Спрингер Верлаг. ISBN 978-0-387-98793-4.
  6. ^ Перлмуттер, Барак А. (1994). «Быстрое точное умножение на гессиан» (PDF) . Нейронные вычисления . 6 (1): 147–160. дои : 10.1162/neco.1994.6.1.147. S2CID  1251969.
  7. ^ Шир, ОМ; А. Иегудаев (2020). «О ковариационно-гессианском отношении в эволюционных стратегиях». Теоретическая информатика . Эльзевир. 801 : 157–174. arXiv : 1806.03674 . дои : 10.1016/j.tcs.2019.09.002 .
  8. ^ Мотт, Адам Дж.; Рез, Питер (24 декабря 2014 г.). «Расчет инфракрасных спектров белков». Европейский биофизический журнал . 44 (3): 103–112. дои : 10.1007/s00249-014-1005-6. ISSN  0175-7571. PMID  25538002. S2CID  2945423.
  9. ^ Лю, Шуанчжэ; Лейва, Виктор; Чжуан, Дэн; Ма, Тифенг; Фигероа-Суньига, Хорхе И. (март 2022 г.). «Матричное дифференциальное исчисление с приложениями в многомерной линейной модели и ее диагностика». Журнал многомерного анализа . 188 : 104849. doi : 10.1016/j.jmva.2021.104849 .
  10. Халлам, Арне (7 октября 2004 г.). «Econ 500: Количественные методы экономического анализа I» (PDF) . Штат Айова .
  11. ^ Нойдекер, Хайнц; Магнус, Ян Р. (1988). Матричное дифференциальное исчисление с приложениями в статистике и эконометрике . Нью-Йорк: Джон Уайли и сыновья . п. 136. ИСБН 978-0-471-91516-4.
  12. ^ Чан, Альфа К. (1984). Фундаментальные методы математической экономики (Третье изд.). МакГроу-Хилл. п. 386. ИСБН 978-0-07-010813-4.

дальнейшее чтение

Внешние ссылки