stringtranslate.com

Матрица Гессе

В математике матрица Гессе , гессиан или (реже) матрица Гессе — это квадратная матрица частных производных второго порядка скалярной функции или скалярного поля . Она описывает локальную кривизну функции многих переменных. Матрица Гессе была разработана в 19 веке немецким математиком Людвигом Отто Гессе и позже названа в его честь. Первоначально Гессе использовал термин «функциональные определители». Гессе иногда обозначается как H или, неоднозначно, как ∇ 2 .

Определения и свойства

Предположим, что функция принимает на вход вектор и выдает скаляр. Если существуют все частные производные второго порядка , то матрица Гессе является квадратной матрицей, обычно определяемой и упорядоченной как То есть запись i -й строки и j -го столбца равна

Если, кроме того, все вторые частные производные непрерывны, то матрица Гессе является симметричной матрицей в силу симметрии вторых производных .

Определитель матрицы Гессе называется определителем Гессе . [ 1]

Матрица Гессе функции является транспонированной матрицей Якоби градиента функции , то есть:

Приложения

Точки перегиба

Если — однородный многочлен от трех переменных, то уравнение — неявное уравнение плоской проективной кривой . Точки перегиба кривой — это в точности неособые точки, в которых определитель Гессе равен нулю. Из теоремы Безу следует , что кубическая плоская кривая имеет не более точек перегиба, поскольку определитель Гессе — многочлен степени

Тест второй производной

Матрица Гессе выпуклой функции является положительно полуопределенной . Уточнение этого свойства позволяет нам проверить, является ли критическая точка локальным максимумом, локальным минимумом или седловой точкой, следующим образом:

Если гессиан положительно определен в то достигает изолированного локального минимума в Если гессиан отрицательно определен в то достигает изолированного локального максимума в Если гессиан имеет как положительные, так и отрицательные собственные значения , то является седловой точкой для В противном случае тест неубедителен. Это означает, что в локальном минимуме гессиан положительно полуопределен, а в локальном максимуме гессиан отрицательно полуопределен.

Для положительно-полуопределенных и отрицательно-полуопределенных гессианов тест неубедителен (критическая точка, в которой гессиан полуопределен, но не определен, может быть локальным экстремумом или седловой точкой). Однако с точки зрения теории Морзе можно сказать больше .

Тест на вторую производную для функций одной и двух переменных проще, чем в общем случае. В случае одной переменной гессиан содержит ровно одну вторую производную; если она положительна, то является локальным минимумом, а если она отрицательна, то является локальным максимумом; если она равна нулю, то тест неубедителен. В случае двух переменных можно использовать определитель , поскольку определитель является произведением собственных значений. Если он положителен, то собственные значения оба положительные или оба отрицательные. Если он отрицателен, то два собственных значения имеют разные знаки. Если он равен нулю, то тест на вторую производную неубедителен.

Эквивалентно, условия второго порядка, достаточные для локального минимума или максимума, могут быть выражены в терминах последовательности главных (верхних левых) миноров (детерминантов подматриц) гессиана; эти условия являются частным случаем тех, которые приведены в следующем разделе для ограниченных гессианов для ограниченной оптимизации — случая, в котором число ограничений равно нулю. В частности, достаточным условием для минимума является то, что все эти главные миноры должны быть положительными, в то время как достаточным условием для максимума является то, что миноры должны чередоваться по знаку, причем минор должен быть отрицательным.

Критические точки

Если градиент (вектор частных производных) функции равен нулю в некоторой точке , то имеет критическую точку (или стационарную точку ) в Определитель гессиана в в некоторых контекстах называется дискриминантом . Если этот определитель равен нулю, то называется вырожденной критической точкой или неморсовской критической точкой В противном случае она невырождена и называется морсовской критической точкой

Матрица Гессе играет важную роль в теории Морса и теории катастроф , поскольку ее ядро ​​и собственные значения позволяют классифицировать критические точки. [2] [3] [4]

Определитель матрицы Гессе, вычисленный в критической точке функции, равен гауссовой кривизне функции, рассматриваемой как многообразие. Собственные значения Гессе в этой точке являются главными кривизнами функции, а собственные векторы являются главными направлениями кривизны. (См. Гауссова кривизна § Связь с главными кривизнами .)

Использовать в оптимизации

Матрицы Гессе используются в задачах оптимизации большого масштаба в методах типа Ньютона , поскольку они являются коэффициентом квадратичного члена локального разложения Тейлора функции. То есть, где — градиент Вычисление и хранение полной матрицы Гессе требует памяти, что невыполнимо для многомерных функций, таких как функции потерь нейронных сетей , условные случайные поля и другие статистические модели с большим количеством параметров. Для таких ситуаций были разработаны алгоритмы усеченного Ньютона и квазиньютона . Последнее семейство алгоритмов использует приближения к гессиану; одним из самых популярных алгоритмов квазиньютона является BFGS . [5]

Такие приближения могут использовать тот факт, что алгоритм оптимизации использует гессиан только как линейный оператор , и действовать, сначала замечая, что гессиан также появляется в локальном расширении градиента:

Полагая это для некоторого скаляра , получаем , что если градиент уже вычислен, то приближенный гессиан может быть вычислен с помощью линейного (по размеру градиента) числа скалярных операций. (Хотя эта схема аппроксимации проста в программировании, она не является численно устойчивой, поскольку должна быть сделана небольшой, чтобы предотвратить ошибку из-за члена, но его уменьшение приводит к потере точности в первом члене. [6] )

Что касается эвристики рандомизированного поиска, то ковариационная матрица эволюционной стратегии адаптируется к обратной матрице Гессе с точностью до скалярного множителя и небольших случайных колебаний. Этот результат был формально доказан для стратегии с одним родителем и статической модели по мере увеличения размера популяции, опираясь на квадратичное приближение. [7]

Другие приложения

Матрица Гессе обычно используется для выражения операторов обработки изображений в обработке изображений и компьютерном зрении (см. Лапласиан гауссовского (LoG) детектора пятен, определитель детектора пятен Гессе (DoH) и масштабное пространство ). Она может использоваться в анализе нормального режима для вычисления различных молекулярных частот в инфракрасной спектроскопии . [8] Она также может использоваться в локальной чувствительности и статистической диагностике. [9]

Обобщения

Гессен с каймой

Ограниченный гессиан используется для теста второй производной в некоторых задачах ограниченной оптимизации. При условии функции, рассмотренной ранее, но с добавлением функции ограничения, такой что ограниченный гессиан является гессианом функции Лагранжа [10]

Если, скажем, есть ограничения, то ноль в верхнем левом углу представляет собой блок нулей, а также имеются граничные строки вверху и граничные столбцы слева.

Вышеуказанные правила, утверждающие, что экстремумы характеризуются (среди критических точек с невырожденным гессианом) положительно-определенным или отрицательно-определенным гессианом, здесь неприменимы, поскольку ограниченный гессиан не может быть ни отрицательно-определенным, ни положительно-определенным, как если бы это был любой вектор, единственным ненулевым элементом которого является его первый элемент.

Тест второй производной здесь состоит из знаковых ограничений определителей определенного набора подматриц ограниченного гессиана. [11] Интуитивно ограничения можно рассматривать как сведение задачи к задаче со свободными переменными. (Например, максимизация с учетом ограничения может быть сведена к максимизации без ограничения.)

В частности, на последовательность ведущих главных миноров (детерминантов подматриц, выровненных в верхнем левом углу) окаймленного гессиана накладываются знаковые условия, для которых первые ведущие главные миноры игнорируются, наименьший минор состоит из усеченных первых строк и столбцов, следующий состоит из усеченных первых строк и столбцов и т. д., причем последний является всем окаймленным гессианом; если больше , то наименьший ведущий главный минор является самим гессианом. [12] Таким образом, необходимо рассмотреть миноры, каждый из которых оценивается в определенной точке, рассматриваемой как кандидат на максимум или минимум . Достаточным условием для локального максимума является то, что эти миноры чередуются по знаку, причем наименьший имеет знак Достаточным условием для локального минимума является то, что все эти миноры имеют знак (В неограниченном случае эти условия совпадают с условиями для того, чтобы неокаймленный гессиан был отрицательно определенным или положительно определенным соответственно).

Векторнозначные функции

Если вместо этого является векторным полем , то набор вторых частных производных является не матрицей , а тензором третьего порядка . Это можно рассматривать как массив матриц Гессе, по одной для каждого компонента : Этот тензор вырождается в обычную матрицу Гессе, когда

Обобщение на сложный случай

В контексте нескольких комплексных переменных гессиан может быть обобщен. Предположим и запишем Тогда обобщенный гессиан равен Если удовлетворяет n-мерным условиям Коши–Римана , то комплексная матрица Гессе тождественно равна нулю.

Обобщения на римановы многообразия

Пусть будет римановым многообразием и его связностью Леви-Чивиты . Пусть будет гладкой функцией. Определим тензор Гессе с помощью , где это использует тот факт, что первая ковариантная производная функции совпадает с ее обычным дифференциалом. Выбор локальных координат дает локальное выражение для Гессе в виде , где — символы Кристоффеля связности. Другие эквивалентные формы для Гессе задаются как

Смотрите также

Ссылки

  1. ^ Бинмор, Кен ; Дэвис, Джоан (2007). Концепции и методы исчисления . Cambridge University Press. стр. 190. ISBN 978-0-521-77541-0. OCLC  717598615.
  2. ^ Каллахан, Джеймс Дж. (2010). Расширенный анализ: геометрический взгляд. Springer Science & Business Media. стр. 248. ISBN 978-1-4419-7332-0.
  3. ^ Кашаро, Б.; Фортунато, Д.; Франкавилья, М.; Масиелло, А., ред. (2011). Последние разработки в общей теории относительности. Springer Science & Business Media. стр. 178. ISBN 9788847021136.
  4. ^ Доменико П. Л. Кастриджано; Сандра А. Хейс (2004). Теория катастроф . Westview Press. стр. 18. ISBN 978-0-8133-4126-2.
  5. ^ Нокедаль, Хорхе ; Райт, Стивен (2000). Численная оптимизация . Springer Verlag. ISBN 978-0-387-98793-4.
  6. ^ Pearlmutter, Barak A. (1994). "Быстрое точное умножение на гессиан" (PDF) . Neural Computation . 6 (1): 147–160. doi :10.1162/neco.1994.6.1.147. S2CID  1251969.
  7. ^ Шир, ОМ; А. Йехудайофф (2020). «О ковариационно-гессеновской связи в эволюционных стратегиях». Теоретическая информатика . 801. Elsevier: 157–174. arXiv : 1806.03674 . doi : 10.1016/j.tcs.2019.09.002 .
  8. ^ Mott, Adam J.; Rez, Peter (24 декабря 2014 г.). «Расчет инфракрасных спектров белков». European Biophysics Journal . 44 (3): 103–112. doi :10.1007/s00249-014-1005-6. ISSN  0175-7571. PMID  25538002. S2CID  2945423.
  9. ^ Лю, Шуанчжэ; Лейва, Виктор; Чжуан, Дэн; Ма, Тиефенг; Фигероа-Сунига, Хорхе И. (март 2022 г.). «Матричное дифференциальное исчисление с приложениями в многомерной линейной модели и его диагностика». Журнал многомерного анализа . 188 : 104849. doi : 10.1016/j.jmva.2021.104849 .
  10. ^ Халлам, Арне (7 октября 2004 г.). «Econ 500: Количественные методы в экономическом анализе I» (PDF) . Университет штата Айова .
  11. ^ Нойдекер, Хайнц; Магнус, Ян Р. (1988). Матричное дифференциальное исчисление с приложениями в статистике и эконометрике . Нью-Йорк: John Wiley & Sons . стр. 136. ISBN 978-0-471-91516-4.
  12. ^ Чианг, Альфа С. (1984). Фундаментальные методы математической экономики (третье изд.). McGraw-Hill. стр. 386. ISBN 978-0-07-010813-4.

Дальнейшее чтение

Внешние ссылки