stringtranslate.com

Неравенство Дженсена

Неравенство Йенсена обобщает утверждение о том, что секущая выпуклой функции лежит над ее графиком.
Визуализация выпуклости и неравенства Йенсена

В математике неравенство Йенсена , названное в честь датского математика Йохана Йенсена , связывает значение выпуклой функции интеграла с интегралом выпуклой функции. Оно было доказано Йенсеном в 1906 году, [1] на основе более раннего доказательства того же неравенства для дважды дифференцируемых функций, сделанного Отто Гёльдером в 1889 году . [2] Учитывая его общность, неравенство появляется во многих формах в зависимости от контекста, некоторые из которых представлены ниже. В своей простейшей форме неравенство гласит, что выпуклое преобразование среднего меньше или равно среднему, примененному после выпуклого преобразования; Из простого следствия следует , что для вогнутых преобразований верно обратное. [3]

Неравенство Йенсена обобщает утверждение о том, что секущая линия выпуклой функции лежит над графиком функции , что является неравенством Йенсена для двух точек: секущая линия состоит из взвешенных средних значений выпуклой функции (при t  ∈ [0,1]) ,

а график функции представляет собой выпуклую функцию взвешенных средних,

Таким образом, неравенство Йенсена имеет вид

В контексте теории вероятностей это обычно формулируется в следующем виде: если Xслучайная величина , а φ — выпуклая функция, то

φ ( E ⁡ [ Икс ] ) ≤ E ⁡ [ φ ( Икс ) ] . {\displaystyle \varphi (\operatorname {E} [X])\leq \operatorname {E} \left[\varphi (X)\right].}

Разница между двумя частями неравенства называется разрывом Йенсена. [4]

Заявления

Классическая форма неравенства Йенсена включает несколько чисел и весов. Неравенство можно сформулировать в весьма общем виде, используя либо язык теории меры , либо (что эквивалентно) язык вероятности. В вероятностной ситуации неравенство можно далее обобщить до полной силы .

Конечная форма

Для вещественной выпуклой функции , чисел в ее области определения и положительных весов неравенство Йенсена можно сформулировать как:

и неравенство меняется на противоположное, если является вогнутым , что

Равенство выполняется тогда и только тогда, когда или линейно в области, содержащей .

В частном случае, если все веса равны, тогда ( 1 ) и ( 2 ) становятся

Например, функция log( x ) является вогнутой , поэтому подстановка в предыдущую формулу ( 4 ) устанавливает (логарифм) знакомое среднее арифметическое/среднее геометрическое неравенство :

Обычное приложение имеет x как функцию другой переменной (или набора переменных) t , то есть . Все это переносится непосредственно на общий непрерывный случай: веса a i заменяются неотрицательной интегрируемой функцией f  ( x ) , такой как распределение вероятностей, а суммы заменяются интегралами.

Теоретико-мерная форма

Пусть — вероятностное пространство . Пусть – -измеримая функция и выпуклая. Тогда: [5]

В реальном анализе нам может потребоваться оценка

где , и – неотрицательная интегрируемая по Лебегу функция. В этом случае мера Лебега не обязательно равна единице. Однако путем интегрирования заменой интервал можно масштабировать так, чтобы он имел единицу меры. Тогда неравенство Йенсена можно применить, чтобы получить [6]

Вероятностная форма

Тот же результат можно эквивалентным образом сформулировать в рамках теории вероятностей , просто изменив обозначения. Пусть — вероятностное пространство , X — интегрируемая вещественная случайная величина , а φвыпуклая функция . Затем:

[7]

В этой вероятностной ситуации мера µ понимается как вероятность , интеграл по µ – как ожидаемое значение , а функция – как случайная величина X.

Обратите внимание, что равенство выполняется тогда и только тогда, когда φ — линейная функция на некотором выпуклом множестве такая, что (что следует из проверки теоретико-мерного доказательства ниже).

Общее неравенство в вероятностной ситуации

В более общем смысле, пусть T — вещественное топологическое векторное пространство , а Xинтегрируемая случайная величина со значением T. В этой общей ситуации интегрируемость означает, что существует элемент в T такой, что для любого элемента z в двойственном пространстве к T : и . Тогда для любой измеримой выпуклой функции φ и любой под- σ-алгебры в :

Здесь обозначается математическое ожидание, обусловленное σ-алгеброй . Это общее утверждение сводится к предыдущим, когда топологическое векторное пространство T является вещественной осью и является тривиальной σ -алгеброй {∅, Ω} (где пустое множество , а Ωвыборочное пространство ). [8]

Заостренная и обобщенная форма

Пусть X — одномерная случайная величина со средним значением и дисперсией . Пусть – дважды дифференцируемая функция, и определим функцию

Тогда [9]

В частности, когда является выпуклым, то , и сразу следует стандартная форма неравенства Йенсена для случая, когда дополнительно предполагается дважды дифференцируемым.

Доказательства

Интуитивное графическое доказательство

Графическое «доказательство» неравенства Йенсена для вероятностного случая. Пунктирная кривая по оси X представляет собой гипотетическое распределение X , а пунктирная кривая по оси Y — соответствующее распределение значений Y. Обратите внимание , что выпуклое отображение Y ( X ) всё больше « растягивает » распределение при увеличении значения X.
Это доказательство без слов неравенства Йенсена для n переменных. Без ограничения общности сумма положительных весов равна 1 . Отсюда следует, что взвешенная точка лежит в выпуклой оболочке исходных точек, которая по определению выпуклости лежит выше самой функции. Вывод следующий. [10]

Неравенство Йенсена можно доказать несколькими способами, и будут предложены три разных доказательства, соответствующие различным утверждениям, приведенным выше. Однако прежде чем приступить к этим математическим выводам, стоит проанализировать интуитивно понятный графический аргумент, основанный на вероятностном случае, когда X — действительное число (см. Рисунок). Предполагая гипотетическое распределение значений X , можно сразу определить положение и его изображение на графике. Заметив, что для выпуклых отображений Y = φ ( x ) некоторых значений x соответствующее распределение значений Y все больше «растягивается» при увеличении значений X , легко увидеть, что распределение Y шире в интервале, соответствующем X > X 0 и уже в X < X 0 для любого X 0 ; в частности, это справедливо и для . Следовательно, в этой картине ожидание Y всегда будет смещаться вверх относительно позиции . Аналогичные рассуждения справедливы, если распределение X охватывает убывающую часть выпуклой функции или как убывающую, так и возрастающую ее часть. Это «доказывает» неравенство, т.е.

с равенством, когда φ ( X ) не является строго выпуклым, например, когда это прямая линия, или когда X следует вырожденному распределению (т. е. является константой).

Доказательства, приведенные ниже, формализуют это интуитивное представление.

Доказательство 1 (конечная форма)

Если λ 1 и λ 2 — два произвольных неотрицательных действительных числа такие, что λ 1 + λ 2 = 1 , то из выпуклости φ следует

Это можно обобщить: если λ 1 , ..., λ n — неотрицательные действительные числа такие, что λ 1 + ... + λ n = 1 , то

для любого x 1 , ..., x n .

Конечная форма неравенства Йенсена может быть доказана по индукции : по гипотезе выпуклости утверждение верно для n  = 2. Предположим, что утверждение верно для некоторого n , поэтому

для любых λ 1 , ..., λ n таких, что λ 1 + ... + λ n = 1 .

Это нужно доказать для n + 1 . По крайней мере одно из λi строго меньше, чем , скажем, λn + 1 ; следовательно, по неравенству выпуклости:

Поскольку λ 1 + ... + λ n + λ n +1 = 1 ,

,

применение индуктивной гипотезы дает

поэтому

Мы приходим к выводу, что равенство верно для n + 1 , по индукции отсюда следует, что результат верен также для всех целых чисел n, больших 2.

Чтобы получить общее неравенство из этой конечной формы, нужно использовать аргумент плотности. Конечная форма может быть переписана как:

где µ n — мера, заданная произвольной выпуклой комбинацией дельт Дирака :

Поскольку выпуклые функции непрерывны и выпуклые комбинации дельт Дирака слабо плотны во множестве вероятностных мер (в чем легко убедиться), общее утверждение получается просто предельной процедурой.

Доказательство 2 (теоретико-мерная форма)

Пусть - вещественнозначная -интегрируемая функция в вероятностном пространстве и пусть - выпуклая функция действительных чисел. Поскольку является выпуклым, в каждом действительном числе у нас есть непустой набор субпроизводных , которые можно рассматривать как линии, касающиеся графика at , но которые находятся ниже графика во всех точках (опорные линии графика).

Теперь, если мы определим

ввиду существования субпроизводных выпуклых функций мы можем выбрать и такие, что

для всего настоящего и

Но тогда у нас есть это

почти для всех . Поскольку у нас есть вероятностная мера, интеграл монотонен с, так что

по желанию.

Доказательство 3 (общее неравенство в вероятностной ситуации)

Пусть X — интегрируемая случайная величина, принимающая значения в реальном топологическом векторном пространстве T. Поскольку выпукло, то для любого величина

уменьшается по мере приближения θ к 0 + . В частности, субдифференциал , оцененный в точке x в направлении y , четко определяется формулой

Легко видеть, что субдифференциал линеен по y ( это неверно и утверждение требует доказательства теоремы Хана-Банаха) и, поскольку нижняя грань, взятая в правой части предыдущей формулы, меньше, чем значение того же члена для θ = 1 , получаем

В частности, для произвольной под- σ -алгебры мы можем вычислить последнее неравенство, когда получим

Теперь, если мы возьмем математическое ожидание, обусловленное обеими частями предыдущего выражения, мы получим результат, поскольку:

линейностью субдифференциала по переменной y и следующим известным свойством условного математического ожидания :

Приложения и особые случаи

Форма, включающая функцию плотности вероятности

Предположим, что Ω — измеримое подмножество действительной прямой, а f ( x ) — неотрицательная функция такая, что

На вероятностном языке f — это функция плотности вероятности .

Тогда неравенство Йенсена превращается в следующее утверждение о выпуклых интегралах:

Если g — любая измеримая функция с действительным знаком, выпуклая в диапазоне g , то

Если g ( x ) = x , то эта форма неравенства сводится к часто используемому частному случаю:

Это применяется в вариационных байесовских методах .

Пример: четные моменты случайной величины

Если g ( x ) = x 2n и X — случайная величина, то g выпукла как

и так

В частности, если какой-то четный момент 2n X конечен , X имеет конечное среднее. Расширение этого аргумента показывает, что X имеет конечные моменты любого порядка, делящего n .

Альтернативная конечная форма

Пусть Ω = { x 1 , ... x n } и возьмем µ в качестве считающей меры на Ω , тогда общий вид сводится к утверждению о суммах:

при условии, что λ i ≥ 0 и

Существует также бесконечная дискретная форма.

Статистическая физика

Неравенство Йенсена имеет особое значение в статистической физике, когда выпуклая функция является экспоненциальной, что дает:

где ожидаемые значения относятся к некоторому распределению вероятностей случайной величины X .

Доказательство: Впустить

Теория информации

Если p ( x ) — истинная плотность вероятности для X , а q ( x ) — другая плотность, то применяя неравенство Йенсена для случайной величины Y ( X ) = q ( X )/ p ( X ) и выпуклую функцию φ ( y ) = −log( y ) дает

Поэтому:

результат, называемый неравенством Гиббса .

Он показывает, что средняя длина сообщения минимизируется, когда коды назначаются на основе истинных вероятностей p , а не любого другого распределения q . Величина, которая не является отрицательной, называется расходимостью Кульбака – Лейблера q от p .

Поскольку −log( x ) является строго выпуклой функцией для x > 0 , отсюда следует, что равенство выполняется, когда p ( x ) равно q ( x ) почти везде.

Теорема Рао – Блэквелла

Если L — выпуклая функция и субсигма-алгебра, то из условного варианта неравенства Йенсена получаем

Итак, если δ( X ) является некоторой оценкой ненаблюдаемого параметра θ с учетом вектора наблюдаемых X ; и если T ( X ) является достаточной статистикой для θ; тогда улучшенную оценку в смысле уменьшения ожидаемых потерь L можно получить путем вычисления

ожидаемое значение δ по отношению к θ, взятое по всем возможным векторам наблюдений X , совместимым с тем же значением T ( X ), что и наблюдаемое. Далее, поскольку T является достаточной статистикой, она не зависит от θ и, следовательно, становится статистикой.

Этот результат известен как теорема Рао–Блэквелла .

Смотрите также

Примечания

  1. ^ Дженсен, JLWV (1906). «Выпуклые функции и неравенства между моими ценностями». Акта Математика . 30 (1): 175–193. дои : 10.1007/BF02418571 .
  2. ^ Гессаб, А.; Шмайссер, Г. (2013). «Необходимые и достаточные условия справедливости неравенства Йенсена». Архив математики . 100 (6): 561–570. дои : 10.1007/s00013-013-0522-3. МР  3069109. S2CID  56372266.
  3. ^ Деккинг, FM; Краайкамп, К.; Лопухаа, HP; Мистер, Л.Е. (2005). Современное введение в вероятность и статистику: понимание почему и как. Тексты Спрингера в статистике. Лондон: Спрингер. дои : 10.1007/1-84628-168-7. ISBN 978-1-85233-896-1.
  4. ^ Гао, Сян; Ситхарам, Мира; Ройтберг, Адриан (2019). «Границы разрыва Дженсена и последствия для распределений, концентрированных по среднему» (PDF) . Австралийский журнал математического анализа и приложений . 16 (2). arXiv : 1712.05267 .
  5. ^ с. 25 Рика Дарретта (2019). Вероятность: теория и примеры (5-е изд.). Издательство Кембриджского университета. ISBN 978-1108473682.
  6. ^ Никулеску, Константин П. «Интегральные неравенства», стр. 12.
  7. ^ с. 29 Рика Дарретта (2019). Вероятность: теория и примеры (5-е изд.). Издательство Кембриджского университета. ISBN 978-1108473682.
  8. ^ Внимание: в этой общности необходимы дополнительные предположения о выпуклой функции и/или топологическом векторном пространстве, см. пример (1.3) на с. 53 в Перлмане, Майкл Д. (1974). «Неравенство Дженсена для выпуклой векторной функции в бесконечномерном пространстве». Журнал многомерного анализа . 4 (1): 52–65. дои : 10.1016/0047-259X(74)90005-0 . hdl : 11299/199167 .
  9. ^ Ляо, Дж.; Берг, А (2018). «Уточнение неравенства Дженсена». Американский статистик . 73 (3): 278–281. arXiv : 1707.08644 . дои : 10.1080/00031305.2017.1419145. S2CID  88515366.
  10. ^ Брэдли, CJ (2006). Введение в неравенства. Лидс, Великобритания: Математический фонд Соединенного Королевства. п. 97. ИСБН 978-1-906001-11-7.

Рекомендации

Внешние ссылки