stringtranslate.com

Неравенство Йенсена

Неравенство Йенсена обобщает утверждение о том, что секущая линия выпуклой функции лежит выше ее графика.
Визуализация выпуклости и неравенства Йенсена

В математике неравенство Йенсена , названное в честь датского математика Йохана Йенсена , связывает значение выпуклой функции интеграла с интегралом выпуклой функции. Оно было доказано Йенсеном в 1906 году, [1] основываясь на более раннем доказательстве того же неравенства для дважды дифференцируемых функций Отто Гёльдером в 1889 году. [2] Учитывая его общность, неравенство появляется во многих формах в зависимости от контекста, некоторые из которых представлены ниже. В своей простейшей форме неравенство утверждает, что выпуклое преобразование среднего значения меньше или равно среднему значению, примененному после выпуклого преобразования; это простое следствие , что обратное верно для вогнутых преобразований. [3]

Неравенство Йенсена обобщает утверждение о том, что секущая выпуклой функции лежит выше графика функции , что является неравенством Йенсена для двух точек: секущая состоит из взвешенных средних значений выпуклой функции (для t  ∈ [0,1]),

в то время как график функции представляет собой выпуклую функцию взвешенных средних,

Таким образом, неравенство Йенсена имеет вид

В контексте теории вероятностей это обычно формулируется в следующей форме: если Xслучайная величина , а φ — выпуклая функция, то

φ ( E ⁡ [ Икс ] ) ≤ E ⁡ [ φ ( Икс ) ] . {\displaystyle \varphi (\operatorname {E} [X])\leq \operatorname {E} \left[\varphi (X)\right].}

Разница между двумя сторонами неравенства, называется разрывом Йенсена. [4]

Заявления

Классическая форма неравенства Йенсена включает несколько чисел и весов. Неравенство можно сформулировать в общем виде, используя либо язык теории меры , либо (что эквивалентно) вероятности. В вероятностной постановке неравенство можно еще больше обобщить до его полной силы .

Конечная форма

Для действительной выпуклой функции , чисел в ее области определения и положительных весов неравенство Йенсена можно сформулировать как:

и неравенство меняется на противоположное, если является вогнутым , что

Равенство имеет место тогда и только тогда, когда или является линейным на области, содержащей .

В частном случае, если все веса равны, то ( 1 ) и ( 2 ) становятся

Например, функция log( x ) является вогнутой , поэтому подстановка в предыдущую формулу ( 4 ) устанавливает (логарифм) известного неравенства среднего арифметического/среднего геометрического :

Обычное приложение имеет x как функцию другой переменной (или набора переменных) t , то есть . Все это напрямую переносится на общий непрерывный случай: веса a i заменяются неотрицательной интегрируемой функцией f  ( x ) , такой как распределение вероятностей, а суммы заменяются интегралами.

Теоретико-мерная форма

Пусть будет вероятностным пространством . Пусть будет -измеримой функцией и будет выпуклой. Тогда: [5]

В реальном анализе нам может потребоваться оценка

где , и — неотрицательная интегрируемая по Лебегу функция. В этом случае мера Лебега не обязательно должна быть единицей. Однако, путем интегрирования путем подстановки, интервал можно масштабировать так, чтобы он имел меру единицу. Затем можно применить неравенство Йенсена, чтобы получить [6]

Вероятностная форма

Тот же результат может быть эквивалентно сформулирован в теории вероятностей , путем простой смены обозначений. Пусть будет вероятностным пространством , Xинтегрируемой действительной случайной величиной и выпуклой функцией . Тогда:

[7]

В этой вероятностной постановке мера μ рассматривается как вероятность , интеграл по μ — как ожидаемое значение , а функция — как случайная величина X.

Обратите внимание, что равенство выполняется тогда и только тогда, когда является линейной функцией на некотором выпуклом множестве, таком что (что следует из рассмотрения приведенного ниже доказательства с точки зрения теории меры).

Общее неравенство в вероятностной обстановке

В более общем случае, пусть T будет вещественным топологическим векторным пространством , а Xинтегрируемой случайной величиной со значением T. В этой общей постановке интегрируемость означает, что существует элемент в T , такой что для любого элемента z в сопряженном пространстве T : , и . Тогда для любой измеримой выпуклой функции φ и любой под- σ- алгебры :

Здесь обозначает ожидание, обусловленное σ-алгеброй . Это общее утверждение сводится к предыдущим, когда топологическое векторное пространство T является вещественной осью , а является тривиальной σ -алгеброй {∅, Ω} (где пустое множество , а Ωпространство выборок ). [8]

Заостренная и обобщенная форма

Пусть X — одномерная случайная величина со средним значением и дисперсией . Пусть — дважды дифференцируемая функция, и определим функцию

Тогда [9]

В частности, когда выпукло, то , и стандартная форма неравенства Йенсена немедленно следует для случая, когда дополнительно предполагается дважды дифференцируемым.

Доказательства

Интуитивно понятное графическое доказательство

Графическое «доказательство» неравенства Йенсена для вероятностного случая. Пунктирная кривая вдоль оси X — гипотетическое распределение X , тогда как пунктирная кривая вдоль оси Y — соответствующее распределение значений Y. Обратите внимание, что выпуклое отображение Y ( X ) все больше « растягивает » распределение для возрастающих значений X .
Это доказательство без слов неравенства Йенсена для n переменных. Без потери общности, сумма положительных весов равна 1. Из этого следует, что взвешенная точка лежит в выпуклой оболочке исходных точек, которая лежит выше самой функции по определению выпуклости. Вывод следует. [10]

Неравенство Йенсена можно доказать несколькими способами, и будут предложены три различных доказательства, соответствующие различным утверждениям выше. Однако, прежде чем приступить к этим математическим выводам, стоит проанализировать интуитивное графическое рассуждение, основанное на вероятностном случае, когда X — действительное число (см. рисунок). Предположив гипотетическое распределение значений X , можно сразу определить положение и его изображение на графике. Заметив, что для выпуклых отображений Y = φ ( x ) некоторых значений x соответствующее распределение значений Y все больше «растягивается» для возрастающих значений X , легко увидеть, что распределение Y шире в интервале, соответствующем X > X 0 , и уже в X < X 0 для любого X 0 ; в частности, это также верно для . Следовательно, в этой картине ожидание Y всегда будет смещаться вверх относительно положения . Аналогичное рассуждение справедливо, если распределение X охватывает убывающую часть выпуклой функции или как убывающую, так и возрастающую ее часть. Это «доказывает» неравенство, т.е.

с равенством, когда φ ( X ) не является строго выпуклой, например, когда она представляет собой прямую линию или когда X следует вырожденному распределению (т.е. является константой).

Приведенные ниже доказательства формализуют это интуитивное представление.

Доказательство 1 (конечная форма)

Если λ 1 и λ 2 — два произвольных неотрицательных действительных числа, такие, что λ 1 + λ 2 = 1, то выпуклость φ влечет

Это можно обобщить: если λ 1 , ..., λ n — неотрицательные действительные числа, такие, что λ 1 + ... + λ n = 1 , то

для любых x 1 , ..., x n .

Конечную форму неравенства Йенсена можно доказать методом индукции : по гипотезе выпуклости утверждение верно для n  = 2. Предположим, что утверждение верно для некоторого n , тогда

для любых λ 1 , ..., λ n таких, что λ 1 + ... + λ n = 1 .

Нужно доказать это для n + 1. По крайней мере одно из λ i строго меньше , скажем, λ n +1 ; поэтому по неравенству выпуклости:

Поскольку λ 1 + ... + λ n + λ n +1 = 1 ,

,

применение индуктивной гипотезы дает

поэтому

Мы выводим, что неравенство верно для n + 1 , по индукции следует, что результат также верен для всех целых n, больших 2.

Чтобы получить общее неравенство из этой конечной формы, нужно использовать аргумент плотности. Конечную форму можно переписать как:

где μ n — мера, заданная произвольной выпуклой комбинацией дельта -функций Дирака :

Поскольку выпуклые функции непрерывны , а выпуклые комбинации дельт Дирака слабо плотны в множестве вероятностных мер (как можно легко проверить), общее утверждение получается просто с помощью предельной процедуры.

Доказательство 2 (теоретико-мерная форма)

Пусть будет вещественнозначной -интегрируемой функцией на вероятностном пространстве , и пусть будет выпуклой функцией на вещественных числах. Поскольку является выпуклой, при каждом вещественном числе мы имеем непустое множество субпроизводных , которые можно рассматривать как линии, касающиеся графика в , но которые находятся ниже графика во всех точках (опорные линии графика).

Теперь, если мы определим

из-за существования субпроизводных для выпуклых функций мы можем выбрать и такие, что

для всех реальных и

Но тогда у нас есть это

для почти всех . Поскольку у нас есть вероятностная мера, интеграл монотонен с так что

по желанию.

Доказательство 3 (общее неравенство в вероятностной постановке)

Пусть X — интегрируемая случайная величина, принимающая значения в действительном топологическом векторном пространстве T. Поскольку является выпуклой, для любого величина

уменьшается по мере того, как θ приближается к 0 + . В частности, субдифференциал оценки в точке x в направлении y хорошо определяется выражением

Легко видеть, что субдифференциал линеен по y [ требуется ссылка ] (это неверно, и утверждение требует доказательства теоремы Хана-Банаха) и, поскольку инфимум, взятый в правой части предыдущей формулы, меньше значения того же члена при θ = 1 , получаем

В частности, для произвольной под- σ -алгебры можно оценить последнее неравенство, получив

Теперь, если мы возьмем ожидание, обусловленное с обеих сторон предыдущего выражения, то получим результат, поскольку:

линейностью субдифференциала по переменной y и следующим известным свойством условного ожидания :

Приложения и особые случаи

Форма, включающая функцию плотности вероятности

Предположим, что Ω — измеримое подмножество действительной прямой, а f ( x ) — неотрицательная функция, такая что

На вероятностном языке f — это функция плотности вероятности .

Тогда неравенство Йенсена принимает вид следующего утверждения о выпуклых интегралах:

Если g — любая измеримая функция с действительными значениями, выпуклая в диапазоне значений g , то

Если g ( x ) = x , то эта форма неравенства сводится к обычно используемому частному случаю:

Это применяется в вариационных байесовских методах .

Пример: дажемоментыслучайной величины

Если g ( x ) = x 2n , а X — случайная величина, то g является выпуклой функцией, поскольку

и так

В частности, если некоторый четный момент 2n X конечен, то X имеет конечное среднее. Расширение этого аргумента показывает, что X имеет конечные моменты каждого порядка , делящего n .

Альтернативная конечная форма

Пусть Ω = { x 1 , ... x n }, и возьмем μ в качестве меры подсчета на Ω , тогда общая форма сводится к утверждению о суммах:

при условии, что λ i ≥ 0 и

Существует также бесконечная дискретная форма.

Статистическая физика

Неравенство Йенсена имеет особое значение в статистической физике, когда выпуклая функция является экспоненциальной, давая:

где ожидаемые значения относятся к некоторому распределению вероятностей случайной величины X.

Доказательство: Впустить

Теория информации

Если p ( x ) — истинная плотность вероятности для X , а q ( x ) — другая плотность, то применение неравенства Йенсена для случайной величины Y ( X ) = q ( X )/ p ( X ) и выпуклой функции φ ( y ) = −log( y ) дает

Поэтому:

результат, называемый неравенством Гиббса .

Он показывает, что средняя длина сообщения минимизируется , когда коды назначаются на основе истинных вероятностей p, а не любого другого распределения q . Неотрицательная величина называется отклонением Кульбака–Лейблера q от p , где .

Поскольку −log( x ) является строго выпуклой функцией при x > 0 , то равенство имеет место, когда p ( x ) равно q ( x ) почти всюду.

Теорема Рао–Блэквелла

Если L — выпуклая функция и суб-сигма-алгебра, то из условной версии неравенства Йенсена получаем

Итак, если δ( X ) является некоторой оценкой ненаблюдаемого параметра θ при заданном векторе наблюдаемых величин X ; и если T ( X ) является достаточной статистикой для θ ; то улучшенную оценку, в смысле наличия меньших ожидаемых потерь L , можно получить путем вычисления

ожидаемое значение δ относительно θ, взятое по всем возможным векторам наблюдений X, совместимым с тем же значением T ( X ), что и наблюдаемое. Кроме того, поскольку T является достаточной статистикой, не зависит от θ, следовательно, становится статистикой.

Этот результат известен как теорема Рао–Блэквелла .

Избегание риска

Связь между неприятием риска и снижением предельной полезности для скалярных результатов можно формально сформулировать с помощью неравенства Йенсена: неприятие риска можно сформулировать как предпочтение определенного результата честной игре с потенциально большим, но неопределенным результатом :

.

Но это просто неравенство Йенсена для вогнутой функции полезности , которая демонстрирует убывающую предельную полезность. [11]

Смотрите также

Примечания

  1. ^ Дженсен, JLWV (1906). «Выпуклые функции и неравенства между моими ценностями». Акта Математика . 30 (1): 175–193. дои : 10.1007/BF02418571 .
  2. ^ Guessab, A.; Schmeisser, G. (2013). «Необходимые и достаточные условия для справедливости неравенства Йенсена». Archiv der Mathematik . 100 (6): 561–570. doi :10.1007/s00013-013-0522-3. MR  3069109. S2CID  56372266.
  3. ^ Деккинг, FM; Краайкамп, C.; Лопухаа, HP; Мистер, LE (2005). Современное введение в вероятность и статистику: понимание почему и как. Springer Texts in Statistics. Лондон: Springer. doi :10.1007/1-84628-168-7. ISBN 978-1-85233-896-1.
  4. ^ Гао, Сян; Ситхарам, Мира; Ройтберг, Адриан (2019). «Границы разрыва Дженсена и их значение для распределений, сконцентрированных на среднем» (PDF) . Австралийский журнал математического анализа и приложений . 16 (2). arXiv : 1712.05267 .
  5. ^ стр. 25 Рика Дарретта (2019). Вероятность: теория и примеры (5-е изд.). Cambridge University Press. ISBN 978-1108473682.
  6. ^ Никулеску, Константин П. «Интегральные неравенства», С. 12.
  7. ^ стр. 29 Рика Дарретта (2019). Вероятность: теория и примеры (5-е изд.). Cambridge University Press. ISBN 978-1108473682.
  8. ^ Внимание: в этой общности необходимы дополнительные предположения о выпуклой функции и/или топологическом векторном пространстве, см. Пример (1.3) на стр. 53 в Perlman, Michael D. (1974). "Jensen's Inequality for a Convex Vector-Valued Function on an Infinite-Dimensional Space". Journal of Multivariate Analysis . 4 (1): 52–65. doi : 10.1016/0047-259X(74)90005-0 . hdl : 11299/199167 .
  9. ^ Ляо, Дж.; Берг, А. (2018). «Усиление неравенства Дженсена». American Statistician . 73 (3): 278–281. arXiv : 1707.08644 . doi : 10.1080/00031305.2017.1419145. S2CID  88515366.
  10. ^ Брэдли, CJ (2006). Введение в неравенства. Лидс, Соединенное Королевство: United Kingdom Mathematics Trust. стр. 97. ISBN 978-1-906001-11-7.
  11. ^ Бэк, Керри (2010). Теория ценообразования активов и выбора портфеля . Oxford University Press. стр. 5. ISBN 978-0-19-538061-3.

Ссылки

Внешние ссылки