stringtranslate.com

Метод Штейна

Метод Стайна — это общий метод в теории вероятностей для получения границ расстояния между двумя распределениями вероятностей относительно метрики вероятности . Он был введен Чарльзом Стайном , который впервые опубликовал его в 1972 году [1], чтобы получить границу между распределением суммы -зависимой последовательности случайных величин и стандартным нормальным распределением в метрике Колмогорова (равномерной) и, следовательно, доказать не только центральную предельную теорему , но и границы скоростей сходимости для данной метрики.

История

В конце 1960-х годов, неудовлетворенный известными на тот момент доказательствами конкретной центральной предельной теоремы , Чарльз Стайн разработал новый способ доказательства теоремы для своей лекции по статистике . [2] Его основополагающая работа была представлена ​​в 1970 году на шестом симпозиуме в Беркли и опубликована в соответствующих трудах. [1]

Позднее его аспирант Луи Чэнь Сяо Юнь модифицировал метод таким образом, чтобы получить результаты аппроксимации для распределения Пуассона ; [3] поэтому метод Стейна, примененный к проблеме аппроксимации Пуассона , часто называют методом Стейна–Чена .

Вероятно, наиболее важными вкладами являются монография Штейна (1986), где он представляет свой взгляд на метод и концепцию вспомогательной рандомизации , в частности, с использованием заменяемых пар , и статьи Барбура (1988) и Гётце (1991), которые ввели так называемую генераторную интерпретацию , что позволило легко адаптировать метод ко многим другим распределениям вероятностей. Важным вкладом также была статья Больтхаузена (1984) о так называемой комбинаторной центральной предельной теореме . [ необходима цитата ]

В 1990-х годах метод был адаптирован к различным распределениям, таким как гауссовские процессы Барбура (1990), биномиальное распределение Эма (1991), пуассоновские процессы Барбура и Брауна (1992), гамма-распределение Люка (1994) и многие другие.

Метод приобрел дополнительную популярность в сообществе машинного обучения в середине 2010-х годов после разработки вычислимых несоответствий Стейна и различных приложений и алгоритмов на их основе.

Основной подход

Метрики вероятности

Метод Стейна — это способ ограничить расстояние между двумя распределениями вероятностей с помощью определенной метрики вероятности .

Пусть метрика задана в виде

Здесь и — вероятностные меры на измеримом пространстве , а — случайные величины с распределением и соответственно, — обычный оператор ожидания, а — набор функций от до набора действительных чисел. Набор должен быть достаточно большим, чтобы приведенное выше определение действительно давало метрику .

Важными примерами являются метрика полной вариации , в которой мы полагаем состоящей из всех индикаторных функций измеримых множеств, метрика Колмогорова (равномерная) для вероятностных мер на действительных числах, в которой мы рассматриваем все индикаторные функции полупрямой, и метрика Липшица (первого порядка Вассерштейна; Канторовича) , в которой базовое пространство само является метрическим пространством, а множество считаем состоящим из всех непрерывных по Липшицу функций с константой Липшица 1. Однако следует отметить, что не каждая метрика может быть представлена ​​в виде (1.1).

Далее следует сложное распределение (например, распределение суммы зависимых случайных величин), которое мы хотим аппроксимировать гораздо более простым и поддающимся обработке распределением (например, стандартным нормальным распределением).

Оператор Штейна

Предположим теперь, что распределение является фиксированным; в дальнейшем мы рассмотрим, в частности, случай, когда — стандартное нормальное распределение, что служит классическим примером.

Прежде всего, нам нужен оператор , который действует на функции из в множество действительных чисел и «характеризует» распределение в том смысле, что выполняется следующая эквивалентность:

Мы называем такой оператор оператором Штейна .

Для стандартного нормального распределения лемма Стейна дает такой оператор:

Таким образом, мы можем принять

В общем случае таких операторов бесконечно много, и вопрос, какой из них выбрать, все еще остается открытым. Однако, похоже, что для многих распределений есть определенное хорошее , например (2.3) для нормального распределения.

Существуют разные способы нахождения операторов Штейна. [4]

Уравнение Штейна

близок к относительно , ​​если разность ожиданий в (1.1) близка к 0. Теперь мы надеемся, что оператор демонстрирует такое же поведение: если , то , и, надеемся, если у нас есть .

Обычно можно определить функцию таким образом, что

Назовем (3.1) уравнением Штейна . Заменяя на и взяв ожидание относительно , ​​получим

Теперь все усилия имеют смысл только в том случае, если левую часть (3.2) легче ограничить, чем правую. Как ни странно, это часто так.

Если — стандартное нормальное распределение и мы используем (2.3), то соответствующее уравнение Стейна имеет вид

Если распределение вероятностей Q имеет абсолютно непрерывную (относительно меры Лебега) плотность q, то [4]

Решение уравнения Штейна

Аналитические методы . Уравнение (3.3) можно легко решить явно:

Метод генератора . Если — генератор марковского процесса (см. Barbour (1988), Götze (1991)), то решение (3.2) равно

где обозначает математическое ожидание относительно процесса, начатого в . Однако еще предстоит доказать, что решение (4.2) существует для всех искомых функций .

Свойства решения уравнения Штейна

Обычно пытаются дать оценки для и ее производных (или разностей) через и ее производные (или разности), то есть неравенства вида

для некоторых конкретных (обычно или , соответственно, в зависимости от формы оператора Штейна), где часто — супремум-норма. Здесь обозначает дифференциальный оператор , но в дискретных настройках обычно относится к оператору разности . Константы могут содержать параметры распределения . Если таковые имеются, их часто называют факторами Штейна .

В случае (4.1) для супремум-нормы можно доказать , что

где последняя граница, конечно, применима только если дифференцируема (или, по крайней мере, непрерывна по Липшицу, что, например, не так, если мы рассматриваем метрику полной вариации или метрику Колмогорова!). Поскольку стандартное нормальное распределение не имеет дополнительных параметров, в этом конкретном случае константы не содержат дополнительных параметров.

Если у нас есть границы в общем виде (5.1), мы обычно можем обрабатывать много метрик вероятности вместе. Часто можно начать со следующего шага ниже, если границы формы (5.1) уже доступны (что имеет место для многих распределений).

Абстрактная аппроксимационная теорема

Теперь мы в состоянии ограничить левую часть (3.1). Поскольку этот шаг сильно зависит от формы оператора Штейна, мы напрямую рассматриваем случай стандартного нормального распределения.

На этом этапе мы могли бы напрямую подключить случайную величину , которую мы хотим аппроксимировать, и попытаться найти верхние границы. Однако часто бывает плодотворно сформулировать более общую теорему. Рассмотрим здесь случай локальной зависимости.

Предположим, что — сумма случайных величин, такая, что и дисперсия . Предположим, что для каждого существует множество , такое, что не зависит от всех случайных величин с . Назовем это множество «окрестностью» . Аналогично пусть — множество, такое, что все с независимы от всех , . Мы можем думать о соседях в окрестности , окрестность второго порядка, так сказать. Для множества теперь определим сумму .

Используя разложение Тейлора, можно доказать, что

Обратите внимание, что если следовать этой линии аргументации, то мы можем ограничить (1.1) только для функций, где ограничено из-за третьего неравенства (5.2) (и на самом деле, если имеет разрывы, то будет и ). Чтобы получить границу, подобную (6.1), которая содержит только выражения и , аргументация гораздо сложнее, а результат не такой простой, как (6.1); однако это можно сделать.

Теорема А. Если так, как описано выше, то для метрики Липшица имеем :

Доказательство . Напомним, что метрика Липшица имеет вид (1.1), где функции непрерывны по Липшицу с константой Липшица 1, таким образом . Объединение этого с (6.1) и последней границей в (5.2) доказывает теорему.

Таким образом, грубо говоря, мы доказали, что для вычисления расстояния Липшица между a с локальной структурой зависимости и стандартным нормальным распределением нам нужно знать только третьи моменты и размеры окрестностей и .

Применение теоремы

Случай сумм независимых и одинаково распределенных случайных величин можно рассмотреть с помощью теоремы А.

Предположим, что , и . Можно взять . Из теоремы А получаем, что

Для сумм случайных величин другой подход, связанный с методом Штейнса, известен как преобразование с нулевым смещением .

Связь с другими методами

Смотрите также

Примечания

  1. ^ ab Stein, C. (1972). «Граница ошибки в нормальном приближении к распределению суммы зависимых случайных величин». Труды Шестого симпозиума в Беркли по математической статистике и вероятности, том 2. Том 6. Издательство Калифорнийского университета . С. 583–602. MR  0402873. Zbl  0278.60026.
  2. ^ Чарльз Стайн: Инвариант, Прямой и "Претенциозный" Архивировано 2007-07-05 в Wayback Machine . Интервью, данное в 2003 году в Сингапуре
  3. ^ Чен, Л. Х. И. (1975). «Пуассоновское приближение для зависимых испытаний». Annals of Probability . 3 (3): 534–545. doi : 10.1214/aop/1176996359 . JSTOR  2959474. MR  0428387. Zbl  0335.60016.
  4. ^ ab Novak, SY (2011). Методы экстремальных значений с приложениями к финансам . Монографии по статистике и прикладной вероятности. Т. 122. CRC Press . Гл. 12. ISBN 978-1-43983-574-6.

Ссылки

Литература

Следующий текст является расширенным и дает полный обзор обычного случая.

Еще одна продвинутая книга, но имеющая вводный характер, это

Стандартной ссылкой является книга Стайна,

которая содержит много интересного материала, но может быть немного сложной для понимания при первом прочтении.

Несмотря на свой возраст, существует мало стандартных вводных книг о методе Штейна. В следующем недавнем учебнике есть глава (глава 2), посвященная введению в метод Штейна:

Хотя книга

в основном посвящена приближению Пуассона, тем не менее, она содержит много информации о генераторном подходе, в частности в контексте приближения пуассоновского процесса.

В следующем учебнике есть глава (глава 10), посвященная введению в метод Пуассоновской аппроксимации Стейна: