stringtranslate.com

Отбраковка выборки

В численном анализе и вычислительной статистике выборка с отклонением является основным методом, используемым для генерации наблюдений из распределения . Его также часто называют методом принятия-отклонения или «алгоритмом принятия-отклонения» и он является типом метода точного моделирования. Метод работает для любого распределения в с плотностью .

Выборка с отклонением основана на наблюдении, что для выборки случайной величины в одном измерении можно выполнить равномерную случайную выборку двумерного декартова графика и сохранить выборки в области под графиком его функции плотности. [1] [2] [3] Обратите внимание, что это свойство можно распространить на N -мерные функции.

Описание

Чтобы визуализировать мотивацию выборки отклонения, представьте, что вы строите график функции плотности вероятности (PDF) случайной величины на большой прямоугольной доске и бросаете в нее дротики. Предположим, что дротики равномерно распределены по доске. Теперь уберите все дротики, которые находятся вне области под кривой. Оставшиеся дротики будут равномерно распределены в области под кривой, а ‑позиции этих дротиков будут распределены в соответствии с плотностью случайной величины. Это потому, что больше всего места для приземления дротиков там, где кривая самая высокая, и, следовательно, плотность вероятности самая высокая.

Описанная визуализация эквивалентна особой форме выборки отклонения, где «распределение предложений» равномерно. Следовательно, ее график представляет собой прямоугольник. Общая форма выборки отклонения предполагает, что доска не обязательно прямоугольная, а имеет форму в соответствии с плотностью некоторого распределения предложений (не обязательно нормализованного по ), из которого мы знаем, как делать выборку (например, используя инверсионную выборку ). Ее форма должна быть по крайней мере такой же высокой в ​​каждой точке, как и распределение, из которого мы хотим сделать выборку, так что первое полностью охватывает последнее. В противном случае были бы части изогнутой области, из которой мы хотим сделать выборку, которые никогда не были бы достигнуты.

Отбраковочная выборка работает следующим образом:

  1. Выберите точку на оси ‑ из распределения предложений.
  2. Проведите вертикальную линию в этом положении до максимального значения y функции плотности вероятности распределения предложения.
  3. Выбрать равномерно вдоль этой линии от 0 до максимума функции плотности вероятности. Если выбранное значение больше значения желаемого распределения на этой вертикальной линии, отклонить ‑значение и вернуться к шагу 1; в противном случае ‑значение является выборкой из желаемого распределения.

Этот алгоритм можно использовать для выборки из области под любой кривой, независимо от того, интегрируется ли функция до 1. Фактически, масштабирование функции на константу не оказывает никакого влияния на выборочные ‑позиции . Таким образом, алгоритм можно использовать для выборки из распределения, нормирующая константа которого неизвестна, что часто встречается в вычислительной статистике .

Теория

Метод выборки отклонения генерирует значения выборки из целевого распределения с произвольной функцией плотности вероятности , используя распределение предложения с плотностью вероятности . Идея состоит в том, что можно сгенерировать значение выборки из , вместо этого выбрав из и приняв выборку из с вероятностью , повторяя выборки из до тех пор, пока значение не будет принято. здесь — постоянная, конечная граница отношения правдоподобия , удовлетворяющая по поддержке ; другими словами, M должно удовлетворять для всех значений . Обратите внимание, что это требует, чтобы поддержка должна включать поддержку — другими словами, всякий раз , когда .

Проверка этого метода — принцип конверта: при моделировании пары создается равномерная симуляция по подграфу . Принятие только таких пар, что затем создаются пары, равномерно распределенные по подграфу и, таким образом, в некоторой степени, моделирование из

Это означает, что при достаточном количестве повторений алгоритм генерирует выборку из желаемого распределения . Существует ряд расширений этого алгоритма, например алгоритм Метрополиса .

Этот метод относится к общей области методов Монте-Карло , включая алгоритмы Монте-Карло с цепями Маркова , которые также используют прокси-распределение для достижения моделирования из целевого распределения . Он формирует основу для таких алгоритмов, как алгоритм Метрополиса .

Вероятность безусловного принятия — это доля предложенных образцов, которые приняты, то есть, где , а значение каждого времени генерируется под функцией плотности распределения предложения .

Число образцов, требуемых для получения приемлемого значения, таким образом, следует геометрическому распределению с вероятностью , которая имеет среднее значение . Интуитивно понятно, что это ожидаемое число итераций, которые необходимы, как мера вычислительной сложности алгоритма.

Перепишите приведенное выше уравнение, Обратите внимание, что , в соответствии с приведенной выше формулой, где — вероятность, которая может принимать значения только в интервале . Когда выбирается ближе к единице, то вероятность безусловного принятия тем выше, чем меньше изменяется это отношение, так как — верхняя граница для отношения правдоподобия . На практике предпочтительнее значение ближе к 1, поскольку оно подразумевает меньшее количество отклоненных образцов в среднем и, следовательно, меньшее количество итераций алгоритма. В этом смысле предпочтительнее иметь как можно меньшее (при этом удовлетворяя , что предполагает, что должно в целом напоминать в некотором роде. Обратите внимание, однако, что не может быть равно 1: это означало бы, что , т. е. что целевое и предлагаемое распределения на самом деле являются одним и тем же распределением.

Выборка с отклонением чаще всего используется в случаях, когда форма затрудняет выборку. Одна итерация алгоритма отклонения требует выборки из распределения предложения, извлечения из равномерного распределения и оценки выражения . Таким образом, выборка с отклонением более эффективна, чем какой-либо другой метод, когда M-кратная стоимость этих операций — которая является ожидаемой стоимостью получения выборки с помощью выборки с отклонением — ниже стоимости получения выборки с использованием другого метода.

Алгоритм

Алгоритм, который использовался Джоном фон Нейманом [4] и восходит к Бюффону и его игле [5], получает выборку из распределения с плотностью, используя выборки из распределения с плотностью следующим образом:

Алгоритм будет использовать среднее количество итераций для получения выборки. [6]

Преимущества перед выборкой с использованием наивных методов

Отбраковочная выборка может быть гораздо более эффективной по сравнению с наивными методами в некоторых ситуациях. Например, если задача условна, то выборка на заданном наборе , то есть , иногда ее можно легко смоделировать, используя наивные методы (например, с помощью обратного преобразования выборки ):

Проблема в том, что эта выборка может быть сложной и неэффективной, если . Ожидаемое число итераций будет , что может быть близко к бесконечности. Более того, даже когда вы применяете метод выборки с отклонением, всегда сложно оптимизировать границу для отношения правдоподобия. Чаще всего, если большой, а скорость отклонения высока, алгоритм может быть очень неэффективным. Естественное экспоненциальное семейство (если оно существует), также известное как экспоненциальный наклон, предоставляет класс распределений предложений, которые могут снизить сложность вычислений, ценность и ускорить вычисления (см. примеры: работа с естественными экспоненциальными семействами).

Отбраковка выборки с использованием экспоненциального наклона

При наличии случайной величины , является целевым распределением. Предположим для простоты, что функция плотности может быть явно записана как . Выберите предложение как

где и . Очевидно, , из естественного экспоненциального семейства . Более того, отношение правдоподобия равно

Обратите внимание , что это действительно функция генерации кумулянта , то есть

.

Легко вывести функцию генерации кумулянтов предложения и, следовательно, кумулянты предложения.

В качестве простого примера предположим, что при , , с . Цель состоит в том, чтобы сделать выборку , где . Анализ выполняется следующим образом:

,
что дополнительно подразумевает, что это нормальное распределение .
,
то есть распределение предложений таково .

удерживается, принять значение ; если нет, продолжить выборку новых и новых значений до принятия.

Для приведенного выше примера, в качестве меры эффективности, ожидаемое число итераций метода выборки с отклонением на основе естественного экспоненциального семейства имеет порядок , то есть , в то время как при наивном методе ожидаемое число итераций составляет , что гораздо менее эффективно.

В общем, экспоненциальный наклон параметрического класса распределения предложения решает проблемы оптимизации удобно, с его полезными свойствами, которые непосредственно характеризуют распределение предложения. Для этого типа задач, для условного моделирования на , среди класса простых распределений, трюк заключается в использовании натурального экспоненциального семейства, что помогает получить некоторый контроль над сложностью и значительно ускорить вычисления. Действительно, существуют глубокие математические причины для использования натурального экспоненциального семейства.

Недостатки

Выборка отбраковки требует знания целевого распределения (в частности, возможности оценить целевую плотность распределения вероятностей в любой точке).

Выборка с отклонением может привести к получению большого количества нежелательных выборок, если функция, которая отбирается, сильно сконцентрирована в определенной области, например, функция, которая имеет пик в некотором месте. Для многих распределений эта проблема может быть решена с помощью адаптивного расширения (см. выборка с адаптивным отклонением) или с помощью соответствующей замены переменных с помощью метода отношения униформ . Кроме того, по мере увеличения размерности задачи отношение внедренного объема к «углам» внедренного объема стремится к нулю, таким образом, может произойти много отклонений до того, как будет сгенерирована полезная выборка, что делает алгоритм неэффективным и непрактичным. См. проклятие размерности . В больших размерностях необходимо использовать другой подход, как правило, метод Монте-Карло с цепями Маркова, такой как выборка Метрополиса или выборка Гиббса . (Однако выборка Гиббса, которая разбивает многомерную задачу выборки на ряд выборок с низкой размерностью, может использовать выборку с отклонением в качестве одного из своих шагов.)

Адаптивная выборка отклонения

Для многих распределений сложно найти распределение предложения, которое включает заданное распределение без большого количества потерянного пространства. Расширение выборки отклонения, которое можно использовать для преодоления этой трудности и эффективной выборки из широкого спектра распределений (при условии, что они имеют логарифмически вогнутые функции плотности, что на самом деле имеет место для большинства распространенных распределений — даже тех, чьи функции плотности сами по себе не являются вогнутыми), известно как адаптивная выборка отклонения (ARS) .

В основе этой техники лежат три основные идеи, окончательно представленные Гилксом в 1992 году: [7]

  1. Если это поможет, определите распределение огибающей в логарифмическом пространстве (например, логарифмическая вероятность или логарифмическая плотность). То есть, работайте с , а не напрямую.
    • Часто распределения, имеющие алгебраически запутанные функции плотности, имеют достаточно простые логарифмические функции плотности (то есть, когда запутано, с ним проще работать или, по крайней мере, оно ближе к кусочно-линейному).
  2. Вместо единой равномерной огибающей функции плотности используйте в качестве огибающей кусочно-линейную функцию плотности.
    • Каждый раз, когда вам приходится отклонять образец, вы можете использовать значение , которое вы оценили, чтобы улучшить кусочное приближение . Таким образом, это снижает вероятность того, что ваша следующая попытка будет отклонена. Асимптотически вероятность необходимости отклонения вашего образца должна стремиться к нулю, и на практике часто очень быстро.
    • Как и предлагается, всякий раз, когда мы выбираем точку, которая отклоняется, мы сужаем огибающую с помощью другого отрезка линии, касательного к кривой в точке с той же координатой x, что и выбранная точка.
    • Кусочно-линейная модель логарифмического распределения предложения приводит к набору кусочно -экспоненциальных распределений (т. е. сегментов одного или нескольких экспоненциальных распределений, соединенных концом к концу). Экспоненциальные распределения хорошо себя ведут и хорошо понятны. Логарифм экспоненциального распределения представляет собой прямую линию, и, следовательно, этот метод по сути включает в себя заключение логарифма плотности в ряд линейных сегментов. Это источник ограничения логарифмической вогнутости: если распределение логарифмически вогнуто, то его логарифм вогнут (имеет форму перевернутой буквы U), что означает, что линейный сегмент, касательный к кривой, всегда будет проходить по кривой.
    • Если не работает в логарифмическом пространстве, кусочно-линейную функцию плотности можно также выбрать с помощью треугольных распределений [8]
  3. Мы можем воспользоваться еще большим преимуществом требования (логарифмической) вогнутости, чтобы потенциально избежать затрат на оценку при приемке вашего образца .
    • Точно так же, как мы можем построить кусочно-линейную верхнюю границу (функцию «огибающей»), используя значения, которые нам пришлось оценить в текущей цепочке отклонений, мы также можем построить кусочно-линейную нижнюю границу (функцию «сжатия»), используя эти значения.
    • Прежде чем оценивать (потенциально дорого) ваш образец, чтобы увидеть, будет ли он принят, мы можем заранее узнать , будет ли он принят, сравнив его с (в идеале более дешевой) (или, как в данном случае) функцией сжатия, которая имеется в наличии.
    • Этот шаг сжатия необязателен, даже если его предлагает Гилкс. В лучшем случае он избавит вас только от одной дополнительной оценки вашей (грязной и/или дорогой) целевой плотности. Однако, предположительно для особенно дорогих функций плотности (и предполагая быструю сходимость скорости отбраковки к нулю), это может существенно повлиять на конечное время выполнения.

Метод по сути заключается в последовательном определении огибающей прямолинейных сегментов, которые все лучше и лучше приближаются к логарифму, оставаясь при этом выше кривой, начиная с фиксированного числа сегментов (возможно, просто одной касательной). Выборка из усеченной экспоненциальной случайной величины проста. Просто возьмите логарифм равномерной случайной величины (с соответствующим интервалом и соответствующим усечением).

К сожалению, ARS может применяться только для выборки из логарифмически вогнутых целевых плотностей. По этой причине в литературе было предложено несколько расширений ARS для работы с нелогарифмически вогнутыми целевыми распределениями. [9] [10] [11] Кроме того, были разработаны различные комбинации ARS и метода Метрополиса-Гастингса для получения универсального сэмплера, который строит самонастраивающиеся плотности предложений (т. е. предложение, автоматически построенное и адаптированное к цели). Этот класс методов часто называют алгоритмами адаптивной отбраковки Метрополиса (ARMS) . [12] [13] Полученные адаптивные методы всегда могут применяться, но сгенерированные выборки в этом случае коррелируют (хотя корреляция быстро исчезает до нуля по мере роста числа итераций).

Смотрите также

Ссылки

  1. ^ Каселла, Джордж; Роберт, Кристиан П.; Уэллс, Мартин Т. (2004). Обобщенные схемы отбора образцов «принять-отклонить» . Институт математической статистики. С. 342–347. doi :10.1214/lnms/1196285403. ISBN 9780940600614.
  2. ^ Нил, Рэдфорд М. (2003). «Выборка срезов». Annals of Statistics . 31 (3): 705–767. doi : 10.1214/aos/1056562461 . MR  1994729. Zbl  1051.65007.
  3. ^ Бишоп, Кристофер (2006). "11.4: Выборка среза". Распознавание образов и машинное обучение . Springer . ISBN 978-0-387-31073-2.
  4. ^ Форсайт, Джордж Э. (1972). «Метод сравнения фон Неймана для случайной выборки из нормального и других распределений». Математика вычислений . 26 (120): 817–826. doi :10.2307/2005864. ISSN  0025-5718. JSTOR  2005864.
  5. ^ Лего, Джеффри; Мельбурн, Бретт А. (2019-03-01). «Учет изменений окружающей среды в непрерывных во времени стохастических моделях популяции». Теоретическая экология . 12 (1): 31–48. doi :10.1007/s12080-018-0386-z. ISSN  1874-1746.
  6. ^ Томопулос, Ник Т. (2012-12-19). Основы моделирования Монте-Карло: Статистические методы построения имитационных моделей (2013-е изд.). Нью-Йорк, Нью-Йорк Гейдельберг: Springer. ISBN 978-1-4614-6021-3.
  7. ^ Gilks, WR; Wild, P. (1992). «Адаптивная отбраковка выборки для выборки Гиббса». Журнал Королевского статистического общества . Серия C (Прикладная статистика). 41 (2): 337–348. doi :10.2307/2347565. JSTOR  2347565.
  8. ^ Томас, ДБ; Лук, В. (2007). «Генерация неравномерных случайных чисел с помощью кусочно-линейных аппроксимаций». IET Computers & Digital Techniques . 1 (4): 312–321. doi :10.1049/iet-cdt:20060188.
  9. ^ Хёрманн, Вольфганг (1995-06-01). «Метод отбраковки для выборки из T-вогнутых распределений». ACM Trans. Math. Softw . 21 (2): 182–193. CiteSeerX 10.1.1.56.6055 . doi :10.1145/203082.203089. ISSN  0098-3500. 
  10. ^ Эванс, М.; Шварц, Т. (1998-12-01). «Генерация случайных величин с использованием свойств вогнутости преобразованных плотностей». Журнал вычислительной и графической статистики . 7 (4): 514–528. CiteSeerX 10.1.1.53.9001 . doi :10.2307/1390680. JSTOR  1390680. 
  11. ^ Görür, Dilan; Teh, Yee Whye (2011-01-01). «Выборка с адаптивным отклонением вогнуто-выпуклым методом». Журнал вычислительной и графической статистики . 20 (3): 670–691. doi :10.1198/jcgs.2011.09058. ISSN  1061-8600.
  12. ^ Gilks, WR; Best, NG ; Tan, KKC (1995-01-01). «Адаптивное отклонение выборки метрополии в выборке Гиббса». Журнал Королевского статистического общества . Серия C (Прикладная статистика). 44 (4): 455–472. doi :10.2307/2986138. JSTOR  2986138.
  13. ^ Мейер, Ренате; Кай, Бо; Перрон, Франсуа (2008-03-15). «Адаптивная отбраковка выборки Метрополиса с использованием интерполяционных полиномов Лагранжа степени 2». Computational Statistics & Data Analysis . 52 (7): 3408–3423. doi :10.1016/j.csda.2008.01.005.

Дальнейшее чтение