stringtranslate.com

Экспоненциальное распределение

В теории вероятностей и статистике экспоненциальное распределение или отрицательное экспоненциальное распределение — это распределение вероятностей расстояния между событиями в точечном процессе Пуассона , т. е. процессе, в котором события происходят непрерывно и независимо с постоянной средней скоростью; параметр расстояния может быть любой значимой одномерной мерой процесса, такой как время между производственными ошибками или длина вдоль рулона ткани в процессе ткацкого производства. [1] Это частный случай гамма-распределения . Это непрерывный аналог геометрического распределения , и его ключевым свойством является отсутствие памяти . [2] Помимо использования для анализа точечных процессов Пуассона, оно встречается в различных других контекстах. [3]

Экспоненциальное распределение не то же самое, что класс экспоненциальных семейств распределений. Это большой класс распределений вероятностей, который включает экспоненциальное распределение как один из своих членов, но также включает много других распределений, таких как нормальное , биномиальное , гамма и распределение Пуассона . [3]

Определения

Функция плотности вероятности

Функция плотности вероятности (pdf) экспоненциального распределения равна

Здесь λ > 0 — параметр распределения, часто называемый параметром скорости . Распределение поддерживается на интервале  [0, ∞) . Если случайная величина X имеет это распределение, мы пишем  X ~ Exp( λ ) .

Экспоненциальное распределение демонстрирует бесконечную делимость .

Кумулятивная функция распределения

Кумулятивная функция распределения определяется как

Альтернативная параметризация

Экспоненциальное распределение иногда параметризуется с помощью параметра масштаба β = 1/ λ , который также является средним значением:

Характеристики

Среднее, дисперсия, моменты и медиана

Среднее значение — это центр масс вероятности, то есть первый момент .
Медиана — это прообраз F −1 (1/2).

Среднее или ожидаемое значение экспоненциально распределенной случайной величины X с параметром скорости λ определяется по формуле

В свете приведенных ниже примеров это имеет смысл: человек, который получает в среднем два телефонных звонка в час, может ожидать, что время между последовательными звонками составит 0,5 часа или 30 минут.

Дисперсия X определяется по формуле, поэтому стандартное отклонение равно среднему значению.

Моменты X для определяются как

Центральные моменты X для определяются как , где ! nсубфакториал n

Медиана X определяется как где ln относится к натуральному логарифму . Таким образом, абсолютная разница между средним значением и медианой равна

в соответствии с медианно-средним неравенством .

Свойство отсутствия памяти у экспоненциальной случайной величины

Экспоненциально распределенная случайная величина T подчиняется соотношению

Это можно увидеть, рассмотрев дополнительную кумулятивную функцию распределения :

Когда T интерпретируется как время ожидания события относительно некоторого начального времени, это отношение подразумевает, что если T обусловлено неспособностью наблюдать событие в течение некоторого начального периода времени s , распределение оставшегося времени ожидания совпадает с исходным безусловным распределением. Например, если событие не произошло в течение 30 секунд, условная вероятность того, что возникновение займет не менее 10 секунд, равна безусловной вероятности наблюдения события более чем через 10 секунд после начального времени.

Экспоненциальное распределение и геометрическое распределение являются единственными распределениями вероятностей без памяти .

Следовательно, экспоненциальное распределение также является единственным непрерывным распределением вероятностей, имеющим постоянную интенсивность отказов .

Квантили

Критерии аномалии Тьюки для экспоненциальной функции распределения вероятностей.
Критерии Тьюки для аномалий. [ необходима ссылка ]

Функция квантиля (обратная кумулятивная функция распределения) для Exp( λ ) имеет вид

Таким образом , квартили следующие :

И, как следствие, межквартильный размах равен ln(3)/ λ .

Условная стоимость под риском (ожидаемый дефицит)

Условное значение риска (CVaR), также известное как ожидаемый дефицит или суперквантиль для Exp( λ ), выводится следующим образом: [4]

Буферизованная вероятность превышения (bPOE)

Буферизованная вероятность превышения равна единице минус уровень вероятности, при котором CVaR равен порогу . Она выводится следующим образом: [4]

Расхождение Кульбака–Лейблера

Направленное расхождение Кульбака–Лейблера в нат («приближенное» распределение ) от («истинного» распределения) определяется выражением

Максимальное распределение энтропии

Среди всех непрерывных распределений вероятностей с носителем [0, ∞) и средним μ экспоненциальное распределение с λ = 1/ μ имеет наибольшую дифференциальную энтропию . Другими словами, это распределение вероятности с максимальной энтропией для случайной величины X , которая больше или равна нулю и для которой E[ X ] фиксировано. [5]

Распределение минимума показательных случайных величин

Пусть X 1 , ..., X nнезависимые экспоненциально распределенные случайные величины с параметрами скорости λ 1 , ..., λ n . Тогда также экспоненциально распределена с параметром

Это можно увидеть, рассмотрев дополнительную кумулятивную функцию распределения :

Индекс переменной, достигающей минимума, распределяется в соответствии с категориальным распределением

Доказательство можно увидеть, если допустить . Тогда,

Обратите внимание, что распределение не является экспоненциальным, если X 1 , ..., X n не все имеют параметр 0. [6]

Совместные моменты статистик экспоненциального порядка iid

Пусть — независимые и одинаково распределенные экспоненциальные случайные величины с параметром скорости λ . Пусть обозначают соответствующую порядковую статистику . Для совместный момент порядковых статистик и определяется как

Это можно увидеть, применив закон полного ожидания и свойство отсутствия памяти:

Первое уравнение следует из закона полного ожидания . Второе уравнение использует тот факт, что как только мы ставим условие на , должно следовать, что . Третье уравнение опирается на свойство отсутствия памяти, которое заменяется на .

Сумма двух независимых экспоненциальных случайных величин

Функция распределения вероятностей (ПРВ) суммы двух независимых случайных величин является сверткой их индивидуальных ФВ . Если и являются независимыми экспоненциальными случайными величинами с соответствующими параметрами скорости , а тогда плотность вероятности определяется выражением Энтропия этого распределения доступна в замкнутой форме: предполагая (без потери общности), что где — константа Эйлера-Маскерони , а — дигамма-функция . [7]

В случае равных параметров скорости результатом является распределение Эрланга с формой 2 и параметром , которое в свою очередь является частным случаем гамма-распределения .

Сумма n независимых Exp( λ) экспоненциальных случайных величин распределена по закону Гамма(n, λ) .

Связанные дистрибутивы

Другие похожие дистрибутивы:

Статистический вывод

Предположим далее, что случайная величина X распределена экспоненциально с параметром скорости λ и представляет собой n независимых выборок из X со средним значением выборки .

Оценка параметров

Оценка максимального правдоподобия для λ строится следующим образом.

Функция правдоподобия для λ, учитывая независимую и одинаково распределенную выборку x = ( x 1 , ..., x n ), взятую из переменной, имеет вид:

где: — выборочное среднее.

Производная логарифма функции правдоподобия равна:

Следовательно, оценка максимального правдоподобия для параметра скорости составляет:

Это не является несмещенной оценкой , хотя является несмещенной [9] оценкой MLE [10] и среднего значения распределения.

Смещение равно, что дает оценку максимального правдоподобия с поправкой на смещение

Приблизительный минимизатор среднеквадратической ошибки (см. также: компромисс смещения и дисперсии ) может быть найден, предполагая, что размер выборки больше двух, с поправочным коэффициентом к MLE: Он выводится из среднего значения и дисперсии обратного гамма-распределения , [ 11]

Информация о Фишере

Информация Фишера , обозначаемая , для оценки параметра скорости задается как:

Подставляя распределение и решая, получаем:

Это определяет объем информации, которую несет каждая независимая выборка экспоненциального распределения о неизвестном параметре скорости .

Доверительные интервалы

Точный доверительный интервал 100(1 − α)% для параметра скорости экспоненциального распределения определяется выражением: [12] что также равно где χ2
п , в
это 100( p ) процентиль распределения хи-квадрат с v степенями свободы , n это количество наблюдений, а x-bar это выборочное среднее. Простая аппроксимация точных конечных точек интервала может быть получена с использованием нормальной аппроксимации χ2
п , в
Распределение. Это приближение дает следующие значения для 95% доверительного интервала:

Это приближение может быть приемлемым для образцов, содержащих не менее 15–20 элементов. [13]

Байесовский вывод

Сопряженным априорным распределением для экспоненциального распределения является гамма-распределение (частным случаем которого является экспоненциальное распределение). Следующая параметризация функции плотности вероятности гамма-распределения полезна:

Апостериорное распределение p затем можно выразить через функцию правдоподобия, определенную выше, и априорную гамму:

Теперь апостериорная плотность p определена с точностью до отсутствующей нормирующей константы. Поскольку она имеет форму гамма-pdf, ее можно легко заполнить, и получится:

Здесь гиперпараметр α можно интерпретировать как число предыдущих наблюдений, а β — как сумму предыдущих наблюдений. Апостериорное среднее здесь:

Возникновение и применение

Возникновение событий

Экспоненциальное распределение возникает естественным образом при описании длительностей интервалов между прибытиями в однородном пуассоновском процессе .

Экспоненциальное распределение можно рассматривать как непрерывный аналог геометрического распределения , которое описывает число испытаний Бернулли, необходимых для того, чтобы дискретный процесс изменил состояние. Напротив, экспоненциальное распределение описывает время, необходимое для того, чтобы непрерывный процесс изменил состояние.

В реальных сценариях предположение о постоянной частоте (или вероятности за единицу времени) редко выполняется. Например, частота входящих телефонных звонков различается в зависимости от времени суток. Но если мы сосредоточимся на временном интервале, в течение которого частота примерно постоянна, например, с 14:00 до 16:00 в рабочие дни, экспоненциальное распределение можно использовать в качестве хорошей приблизительной модели для времени до следующего телефонного звонка. Аналогичные оговорки применимы к следующим примерам, которые дают приблизительно экспоненциально распределенные переменные:

Экспоненциальные переменные также можно использовать для моделирования ситуаций, в которых определенные события происходят с постоянной вероятностью на единицу длины, например, расстояние между мутациями в цепи ДНК или между сбитыми животными на данной дороге.

В теории очередей время обслуживания агентов в системе (например, сколько времени требуется кассиру банка и т. д. для обслуживания клиента) часто моделируется как экспоненциально распределенные переменные. (Например, прибытие клиентов также моделируется распределением Пуассона , если прибытие независимо и распределено одинаково.) Длительность процесса, который можно рассматривать как последовательность нескольких независимых задач, следует распределению Эрланга (которое является распределением суммы нескольких независимых экспоненциально распределенных переменных). Теория надежности и техника надежности также широко используют экспоненциальное распределение. Из-за свойства отсутствия памяти этого распределения оно хорошо подходит для моделирования части постоянной интенсивности рисков кривой ванны , используемой в теории надежности. Это также очень удобно, потому что так легко добавлять интенсивности отказов в модель надежности. Однако экспоненциальное распределение не подходит для моделирования общего срока службы организмов или технических устройств, потому что «интенсивности отказов» здесь не постоянны: больше отказов происходит для очень молодых и очень старых систем.

Подогнанное кумулятивное экспоненциальное распределение к годовому максимуму однодневных осадков с использованием CumFreq [14]

В физике , если вы наблюдаете газ при фиксированной температуре и давлении в однородном гравитационном поле , высоты различных молекул также следуют приблизительному экспоненциальному распределению, известному как Барометрическая формула . Это является следствием свойства энтропии, упомянутого ниже.

В гидрологии экспоненциальное распределение используется для анализа экстремальных значений таких переменных, как месячные и годовые максимальные значения суточных осадков и объемов речного стока. [15]

Синяя картинка иллюстрирует пример подгонки экспоненциального распределения к ранжированным ежегодным максимальным однодневным осадкам, показывая также 90% доверительный пояс на основе биномиального распределения . Данные об осадках представлены путем построения позиций в рамках кумулятивного частотного анализа .

В управлении операционными — распределение продолжительности хирургических операций для категории операций без типичного содержания работы (например, в отделении неотложной помощи, охватывающем все типы хирургических операций).

Прогноз

Наблюдая выборку из n точек данных из неизвестного экспоненциального распределения, общая задача состоит в том, чтобы использовать эти выборки для прогнозирования будущих данных из того же источника. Распространенным предсказательным распределением для будущих выборок является так называемое подключаемое распределение, сформированное путем включения подходящей оценки для параметра скорости λ в экспоненциальную функцию плотности. Обычный выбор оценки — это тот, который предоставляется принципом максимального правдоподобия, и использование этого дает предсказательную плотность для будущей выборки x n +1 , обусловленную наблюдаемыми выборками x = ( x 1 , ..., x n ), заданными как

Байесовский подход обеспечивает прогнозное распределение, которое учитывает неопределенность оцениваемого параметра, хотя это может существенно зависеть от выбора априорной вероятности.

Предсказательное распределение, свободное от проблем выбора априорных данных, возникающих при субъективном байесовском подходе,

что можно рассматривать как

  1. частотное распределение доверия , полученное из распределения основной величины ; [16]
  2. прогнозируемая вероятность профиля, полученная путем исключения параметра λ из совместной вероятности x n +1 и λ путем максимизации; [17]
  3. объективное байесовское предсказательное апостериорное распределение, полученное с использованием неинформативного априорного распределения Джеффриса 1/ λ ;
  4. Условное нормализованное максимальное правдоподобие (CNML) прогнозное распределение, исходя из соображений теории информации. [18]

Точность предсказательного распределения может быть измерена с использованием расстояния или расхождения между истинным экспоненциальным распределением с параметром скорости λ 0 и предсказательным распределением, основанным на выборке x . Расхождение Кульбака–Лейблера является широко используемой, свободной от параметризации мерой различия между двумя распределениями. Позволяя Δ( λ 0 || p ) обозначать расхождение Кульбака–Лейблера между экспоненциальным распределением с параметром скорости λ 0 и предсказательным распределением p , можно показать, что

где ожидание берется относительно экспоненциального распределения с параметром скорости λ 0 ∈ (0, ∞) , а ψ( · ) — дигамма-функция. Очевидно, что предсказательное распределение CNML строго превосходит максимальное правдоподобное подключаемое распределение с точки зрения средней дивергенции Кульбака–Лейблера для всех размеров выборки n > 0 .

Генерация случайных величин

Концептуально очень простой метод генерации экспоненциальных переменных основан на обратном преобразовании выборки : дана случайная переменная U, взятая из равномерного распределения на единичном интервале (0, 1) , переменная

имеет экспоненциальное распределение, где F −1функция квантиля , определяемая как

Более того, если U равномерно на (0, 1), то так же равномерно и 1 − U. Это означает, что можно генерировать экспоненциальные переменные следующим образом:

Другие методы генерации экспоненциальных переменных обсуждаются Кнутом [19] и Девроем [20] .

Также доступен быстрый метод генерации набора готовых упорядоченных экспоненциальных переменных без использования процедуры сортировки. [20]

Смотрите также

Ссылки

  1. ^ "7.2: Экспоненциальное распределение". Статистика LibreTexts . 2021-07-15 . Получено 2024-10-11 .
  2. ^ "Экспоненциальное распределение | математика | Britannica". www.britannica.com . Получено 2024-10-11 .
  3. ^ ab Weisstein, Eric W. "Экспоненциальное распределение". mathworld.wolfram.com . Получено 11 октября 2024 г.
  4. ^ ab Нортон, Мэтью; Хохлов, Валентин; Урясев, Стэн (2019). «Расчет CVaR и bPOE для общих распределений вероятностей с применением к оптимизации портфеля и оценке плотности» (PDF) . Annals of Operations Research . 299 (1–2). Springer: 1281–1315. doi :10.1007/s10479-019-03373-1. Архивировано из оригинала (PDF) 2023-03-31 . Получено 2023-02-27 .
  5. ^ Park, Sung Y.; Bera, Anil K. (2009). "Модель условной гетероскедастичности с максимальной энтропией авторегрессии" (PDF) . Journal of Econometrics . 150 (2). Elsevier: 219–230. doi :10.1016/j.jeconom.2008.12.014. Архивировано из оригинала (PDF) 2016-03-07 . Получено 2011-06-02 .
  6. ^ Майкл, Луго. "Ожидаемое значение максимума экспонент" (PDF) . Архивировано из оригинала (PDF) 20 декабря 2016 г. . Получено 13 декабря 2016 г. .
  7. ^ Экфорд, Эндрю В.; Томас, Питер Дж. (2016). «Энтропия суммы двух независимых, неидентично распределенных экспоненциальных случайных величин». arXiv : 1609.02911 [cs.IT].
  8. ^ Айб, Оливер С. (2014). Основы прикладной вероятности и случайных процессов (2-е изд.). Academic Press. стр. 128. ISBN 9780128010358.
  9. ^ Ричард Арнольд Джонсон; Дин В. Вихерн (2007). Прикладной многомерный статистический анализ. Pearson Prentice Hall. ISBN 978-0-13-187715-3. Получено 10 августа 2012 г.
  10. ^ Электронный справочник статистических методов NIST/SEMATECH
  11. ^ Эльфесси, Абдулазиз; Рейнеке, Дэвид М. (2001). «Байесовский взгляд на классическую оценку: экспоненциальное распределение». Журнал статистического образования . 9 (1). doi : 10.1080/10691898.2001.11910648 .
  12. ^ Росс, Шелдон М. (2009). Введение в вероятность и статистику для инженеров и ученых (4-е изд.). Associated Press. стр. 267. ISBN 978-0-12-370483-2.
  13. ^ Герриеро, В. (2012). «Распределение степенного закона: метод многомасштабной инференциальной статистики». Журнал современной математики Frontier . 1 : 21–28.
  14. ^ «Cumfreq, бесплатная компьютерная программа для кумулятивного частотного анализа».
  15. ^ Ritzema, HP, ред. (1994). Анализ частоты и регрессии. Глава 6 в: Принципы и применение дренажа, публикация 16, Международный институт мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. стр. 175–224. ISBN 90-70754-33-9.
  16. ^ Лоулесс, Дж. Ф.; Фредетт, М. (2005). «Интервалы предсказаний частот и предсказательные распределения». Biometrika . 92 (3): 529–542. doi :10.1093/biomet/92.3.529.
  17. ^ Бьорнстад, Дж. Ф. (1990). «Предсказательная вероятность: обзор». Statist. Sci . 5 (2): 242–254. doi : 10.1214/ss/1177012175 .
  18. ^ DF Schmidt и E. Makalic, «Универсальные модели для экспоненциального распределения», IEEE Transactions on Information Theory , том 55, номер 7, стр. 3087–3090, 2009 doi :10.1109/TIT.2009.2018331
  19. ^ Дональд Э. Кнут (1998). Искусство программирования , том 2: Получисленные алгоритмы , 3-е изд. Бостон: Addison–Wesley. ISBN 0-201-89684-2 . См. раздел 3.4.1, стр. 133. 
  20. ^ ab Luc Devroye (1986). Неоднородная генерация случайных величин . Нью-Йорк: Springer-Verlag. ISBN 0-387-96305-7 . См. главу IX, раздел 2, стр. 392–401. 

Внешние ссылки