stringtranslate.com

Экспоненциальное распределение

В теории вероятностей и статистике экспоненциальное распределение или отрицательное экспоненциальное распределение — это распределение вероятностей расстояния между событиями в точечном процессе Пуассона , т. е. процессе, в котором события происходят непрерывно и независимо с постоянной средней скоростью; параметром расстояния может быть любая значимая одномерная мера процесса, например, время между производственными ошибками или длина рулона ткани в процессе ткацкого производства. Это частный случай гамма-распределения . Это непрерывный аналог геометрического распределения , и его ключевым свойством является отсутствие памяти . Помимо использования для анализа точечных процессов Пуассона, он встречается и в различных других контекстах.

Показательное распределение — это не то же самое, что класс экспоненциальных семейств распределений. Это большой класс вероятностных распределений, который включает экспоненциальное распределение в качестве одного из своих членов, но также включает в себя множество других распределений, таких как нормальное , биномиальное , гамма - распределение и распределение Пуассона .

Определения

Функция плотности вероятности

Функция плотности вероятности (pdf) экспоненциального распределения равна

Здесь λ > 0 — параметр распределения, часто называемый параметром скорости . Распределение поддерживается на интервале  [0, ∞) . Если случайная величина X имеет такое распределение, мы пишем  X ~ Exp( λ ) .

Экспоненциальное распределение демонстрирует бесконечную делимость .

Кумулятивная функция распределения

Кумулятивная функция распределения определяется выражением

Альтернативная параметризация

Экспоненциальное распределение иногда параметризуется с помощью масштабного параметра β = 1/ λ , который также является средним значением:

Характеристики

Среднее значение, дисперсия, моменты и медиана

Среднее значение — это вероятностный центр масс, то есть первый момент .
Медиана — это прообраз F −1 (1/2).

Среднее или ожидаемое значение экспоненциально распределенной случайной величины X с параметром скорости λ определяется выражением

В свете приведенных ниже примеров это имеет смысл: если вы получаете телефонные звонки со средней скоростью 2 звонка в час, то вы можете рассчитывать на полчаса ожидания каждого звонка.

Дисперсия X определяется выражением _

стандартное отклонение

Моменты X , for определяются выражением

Центральные моменты X , for определяются формулами

nсубфакториалом_

Медиана X определяется выражением _

lnнатуральному логарифмуабсолютная разница

в соответствии с медианно-средним неравенством .

Свойство безпамяти экспоненциальной случайной величины

Экспоненциально распределенная случайная величина T подчиняется соотношению

В этом можно убедиться, рассмотрев дополнительную кумулятивную функцию распределения :

Когда T интерпретируется как время ожидания возникновения события относительно некоторого начального времени, это соотношение подразумевает, что, если T обусловлено невозможностью наблюдения события в течение некоторого начального периода времени s , распределение оставшегося времени ожидания такое же, как исходное безусловное распределение. Например, если событие не произошло через 30 секунд, условная вероятность того, что возникновение займет еще как минимум 10 секунд, равна безусловной вероятности наблюдения события более чем через 10 секунд после начального времени.

Экспоненциальное распределение и геометрическое распределение являются единственными распределениями вероятностей без памяти .

Следовательно, экспоненциальное распределение также обязательно является единственным непрерывным распределением вероятностей, имеющим постоянную частоту отказов .

Квантили

Критерии аномалии Тьюки для экспоненциальной функции распределения вероятностей.
Критерии Тьюки для аномалий. [ нужна цитата ]

Функция квантиля ( обратная кумулятивная функция распределения) для Exp( λ ) равна

Таким образом , квартили составляют :

И, как следствие, межквартильный размах равен ln(3)/ λ .

Условная стоимость под угрозой (ожидаемый дефицит)

Условное значение риска (CVaR), также известное как ожидаемый дефицит или суперквантиль для Exp( λ ), получается следующим образом: [1]

Буферизованная вероятность превышения (bPOE)

Буферизованная вероятность превышения равна единице минус уровень вероятности, при котором CVaR равен порогу . Он получается следующим образом: [1]

Расхождение Кульбака – Лейблера

Направленное отклонение Кульбака – Лейблера в числах («приближающего» распределения) от ( «истинного» распределения) определяется выражением

Максимальное распределение энтропии

Среди всех непрерывных распределений вероятностей с носителем [0, ∞) и средним значением µ экспоненциальное распределение с λ = 1/ µ имеет наибольшую дифференциальную энтропию . Другими словами, это максимальное распределение вероятностей энтропии для случайной величины X , которая больше или равна нулю и для которой E[ X ] фиксировано. [2]

Распределение минимума экспоненциальных случайных величин

Пусть X 1 , …, X nнезависимые экспоненциально распределенные случайные величины со скоростными параметрами λ 1 , …, λ n . Затем

В этом можно убедиться, рассмотрев дополнительную кумулятивную функцию распределения :

Индекс переменной, достигшей минимума, распределяется согласно категориальному распределению.

Доказательство можно увидеть, позволив . Затем,

Обратите внимание, что

X 1X n[3]

Совместные моменты статистики экспоненциального порядка iid

Пусть – независимые и одинаково распределенные экспоненциальные случайные величины с параметром скорости λ . Обозначим соответствующую порядковую статистику . Для совместный момент статистики порядка и определяется выражением

В этом можно убедиться, обратившись к закону полного ожидания и свойству отсутствия памяти:

Первое уравнение следует из закона полного ожидания . Второе уравнение использует тот факт, что если мы поставили условие на , оно должно следовать за этим . Третье уравнение основано на свойстве отсутствия памяти при замене на .

Сумма двух независимых экспоненциальных случайных величин

Функция распределения вероятностей (PDF) суммы двух независимых случайных величин представляет собой свертку их отдельных PDF-файлов . Если и являются независимыми экспоненциальными случайными величинами с соответствующими параметрами скорости , а затем плотность вероятности определяется выражением

константа Эйлера-Машерони-функция[4]

В случае параметров с одинаковой скоростью результатом является распределение Эрланга с формой 2 и параметром , которое, в свою очередь, является частным случаем гамма-распределения .

Сумма n независимых экспоненциальных случайных величин Exp( λ) представляет собой гамма-распределение Gamma(n, λ) .

Связанные дистрибутивы

Другие связанные дистрибутивы:

Статистические выводы

Ниже предположим, что случайная величина X экспоненциально распределена с параметром скорости λ и представляет собой n независимых выборок из X со средним значением выборки .

Оценка параметров

Оценка максимального правдоподобия для λ строится следующим образом.

Функция правдоподобия для λ, учитывая независимую и одинаково распределенную выборку x = ( x 1 , …, x n ), полученную из переменной, равна:

где:

Производная логарифма функции правдоподобия равна:

Следовательно, оценка максимального правдоподобия для параметра скорости равна:

Это не несмещенная оценка , хотя это несмещенная [6] MLE [7] оценка и среднего значения распределения.

Смещение равно

оценку максимального правдоподобия с поправкой на смещение

Приблизительный минимизатор среднеквадратической ошибки (см. также: компромисс между смещением и дисперсией ) можно найти, предполагая, что размер выборки больше двух, с поправочным коэффициентом для MLE:

обратного гамма-распределения[8]

Информация о Фишере

Информация Фишера , обозначаемая , для оценки параметра скорости задается как:

Подключение распределения и решение дает:

Это определяет объем информации, которую несет каждая независимая выборка экспоненциального распределения о неизвестном параметре скорости .

Доверительные интервалы

100(1 - α)% доверительный интервал для параметра скорости экспоненциального распределения определяется следующим образом: [9]

х2
п , в
100( p ) процентильхи-квадратv степенями свободыχ2
п , в

Такое приближение может быть приемлемым для образцов, содержащих не менее 15–20 элементов. [10]

Байесовский вывод

Сопряженным априором экспоненциального распределения является гамма-распределение (частным случаем которого является экспоненциальное распределение). Полезна следующая параметризация функции плотности вероятности гамма:

Затем апостериорное распределение p можно выразить через функцию правдоподобия, определенную выше, и априорную гамму:

Теперь апостериорная плотность p задана с точностью до отсутствующей нормировочной константы. Поскольку он имеет форму гамма-pdf, его можно легко заполнить и получить:

Здесь гиперпараметр α можно интерпретировать как количество предыдущих наблюдений, а β — как сумму предыдущих наблюдений. Апостериорное среднее здесь равно:

Возникновение и применение

Возникновение событий

Экспоненциальное распределение возникает естественным образом при описании длин времен между приходами в однородном пуассоновском процессе .

Экспоненциальное распределение можно рассматривать как непрерывный аналог геометрического распределения , которое описывает количество испытаний Бернулли, необходимых для того, чтобы дискретный процесс изменил состояние. Напротив, экспоненциальное распределение описывает время, в течение которого непрерывный процесс меняет состояние.

В реальных сценариях предположение о постоянной скорости (или вероятности в единицу времени) редко выполняется. Например, скорость входящих телефонных звонков различается в зависимости от времени суток. Но если мы сосредоточимся на временном интервале, в течение которого скорость примерно постоянна, например, с 14 до 16 часов в рабочие дни, экспоненциальное распределение можно использовать в качестве хорошей приближенной модели времени до следующего телефонного звонка. Аналогичные предостережения применимы к следующим примерам, которые дают примерно экспоненциально распределенные переменные:

Экспоненциальные переменные также можно использовать для моделирования ситуаций, когда определенные события происходят с постоянной вероятностью на единицу длины, например, расстояние между мутациями в цепи ДНК или между дорожно-транспортными происшествиями на данной дороге.

В теории массового обслуживания время обслуживания агентов в системе (например, сколько времени требуется кассиру банка и т. д. для обслуживания клиента) часто моделируется как экспоненциально распределенные переменные. (Например, поступление клиентов также моделируется распределением Пуассона , если поступления независимы и распределены одинаково.) Длина процесса, который можно рассматривать как последовательность нескольких независимых задач, соответствует распределению Эрланга (которое представляет собой распределение суммы нескольких независимых экспоненциально распределенных переменных). Теория надежности и инженерия надежности также широко используют экспоненциальное распределение. Из-за отсутствия памяти у этого распределения оно хорошо подходит для моделирования части кривой ванны с постоянной степенью опасности , используемой в теории надежности. Это также очень удобно, поскольку в модель надежности можно легко добавить интенсивность отказов . Однако экспоненциальное распределение не подходит для моделирования общего срока службы организмов или технических устройств, поскольку «частота отказов» здесь не является постоянной: больше отказов происходит как для очень молодых, так и для очень старых систем.

Подобрано кумулятивное экспоненциальное распределение максимального годового количества осадков за 1 день с использованием CumFreq [11]

В физике , если вы наблюдаете газ при фиксированной температуре и давлении в однородном гравитационном поле , высоты различных молекул также подчиняются приблизительному экспоненциальному распределению, известному как барометрическая формула . Это следствие упомянутого ниже свойства энтропии.

В гидрологии экспоненциальное распределение используется для анализа экстремальных значений таких переменных, как месячные и годовые максимальные значения суточных осадков и объемов речного стока. [12]

Синее изображение иллюстрирует пример подбора экспоненциального распределения к ранжированному максимальному годовому количеству осадков за один день, демонстрируя также 90% доверительный интервал , основанный на биномиальном распределении . Данные об осадках представлены в виде координат на графике в рамках кумулятивного частотного анализа .

В управлении операционными залами - распределение продолжительности операции по категориям операций без типичного содержания труда (например, в отделении неотложной помощи, охватывающее все виды операций).

Прогноз

После наблюдения выборки из n точек данных из неизвестного экспоненциального распределения общая задача состоит в том, чтобы использовать эти выборки для прогнозирования будущих данных из того же источника. Распространенным прогнозным распределением по будущим выборкам является так называемое подключаемое распределение, формируемое путем включения подходящей оценки параметра скорости λ в функцию экспоненциальной плотности. Обычным выбором оценки является тот, который обеспечивается принципом максимального правдоподобия, и его использование дает прогнозную плотность для будущей выборки x n +1 , обусловленную наблюдаемыми выборками x = ( x 1 , ..., x n ) данный

Байесовский подход обеспечивает прогнозируемое распределение, которое учитывает неопределенность оцениваемого параметра, хотя это может существенно зависеть от выбора априора.

Прогнозирующее распределение, свободное от проблем выбора априорных значений, возникающих при субъективном байесовском подходе, - это

который можно рассматривать как

  1. частотное доверительное распределение , полученное из распределения основной величины ; [13]
  2. прогнозируемая вероятность профиля, полученная путем исключения параметра λ из совместной вероятности x n +1 и λ путем максимизации; [14]
  3. объективное байесовское предсказательное апостериорное распределение, полученное с использованием неинформативного априорного 1/ λ Джеффриса ;
  4. прогнозируемое распределение условного нормализованного максимального правдоподобия (CNML), исходя из соображений теории информации. [15]

Точность прогнозируемого распределения может быть измерена с использованием расстояния или расхождения между истинным экспоненциальным распределением с параметром скорости λ 0 и прогнозным распределением, основанным на выборке x . Дивергенция Кульбака -Лейблера - это широко используемая, не требующая параметризации мера разницы между двумя распределениями. Обозначая Δ( λ 0 || p ) расхождение Кульбака – Лейблера между экспонентой с параметром скорости λ 0 и прогнозирующим распределением p , можно показать, что

где математическое ожидание берется относительно экспоненциального распределения с параметром скорости λ 0 ∈ (0, ∞) , а ψ( · ) – дигамма-функция. Ясно, что прогнозирующее распределение CNML строго превосходит подключаемое распределение максимального правдоподобия с точки зрения среднего расхождения Кульбака-Лейблера для всех размеров выборки n > 0 .

Генерация случайной переменной

Концептуально очень простой метод генерации экспоненциальных переменных основан на выборке обратного преобразования : учитывая случайную величину U , полученную из равномерного распределения на единичном интервале (0, 1) , переменная

имеет экспоненциальное распределение, где F −1функция квантиля , определяемая формулой

Более того, если U равномерен на (0, 1), то и 1 − U равномерен . Это означает, что можно генерировать экспоненциальные переменные следующим образом:

Другие методы генерации экспоненциальных переменных обсуждаются Кнутом [16] и Деврой. [17]

Также доступен быстрый метод генерации набора готовых упорядоченных экспоненциальных переменных без использования процедуры сортировки. [17]

Смотрите также

Рекомендации

  1. ^ аб Нортон, Мэтью; Хохлов, Валентин; Урясев, Стэн (2019). «Расчет CVaR и bPOE для распространенных распределений вероятностей с применением для оптимизации портфеля и оценки плотности» (PDF) . Анналы исследования операций . Спрингер. 299 (1–2): 1281–1315. дои : 10.1007/s10479-019-03373-1 . Проверено 27 февраля 2023 г.
  2. ^ Пак, Сон Ю.; Бера, Анил К. (2009). «Модель условной гетероскедастичности авторегрессии с максимальной энтропией» (PDF) . Журнал эконометрики . Эльзевир. 150 (2): 219–230. doi :10.1016/j.jeconom.2008.12.014. Архивировано из оригинала (PDF) 7 марта 2016 г. Проверено 2 июня 2011 г.
  3. ^ Майкл, Луго. «Ожидание максимума экспоненты» (PDF) . Архивировано из оригинала (PDF) 20 декабря 2016 года . Проверено 13 декабря 2016 г.
  4. ^ Экфорд, Эндрю В.; Томас, Питер Дж. (2016). «Энтропия суммы двух независимых, неидентично распределенных экспоненциальных случайных величин». arXiv : 1609.02911 [cs.IT].
  5. ^ Ибе, Оливер К. (2014). Основы прикладной теории вероятности и случайных процессов (2-е изд.). Академическая пресса. п. 128. ИСБН 9780128010358.
  6. ^ Ричард Арнольд Джонсон; Дин В. Вичерн (2007). Прикладной многомерный статистический анализ. Пирсон Прентис Холл. ISBN 978-0-13-187715-3. Проверено 10 августа 2012 г.
  7. ^ Электронный справочник NIST/SEMATECH по статистическим методам
  8. ^ Эльфесси, Абдулазиз; Рейнеке, Дэвид М. (2001). «Байесовский взгляд на классическую оценку: экспоненциальное распределение». Журнал статистического образования . 9 (1). дои : 10.1080/10691898.2001.11910648 .
  9. ^ Росс, Шелдон М. (2009). Введение в вероятность и статистику для инженеров и ученых (4-е изд.). Ассошиэйтед Пресс. п. 267. ИСБН 978-0-12-370483-2.
  10. ^ Геррьеро, В. (2012). «Распределение по степенному закону: метод многомасштабной логической статистики». Журнал современной математики Frontier . 1 : 21–28.
  11. ^ «Cumfreq, бесплатная компьютерная программа для анализа совокупной частоты» .
  12. ^ Ритзема, HP, изд. (1994). Частотный и регрессионный анализ. Глава 6 в: Принципы и применение дренажа, Публикация 16, Международный институт мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. стр. 175–224. ISBN 90-70754-33-9.
  13. ^ Лоулесс, Дж. Ф.; Фредетт, М. (2005). «Интервалы частотных прогнозов и прогнозные распределения». Биометрика . 92 (3): 529–542. дои : 10.1093/biomet/92.3.529.
  14. ^ Бьёрнстад, JF (1990). «Прогнозируемая вероятность: обзор». Статист. Наука . 5 (2): 242–254. дои : 10.1214/ss/1177012175 .
  15. ^ Д. Ф. Шмидт и Э. Макалич, «Универсальные модели экспоненциального распределения», Транзакции IEEE по теории информации , том 55, номер 7, стр. 3087–3090, 2009 doi : 10.1109/TIT.2009.2018331
  16. ^ Дональд Э. Кнут (1998). Искусство компьютерного программирования , том 2: Получисловые алгоритмы , 3-е изд. Бостон: Аддисон-Уэсли. ISBN 0-201-89684-2 . См. раздел 3.4.1, с. 133. 
  17. ^ аб Люк Деврой (1986). Генерация неоднородной случайной переменной . Нью-Йорк: Springer-Verlag. ISBN 0-387-96305-7 . См. главу IX, раздел 2, стр. 392–401. 

Внешние ссылки