stringtranslate.com

Распределение вероятностей

В теории вероятностей и статистике распределение вероятностей — это математическая функция , которая определяет вероятности возникновения различных возможных результатов эксперимента . [1] [2] Это математическое описание случайного явления с точки зрения его выборочного пространства и вероятностей событий ( подмножеств выборочного пространства). [3]

Например, если X используется для обозначения результата подбрасывания монеты («эксперимент»), то распределение вероятностей X примет значение 0,5 (1 к 2 или 1/2) для X = орла и 0,5 для X = решка (при условии, что монета честная ). Чаще всего распределения вероятностей используются для сравнения относительного появления множества различных случайных величин.

Распределения вероятностей могут быть определены по-разному: для дискретных или для непрерывных переменных. Дистрибутивам со специальными свойствами или для особо важных приложений присваиваются особые имена.

Введение

Распределение вероятностей — это математическое описание вероятностей событий, подмножеств выборочного пространства . Пространство выборки, часто обозначаемое как набор всех возможных результатов наблюдаемого случайного явления; это может быть любой набор: набор действительных чисел , набор описательных меток, набор векторов , набор произвольных нечисловых значений и т. д. Например, пространство выборки при подбрасывании монеты будет  Ω = { " орел», «решка» } .

Чтобы определить распределения вероятностей для конкретного случая случайных величин (чтобы выборочное пространство можно было рассматривать как числовой набор), принято различать дискретные и абсолютно непрерывные случайные величины . В дискретном случае достаточно указать функцию массы вероятности , присваивающую вероятность каждому возможному исходу: например, при бросании игральной кости каждая из шести цифр от «1» до «6» , соответствующая количеству точек на кубике имеет вероятность. Вероятность события затем определяется как сумма вероятностей результатов, которые удовлетворяют событию; например, вероятность события «на кубике выпадет четное значение» равна

Напротив, когда случайная величина принимает значения из континуума, то, как правило, любой отдельный результат имеет нулевую вероятность, и только события, которые включают бесконечное количество результатов, например интервалы, могут иметь положительную вероятность. Например, рассмотрим измерение веса куска ветчины в супермаркете и предположим, что точность весов составляет много цифр. Вероятность того, что он весит ровно 500  г , равна нулю, так как, скорее всего, в нем будут ненулевые десятичные цифры. Тем не менее, при контроле качества можно потребовать, чтобы упаковка ветчины «500 г» весила от 490 г до 510 г с вероятностью не менее 98%, и это требование менее чувствительно к точности измерительных приборов.

Левый график показывает функцию плотности вероятности. На правом графике показана кумулятивная функция распределения, для которой значение a равно площади под кривой плотности вероятности слева от a .

Абсолютно непрерывные распределения вероятностей можно описать несколькими способами. Функция плотности вероятности описывает бесконечно малую вероятность любого заданного значения, а вероятность того, что результат лежит в заданном интервале, может быть вычислена путем интегрирования функции плотности вероятности по этому интервалу. [4] Альтернативное описание распределения осуществляется с помощью кумулятивной функции распределения , которая описывает вероятность того, что случайная величина не превышает заданное значение (т.е. для некоторого ). Кумулятивная функция распределения — это площадь под функцией плотности вероятности от до , как показано на рисунке справа. [5]

Общее определение вероятности

Распределение вероятностей можно описать в различных формах, например, с помощью функции массы вероятности или кумулятивной функции распределения. Одно из наиболее общих описаний, применимое к абсолютно непрерывным и дискретным переменным, осуществляется с помощью функции вероятности, входное пространство которой представляет собой σ-алгебру и на выходе дает вероятность действительного числа , в частности, число в .

Функция вероятности может принимать в качестве аргументов подмножества самого выборочного пространства, как в примере с подбрасыванием монеты, где функция была определена так, что P (орёл) = 0,5 и P (решка) = 0,5 . Однако из-за широкого использования случайных величин , которые преобразуют выборочное пространство в набор чисел (например, , ), более распространенным является изучение распределений вероятностей, аргументами которых являются подмножества этих конкретных видов множеств (множеств чисел), [6] и все распределения вероятностей, обсуждаемые в этой статье, относятся к этому типу. Это принято обозначать как вероятность того, что определенное значение переменной принадлежит определенному событию . [7] [8]

Приведенная выше функция вероятности характеризует распределение вероятностей только в том случае, если оно удовлетворяет всем аксиомам Колмогорова , то есть:

  1. , поэтому вероятность неотрицательна
  2. , поэтому никакая вероятность не превосходит
  3. для любого счетного непересекающегося семейства множеств

Понятие функции вероятности становится более строгим, если определить ее как элемент вероятностного пространства , где – множество возможных результатов, – множество всех подмножеств , вероятность которых может быть измерена, – – функция вероятности или мера вероятности , который присваивает вероятность каждому из этих измеримых подмножеств . [9]

Распределения вероятностей обычно относятся к одному из двух классов. Дискретное распределение вероятностей применимо к сценариям, в которых набор возможных результатов дискретен (например, подбрасывание монеты, бросок игральной кости), а вероятности кодируются дискретным списком вероятностей результатов; в этом случае дискретное распределение вероятностей известно как функция массы вероятности . С другой стороны, абсолютно непрерывные распределения вероятностей применимы к сценариям, в которых набор возможных результатов может принимать значения в непрерывном диапазоне (например, действительные числа), такие как температура в определенный день. В абсолютно непрерывном случае вероятности описываются функцией плотности вероятности , а распределение вероятностей по определению является интегралом функции плотности вероятности. [7] [4] [8] Нормальное распределение — это часто встречающееся абсолютно непрерывное распределение вероятностей. Более сложные эксперименты, например эксперименты со случайными процессами , определяемыми в непрерывном времени , могут потребовать использования более общих вероятностных мер .

Распределение вероятностей, выборочное пространство которого является одномерным (например, действительные числа, список меток, упорядоченные метки или двоичные числа), называется одномерным , а распределение, выборочное пространство которого представляет собой векторное пространство размерности 2 или более, называется многомерным . Одномерное распределение дает вероятности того, что одна случайная величина принимает разные значения; многомерное распределение ( совместное распределение вероятностей ) дает вероятности случайного вектора — списка двух или более случайных величин — принимающего различные комбинации значений. Важные и часто встречающиеся одномерные распределения вероятностей включают биномиальное распределение , гипергеометрическое распределение и нормальное распределение . Часто встречающимся многомерным распределением является многомерное нормальное распределение .

Помимо функции вероятности, кумулятивная функция распределения, функция массы вероятности и функция плотности вероятности, производящая функция момента и характеристическая функция также служат для идентификации распределения вероятностей, поскольку они однозначно определяют основную кумулятивную функцию распределения. [10]

Функция плотности вероятности (pdf) нормального распределения , также называемая гауссовской или «гауссовой кривой», наиболее важного абсолютно непрерывного случайного распределения. Как отмечено на рисунке, вероятности интервалов значений соответствуют площади под кривой.

Терминология

Ниже перечислены некоторые ключевые понятия и термины, широко используемые в литературе по теме распределений вероятностей. [1]

Основные условия

Дискретные распределения вероятностей

Абсолютно непрерывные распределения вероятностей

Связанные термины

Кумулятивная функция распределения

В частном случае действительной случайной величины распределение вероятностей может быть эквивалентно представлено кумулятивной функцией распределения вместо вероятностной меры. Кумулятивная функция распределения случайной величины с учетом распределения вероятностей определяется как

Кумулятивная функция распределения любой вещественной случайной величины обладает свойствами:

И наоборот, любая функция , которая удовлетворяет первым четырем свойствам, указанным выше, является кумулятивной функцией распределения некоторого распределения вероятностей действительных чисел. [13]

Любое распределение вероятностей можно разложить как смесь дискретного , абсолютно непрерывного и сингулярного непрерывного распределения [14] , и, таким образом, любая кумулятивная функция распределения допускает разложение в виде выпуклой суммы трех согласно кумулятивным функциям распределения.

Дискретное распределение вероятностей

Функция массы вероятности (pmf) определяет распределение вероятностей для суммы отсчетов на двух игральных костях . Например, на рисунке показано, что . PMF позволяет вычислить вероятности таких событий, как , и всех других вероятностей в распределении.
Массовая функция вероятности дискретного распределения вероятностей. Вероятности одиночных элементов {1}, {3} и {7} равны соответственно 0,2, 0,5, 0,3. Набор, не содержащий ни одной из этих точек, имеет нулевую вероятность.
CDF дискретного распределения вероятностей, ...
... непрерывного распределения вероятностей, ...
... распределения, которое имеет как непрерывную, так и дискретную часть

Дискретное распределение вероятностей — это распределение вероятностей случайной величины, которая может принимать только счетное число значений [15] ( почти наверняка ) [16] . Это означает, что вероятность любого события может быть выражена как (конечная или счетная бесконечность) ) сумма:

функция массы вероятности

Хорошо известные дискретные распределения вероятностей, используемые в статистическом моделировании, включают распределение Пуассона , распределение Бернулли , биномиальное распределение , геометрическое распределение , отрицательное биномиальное распределение и категориальное распределение . [3] Когда выборка (набор наблюдений) формируется из более крупной совокупности, точки выборки имеют дискретное эмпирическое распределение , которое предоставляет информацию о распределении совокупности. Кроме того, дискретное равномерное распределение обычно используется в компьютерных программах, которые делают случайный выбор с равной вероятностью между несколькими вариантами.

Кумулятивная функция распределения

Дискретную случайную величину с действительным знаком можно эквивалентно определить как случайную величину, чья кумулятивная функция распределения увеличивается только за счет скачков , то есть ее cdf увеличивается только там, где она «перескакивает» к более высокому значению, и является постоянной в интервалах без скачков. Точки, в которых происходят скачки, и есть те значения, которые может принимать случайная величина. Таким образом, кумулятивная функция распределения имеет вид

Точки, в которых происходит скачок CDF, всегда образуют счетное множество; это может быть любое счетное множество и, следовательно, оно может быть даже плотным в действительных числах.

Дельта-представление Дирака

Дискретное распределение вероятностей часто представляется мерами Дирака , распределениями вероятностей детерминированных случайных величин . Для любого результата пусть будет мера Дирака, сосредоточенная в . Учитывая дискретное распределение вероятностей, существует счетное множество с и функцией вероятностной массы . Если какое-либо событие, то

Аналогично, дискретные распределения могут быть представлены с помощью дельта-функции Дирака как обобщенной функции плотности вероятности , где

[17]

Представление индикаторной функции

Для дискретной случайной величины пусть – значения, которые она может принимать с ненулевой вероятностью. Обозначим

Это непересекающиеся множества , и для таких множеств

Отсюда следует, что вероятность, принимающая любое значение, кроме , равна нулю, и поэтому можно записать как

кроме набора с нулевой вероятностью, где – индикаторная функция . Это может служить альтернативным определением дискретных случайных величин.

Одноточечное распределение

Особый случай — дискретное распределение случайной величины, которая может принимать только одно фиксированное значение; другими словами, это детерминированное распределение . Выражаясь формально, случайная величина имеет одноточечное распределение, если она имеет такой возможный результат, что [18] Тогда все остальные возможные результаты имеют вероятность 0. Ее кумулятивная функция распределения сразу же подскакивает от 0 до 1.

Абсолютно непрерывное распределение вероятностей

Абсолютно непрерывное распределение вероятностей — это распределение вероятностей действительных чисел с бесчисленным множеством возможных значений, например целым интервалом в действительной прямой, и где вероятность любого события может быть выражена в виде интеграла. [19] Точнее, действительная случайная величина имеет абсолютно непрерывное распределение вероятностей, если существует функция такая, что для каждого интервала вероятность принадлежности к дается интегралом от : [ 20] [21]

функции плотности вероятностиинтеграл

Абсолютно непрерывная случайная величина — это случайная величина, распределение вероятностей которой абсолютно непрерывно.

Существует множество примеров абсолютно непрерывных распределений вероятностей: нормальное , равномерное , хи-квадрат и другие .

Кумулятивная функция распределения

Абсолютно непрерывные распределения вероятностей, определенные выше, — это те, которые имеют абсолютно непрерывную кумулятивную функцию распределения. В этом случае кумулятивная функция распределения имеет вид

Примечание по терминологии: абсолютно непрерывные распределения следует отличать от непрерывных распределений , которые имеют непрерывную кумулятивную функцию распределения. Каждое абсолютно непрерывное распределение является непрерывным распределением, но обратное неверно: существуют сингулярные распределения , которые не являются ни абсолютно непрерывными, ни дискретными, ни их смесью и не имеют плотности. Примером может служить распределение Кантора . Однако некоторые авторы используют термин «непрерывное распределение» для обозначения всех распределений, кумулятивная функция распределения которых абсолютно непрерывна , т.е. называют абсолютно непрерывные распределения непрерывными распределениями. [7]

Более общее определение функций плотности и эквивалентных им абсолютно непрерывных мер см. в разделе « Абсолютно непрерывная мера» .

Колмогоровское определение

В теоретико-мерной формализации теории вероятностей случайная величина определяется как измеримая функция из вероятностного пространства в измеримое пространство . Учитывая, что вероятности событий формы удовлетворяют аксиомам вероятности Колмогорова , распределение вероятностей является мерой изображения , которая является вероятностной мерой при удовлетворении . [22] [23] [24]

Другие виды дистрибутивов

Одно из решений уравнений Рабиновича–Фабриканта . Какова вероятность наблюдения состояния на определенном месте носителя (т. е. красном подмножестве)?

Абсолютно непрерывные и дискретные распределения с поддержкой или чрезвычайно полезны для моделирования множества явлений, [7] [5], поскольку большинство практических распределений поддерживаются на относительно простых подмножествах, таких как гиперкубы или шары . Однако это не всегда так, и существуют явления с опорами, которые на самом деле представляют собой сложные кривые в каком-то пространстве или что-то подобное. В этих случаях распределение вероятностей опирается на изображение такой кривой и, скорее всего, будет определено эмпирическим путем, а не поиском для него замкнутой формулы. [25]

Один из примеров показан на рисунке справа, где показана эволюция системы дифференциальных уравнений (широко известных как уравнения Рабиновича – Фабриканта ), которые можно использовать для моделирования поведения ленгмюровских волн в плазме . [26] Когда это явление изучается, наблюдаемые состояния из подмножества обозначены красным. Таким образом, можно было бы спросить, какова вероятность наблюдения состояния в определенной позиции красного подмножества; если такая вероятность существует, она называется вероятностной мерой системы. [27] [25]

Такая сложная поддержка довольно часто встречается в динамических системах . Установить, что система имеет вероятностную меру, непросто, и основная проблема заключается в следующем. Пусть – моменты времени и подмножество носителя; если для системы существует вероятностная мера, можно было бы ожидать, что частота наблюдений состояний внутри множества будет равна интервалу и , чего может не произойти; например, он может колебаться подобно синусу, предел которого при не сходится. Формально мера существует только в том случае, если предел относительной частоты сходится при наблюдении системы в бесконечное будущее. [28] Разделом динамических систем, изучающим существование вероятностной меры, является эргодическая теория .

Обратите внимание, что даже в этих случаях распределение вероятностей, если оно существует, все равно можно было бы назвать «абсолютно непрерывным» или «дискретным» в зависимости от того, является ли носитель несчетным или счетным соответственно.

Генерация случайных чисел

Большинство алгоритмов основаны на генераторе псевдослучайных чисел , который выдает числа , равномерно распределенные в полуоткрытом интервале [0, 1) . Эти случайные величины затем преобразуются с помощью некоторого алгоритма для создания новой случайной величины, имеющей требуемое распределение вероятностей. С помощью этого источника однородной псевдослучайности можно генерировать реализации любой случайной величины. [29]

Например, предположим, что имеет равномерное распределение между 0 и 1. Чтобы построить случайную переменную Бернулли для некоторого , мы определяем

Эта случайная величина X имеет распределение Бернулли с параметром . [29] Это преобразование дискретной случайной величины.

Для функции распределения абсолютно непрерывной случайной величины необходимо построить абсолютно непрерывную случайную величину. , обратная функция , относится к однородной переменной :

Например, предположим, что необходимо построить случайную величину, имеющую экспоненциальное распределение.

[29]

Частой проблемой при статистическом моделировании ( метод Монте-Карло ) является генерация псевдослучайных чисел , которые распределяются заданным образом.

Общие распределения вероятностей и их приложения.

Концепция распределения вероятностей и описываемых ими случайных величин лежит в основе математической дисциплины теории вероятностей и статистики. Существует разброс или изменчивость практически любой величины, которую можно измерить в популяции (например, рост людей, долговечность металла, рост продаж, транспортный поток и т. д.); почти все измерения производятся с некоторой основной погрешностью; В физике многие процессы описываются вероятностно, от кинетических свойств газов до квантовомеханического описания элементарных частиц . По этим и многим другим причинам простые числа часто недостаточны для описания величины, в то время как распределения вероятностей часто более подходят.

Ниже приводится список некоторых наиболее распространенных распределений вероятностей, сгруппированных по типу процесса, к которому они относятся. Более полный список см. в списке вероятностных распределений , которые группируются по характеру рассматриваемого результата (дискретные, абсолютно непрерывные, многомерные и т. д.).

Все приведенные ниже одномерные распределения имеют один пик; то есть предполагается, что значения группируются вокруг одной точки. На практике фактически наблюдаемые величины могут группироваться вокруг нескольких значений. Такие количества можно смоделировать с помощью распределения смеси .

Линейный рост (например, ошибки, смещения)

Экспоненциальный рост (например, цен, доходов, населения)

Равномерно распределенные количества

Испытания Бернулли (события да/нет, с заданной вероятностью)

Категориальные исходы (события с K возможными исходами)

Пуассоновский процесс (события, происходящие независимо с заданной скоростью)

Абсолютные значения векторов с нормально распределенными компонентами

Нормально распределенные величины оперируют суммой квадратов.

Как сопряженные априорные распределения в байесовском выводе

Некоторые специализированные приложения вероятностных распределений

Примерка

Подбор распределения вероятностей или просто подбор распределения — это подбор распределения вероятностей к ряду данных, касающихся повторных измерений переменного явления. Целью подбора распределения является предсказание вероятности или частоты возникновения величины явления в определенном интервале .

Существует множество распределений вероятностей (см. список распределений вероятностей ), из которых некоторые можно более точно подогнать к наблюдаемой частоте данных, чем другие, в зависимости от характеристик явления и распределения. Предполагается, что распределение, дающее точное соответствие, приведет к хорошим прогнозам.

Поэтому при подборе распределения необходимо выбрать распределение, которое хорошо соответствует данным.

Смотрите также

Списки

Рекомендации

Цитаты

  1. ^ аб Эверитт, Брайан (2006). Кембриджский статистический словарь (3-е изд.). Кембридж, Великобритания: Издательство Кембриджского университета. ISBN 978-0-511-24688-3. ОСЛК  161828328.
  2. ^ Эш, Роберт Б. (2008). Основная теория вероятностей (изд. Дувра). Минеола, Нью-Йорк: Dover Publications. стр. 66–69. ISBN 978-0-486-46628-6. ОКЛК  190785258.
  3. ^ аб Эванс, Майкл; Розенталь, Джеффри С. (2010). Вероятность и статистика: наука о неопределенности (2-е изд.). Нью-Йорк: WH Freeman and Co., с. 38. ISBN 978-1-4292-2462-8. ОКЛК  473463742.
  4. ^ ab «1.3.6.1. Что такое распределение вероятностей». www.itl.nist.gov . Проверено 10 сентября 2020 г.
  5. ^ Аб Деккинг, Мишель (1946–) (2005). Современное введение в вероятность и статистику: понимание почему и как . Лондон, Великобритания: Спрингер. ISBN 978-1-85233-896-1. ОСЛК  262680588.{{cite book}}: CS1 maint: numeric names: authors list (link)
  6. ^ Уолпол, RE; Майерс, Р.Х.; Майерс, СЛ; Йе, К. (1999). Вероятность и статистика для инженеров . Прентис Холл.
  7. ^ abcd Росс, Шелдон М. (2010). Первый курс теории вероятности . Пирсон.
  8. ^ аб ДеГрут, Моррис Х.; Шервиш, Марк Дж. (2002). Вероятность и статистика . Аддисон-Уэсли.
  9. ^ Биллингсли, П. (1986). Вероятность и мера . Уайли. ISBN 9780471804789.
  10. ^ Шепард, Нью-Йорк (1991). «От характеристической функции к функции распределения: простая основа теории». Эконометрическая теория . 7 (4): 519–529. дои : 10.1017/S0266466600004746. S2CID  14668369.
  11. ^ Главы 1 и 2 Вапника (1998)
  12. ^ ab Дополнительную информацию и примеры можно найти в статьях Распределение с тяжелым хвостом , Распределение с длинным хвостом , Распределение с толстым хвостом.
  13. ^ Эрхан, Чинлар (2011). Вероятность и стохастика . Нью-Йорк: Спрингер. п. 57. ИСБН 9780387878584.
  14. ^ см. теорему Лебега о разложении.
  15. ^ Эрхан, Чинлар (2011). Вероятность и стохастика . Нью-Йорк: Спрингер. п. 51. ИСБН 9780387878591. ОСЛК  710149819.
  16. ^ Кон, Дональд Л. (1993). Теория меры . Биркхойзер.
  17. ^ Хури, Андре И. (март 2004 г.). «Применение дельта-функции Дирака в статистике». Международный журнал математического образования в области науки и технологий . 35 (2): 185–195. дои : 10.1080/00207390310001638313. ISSN  0020-739X. S2CID  122501973.
  18. ^ Фиш, Марек (1963). Теория вероятностей и математическая статистика (3-е изд.). Джон Уайли и сыновья. п. 129. ИСБН 0-471-26250-1.
  19. ^ Джеффри Сет Розенталь (2000). Первый взгляд на строгую теорию вероятностей . Всемирная научная.
  20. ^ Глава 3.2 ДеГрута и Шервиша (2002)
  21. ^ Борн, Мюррей. «11. Распределения вероятностей – понятия». www.intmath.com . Проверено 10 сентября 2020 г.
  22. ^ В., Строк, Дэниел (1999). Теория вероятностей: аналитический взгляд (Переизданная ред.). Кембридж [Англия]: Издательство Кембриджского университета. п. 11. ISBN 978-0521663496. ОСЛК  43953136.{{cite book}}: CS1 maint: multiple names: authors list (link)
  23. ^ Колмогоров, Андрей (1950) [1933]. Основы теории вероятностей . Нью-Йорк, США: Издательство Челси. стр. 21–24.
  24. ^ Джойс, Дэвид (2014). «Аксиомы вероятности» (PDF) . Университет Кларка . Проверено 5 декабря 2019 г.
  25. ^ аб Аллигуд, КТ; Зауэр, Т.Д.; Йорк, Дж.А. (1996). Хаос: введение в динамические системы . Спрингер.
  26. ^ Рабинович, М.И.; Фабрикант, Ал. (1979). «Стохастическая самомодуляция волн в неравновесных средах». Дж. Эксп. Теор. Физ . 77 : 617–629. Бибкод : 1979JETP...50..311R.
  27. ^ Раздел 1.9 Росс, С.М.; Пекез, Э.А. (2007). Второй курс вероятности (PDF) .
  28. ^ Уолтерс, Питер (2000). Введение в эргодическую теорию . Спрингер.
  29. ^ abc Деккинг, Фредерик Мишель; Краайкамп, Корнелис; Лопухаа, Хендрик Пауль; Мистер, Людольф Эрвин (2005), «Почему вероятность и статистика?», Современное введение в вероятность и статистику , Springer London, стр. 1–11, doi : 10.1007/1-84628-168-7_1, ISBN 978-1-85233-896-1
  30. ^ Бишоп, Кристофер М. (2006). Распознавание образов и машинное обучение . Нью-Йорк: Спрингер. ISBN 0-387-31073-8. ОСЛК  71008143.
  31. ^ Чанг, Раймонд. (2014). Физическая химия для химических наук . Томан, Джон В. младший, 1960-. [Милл-Вэлли, Калифорния]. стр. 403–406. ISBN 978-1-68015-835-9. ОСЛК  927509011.{{cite book}}: CS1 maint: location missing publisher (link)
  32. ^ Чен, П.; Чен, З.; Бак-Йенсен, Б. (апрель 2008 г.). «Вероятностный поток нагрузки: обзор». 2008 Третья Международная конференция по дерегулированию и реструктуризации электроэнергетики и энергетическим технологиям . стр. 1586–1591. дои : 10.1109/drpt.2008.4523658. ISBN 978-7-900714-13-8. S2CID  18669309.
  33. ^ Майти, Раджиб (30 апреля 2018 г.). Статистические методы в гидрологии и гидроклиматологии . Сингапур. ISBN 978-981-10-8779-0. ОСЛК  1038418263.{{cite book}}: CS1 maint: location missing publisher (link)

Источники

Внешние ссылки