Вероятностный ящик ( или p-ящик ) — это характеристика неопределенных чисел, состоящая из алеаторических и эпистемических неопределенностей , которая часто используется в анализе рисков или количественном моделировании неопределенности , где необходимо выполнять численные расчеты . Анализ границ вероятности используется для выполнения арифметических и логических расчетов с p-ящиками.
Пример p-box показан на рисунке справа для неопределенного числа x, состоящего из левой (верхней) границы и правой (нижней) границы распределения вероятностей для x . Границы совпадают для значений x ниже 0 и выше 24. Границы могут иметь практически любую форму, включая ступенчатые функции, при условии, что они монотонно возрастают и не пересекаются друг с другом. P-box используется для одновременного выражения неопределенности (эпистемической неопределенности), которая представлена шириной между левым и правым краями p-box, и изменчивости (алеаторной неопределенности), которая представлена общим наклоном p-box.
Существуют двойные интерпретации p-box. Его можно понимать как границы кумулятивной вероятности, связанной с любым значением x . Например, в p-box, изображенном справа, вероятность того, что значение будет 2,5 или меньше, составляет от 4% до 36%. P-box также можно понимать как границы значения x на любом конкретном уровне вероятности. В этом примере 95-й процентиль наверняка будет между 9 и 16.
Если левая и правая границы p-box обязательно охватывают неизвестное распределение, границы называются строгими или абсолютными. Границы также могут быть максимально узкими из возможных для функции распределения с учетом имеющейся информации о ней, и в этом случае границы называются наилучшими возможными . Однако часто может быть так, что не каждое распределение, которое лежит в этих границах, является возможным распределением для неопределенного числа, даже если границы являются строгими и наилучшими возможными.
P-boxes задаются левыми и правыми границами функции распределения (или, что эквивалентно, функцией выживания ) величины и, опционально, дополнительной информацией, ограничивающей среднее значение и дисперсию величины указанными интервалами, а также указанными ограничениями на ее форму распределения (семейство, унимодальность , симметрия и т. д.). P-box представляет класс распределений вероятностей, соответствующих этим ограничениям.
Функция распределения действительных чисел — это функция , для которой D ( x ) ≤ D ( y ) всякий раз, когда x < y , и предел D при +∞ равен 1, а предел при −∞ равен 0. P-box — это набор функций распределения F , удовлетворяющих следующим ограничениям для указанных функций распределения F F , и указанных границ m 1 ≤ m 2 для ожидаемого значения распределения и указанных границ v 1 ≤ v 2 для дисперсии распределения.
где интегралы вида являются интегралами Римана–Стилтьеса .
Таким образом, ограничения заключаются в том, что функция распределения F попадает в заданные границы, среднее значение распределения находится в интервале m , дисперсия распределения находится в интервале v , и распределение находится в пределах некоторого допустимого класса распределений F. Интегралы Римана–Стилтьеса не зависят от дифференцируемости F.
P-boxes выполняют ту же роль для случайных величин , что и верхняя и нижняя вероятности для событий . В надежном байесовском анализе [1] p-box также известен как полоса распределения. [2] [3] P-box может быть построен как замкнутая окрестность распределения по метрике Колмогорова , Леви или Вассерштейна . P-box — это грубый, но удобный с точки зрения вычислений вид кредального множества . В то время как кредальное множество определяется исключительно в терминах ограничения F как выпуклое множество распределений (которые автоматически определяют F , F , m и v , но часто очень сложны для вычислений), p-box обычно имеет слабо ограничивающую спецификацию F или даже не имеет ограничений, так что F = . Вычисления с p-boxes, в отличие от кредальных множеств, часто весьма эффективны, и известны алгоритмы для всех стандартных математических функций.
P-box минимально определяется его левой и правой границами, и в этом случае другие ограничения считаются пустыми, поскольку Даже если эти вспомогательные ограничения пусты, все равно могут существовать нетривиальные границы среднего значения и дисперсии, которые можно вывести из левого и правого краев p-box.
P-boxes могут возникать из различных видов неполной информации о величине, и существует несколько способов получения p-boxes из данных и аналитических суждений.
Когда известно, что распределение вероятностей имеет определенную форму (например, нормальное, равномерное, бета, Вейбулла и т. д.), но его параметры могут быть указаны только неточно как интервалы, результат называется распределительным p-box или иногда параметрическим p-box. Такой p-box обычно легко получить, охватывая экстремальные распределения с учетом возможных параметров. Например, если известно, что величина является нормальной со средним где-то в интервале [7,8] и стандартным отклонением в пределах интервала [1,2], левый и правый края p-box могут быть найдены путем охвата функций распределения четырех распределений вероятностей, а именно, нормального (7,1), нормального (8,1), нормального (7,2) и нормального (8,2), где нормальное (μ,σ) представляет собой нормальное распределение со средним μ и стандартным отклонением σ. Все распределения вероятностей, которые являются нормальными и имеют средние значения и стандартные отклонения внутри этих соответствующих интервалов, будут иметь функции распределения, которые полностью попадают в этот p-box. Левая и правая границы охватывают множество ненормальных распределений, но они были бы исключены из p-box, если бы в качестве семейства распределений указывалось нормальность.
Даже если параметры, такие как среднее значение и дисперсия распределения, известны точно, распределение не может быть точно определено, если семейство распределений неизвестно. В таких ситуациях огибающие всех распределений, соответствующих заданным моментам, могут быть построены из неравенств, таких как неравенства Маркова , Чебышева , Кантелли или Роу [4] [5] , которые охватывают все функции распределения с указанными параметрами. Они определяют p-boxes без распределения, поскольку они не делают никаких предположений о семействе или форме неопределенного распределения. Когда доступна качественная информация, например, что распределение является унимодальным , p-boxes часто можно существенно ужесточить. [6]
Когда все члены популяции могут быть измерены или когда случайные выборочные данные обильны, аналитики часто используют эмпирическое распределение для суммирования значений. Когда эти данные имеют не пренебрежимо малую неопределенность измерения, представленную интервальными диапазонами вокруг каждого выборочного значения, эмпирическое распределение может быть обобщено до p-box. [7] Такой p-box может быть определен путем кумуляции нижних конечных точек всех интервальных измерений в кумулятивное распределение, образующее левый край p-box, и кумуляции верхних конечных точек для формирования правого края. Чем шире неопределенность измерения, тем шире результирующий p-box.
Интервальные измерения также могут использоваться для обобщения распределительных оценок на основе метода совпадающих моментов или максимального правдоподобия , которые делают предположения о форме, такие как нормальность или логнормальность и т. д. [7] [8] Хотя неопределенность измерения может быть обработана строго, результирующий распределительный p-box, как правило, не будет строгим, когда это выборочная оценка, основанная только на подвыборке возможных значений. Но, поскольку эти вычисления учитывают зависимость между параметрами распределения, они часто будут давать более узкие p-box, чем те, которые можно было бы получить, рассматривая интервальные оценки параметров как несвязанные, как это делается для распределительных p-box.
Может существовать неопределенность относительно формы распределения вероятностей, поскольку размер выборки эмпирических данных, характеризующих его, мал. Было предложено несколько методов в традиционной статистике для учета этой неопределенности выборки относительно формы распределения, включая Колмогорова–Смирнова [9] и аналогичные [10] доверительные полосы , которые являются свободными от распределения в том смысле, что они не делают никаких предположений о форме базового распределения. Существуют связанные методы доверительных полос, которые делают предположения о форме или семействе базового распределения, что часто может приводить к более узким доверительным полосам. [11] [12] [13] Построение доверительных полос требует выбора вероятности, определяющей уровень доверия, который обычно должен быть меньше 100%, чтобы результат не был пустым. Доверительные полосы на уровне доверия (1 − α)% определяются таким образом, что в (1 − α)% времени, когда они построены, они будут полностью охватывать распределение, из которого данные были случайно выбраны. Доверительная полоса функции распределения иногда используется как p-box, хотя она представляет статистические, а не строгие или надежные границы. Такое использование неявно предполагает, что истинное распределение, каким бы оно ни было, находится внутри p-box.
Аналогичная байесовская структура называется байесовским p-box, [14] [15], который охватывает все распределения, имеющие параметры в подмножестве пространства параметров, соответствующем некоторому указанному уровню вероятности из байесовского анализа данных. Это подмножество является областью достоверности для параметров, заданных данными, которая может быть определена как область наивысшей апостериорной плотности вероятности или область наименьших апостериорных потерь, или каким-либо другим подходящим способом. Для построения байесовского p-box необходимо выбрать априорное распределение, в дополнение к указанию уровня достоверности (аналогичного уровню уверенности).
C-boxes (или доверительные структуры [16] ) являются оценщиками фиксированных, действительных величин, которые зависят от случайных выборочных данных и кодируют доверительные интервалы Неймана [17] на каждом уровне доверия. [18] [19] [16] Они характеризуют выводимую неопределенность оценки в форме набора фокусных интервалов (или наборов), каждый из которых имеет связанную с ним доверительную (вероятностную) массу. Этот набор может быть изображен как p-box и может проецировать интерпретацию доверия посредством анализа границ вероятности .
В отличие от традиционных доверительных интервалов, которые обычно не могут быть распространены посредством математических вычислений, c-boxes могут использоваться в вычислениях способами, которые сохраняют возможность получения произвольных доверительных интервалов для результатов. [20] [19] Например, их можно использовать для вычисления вероятностных интервалов как для распределений прогнозов, так и для распределений допусков.
C-boxes могут быть вычислены различными способами непосредственно из случайных выборочных данных. Существуют доверительные ящики как для параметрических задач, где известно семейство базового распределения, из которого данные были случайно сгенерированы (включая нормальное, логнормальное, экспоненциальное, Бернулли, биномиальное, Пуассона), так и для непараметрических задач, в которых форма базового распределения неизвестна. [20] Доверительные ящики учитывают неопределенность параметра, которая возникает из вывода из наблюдений, включая эффект малого размера выборки, а также потенциально эффекты неточности в данных и демографической неопределенности, которая возникает при попытке охарактеризовать непрерывный параметр из дискретных данных наблюдений.
C-boxes тесно связаны с несколькими другими концепциями. Они сопоставимы с бутстрап-распределениями [ 21] и являются неточными обобщениями традиционных доверительных распределений, таких как t -распределение Стьюдента . Подобно ему, c-boxes кодируют частотные доверительные интервалы для интересующих параметров на каждом уровне достоверности. Они аналогичны байесовским апостериорным распределениям в том, что характеризуют выводимую неопределенность статистических параметров, оцененных по разреженным или неточным выборочным данным, но они могут иметь чисто частотную интерпретацию, что делает их полезными в инженерии, поскольку они предлагают гарантию статистической производительности при повторном использовании. В случае параметра Бернулли или биномиальной скорости c-box математически эквивалентен неточной бета-модели Уолли [22] [23] с параметром s = 1, что является частным случаем неточного процесса Дирихле , центральной идеи в надежном байесовском анализе .
В отличие от доверительных интервалов, которые являются доверительными пределами для всей функции распределения на некотором конкретном уровне достоверности, c-boxes кодируют доверительные интервалы для фиксированной величины на всех возможных уровнях достоверности одновременно.
Когда существует несколько возможных распределений вероятностей, которые могут описывать переменную, и аналитик не может исключить ни одно из них на основе доступной информации, p-box может быть построен как огибающая различных кумулятивных распределений. [24] [25] Также возможно учесть неопределенность относительно того, какое распределение является правильным, с помощью исследования чувствительности, но такие исследования становятся более сложными по мере роста числа возможных распределений и комбинаторно более сложными по мере увеличения числа переменных, относительно которых может быть несколько распределений. Огибающий подход более консервативен в отношении этой неопределенности, чем различные альтернативные подходы к обработке неопределенности, которые усредняют распределения в моделях стохастической смеси или усредняют байесовские модели. Неизвестное истинное распределение, вероятно, будет находиться в классе распределений, охватываемых p-box. Напротив, если предположить, что истинное распределение является одним из усредняемых распределений, среднее распределение наверняка будет непохоже на неизвестное истинное распределение.
P-boxes могут возникать из вычислений, включающих распределения вероятностей, или включающих как распределение вероятностей, так и интервал, или включающих другие p-boxes. Например, сумма величины, представленной распределением вероятностей, и величины, представленной интервалом, обычно будет характеризоваться p-boxes. [26] Сумма двух случайных величин, характеризуемых хорошо определенными распределениями вероятностей, является другим точным распределением вероятностей, как правило, только когда копула (функция зависимости) между двумя слагаемыми полностью определена. Когда их зависимость неизвестна или определена только частично, сумма будет более подходящим образом представлена p-boxes, поскольку различные отношения зависимости приводят к множеству различных распределений для суммы. Колмогоров первоначально задался вопросом, какие границы могут быть наложены на распределение суммы, когда ничего не известно о зависимости между распределениями слагаемых. [27] На этот вопрос был дан ответ только в начале 1980-х годов. С тех пор формулы и алгоритмы для сумм были обобщены и распространены на разности, произведения, частные и другие бинарные и унарные функции при различных предположениях о зависимости. [27] [28] [29] [30] [31] [32] [33]
Эти методы, совместно называемые анализом границ вероятности , предоставляют алгоритмы для оценки математических выражений, когда есть неопределенность относительно входных значений, их зависимостей или даже формы самого математического выражения. Вычисления дают результаты, которые гарантированно охватывают все возможные распределения выходной переменной, если входные p-boxes также были уверены, что охватывают свои соответствующие распределения. В некоторых случаях вычисленный p-box также будет наилучшим возможным в том смысле, что только возможные распределения находятся внутри p-box, но это не всегда гарантировано. Например, набор распределений вероятностей, которые могут быть получены путем сложения случайных значений без предположения о независимости от двух (точных) распределений, как правило, является надлежащим подмножеством всех распределений, допускаемых вычисленным p-boxes. То есть, существуют распределения внутри выходного p-boxes, которые не могли бы возникнуть при какой-либо зависимости между двумя входными распределениями. Однако выходной p-boxes всегда будет содержать все возможные распределения, пока входные p-boxes были уверены, что охватывают свои соответствующие базовые распределения. Этого свойства часто достаточно для использования в анализе риска .
Точные распределения вероятностей и интервалы являются частными случаями p-boxes, как и действительные значения и целые числа . Поскольку распределение вероятностей выражает изменчивость и не имеет неопределенности, левая и правая границы его p-boxes совпадают для всех значений x при значении кумулятивной функции распределения (которая является неубывающей функцией от нуля до единицы). Математически распределение вероятностей F является вырожденным p-boxes { F , F , E( F ), V( F ), F }, где E и V обозначают операторы ожидания и дисперсии. Интервал выражает только неопределенность. Его p-box выглядит как прямоугольный ящик, верхняя и нижняя границы которого прыгают от нуля до единицы в конечных точках интервала. Математически интервал [ a , b ] соответствует вырожденному p-box {H( a ), H( b ), [ a , b ], [0, ( b – a ) 2/4 ], }, где H обозначает ступенчатую функцию Хевисайда . Точное скалярное число c лишено обоих видов неопределенности. Его p-box — это просто ступенчатая функция от 0 до 1 при значении c ; математически это {H( c ), H( c ), c , 0, H( c )}.
Анализ P-boxes и границ вероятности использовался во многих приложениях, охватывающих многие дисциплины в области инженерии и экологии, включая:
Нет внутренней структуры . Поскольку p-box сохраняет мало информации о любой внутренней структуре в пределах границ, он не проясняет, какие распределения внутри p-box наиболее вероятны, и представляют ли края очень маловероятные или отчетливо вероятные сценарии. Это может усложнить решения в некоторых случаях, если край p-box охватывает порог принятия решения.
Теряет информацию . Для достижения вычислительной эффективности p-boxes теряют информацию по сравнению с более сложными структурами Демпстера–Шейфера или кредальными наборами . [24] В частности, p-boxes теряют информацию о моде (наиболее вероятном значении) величины. Эту информацию может быть полезно сохранить, особенно в ситуациях, когда величина является неизвестным, но фиксированным значением.
Традиционная вероятность достаточна . Некоторые критики p-boxes утверждают, что точно заданные распределения вероятностей достаточны для характеристики неопределенности всех видов. Например, Линдли утверждал: «Какой бы способ ни рассматривался неопределенность, вероятность — единственный разумный способ думать о ней». [71] [72] Эти критики утверждают, что бессмысленно говорить о «неопределенности относительно вероятности» и что традиционная вероятность — это полная теория, которая достаточна для характеристики всех форм неопределенности. Согласно этой критике, пользователи p-boxes просто не приложили необходимых усилий для определения соответствующих точно заданных функций распределения.
Теория возможностей может сделать лучше . Некоторые критики утверждают, что в некоторых случаях имеет смысл работать с распределением возможностей , а не работать отдельно с левыми и правыми краями p-boxes. Они утверждают, что множество распределений вероятностей, вызванных распределением возможностей, является подмножеством тех, которые заключены в краях аналогичного p-boxes. [73] [74] Другие выдвигают контраргумент, что нельзя сделать лучше с распределением возможностей, чем с p-boxes. [75]