В статистике график P-P ( график вероятность-вероятность или график процентов-процентов или график значения P ) представляет собой вероятностный график для оценки того, насколько близко согласуются два набора данных , или для оценки того, насколько близко набор данных соответствует конкретной модели. Он работает путем построения графика двух кумулятивных функций распределения друг против друга; если они похожи, данные будут выглядеть почти прямой линией. Такое поведение похоже на поведение более широко используемого графика Q–Q , с которым его часто путают.
График AP – P отображает две кумулятивные функции распределения (cdf) друг против друга: [1] с учетом двух вероятностных распределений, с cdf « F » и « G », он строится в диапазоне z от до. Поскольку cdf имеет диапазон [0,1 ], областью определения этого параметрического графа является , а диапазоном является единичный квадрат
Таким образом , для входа z выходом является пара чисел, показывающая, какой процент f и какой процент g приходится на z или ниже .
Линия сравнения — это линия под углом 45° от (0,0) до (1,1), и распределения равны тогда и только тогда, когда график попадает на эту линию. Степень отклонения позволяет легко визуально определить, насколько различны распределения, но из-за ошибки выборки даже выборки, взятые из идентичных распределений, не будут выглядеть идентичными. [2]
Например, если два распределения не перекрываются, скажем, F находится ниже G, тогда график P – P будет перемещаться слева направо вдоль нижней части квадрата – когда z движется через опору F, cdf F изменяется от 0 до 1, в то время как CDF G остается на 0 – а затем перемещается вверх по правой стороне квадрата – CDF F теперь равен 1, поскольку все точки F лежат ниже всех точек G, и теперь CDF G перемещается от 0 до 1 по мере того, как z проходит через опору G. (для этого абзаца нужен график)
Как показывает приведенный выше пример, если два распределения разделены в пространстве, график P – P даст очень мало данных – он полезен только для сравнения распределений вероятностей, которые имеют близкое или одинаковое расположение. Примечательно, что оно пройдет через точку (1/2, 1/2) тогда и только тогда, когда два распределения имеют одинаковую медиану .
Графики P–P иногда ограничиваются сравнением двух выборок, а не сравнением выборки с распределением теоретической модели. [3] Однако они имеют общее применение, особенно там, где не все наблюдения моделируются с одинаковым распределением.
Тем не менее, он нашел некоторое применение при сравнении выборочного распределения с известным теоретическим распределением: для n выборок построение графика непрерывного теоретического CDF против эмпирического CDF дало бы ступеньку (шаг, когда z достигает выборки) и достигло бы вершины. площади, когда была достигнута последняя точка данных. Вместо этого строят только точки, отображая наблюдаемые k -ые наблюдаемые точки (по порядку: формально наблюдаемая статистика k -го порядка) против квантиля k /( n + 1) теоретического распределения. [3] Этот выбор «положения графика» (выбор квантиля теоретического распределения) вызвал меньше споров, чем выбор графиков Q – Q. Полученная в результате точность соответствия линии 45° дает меру разницы между набором выборок и теоретическим распределением.
График AP-P можно использовать в качестве графического дополнения к тестам на соответствие вероятностных распределений [4] [5] с добавлением дополнительных линий на график, чтобы указать либо конкретные области приемлемости, либо диапазон ожидаемого отклонения от 1. :1 строка. Доступна улучшенная версия графика P–P, называемая графиком SP или S–P, [4] [5], в которой используется преобразование, стабилизирующее дисперсию, для создания графика, на котором изменения примерно 1:1. линия должна быть одинаковой во всех местах.