stringtranslate.com

График вопросов-вопросов

Обычный график Q – Q случайно сгенерированных независимых стандартных экспоненциальных данных ( X ~ Exp(1) ). На этом графике Q–Q выборка данных сравнивается по вертикальной оси со статистической совокупностью по горизонтальной оси. Точки следуют сильно нелинейному шаблону, что позволяет предположить, что данные не распределяются по стандартному нормальному закону ( X ~ N(0,1) ). Смещение между линией и точками предполагает, что среднее значение данных не равно 0. Медиана точек может быть определена как около 0,7.
Нормальный график Q-Q, сравнивающий случайно сгенерированные независимые стандартные нормальные данные по вертикальной оси со стандартной нормальной популяцией по горизонтальной оси. Линейность точек предполагает нормальное распределение данных.
График AQ–Q выборки данных в сравнении с распределением Вейбулла . Децили распределений показаны красным цветом. В верхней части диапазона очевидны три выброса. В остальном данные хорошо соответствуют модели Вейбулла (1,2).
График AQ – Q, сравнивающий распределения стандартизированных дневных максимальных температур на 25 станциях в американском штате Огайо в марте и в июле. Изогнутая диаграмма предполагает, что центральные квантили расположены ближе друг к другу в июле, чем в марте, и что июльское распределение смещено влево по сравнению с мартовским распределением. Данные охватывают период 1893–2001 гг.

В статистике график Q-Q ( график квантилей-квантилей ) — это вероятностный график, графический метод сравнения двух распределений вероятностей путем сопоставления их квантилей друг с другом. [1] Точка ( x , y ) на графике соответствует одному из квантилей второго распределения ( координата y ), нанесенному на график против того же квантиля первого распределения ( координата x ). Это определяет параметрическую кривую , где параметром является индекс квантильного интервала.

Если два сравниваемых распределения подобны, точки на графике Q – Q будут примерно лежать на тождественной линии y = x . Если распределения линейно связаны, точки на графике Q – Q будут примерно лежать на линии, но не обязательно на линии y = x . Графики Q – Q также можно использовать в качестве графического средства оценки параметров в семействе распределений в масштабе местоположения .

График AQ – Q используется для сравнения форм распределений, предоставляя графическое представление о том, насколько такие свойства, как местоположение , масштаб и асимметрия , похожи или различны в двух распределениях. Графики Q–Q можно использовать для сравнения наборов данных или теоретических распределений . Использование графиков Q–Q для сравнения двух выборок данных можно рассматривать как непараметрический подход к сравнению их основных распределений. График AQ – Q, как правило, более диагностичен, чем сравнение гистограмм образцов , но менее широко известен. Графики Q – Q обычно используются для сравнения набора данных с теоретической моделью. [2] [3] Это может дать графическую оценку степени соответствия , а не сводиться к числовой сводной статистике . Графики Q – Q также используются для сравнения двух теоретических распределений друг с другом. [4] Поскольку графики Q–Q сравнивают распределения, нет необходимости наблюдать значения в виде пар, как на диаграмме рассеяния , или даже чтобы количество значений в двух сравниваемых группах было равным.

Термин «вероятностный график» иногда относится конкретно к графику Q–Q, иногда к более общему классу графиков, а иногда к менее часто используемому графику P–P . График коэффициента корреляции вероятностного графика (график PPCC) - это величина, полученная на основе идеи графиков Q – Q, которая измеряет соответствие подобранного распределения с наблюдаемыми данными и которая иногда используется как средство подгонки распределения к данным.

Определение и конструкция

График Q–Q для дат первого открытия/окончательного закрытия шоссе 20 штата Вашингтон в сравнении с нормальным распределением. [5] Выбросы видны в правом верхнем углу.

График Q – Q — это график сопоставления квантилей двух распределений друг против друга или график, основанный на оценках квантилей. Набор точек на графике используется для сравнения двух распределений.

Основным шагом в построении графика Q – Q является расчет или оценка квантилей, которые будут отображаться на графике. Если одна или обе оси на графике Q – Q основаны на теоретическом распределении с непрерывной кумулятивной функцией распределения (CDF), все квантили определяются однозначно и могут быть получены путем инвертирования CDF. Если теоретическое распределение вероятностей с прерывистой CDF является одним из двух сравниваемых распределений, некоторые квантили могут быть не определены, поэтому можно построить интерполированный квантиль. Если график Q–Q основан на данных, используется несколько квантильных оценок. Правила построения графиков Q – Q, когда квантили необходимо оценить или интерполировать, называются положениями графика.

Простой случай — два набора данных одинакового размера. В этом случае, чтобы построить график Q – Q, каждый набор упорядочивается в порядке возрастания, затем объединяется в пары и строит соответствующие значения. Более сложная конструкция — это случай, когда сравниваются два набора данных разного размера. В этом случае для построения графика Q – Q необходимо использовать интерполированную оценку квантилей, чтобы можно было построить квантили, соответствующие одной и той же базовой вероятности.

Более абстрактно, [4] при наличии двух кумулятивных функций распределения вероятностей F и G с соответствующими функциями квантиля F −1 и G −1 (обратная функция CDF является функцией квантиля), график Q–Q рисует q -ю квантиль F против q -го квантиля G для диапазона значений q . Таким образом, график Q-Q представляет собой параметрическую кривую , индексированную по [0,1] со значениями в реальной плоскости R 2 .

Интерпретация

Точки, нанесенные на график Q – Q, всегда не уменьшаются, если смотреть слева направо. Если два сравниваемых распределения идентичны, график Q – Q следует линии y = x под углом 45 ° . Если два распределения согласуются после линейного преобразования значений в одном из распределений, то график Q – Q следует некоторой линии, но не обязательно линии y = x . Если общий тренд графика Q – Q более пологий, чем линия y = x , распределение, нанесенное на горизонтальную ось, более разбросано , чем распределение, нанесенное на вертикальную ось. И наоборот, если общий тренд графика Q – Q более крутой, чем линия y = x , распределение, нанесенное на вертикальной оси, более разбросано, чем распределение, нанесенное на горизонтальную ось. Графики Q – Q часто имеют дугообразную или S-образную форму, что указывает на то, что одно из распределений более асимметрично, чем другое, или что одно из распределений имеет более тяжелые хвосты, чем другое.

Хотя график Q–Q основан на квантилях, на стандартном графике Q–Q невозможно определить, какая точка на графике Q–Q определяет данный квантиль. Например, невозможно определить медиану любого из двух сравниваемых распределений путем проверки графика Q – Q. На некоторых графиках Q–Q указаны децили, позволяющие сделать подобные определения возможными.

Точка пересечения и наклон линейной регрессии между квантилями дают меру относительного местоположения и относительного масштаба выборок. Если медиана распределения, нанесенного на горизонтальную ось, равна 0, точка пересечения линии регрессии является мерой местоположения, а наклон — мерой масштаба. Расстояние между медианами является еще одной мерой относительного местоположения, отраженной на графике Q – Q. « Коэффициент корреляции вероятностного графика » (график PPCC) представляет собой коэффициент корреляции между парными квантилями выборки. Чем ближе коэффициент корреляции к единице, тем ближе распределения к сдвинутым, масштабированным версиям друг друга. Для распределений с одним параметром формы график коэффициента корреляции вероятности предоставляет метод оценки параметра формы: просто вычисляется коэффициент корреляции для различных значений параметра формы и используется тот, который лучше всего подходит, как если бы сравнивали дистрибутивы разных типов.

Другое распространенное использование графиков Q – Q — сравнение распределения выборки с теоретическим распределением, таким как стандартное нормальное распределение N (0,1) , как на графике нормальной вероятности . Как и в случае сравнения двух выборок данных, данные упорядочиваются (формально вычисляются порядковая статистика), а затем строится график их зависимости от определенных квантилей теоретического распределения. [3]

Отрисовка позиций

Выбор квантилей из теоретического распределения может зависеть от контекста и цели. Одним из вариантов выбора при размере выборки n является k / n для k = 1, …, n , поскольку это квантили, реализуемые распределением выборки. Последний из них, n / n , соответствует 100-му процентилю – максимальному значению теоретического распределения, которое иногда бесконечно. Другими вариантами являются использование ( k − 0,5) / n или вместо этого размещение n точек так, чтобы между всеми ними, а также между двумя крайними точками и краями интервала было одинаковое расстояние , используя k / ( п + 1) . [6]

Было предложено множество других вариантов, как формальных, так и эвристических, основанных на теории или моделировании, соответствующих контексту. В следующих подразделах обсуждаются некоторые из них. Более узкий вопрос — это выбор максимума (оценка максимума численности населения), известный как проблема немецких танков , для которой существуют аналогичные решения «максимум выборки плюс разрыв», проще всего m + m / n − 1 . Более формальное применение этой униформизации интервалов происходит при оценке параметров с максимальным интервалом .

Ожидаемое значение статистики порядка для равномерного распределения

Подход k / ( n + 1) эквивалентен построению точек в соответствии с вероятностью того, что последнее из ( n + 1 ) случайно выбранных значений не превысит k наименьшее из первых n случайно выбранных значений. [7] [8]

Ожидаемое значение статистики порядка для стандартного нормального распределения

При использовании графика нормальной вероятности в качестве квантилей используются ранкиты , квантиль ожидаемого значения порядковой статистики стандартного нормального распределения.

В более общем смысле, тест Шапиро – Уилка использует ожидаемые значения порядковой статистики данного распределения; Полученный график и линия дают обобщенную оценку местоположения и масштаба методом наименьших квадратов (из точки пересечения и наклона подобранной линии). [9] Хотя для нормального распределения это не слишком важно (местоположение и масштаб оцениваются по среднему и стандартному отклонению соответственно), это может быть полезно для многих других распределений.

Однако для этого требуется вычислить ожидаемые значения статистики порядка, что может оказаться затруднительным, если распределение не является нормальным.

Медиана статистики заказов

В качестве альтернативы можно использовать оценки медианы статистики порядка, которые можно вычислить на основе оценок медианы статистики порядка равномерного распределения и функции квантиля распределения; это было предложено Филлибеном (1975). [9]

Это можно легко сгенерировать для любого распределения, для которого можно вычислить функцию квантиля, но, наоборот, полученные оценки местоположения и масштаба больше не являются точными оценками наименьших квадратов, хотя они существенно различаются только для малых n .

Эвристика

Несколько различных формул использовались или предлагались в качестве аффинно -симметричных положений графика . Такие формулы имеют вид ( ka ) / ( n + 1 − 2 a ) для некоторого значения a в диапазоне от 0 до 1, что дает диапазон между k / ( n + 1) и ( k − 1) / ( п - 1) .

Выражения включают в себя:

Для большого размера выборки n разница между этими различными выражениями невелика.

Оценка Филлибена

Медианы статистики порядка — это медианы порядковой статистики распределения. Их можно выразить через функцию квантиля и медианы статистики порядка для непрерывного равномерного распределения следующим образом:

где U ( i ) — медианы статистики равномерного порядка, а G — функция квантиля для желаемого распределения. Функция квантиля является обратной функцией кумулятивной функции распределения (вероятность того, что X меньше или равна некоторому значению). То есть, учитывая вероятность, нам нужен соответствующий квантиль кумулятивной функции распределения.

Джеймс Дж. Филлибен использует следующие оценки медиан статистики равномерного порядка: [17]

Причина такой оценки в том, что медианы порядковой статистики не имеют простой формы.

Программное обеспечение

В язык программирования R входят функции для построения графиков Q–Q, а именно qqnorm и qqplot из statsпакета. Пакет fastqqреализует более быстрое построение графиков для большого количества точек данных.

Смотрите также

Примечания

  1. ^ Обратите внимание, что здесь также используется другое выражение для первой и последней точек. [1] цитирует оригинальную работу Филлибена (1975). Это выражение является оценкой медианы U ( k ) .
  2. ^ Простая (и легко запоминающаяся) формула построения позиций; используется в статистическом пакете BMDP .
  3. ^ Это более раннее приближение Блома (1958) и выражение, используемое в MINITAB .
  4. ^ Это положение графика было использовано Ирвингом И. Грингортеном [14] для нанесения точек в тестах на распределение Гамбеля .
  5. ^ Эти точки графика , используемые Филлибеном (1975), равны модам U ( k ) .

Рекомендации

Цитаты

  1. ^ Уилк, МБ; Гнанадэсикан, Р. (1968), «Методы построения вероятностных графиков для анализа данных», Biometrika , Biometrika Trust, 55 (1): 1–17, doi : 10.1093/biomet/55.1.1, JSTOR  2334448, PMID  5661047.
  2. ^ Гнанадэсикан (1977), с. 199.
  3. ^ ab Thode (2002), Раздел 2.2.2, Квантиль-квантильные графики, стр. 21
  4. ^ аб Гиббонс и Чакраборти (2003), с. 144
  5. ^ «SR 20 - Шоссе Норт-Каскейдс - История открытия и закрытия» . Перевалы Северных Каскадов . Департамент транспорта штата Вашингтон. Октябрь 2009 года . Проверено 8 февраля 2009 г.
  6. ^ Вейбулл, Валодди (1939), «Статистическая теория сопротивления материалов», IVA Handlingar, Шведская королевская академия инженерных наук (151)
  7. ^ Мэдсен, ХО; и другие. (1986), Методы структурной безопасности.
  8. ^ Макконен, Л. (2008), «Завершение разногласий по поводу позиции построения графика», Коммуникации в статистике – теория и методы , 37 (3): 460–467, doi : 10.1080/03610920701653094, S2CID  122822135
  9. ^ ab Тестирование на нормальность, Генри К. Тоуд, CRC Press, 2002, ISBN 978-0-8247-9613-6 , стр. 31 
  10. ^ Бенард, А.; Бос-Левенбах, ЕС (сентябрь 1953 г.). «Нанесение наблюдений на вероятностную бумагу». Statistica Neederlandica (на голландском языке). 7 : 163–173. doi :10.1111/j.1467-9574.1953.tb00821.x.
  11. ^ «1.3.3.21. График нормальной вероятности» . itl.nist.gov . Проверено 16 февраля 2022 г.
  12. ^ Положение свободного распределения, Ю и Хуан
  13. ^ Каннейн (1978).
  14. ^ Грингортен, Ирвинг И. (1963). «Правило построения бумаги о предельной вероятности». Журнал геофизических исследований . 68 (3): 813–814. Бибкод : 1963JGR....68..813G. дои : 10.1029/JZ068i003p00813. ISSN  2156-2202.
  15. ^ Хазен, Аллен (1914), «Хранилища, которые должны быть предусмотрены в водохранилищах для муниципального водоснабжения», Труды Американского общества инженеров-строителей (77): 1547–1550
  16. ^ Ларсен, Карран и Хант (1980).
  17. ^ Филлибен (1975).

Источники

Внешние ссылки