stringtranslate.com

Правило 68–95–99,7

Для примерно нормального набора данных значения в пределах одного стандартного отклонения от среднего составляют около 68% набора; при этом в пределах двух стандартных отклонений приходится около 95%; и в пределах трех стандартных отклонений составляют около 99,7%. Показанные проценты представляют собой округленные теоретические вероятности, предназначенные только для аппроксимации эмпирических данных, полученных для нормальной популяции.
Интервал прогнозирования (по оси Y ), заданный на основе стандартной оценки (по оси X ). Ось Y имеет логарифмический масштаб (но значения на ней не изменяются).

В статистике правило 68–95–99,7 , также известное как эмпирическое правило , представляет собой сокращение, используемое для запоминания процента значений, которые лежат в пределах интервальной оценки в нормальном распределении : 68%, 95% и 99,7% от значения лежат в пределах одного, двух и трех стандартных отклонений от среднего соответственно.

В математических обозначениях эти факты можно выразить следующим образом, где Pr()функция вероятности , [1] Χ — наблюдение от нормально распределенной случайной величины , µ (мю) — среднее значение распределения, а σ (сигма ) — его стандартное отклонение:

Полезность этой эвристики особенно зависит от рассматриваемого вопроса.

В эмпирических науках так называемое эмпирическое правило трех сигм (или правило 3 σ ) выражает традиционную эвристику , согласно которой почти все значения считаются лежащими в пределах трех стандартных отклонений от среднего значения, и, таким образом, эмпирически полезно рассматривать 99,7. % вероятности как близкая к достоверности. [2]

В социальных науках результат можно считать « значимым », если уровень его достоверности находится на уровне эффекта двух сигм (95%), в то время как в физике элементарных частиц существует общепринятый эффект пяти сигм (99,99994%). доверие), которое необходимо квалифицировать как открытие .

Более слабое правило трех сигм можно вывести из неравенства Чебышева , утверждающего, что даже для переменных с ненормальным распределением по крайней мере 88,8% случаев должны попадать в правильно рассчитанные интервалы трех сигм. Для унимодальных распределений вероятность попадания в интервал составляет не менее 95% по неравенству Высочанского–Петунина . Могут существовать определенные предположения о распределении, которые заставляют эту вероятность составлять не менее 98%. [3]

Доказательство

У нас есть это

и этот интеграл не зависит от и . Нам нужно только вычислить каждый интеграл для случаев .

Кумулятивная функция распределения

Диаграмма, показывающая кумулятивную функцию распределения для нормального распределения со средним значением ( μ ) 0 и дисперсией ( σ2 ) 1

Эти числовые значения «68%, 95%, 99,7%» взяты из кумулятивной функции распределения нормального распределения .

Интервал прогнозирования для любой стандартной оценки z численно соответствует (1 - (1 - Φ µ , σ 2 (z)) · 2) .

Например, Φ (2) ≈ 0,9772 или Pr( Xµ + 2 σ ) ≈ 0,9772 , что соответствует интервалу прогнозирования (1 - (1 - 0,97725) · 2) = 0,9545 = 95,45% . Это не симметричный интервал – это просто вероятность того, что наблюдение меньше µ + 2 σ . Чтобы вычислить вероятность того, что наблюдение находится в пределах двух стандартных отклонений от среднего значения (небольшие различия из-за округления):

Это связано с доверительным интервалом , используемым в статистике: это примерно 95% доверительный интервал, когда это среднее значение выборки размером .

Тесты на нормальность

«Правило 68–95–99,7» часто используется для быстрого получения грубой оценки вероятности чего-либо с учетом его стандартного отклонения, если популяция считается нормальной. Он также используется как простой тест на выбросы , если популяция считается нормальной, и как тест на нормальность , если популяция потенциально ненормальна.

Чтобы перейти от выборки к ряду стандартных отклонений, сначала вычисляется отклонение , либо ошибка, либо остаток, в зависимости от того, известно ли среднее значение генеральной совокупности или только оценивается. Следующим шагом является стандартизация (деление на стандартное отклонение генеральной совокупности), если параметры генеральной совокупности известны, или стьюдентизация (деление на оценку стандартного отклонения), если параметры неизвестны и только оценены.

Чтобы использовать его в качестве теста на выбросы или теста на нормальность, нужно вычислить размер отклонений в терминах стандартных отклонений и сравнить его с ожидаемой частотой. Учитывая набор выборок, можно вычислить стьюдентизированные остатки и сравнить их с ожидаемой частотой: точки, которые отклоняются более чем на 3 стандартных отклонения от нормы, скорее всего, являются выбросами (если только размер выборки не значительно велик, и в этом случае можно ожидать, что выборка будет такой). крайние), и если имеется много точек, превышающих 3 стандартных отклонения от нормы, вероятно, есть основания усомниться в предполагаемой нормальности распределения. Это еще более справедливо для движений на 4 или более стандартных отклонения.

Можно вычислить более точно, аппроксимируя количество экстремальных движений заданной величины или больше распределением Пуассона , но просто, если в выборке размером 1000 имеется несколько движений по 4 стандартным отклонениям, у него есть веские основания учитывать эти выбросы или подвергнуть сомнению предполагаемую нормальность распределения.

Например, событие 6 σ соответствует вероятности около двух частей на миллиард . Например, если считать, что события происходят ежедневно, это будет соответствовать событию, ожидаемому каждые 1,4 миллиона лет. Это дает простой тест на нормальность : если кто-то наблюдает 6 σ в ежедневных данных и прошло значительно меньше 1 миллиона лет, то нормальное распределение, скорее всего, не обеспечивает хорошей модели для величины или частоты больших отклонений в этом отношении.

В книге «Черный лебедь» Нассим Николас Талеб приводит пример моделей риска, согласно которым крах «Черного понедельника» будет соответствовать событию с 36- σ : возникновение такого события должно немедленно указывать на то, что модель ошибочна, т.е. рассмотрение не удовлетворительно моделируется нормальным распределением. Затем следует рассмотреть усовершенствованные модели, например, путем введения стохастической волатильности . В таких дискуссиях важно осознавать проблему заблуждения игрока , которая гласит, что однократное наблюдение редкого события не противоречит тому, что это событие на самом деле является редким. Именно наблюдение множества якобы редких событий все больше подрывает гипотезу о том, что они редки, то есть достоверность предполагаемой модели. Правильное моделирование этого процесса постепенной потери доверия к гипотезе предполагает определение априорной вероятности не только самой гипотезы, но и всех возможных альтернативных гипотез. По этой причине статистическая проверка гипотез работает не столько за счет подтверждения гипотезы, которая считается вероятной, сколько за счет опровержения гипотез, считающихся маловероятными .

Таблица числовых значений

Из-за экспоненциально уменьшающихся хвостов нормального распределения вероятность более высоких отклонений уменьшается очень быстро. Из правил нормально распределенных данных для ежедневного события:

Смотрите также

Рекомендации

  1. ^ Хубер, Франц (2018). Логическое введение в вероятность и индукцию. Нью-Йорк: Издательство Оксфордского университета . п. 80. ИСБН 9780190845414.
  2. ^ Такое использование «правила трех сигм» вошло в обиход в 2000-х годах, например, цитируется в
    • Очерк бизнес-статистики Шаума . МакГроу Хилл Профессионал. 2003. с. 359. ИСБН 9780071398763
    • Графаренд, Эрик В. (2006). Линейные и нелинейные модели: фиксированные эффекты, случайные эффекты и смешанные модели . Вальтер де Грюйтер. п. 553. ИСБН 9783110162165.
  3. ^ См.:
    • Уилер, диджей; Чемберс, DS (1992). Понимание статистического управления процессами. НПЦ Пресс. ISBN 9780945320135.
    • Цитром, Вероника ; Спагон, Патрик Д. (1997). Статистические исследования по улучшению промышленных процессов. СИАМ. п. 342. ИСБН 9780898713947.
    • Пукельсхайм, Ф. (1994). «Правило трех сигм». Американский статистик . 48 (2): 88–91. дои : 10.2307/2684253. JSTOR  2684253.
  4. ^ Слоан, Нью-Джерси (ред.). «Последовательность A178647». Электронная энциклопедия целочисленных последовательностей . Фонд ОЭИС.
  5. ^ Слоан, Нью-Джерси (ред.). «Последовательность A110894». Электронная энциклопедия целочисленных последовательностей . Фонд ОЭИС.
  6. ^ Слоан, Нью-Джерси (ред.). «Последовательность A270712». Электронная энциклопедия целочисленных последовательностей . Фонд ОЭИС.

Внешние ссылки