stringtranslate.com

Правило 68–95–99.7

Для приблизительно нормального набора данных значения в пределах одного стандартного отклонения от среднего составляют около 68% набора; в пределах двух стандартных отклонений составляют около 95%; и в пределах трех стандартных отклонений составляют около 99,7%. Показанные проценты являются округленными теоретическими вероятностями, предназначенными только для аппроксимации эмпирических данных, полученных из нормальной популяции.
Интервал прогнозирования (по оси Y ) задан стандартной оценкой (по оси X ). Ось Y имеет логарифмическую шкалу (но значения на ней не изменяются).

В статистике правило 68–95–99,7 , также известное как эмпирическое правило и иногда сокращенно 3sr , представляет собой сокращенную запись, используемую для запоминания процента значений, которые лежат в пределах интервальной оценки в нормальном распределении : приблизительно 68%, 95% и 99,7% значений лежат в пределах одного, двух и трех стандартных отклонений от среднего значения соответственно.

В математической нотации эти факты можно выразить следующим образом, где Pr()функция вероятности , [1] Χ — наблюдение нормально распределенной случайной величины , μ (mu) — среднее значение распределения, а σ (sigma) — его стандартное отклонение:

Полезность этой эвристики зависит прежде всего от рассматриваемого вопроса.

В эмпирических науках так называемое правило трех сигм (или правило трех σ ) выражает общепринятую эвристику , согласно которой почти все значения считаются лежащими в пределах трех стандартных отклонений от среднего значения, и поэтому эмпирически полезно рассматривать вероятность в 99,7% как почти определенную величину. [2]

В социальных науках результат может считаться статистически значимым , если его уровень достоверности составляет порядка двух сигм-эффектов (95%), в то время как в физике элементарных частиц и астрофизике существует соглашение, требующее статистической значимости пяти сигм-эффектов (99,99994% достоверности), чтобы считаться открытием . [ 3]

Более слабое правило трех сигм может быть выведено из неравенства Чебышева , утверждающего, что даже для ненормально распределенных переменных по крайней мере 88,8% случаев должны попадать в правильно рассчитанные интервалы трех сигм. Для унимодальных распределений вероятность нахождения в интервале составляет по крайней мере 95% по неравенству Высочанского–Петунина . Могут быть определенные предположения для распределения, которые заставляют эту вероятность быть по крайней мере 98%. [4]

Доказательство

Мы имеем, что, выполняя замену переменной в терминах стандартной оценки , мы имеем и этот интеграл не зависит от и . Нам нужно только вычислить каждый интеграл для случаев .

Кумулятивная функция распределения

Диаграмма, показывающая кумулятивную функцию распределения для нормального распределения со средним значением ( μ ) 0 и дисперсией ( σ2 ) 1

Эти числовые значения «68%, 95%, 99,7%» получены из кумулятивной функции распределения нормального распределения .

Интервал прогнозирования для любой стандартной оценки z численно соответствует (1 − (1 − Φ μ , σ 2 (z)) · 2) .

Например, Φ (2) ≈ 0,9772 или Pr( Xμ + 2 σ ) ≈ 0,9772 , что соответствует интервалу прогнозирования (1 − (1 − 0,97725)·2) = 0,9545 = 95,45% . Это не симметричный интервал — это просто вероятность того, что наблюдение меньше μ + 2 σ . Чтобы вычислить вероятность того, что наблюдение находится в пределах двух стандартных отклонений от среднего (небольшие различия из-за округления):

Это связано с доверительным интервалом , используемым в статистике: это приблизительно 95% доверительный интервал, когда — среднее значение выборки размера .

Тесты на нормальность

«Правило 68–95–99,7» часто используется для быстрого получения грубой оценки вероятности чего-либо, учитывая его стандартное отклонение, если популяция предполагается нормальной. Оно также используется как простой тест на выбросы, если популяция предполагается нормальной, и как тест на нормальность, если популяция потенциально не является нормальной.

Чтобы перейти от выборки к ряду стандартных отклонений, сначала вычисляется отклонение , либо ошибка, либо остаток в зависимости от того, известно ли среднее значение совокупности или только оценено. Следующий шаг — стандартизация (деление на стандартное отклонение совокупности), если параметры совокупности известны, или стьюдентизация (деление на оценку стандартного отклонения), если параметры неизвестны и оценены.

Чтобы использовать в качестве теста на выбросы или тест на нормальность, вычисляется размер отклонений в терминах стандартных отклонений и сравнивается с ожидаемой частотой. При наличии выборочного набора можно вычислить стьюдентизированные остатки и сравнить их с ожидаемой частотой: точки, которые выпадают более чем на 3 стандартных отклонения от нормы, являются вероятными выбросами (если только размер выборки не является значительно большим, к какому моменту можно ожидать выборку такой экстремальной), и если есть много точек, которые больше чем на 3 стандартных отклонения от нормы, то, вероятно, есть основания усомниться в предполагаемой нормальности распределения. Это еще сильнее касается движений в 4 или более стандартных отклонений.

Можно выполнить более точные вычисления, аппроксимируя число экстремальных движений заданной величины или больше с помощью распределения Пуассона , но, говоря проще, если в выборке размером 1000 имеется несколько движений с отклонением в 4 стандартных значения, то есть веские основания рассмотреть эти выбросы или усомниться в предполагаемой нормальности распределения.

Например, событие 6 σ соответствует шансу около двух частей на миллиард . Для иллюстрации, если события происходят ежедневно, это будет соответствовать событию, ожидаемому каждые 1,4 миллиона лет. Это дает простой тест на нормальность : если кто-то становится свидетелем 6 σ в ежедневных данных и прошло значительно меньше 1 миллиона лет, то нормальное распределение, скорее всего, не дает хорошей модели для величины или частоты больших отклонений в этом отношении.

В книге «Черный лебедь » Нассим Николас Талеб приводит пример моделей риска, согласно которым крах Черного понедельника будет соответствовать событию 36- σ : возникновение такого события должно немедленно предполагать, что модель несовершенна, т. е. что рассматриваемый процесс неудовлетворительно моделируется нормальным распределением. Затем следует рассмотреть уточненные модели, например, путем введения стохастической волатильности . В таких обсуждениях важно осознавать проблему ошибки игрока , которая гласит, что единичное наблюдение редкого события не противоречит тому, что событие на самом деле редкое. Именно наблюдение множества предположительно редких событий все больше подрывает гипотезу о том, что они редки, т. е. обоснованность предполагаемой модели. Правильное моделирование этого процесса постепенной потери уверенности в гипотезе будет включать обозначение априорной вероятности не только для самой гипотезы, но и для всех возможных альтернативных гипотез. По этой причине статистическая проверка гипотез заключается не столько в подтверждении гипотезы, считающейся вероятной, сколько в опровержении гипотез, считающихся маловероятными .

Таблица числовых значений

Из-за экспоненциально уменьшающихся хвостов нормального распределения шансы более высоких отклонений уменьшаются очень быстро. Из правил для нормально распределенных данных для ежедневного события:

Смотрите также

Ссылки

  1. ^ Хубер, Франц (2018). Логическое введение в вероятность и индукцию. Нью-Йорк: Oxford University Press . С. 80. ISBN 9780190845414.
  2. ^ Такое использование «правила трех сигм» вошло в обиход в 2000-х годах, например, цитируется в
    • Обзор деловой статистики Шаума . McGraw Hill Professional. 2003. стр. 359. ISBN 9780071398763
    • Графаренд, Эрик В. (2006). Линейные и нелинейные модели: фиксированные эффекты, случайные эффекты и смешанные модели . Вальтер де Грюйтер. стр. 553. ISBN 9783110162165.
  3. ^ Лайонс, Луис (7 октября 2013 г.). «ОТКРЫТИЕ ЗНАЧЕНИЯ 5σ». arXiv .
  4. ^ См.:
    • Уилер, DJ; Чемберс, DS (1992). Понимание статистического управления процессами. SPC Press. ISBN 9780945320135.
    • Czitrom, Veronica ; Spagon, Patrick D. (1997). Статистические исследования случаев улучшения промышленных процессов. SIAM. стр. 342. ISBN 9780898713947.
    • Пукельсхайм, Ф. (1994). «Правило трех сигм». American Statistician . 48 (2): 88–91. doi :10.2307/2684253. JSTOR  2684253.
  5. ^ Sloane, N. J. A. (ред.). "Последовательность A178647". Онлайновая энциклопедия целочисленных последовательностей . Фонд OEIS.
  6. ^ Sloane, N. J. A. (ред.). "Последовательность A110894". Онлайновая энциклопедия целочисленных последовательностей . Фонд OEIS.
  7. ^ Sloane, N. J. A. (ред.). "Последовательность A270712". Онлайновая энциклопедия целочисленных последовательностей . Фонд OEIS.

Внешние ссылки