stringtranslate.com

Примерный максимум и минимум

Ящичные диаграммы эксперимента Майкельсона -Морли , показывающие выборочные максимумы и минимумы.

В статистике максимум и минимум выборки, также называемые наибольшим наблюдением и наименьшим наблюдением, представляют собой значения наибольшего и наименьшего элементов выборки . [1] Это базовая сводная статистика , используемая в описательной статистике , такой как пятизначная сводка и семизначная сводка Боули и связанная с ней ящичная диаграмма .

Минимальное и максимальное значения — это статистика первого и последнего порядка (часто обозначаемая X (1) и X ( n ) соответственно, для размера выборки n ).

Если в выборке есть выбросы , они обязательно включают в себя максимум или минимум выборки, или и то, и другое, в зависимости от того, являются ли они чрезвычайно высокими или низкими. Однако максимум и минимум выборки не обязательно должны быть выбросами, если они не слишком далеки от других наблюдений.

Надежность

Максимум и минимум выборки являются наименее устойчивой статистикой : они максимально чувствительны к выбросам.

Это может быть либо преимуществом, либо недостатком: если экстремальные значения реальны (а не ошибки измерения) и имеют реальные последствия, как в приложениях теории экстремальных значений , таких как строительство дамб или финансовые потери, тогда выбросы (как отражено в выборочных экстремумах) важные. С другой стороны, если выбросы оказывают незначительное влияние или вообще не влияют на фактические результаты, то использование ненадежной статистики, такой как экстремумы выборки, просто затуманивает статистику, и следует использовать надежные альтернативы, такие как другие квантили : 10-й и 90-й процентили ( первый и последний дециль ) являются более надежными альтернативами.

Производная статистика

Экстремумы выборки не только являются компонентом каждой статистики, в которой используются все элементы выборки, но и являются важными частями диапазона ( мера дисперсии) и среднего диапазона (мера местоположения). Они также реализуют максимальное абсолютное отклонение : одно из них — это самая дальняя точка от любой заданной точки, в частности, такая мера центра, как медиана или среднее значение.

Приложения

Плавный максимум

Для набора выборок функция максимума не является гладкой и, следовательно, недифференцируемой. Для задач оптимизации, возникающих в статистике, часто необходимо аппроксимировать гладкую функцию, близкую к максимуму набора.

Гладкий максимум , например,

г ( Икс 1 , Икс 2 , …, Икс п ) = журнал ( ехр ( Икс 1 ) + ехр ( Икс 2 ) + … + ехр ( Икс п ) )

является хорошим приближением к выборочному максимуму.

Сводные статистические данные

Максимум и минимум выборки представляют собой базовую сводную статистику , показывающую наиболее экстремальные наблюдения, и используются в сводке из пяти чисел , версии сводки из семи чисел и связанной с ней ящичной диаграмме .

Интервал прогнозирования

Максимум и минимум выборки обеспечивают непараметрический интервал прогнозирования : в выборке из совокупности или, в более общем плане, в заменяемой последовательности случайных величин, каждое наблюдение с равной вероятностью будет максимумом или минимумом.

Таким образом, если у вас есть выборка и вы выбираете другое наблюдение, тогда вероятность того, что это будет самое большое значение, наблюдаемое до сих пор, вероятность того, что это будет наименьшее значение, наблюдаемое до сих пор, и, следовательно, другое время попадает между максимумом выборки и минимумом выборки. Таким образом, обозначая максимум и минимум выборки через M и m, это дает интервал прогнозирования [ m , M ].

Например, если n  = 19, то [ m , M ] дает интервал прогнозирования 18/20 = 90% — в 90% случаев 20-е наблюдение попадает между самым маленьким и самым большим наблюдением, наблюдавшимся до сих пор. Аналогично, n  = 39 дает 95%-ный интервал прогнозирования, а n  = 199 дает 99%-ный интервал прогнозирования.

Оценка

Из-за их чувствительности к выбросам экстремумы выборки не могут быть надежно использованы в качестве оценок , если данные не являются чистыми – надежные альтернативы включают первый и последний децили .

Однако при наличии чистых данных или в теоретических условиях они иногда могут оказаться очень хорошими оценщиками, особенно для платикуртовых распределений, где для небольших наборов данных наиболее эффективной оценкой является средний диапазон .

Однако они неэффективны для оценки местоположения мезокуртических распределений, таких как нормальное распределение , и лептокуртических распределений.

Равномерное распределение

Для выборки без замены из равномерного распределения с одной или двумя неизвестными конечными точками (то есть с неизвестным N или с неизвестными M и N ) максимум выборки или, соответственно, максимум выборки и минимум выборки являются достаточными и являются полной статистикой для неизвестного. конечные точки; таким образом, несмещенная оценка, полученная на основе них, будет оценкой UMVU .

Если неизвестна только верхняя конечная точка, максимум выборки представляет собой смещенную оценку максимума совокупности, но несмещенная оценка (где m — максимум выборки, а k — размер выборки) — это оценка UMVU; подробности см. в разделе «Проблема с немецкими танками» .

Если обе конечные точки неизвестны, то диапазон выборки представляет собой смещенную оценку диапазона совокупности, но поправка по максимуму, указанному выше, дает оценку UMVU.

Если обе конечные точки неизвестны, то средний диапазон представляет собой несмещенную (и, следовательно, UMVU) оценку средней точки интервала (в данном случае это эквивалентно медианной, средней или средней величине популяции).

Причина, по которой экстремумы выборки являются достаточной статистикой, заключается в том, что условное распределение неэкстремальных выборок представляет собой просто распределение равномерного интервала между максимумом и минимумом выборки - как только конечные точки фиксированы, значения внутренних точек не добавляют никакой дополнительной информации. .

Проверка нормальности

Экстремумы выборки можно использовать для проверки нормальности , поскольку события за пределами диапазона 3σ случаются очень редко.

Экстремумы выборки можно использовать для простого теста на нормальность , в частности эксцесса: вычисляется t-статистика максимума и минимума выборки (вычитается среднее значение выборки и делится на стандартное отклонение выборки ), и если они необычно велики для выборки размера (согласно правилу трех сигм и таблице в нем, или, точнее, t-распределению Стьюдента ), то эксцесс выборочного распределения значительно отклоняется от эксцесса нормального распределения.

Например, ежедневный процесс должен ожидать события 3σ один раз в год (календарных дней; раз в полтора года рабочих дней), тогда как событие 4σ происходит в среднем каждые 40 лет календарных дней, 60 лет рабочих дней ( один раз в жизни), события 5σ происходят каждые 5000 лет (один раз в зарегистрированной истории), а события 6σ происходят каждые 1,5 миллиона лет (по сути, никогда). Таким образом, если экстремумы выборки находятся на 6 сигм от среднего значения, это означает значительное нарушение нормальности.

Кроме того, об этом тесте очень легко рассказать без использования статистики.

Эти тесты на нормальность можно применять, например, если кто-то сталкивается с риском эксцесса .

Теория экстремальных ценностей

События могут превосходить все ранее наблюдавшиеся, как, например, землетрясение в Лиссабоне 1755 года .

Экстремумы выборки играют две основные роли в теории экстремальных значений :

Однако следует соблюдать осторожность при использовании экстремумов выборки в качестве ориентира: в распределениях с тяжелыми хвостами или для нестационарных процессов экстремальные события могут быть значительно более экстремальными, чем любое ранее наблюдавшееся событие. Это развито в теории черного лебедя .

Смотрите также

Рекомендации

  1. ^ «NEDARC - Мин, Макс и Диапазон» . www.nedarc.org . Проверено 17 февраля 2023 г.