Понятие в статистике
В описательной статистике диапазон набора данных — это размер самого узкого интервала , содержащего все данные. Он рассчитывается как разница между наибольшим и наименьшим значениями (также известными как максимум и минимум выборки ). [1]
Он выражается в тех же единицах , что и данные. Диапазон дает представление о статистической дисперсии . Поскольку он зависит только от двух наблюдений, он наиболее полезен для представления дисперсии небольших наборов данных. [2]
Для непрерывных случайных величин с независимым распределением
Для n независимых и одинаково распределенных непрерывных случайных величин X 1 , X 2 , ..., X n с кумулятивной функцией распределения G( x ) и функцией плотности вероятности g( x ) пусть T обозначает их диапазон, то есть T = max( X 1 , X 2 , ..., X n )- min( X 1 , X 2 , ..., X n ).
Распределение
Диапазон T имеет кумулятивную функцию распределения [3] [4]
Гамбель отмечает, что «красота этой формулы полностью омрачается тем фактом, что, в общем случае, мы не можем выразить G ( x + t ) через G ( x ), и что численное интегрирование является длительным и утомительным». [3] : 385
Если распределение каждого X i ограничено справа (или слева), то асимптотическое распределение диапазона равно асимптотическому распределению наибольшего (наименьшего) значения. Для более общих распределений асимптотическое распределение может быть выражено как функция Бесселя . [3]
Моменты
Средний диапазон определяется по формуле [5]
где x ( G ) — обратная функция. В случае, когда каждый из X i имеет стандартное нормальное распределение , средний диапазон определяется как [6]
Для непрерывных неравномерных случайных величин
Для n неодинаково распределенных независимых непрерывных случайных величин X 1 , X 2 , ..., X n с кумулятивными функциями распределения G 1 ( x ), G 2 ( x ), ..., G n ( x ) и функциями плотности вероятности g 1 ( x ), g 2 ( x ), ..., g n ( x ), диапазон имеет кумулятивную функцию распределения [4]
Для дискретных случайных величин с независимым распределением
Для n независимых и одинаково распределенных дискретных случайных величин X 1 , X 2 , ..., X n с кумулятивной функцией распределения G ( x ) и функцией вероятностной массы g ( x ) диапазон X i является диапазоном выборки размера n из популяции с функцией распределения G ( x ). Мы можем предположить без потери общности , что поддержка каждой X i равна {1,2,3,..., N }, где N - положительное целое число или бесконечность. [7] [8]
Распределение
Диапазон имеет функцию массы вероятности [7] [9] [10]
Пример
Если предположить, что g ( x ) = 1/ N , дискретное равномерное распределение для всех x , то находим [9] [11]
Вывод
Вероятность наличия определенного значения диапазона, t , может быть определена путем сложения вероятностей наличия двух образцов, отличающихся на t , и каждого другого образца, имеющего значение между двумя крайностями. Вероятность того, что один образец имеет значение x , равна . Вероятность того, что другой имеет значение t больше x , равна:
Вероятность всех остальных значений, лежащих между этими двумя крайностями, равна:
Объединение этих трех результатов дает:
Связанные величины
Диапазон является частным примером порядковой статистики . В частности, диапазон является линейной функцией порядковой статистики, что вводит его в область L-оценки .
Смотрите также
Ссылки
- ^ Джордж Вудбери (2001). Введение в статистику . Cengage Learning. стр. 74. ISBN 0534377556.
- ^ Карин Вилджоэн (2000). Элементарная статистика: Том 2 . Пирсон Южная Африка. стр. 7–27. ISBN 186891075X.
- ^ abc EJ Gumbel (1947). «Распределение диапазона». Анналы математической статистики . 18 (3): 384–412. doi : 10.1214/aoms/1177730387 . JSTOR 2235736.
- ^ ab Tsimashenka, I.; Knottenbelt, W.; Harrison, P. (2012). "Управление изменчивостью в системах разделения-слияния". Аналитические и стохастические методы моделирования и их применение (PDF) . Конспект лекций по информатике. Том 7314. стр. 165. doi :10.1007/978-3-642-30782-9_12. ISBN 978-3-642-30781-2.
- ^ HO Hartley ; HA David (1954). «Универсальные границы для среднего диапазона и экстремальных наблюдений». Анналы математической статистики . 25 (1): 85–99. doi : 10.1214/aoms/1177728848 . JSTOR 2236514.
- ^ LHC Tippett (1925). «О экстремальных индивидуумах и диапазоне образцов, взятых из нормальной популяции». Biometrika . 17 (3/4): 364–387. doi :10.1093/biomet/17.3-4.364. JSTOR 2332087.
- ^ ab Эванс, DL; Лимис, LM; Дрю, JH (2006). «Распределение порядковых статистик для дискретных случайных величин с приложениями к бутстрапингу». INFORMS Journal on Computing . 18 : 19. doi :10.1287/ijoc.1040.0105.
- ^ Ирвинг В. Берр (1955). «Вычисление точного выборочного распределения диапазонов из дискретной совокупности». Анналы математической статистики . 26 (3): 530–532. doi : 10.1214/aoms/1177728500 . JSTOR 2236482.
- ^ ab Abdel-Aty, SH (1954). «Упорядоченные переменные в разрывных распределениях». Statistica Neerlandica . 8 (2): 61–82. doi :10.1111/j.1467-9574.1954.tb00442.x.
- ^ Сиотани, М. (1956). «Порядковая статистика для дискретного случая с числовым приложением к биномиальному распределению». Анналы Института статистической математики . 8 : 95–96. doi :10.1007/BF02863574.
- ^ Пол Р. Райдер (1951). «Распределение диапазона в выборках из дискретной прямоугольной совокупности». Журнал Американской статистической ассоциации . 46 (255): 375–378. doi :10.1080/01621459.1951.10500796. JSTOR 2280515.