Концепция в статистике
В статистике диапазон набора данных — это разница между наибольшим и наименьшим значениями, [1]
результат вычитания максимума и минимума выборки . Он выражается в тех же единицах , что и данные.
В описательной статистике диапазон – это размер наименьшего интервала , который содержит все данные и служит показателем статистической дисперсии . Поскольку он зависит только от двух наблюдений, он наиболее полезен для представления дисперсии небольших наборов данных. [2]
Для непрерывных случайных величин IID
Для n независимых и одинаково распределенных непрерывных случайных величин X 1 , X 2 , ..., X n с кумулятивной функцией распределения G( x ) и функцией плотности вероятности g( x ) пусть T обозначает их диапазон, то есть , T= max( X 1 , X 2 , ..., X n )- min( X 1 , X 2 , ..., X n ).
Распределение
Диапазон T имеет кумулятивную функцию распределения [3] [4]
![{\displaystyle F(t)=n\int _{-\infty }^{\infty }g(x)[G(x+t)-G(x)]^{n-1}\,{\text {d}}x.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Гамбель отмечает, что «красота этой формулы полностью омрачена тем фактом, что, вообще говоря, мы не можем выразить G ( x + t ) через G ( x ), и что численное интегрирование является длительным и утомительным». [3] : 385
Если распределение каждого X i ограничено справа (или слева), то асимптотическое распределение диапазона равно асимптотическому распределению наибольшего (наименьшего) значения. Для более общих распределений асимптотическое распределение можно выразить как функцию Бесселя . [3]
Моменты
Средний диапазон определяется выражением [5]
![{\displaystyle n\int _{0}^{1}x(G)[G^{n-1}-(1-G)^{n-1}]\, {\text{d}}G}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
где x ( G ) — обратная функция. В случае, когда каждый из X i имеет стандартное нормальное распределение , средний диапазон определяется выражением [6]
![{\displaystyle \int _{-\infty }^{\infty }(1-(1-\Phi (x))^{n}-\Phi (x)^{n})\, {\text{d }}Икс.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Для непрерывных случайных величин, не относящихся к IID
Для n неидентично распределенных независимых непрерывных случайных величин X 1 , X 2 , ..., X n с кумулятивными функциями распределения G 1 ( x ), G 2 ( x ), ..., G n ( x ) и функциями плотности вероятности g 1 ( x ), g 2 ( x ), ..., g n ( x ), диапазон имеет кумулятивную функцию распределения [4]
![{\displaystyle F(t)=\sum _{i=1}^{n}\int _{-\infty }^{\infty }g_{i}(x)\prod _{j=1,j\ neq i}^{n}[G_{j}(x+t)-G_{j}(x)]\,{\text{d}}x.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Для дискретных случайных величин IID
Для n независимых и одинаково распределенных дискретных случайных величин X 1 , X 2 , ..., X n с кумулятивной функцией распределения G ( x ) и функцией вероятности g ( x ) диапазон X i представляет собой диапазон выборки размер n из популяции с функцией распределения G ( x ). Без ограничения общности мы можем предположить , что носитель каждого X i равен {1,2,3,..., N }, где N — целое положительное число или бесконечность. [7] [8]
Распределение
Диапазон имеет функцию массы вероятности [7] [9] [10]
![{\displaystyle f(t)={\begin{cases}\sum _{x=1}^{N}[g(x)]^{n}&t=0\\[6pt]\sum _{x= 1}^{Nt}\left({\begin{alignedat}{2}&[G(x+t)-G(x-1)]^{n}\\{}-{}&[G(x +t)-G(x)]^{n}\\{}-{}&[G(x+t-1)-G(x-1)]^{n}\\{}+{}& [G(x+t-1)-G(x)]^{n}\\\end{alignedat}}\right)&t=1,2,3\ldots ,N-1.\end{cases}} }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Пример
Если мы предположим, что g ( x ) = 1/ N , дискретное равномерное распределение для всех x , то мы найдем [9] [11]
![{\displaystyle f(t)={\begin{cases}{\frac {1}{N^{n-1}}}&t=0\\[4pt]\sum _{x=1}^{Nt} \left(\left[{\frac {t+1}{N}}\right]^{n}-2\left[{\frac {t}{N}}\right]^{n}+\left [{\frac {t-1}{N}}\right]^{n}\right)&t=1,2,3\ldots ,N-1.\end{cases}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Вывод
Вероятность наличия определенного значения диапазона t может быть определена путем сложения вероятностей наличия двух выборок, отличающихся на t , и каждой другой выборки, имеющей значение между двумя крайними значениями. Вероятность того, что одна выборка будет иметь значение x, равна . Вероятность того, что другое значение t будет больше x , равна:![{\ displaystyle ng (x)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\ displaystyle (n-1) g (x + t).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Вероятность того, что все остальные значения лежат между этими двумя крайностями, равна:
![{\displaystyle \left(\int _{x}^{x+t}g(x)\, {\text{d}}x\right)^{n-2}=\left(G(x+t )-G(x)\right)^{n-2}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Объединение трех вместе дает:
![{\ displaystyle f (t) = n (n-1) \ int _ {- \ infty } ^ {\ infty } g (x) g (x + t) [G (x + t) -G (x)] ^{n-2}\,{\text{d}}x}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Сопутствующие количества
Диапазон представляет собой конкретный пример статистики заказов . В частности, диапазон является линейной функцией статистики порядка, что приводит его в область действия L-оценки .
Смотрите также
Рекомендации
- ^ Джордж Вудбери (2001). Введение в статистику . Cengage Обучение. п. 74. ИСБН 0534377556.
- ^ Карин Вилджоэн (2000). Элементарная статистика: Том 2 . Пирсон Южная Африка. стр. 7–27. ISBN 186891075X.
- ^ abc EJ Gumbel (1947). «Распределение ареала». Анналы математической статистики . 18 (3): 384–412. дои : 10.1214/aoms/1177730387 . JSTOR 2235736.
- ^ аб Цимашенко, И.; Ноттенбелт, В.; Харрисон, П. (2012). «Управление изменчивостью в системах разделения-слияния». Методы и приложения аналитического и стохастического моделирования (PDF) . Конспекты лекций по информатике. Том. 7314. с. 165. дои : 10.1007/978-3-642-30782-9_12. ISBN 978-3-642-30781-2.
- ^ Х.О. Хартли ; Х.А. Дэвид (1954). «Универсальные границы среднего диапазона и экстремальных наблюдений». Анналы математической статистики . 25 (1): 85–99. дои : 10.1214/aoms/1177728848 . JSTOR 2236514.
- ^ БАК Типпетт (1925). «Об экстремальных особях и диапазоне образцов, взятых из нормальной популяции». Биометрика . 17 (3/4): 364–387. дои : 10.1093/biomet/17.3-4.364. JSTOR 2332087.
- ^ аб Эванс, DL; Лимис, LM; Дрю, Дж. Х. (2006). «Распределение статистики порядка для дискретных случайных величин с применением к начальной загрузке». ИНФОРМС Журнал по вычислительной технике . 18:19 . дои :10.1287/ijoc.1040.0105.
- ^ Ирвинг В. Берр (1955). «Расчет точного выборочного распределения диапазонов из дискретной совокупности». Анналы математической статистики . 26 (3): 530–532. дои : 10.1214/aoms/1177728500 . JSTOR 2236482.
- ^ аб Абдель-Ати, SH (1954). «Упорядоченные переменные в разрывных распределениях». Статистика Неерландики . 8 (2): 61–82. doi :10.1111/j.1467-9574.1954.tb00442.x.
- ^ Сиотани, М. (1956). «Порядковая статистика для дискретного случая с численным применением к биномиальному распределению». Летопись Института статистической математики . 8 : 95–96. дои : 10.1007/BF02863574.
- ^ Пол Р. Райдер (1951). «Распределение диапазона выборок из дискретной прямоугольной совокупности». Журнал Американской статистической ассоциации . 46 (255): 375–378. дои : 10.1080/01621459.1951.10500796. JSTOR 2280515.