stringtranslate.com

Резюме из пяти чисел

Пятизначное резюме — это набор описательных статистик , который предоставляет информацию о наборе данных. Он состоит из пяти наиболее важных процентилей выборки :

  1. минимум выборки ( наименьшее наблюдение)
  2. нижний квартиль или первый квартиль
  3. медиана (срединное значение )
  4. верхний квартиль или третий квартиль
  5. максимум выборки ( наибольшее наблюдение)

В дополнение к медиане одного набора данных есть две связанные статистики, называемые верхним и нижним квартилями. Если данные расположены в определенном порядке, то нижний квартиль является центральным для нижней половины данных, а верхний квартиль является центральным для верхней половины данных. Эти квартили используются для расчета межквартильного размаха, который помогает описать разброс данных и определить, являются ли какие-либо точки данных выбросами.

Для того чтобы эта статистика существовала, наблюдения должны быть получены с использованием одномерной переменной, которую можно измерить по порядковой, интервальной или относительной шкале .

Использование и представление

Сводка из пяти чисел дает краткое резюме распределения наблюдений . Сообщение пяти чисел позволяет избежать необходимости выбирать наиболее подходящую сводную статистику. Сводка из пяти чисел дает информацию о местоположении (из медианы), разбросе (из квартилей) и диапазоне (из выборочного минимума и максимума) наблюдений. Поскольку она сообщает порядковые статистики (а не, скажем, среднее), сводка из пяти чисел подходит для порядковых измерений , а также для интервальных и относительных измерений.

Можно быстро сравнить несколько наборов наблюдений, сравнив их пятизначные сводки, которые можно представить графически с помощью ящика с ящичками .

Помимо самих точек, из пятичисловой сводки можно вычислить множество L-оценок , включая межквартильный размах , середину размаха , диапазон , средний размах и трисредний .

Пятизначное резюме иногда представляется в виде следующей таблицы:

Пример

В этом примере вычисляется сводка из пяти чисел для следующего набора наблюдений: 0, 0, 1, 2, 63, 61, 27, 13. Это количество лун каждой планеты в Солнечной системе .

Полезно расположить наблюдения в порядке возрастания: 0, 0, 1, 2, 13, 27, 61, 63. Имеется восемь наблюдений, поэтому медиана является средним двух средних чисел, (2 + 13)/2 = 7,5. Разделение наблюдений по обе стороны от медианы дает две группы по четыре наблюдения. Медиана первой группы является нижним или первым квартилем и равна (0 + 1)/2 = 0,5. Медиана второй группы является верхним или третьим квартилем и равна (27 + 61)/2 = 44. Наименьшее и наибольшее наблюдения равны 0 и 63.

Таким образом, итог из пяти чисел будет следующим: 0, 0,5, 7,5, 44, 63.

Пример на языке R

С помощью функции можно вычислить пятизначную сводку в языке программирования R. Функция, применяемая к вектору, отображает пятизначную сводку вместе со средним значением (которое само по себе не является частью пятизначной сводки). Для вычисления процентилей используется другой метод, чем функция.fivenumsummaryfivenumsummary

> луны <- c ( 0 , 0 , 1 , 2 , 63 , 61 , 27 , 13 ) > Fivenum ( луны ) [1] 0,0 0,5 7,5 44,0 63,0 > сводка ( луны )  Мин. 1-й кв. Медианное среднее 3-й кв. Макс.  0,00 0,75 7,50 20,88 35,50 63,00         

Пример на Python

Этот пример Python использует percentileфункцию из числовой библиотеки numpyи работает в Python 2 и 3.

импортировать  numpy  как  npdef  fivenum ( data ): """Пятизначальная сводка.""" return np . percentile ( data , [ 0 , 25 , 50 , 75 , 100 ], method = "midpoint" )         
>>> луны  =  [ 0 ,  0 ,  1 ,  2 ,  63 ,  61 ,  27 ,  13 ] >>> print ( fivenum ( луны )) [ 0. 0.5 7.5 44. 63. ]

Пример в SAS

Для получения сводки из пяти цифр можно использовать SASPROC UNIVARIATE :

данные fivenum; ввод  x @@; линии данных; 1 2 3 4 20 202 392 4 38 20 ; запуск;ods select Quantiles ; proc univariate data = fivenum; output  out = fivenums min = min Q1 = Q1 Q2 = median Q3 = Q3 max = max ; run;proc print data = fivenums ; запустить;

Пример в Stata

Пятизначная сводка распределения данных.
входной байт y 0  0  1  2  63  61  27  13 конец  спискаtabstat y, статистика (мин q макс)

Смотрите также

Ссылки