Пятизначное резюме — это набор описательных статистик , который предоставляет информацию о наборе данных. Он состоит из пяти наиболее важных процентилей выборки :
В дополнение к медиане одного набора данных есть две связанные статистики, называемые верхним и нижним квартилями. Если данные расположены в определенном порядке, то нижний квартиль является центральным для нижней половины данных, а верхний квартиль является центральным для верхней половины данных. Эти квартили используются для расчета межквартильного размаха, который помогает описать разброс данных и определить, являются ли какие-либо точки данных выбросами.
Для того чтобы эта статистика существовала, наблюдения должны быть получены с использованием одномерной переменной, которую можно измерить по порядковой, интервальной или относительной шкале .
Сводка из пяти чисел дает краткое резюме распределения наблюдений . Сообщение пяти чисел позволяет избежать необходимости выбирать наиболее подходящую сводную статистику. Сводка из пяти чисел дает информацию о местоположении (из медианы), разбросе (из квартилей) и диапазоне (из выборочного минимума и максимума) наблюдений. Поскольку она сообщает порядковые статистики (а не, скажем, среднее), сводка из пяти чисел подходит для порядковых измерений , а также для интервальных и относительных измерений.
Можно быстро сравнить несколько наборов наблюдений, сравнив их пятизначные сводки, которые можно представить графически с помощью ящика с ящичками .
Помимо самих точек, из пятичисловой сводки можно вычислить множество L-оценок , включая межквартильный размах , середину размаха , диапазон , средний размах и трисредний .
Пятизначное резюме иногда представляется в виде следующей таблицы:
В этом примере вычисляется сводка из пяти чисел для следующего набора наблюдений: 0, 0, 1, 2, 63, 61, 27, 13. Это количество лун каждой планеты в Солнечной системе .
Полезно расположить наблюдения в порядке возрастания: 0, 0, 1, 2, 13, 27, 61, 63. Имеется восемь наблюдений, поэтому медиана является средним двух средних чисел, (2 + 13)/2 = 7,5. Разделение наблюдений по обе стороны от медианы дает две группы по четыре наблюдения. Медиана первой группы является нижним или первым квартилем и равна (0 + 1)/2 = 0,5. Медиана второй группы является верхним или третьим квартилем и равна (27 + 61)/2 = 44. Наименьшее и наибольшее наблюдения равны 0 и 63.
Таким образом, итог из пяти чисел будет следующим: 0, 0,5, 7,5, 44, 63.
С помощью функции можно вычислить пятизначную сводку в языке программирования R. Функция, применяемая к вектору, отображает пятизначную сводку вместе со средним значением (которое само по себе не является частью пятизначной сводки). Для вычисления процентилей используется другой метод, чем функция.fivenum
summary
fivenum
summary
> луны <- c ( 0 , 0 , 1 , 2 , 63 , 61 , 27 , 13 ) > Fivenum ( луны ) [1] 0,0 0,5 7,5 44,0 63,0 > сводка ( луны ) Мин. 1-й кв. Медианное среднее 3-й кв. Макс. 0,00 0,75 7,50 20,88 35,50 63,00
Этот пример Python использует percentile
функцию из числовой библиотеки numpy
и работает в Python 2 и 3.
импортировать numpy как npdef fivenum ( data ): """Пятизначальная сводка.""" return np . percentile ( data , [ 0 , 25 , 50 , 75 , 100 ], method = "midpoint" )
>>> луны = [ 0 , 0 , 1 , 2 , 63 , 61 , 27 , 13 ] >>> print ( fivenum ( луны )) [ 0. 0.5 7.5 44. 63. ]
Для получения сводки из пяти цифр можно использовать SASPROC UNIVARIATE
:
данные fivenum; ввод x @@; линии данных; 1 2 3 4 20 202 392 4 38 20 ; запуск;ods select Quantiles ; proc univariate data = fivenum; output out = fivenums min = min Q1 = Q1 Q2 = median Q3 = Q3 max = max ; run;proc print data = fivenums ; запустить;
входной байт y 0 0 1 2 63 61 27 13 конец спискаtabstat y, статистика (мин q макс)