L-оценщик

Простые L-оценки можно визуально оценить по ящичковой диаграмме и включают в себя межквартильный размах , средний шарнир , размах , средний диапазон и тримин .

В статистике L -оценка — это оценка , которая представляет собой линейную комбинацию порядковых статистик измерений (которая также называется L-статистикой ). Это может быть всего одна точка, как в случае медианы (нечетного числа значений), или все точки, как в случае среднего значения.

Основные преимущества L-оценок заключаются в том, что они часто представляют собой чрезвычайно простую и часто надежную статистику : если данные отсортированы, их очень легко вычислять и интерпретировать, и они часто устойчивы к выбросам. Таким образом, они полезны в надежной статистике, в качестве описательной статистики , в статистическом образовании , а также в тех случаях, когда вычисления затруднены. Однако они неэффективны , и в наше время предпочтение отдается надежным статистическим М-оценкам , хотя они гораздо сложнее в вычислительном отношении. Во многих случаях L-оценщики достаточно эффективны и, следовательно, подходят для первоначальной оценки.

Примеры

Основным примером является медиана . Учитывая n значений , если оно нечетное, медиана равна статистике -го порядка ; если четно, то это среднее значение статистики двух порядков: . Обе они представляют собой линейные комбинации порядковой статистики, поэтому медиана является простым примером L-оценщика. $x_{1},\ldots,x_{n}$ $n=2k+1$ $x_{(k+1)}$ $(n+1)/2$ $n=2k$ $(x_{(k)}+x_{(k+1)})/2$

Более подробный список примеров включает: с одной точкой, максимумом, минимумом или любой статистикой или квантилем одного порядка ; с одной или двумя точками – медиана; с двумя точками: средний диапазон , диапазон , средний итог ( обрезанный средний диапазон, включая средний шарнир ) и усеченный диапазон (включая межквартильный диапазон и междецильный диапазон ); с тремя точками — тримен ; при фиксированной доле баллов — усеченное среднее (включая межквартильное среднее ) и винсоризованное среднее ; со всеми точками, среднее.

Обратите внимание, что некоторые из них (например, медиана или средний диапазон) являются мерами центральной тенденции и используются в качестве оценок параметра местоположения , например среднего значения нормального распределения, тогда как другие (например, диапазон или усеченный диапазон) являются мерами статистической дисперсии и используются в качестве оценки параметра масштаба , такого как стандартное отклонение нормального распределения.

L-оценщики также могут измерять форму распределения, помимо местоположения и масштаба. Например, средний шарнир минус медиана представляет собой трехчленную L-оценку, которая измеряет асимметрию , а другие различия промежуточных итогов дают меры асимметрии в разных точках хвоста. ^[1]

Выборочные L-моменты являются L-оценками L-момента совокупности и имеют довольно сложные выражения. L-моменты обычно рассматриваются отдельно; подробности см. в этой статье.

Надежность

L-оценщики часто статистически устойчивы и имеют высокую точку пробоя . Это определяется как доля измерений, которую можно произвольно изменить, не вызывая стремления итоговой оценки к бесконечности (т. е. «нарушения»). Точка разбивки L-оценщика определяется статистикой ближайшего порядка к минимуму или максимуму: например, медиана имеет точку разбивки 50% (наивысший возможный уровень), а усеченное или винсоризованное среднее n % имеет разбивку. точка n %.

Не все L-оценки устойчивы; если он включает минимум или максимум, то его точка пробоя равна 0. Эти неробастные L-оценки включают минимум, максимум, среднее значение и средний диапазон. Однако урезанные эквиваленты являются надежными.

Надежные L-оценщики, используемые для измерения дисперсии, такие как IQR, обеспечивают надежные меры масштаба .

Приложения

При практическом использовании в надежной статистике L-оценщики были заменены M-оценками , которые обеспечивают надежную статистику, которая также имеет высокую относительную эффективность , но за счет большей вычислительной сложности и непрозрачности.

Однако простота L-оценок означает, что их легко интерпретировать и визуализировать, что делает их пригодными для описательной статистики и статистического образования ; многие из них можно даже вычислить в уме на основе сводки из пяти или семи цифр или визуализировать с помощью коробчатой диаграммы . L-оценки играют фундаментальную роль во многих подходах к непараметрической статистике .

Несмотря на то, что L-оценщики не являются параметрическими, они часто используются для оценки параметров , как указано в названии, хотя их часто необходимо корректировать, чтобы получить несмещенную согласованную оценку . Выбор L-оценщика и корректировка зависят от распределения, параметр которого оценивается.

Например, при оценке параметра местоположения для симметричного распределения симметричный L-оценщик (такой как медиана или средний шарнир) будет несмещенным. Однако если распределение имеет перекос , симметричные L-оценки, как правило, будут смещены и требуют корректировки. Например, в асимметричном распределении непараметрическая асимметрия (и коэффициенты асимметрии Пирсона ) измеряют смещение медианы как оценки среднего значения.

При оценке параметра масштаба , например, при использовании L-оценщика в качестве надежной меры масштаба , например, для оценки дисперсии генеральной совокупности или стандартного отклонения генеральной совокупности , обычно необходимо умножить ее на масштабный коэффициент , чтобы сделать ее несмещенной последовательной оценкой; см. параметр масштаба: оценка .

Например, деление IQR на (с использованием функции ошибок ) делает его несмещенной и последовательной оценкой стандартного отклонения генеральной совокупности, если данные подчиняются нормальному распределению . $2{\sqrt {2}}\operatorname {erf} ^{-1}(1/2)\приблизительно 1,349$

L-оценщики также могут использоваться как самостоятельные статистические данные — например, медиана — это мера местоположения, а IQR — мера дисперсии. В этих случаях выборочная статистика может выступать в качестве оценки собственного ожидаемого значения ; например, выборочная медиана является оценкой медианы генеральной совокупности.

Преимущества

Помимо простоты, L-оценки также часто легко вычисляются и надежны.

Предполагая, что данные отсортированы, L-оценки, включающие всего несколько точек, могут быть рассчитаны с гораздо меньшим количеством математических операций, чем эффективные оценки. ^[2]^[3] До появления электронных калькуляторов и компьютеров они предоставляли полезный способ извлечь большую часть информации из образца с минимальными трудозатратами. Они оставались в практическом использовании в начале и середине 20-го века, когда была возможна автоматическая сортировка данных перфокарт , но вычисления оставались трудными ^[2] и до сих пор используются для оценок, заданных списком числовых значений в немашинном формате. -читаемая форма, в которой ввод данных обходится дороже, чем сортировка вручную. Они также позволяют осуществлять быструю оценку.

L-оценки часто гораздо более надежны, чем максимально эффективные традиционные методы: медиана максимально статистически устойчива , имеет точку пробоя 50% , а усеченный средний диапазон X% имеет точку пробоя X%, в то время как выборочное среднее (которое максимально эффективный) минимально устойчив и разрушается из-за одного выброса.

Эффективность

Хотя L-оценщики не так эффективны, как другие статистические данные, они часто имеют достаточно высокую относительную эффективность и показывают, что большую часть информации, используемой при оценке, можно получить, используя всего несколько точек – всего одну, две или три. . С другой стороны, они показывают, что статистика заказов содержит значительный объем информации.

Например, с точки зрения эффективности, учитывая выборку нормально распределенного числового параметра, среднее арифметическое (среднее) для совокупности можно оценить с максимальной эффективностью, вычислив выборочное среднее – сложив все члены выборки и разделив на количество членов.

Однако для большого набора данных (более 100 точек) из симметричной совокупности среднее значение можно оценить достаточно эффективно по сравнению с наилучшей оценкой с помощью L-оценщиков. Используя одну точку, это делается путем взятия медианы выборки без каких-либо вычислений (кроме сортировки); это дает эффективность 64% или выше (для всех n ). Используя две точки, простой оценкой является средний шарнир ( средний диапазон, обрезанный на 25% ), но более эффективной оценкой является средний диапазон, обрезанный на 29%, то есть усреднение двух значений на 29% от наименьшего значения. и самые большие значения: 29-й и 71-й процентили; это имеет эффективность около 81%. ^[3] Для трех точек можно использовать тримеан (среднее значение медианы и среднего шарнира), хотя среднее значение 20-го, 50-го и 80-го процентиля дает эффективность 88%. Использование дополнительных точек дает более высокую эффективность, хотя примечательно, что для очень высокой эффективности необходимы только 3 точки.

Для оценки стандартного отклонения нормального распределения масштабированный междецильный диапазон дает достаточно эффективную оценку, хотя вместо этого берется усеченный диапазон 7% (разница между 7-м и 93-м процентилями) и делится на 3 (что соответствует 86% данных). нормального распределения, находящегося в пределах 1,5 стандартных отклонений от среднего значения), дает оценку эффективности около 65%. ^[3]

Для небольших выборок L-оценщики также относительно эффективны: средняя сумма 3-й точки с каждого конца имеет эффективность около 84% для выборок размером около 10, а диапазон, разделенный на, имеет достаточно хорошую эффективность для размеров до 20, хотя это снижается с увеличением n , и масштабный коэффициент может быть улучшен (эффективность 85% для 10 баллов). Другие эвристические оценки для небольших выборок включают диапазон более n (для стандартной ошибки) и квадрат диапазона по медиане (для хи-квадрат распределения Пуассона). ^[3] ${\sqrt {n}}$