В статистике L -оценщик (или L-статистика ) — это оценщик , который является линейной комбинацией порядковых статистик измерений. Это может быть всего лишь одна точка, как в медиане (нечетного числа значений), или все точки, как в среднем.
Главные преимущества L-оценщиков в том, что они часто чрезвычайно просты и часто являются надежной статистикой : предполагая отсортированные данные, их очень легко вычислять и интерпретировать, и они часто устойчивы к выбросам. Таким образом, они полезны в надежной статистике, как описательная статистика , в статистическом образовании и когда вычисления сложны. Однако они неэффективны , и в современной статистике предпочтительны надежные M-оценщики , хотя они гораздо сложнее в вычислительном отношении. Во многих обстоятельствах L-оценщики достаточно эффективны и, таким образом, подходят для первоначальной оценки.
Базовым примером является медиана . При заданных значениях n , если нечетно, медиана равна , статистике -го порядка; если четно, она является средним двух порядковых статистик: . Они обе являются линейными комбинациями порядковых статистик, и медиана, следовательно, является простым примером L-оценки.
Более подробный список примеров включает: с одной точкой — максимум, минимум или любую статистику или квантиль одного порядка ; с одной или двумя точками — медиану; с двумя точками — середину размаха , размах , середину сводки ( усеченную середину размаха, включая середину размаха ) и усеченный размах (включая межквартильный размах и междецильный размах ); с тремя точками — тримедиа ; с фиксированной долей точек — усеченное среднее (включая межквартильное среднее ) и среднее значение по Винсору ; со всеми точками — среднее.
Обратите внимание, что некоторые из них (например, медиана или средний размах) являются мерами центральной тенденции и используются в качестве оценок параметра местоположения , например, среднего значения нормального распределения, в то время как другие (например, размах или усеченный размах) являются мерами статистической дисперсии и используются в качестве оценок параметра масштаба , например, стандартного отклонения нормального распределения.
L-оценщики также могут измерять форму распределения, помимо местоположения и масштаба. Например, середина минус медиана — это 3-членная L-оценщик, который измеряет перекос , а другие различия средних сумм дают показатели асимметрии в разных точках хвоста. [1]
Выборочные L-моменты являются L-оценщиками для L-моментов популяции и имеют довольно сложные выражения. L-моменты обычно обрабатываются отдельно; подробности см. в этой статье.
L-оценщики часто статистически устойчивы , имея высокую точку срыва . Это определяется как доля измерений, которая может быть произвольно изменена без того, чтобы результирующая оценка стремилась к бесконечности (т. е. «сломалась»). Точка срыва L-оценщика задается ближайшей порядковой статистикой к минимуму или максимуму: например, медиана имеет точку срыва 50% (максимально возможное значение), а n % усеченное или Winsorized среднее имеет точку срыва n %.
Не все L-оценки являются надежными; если они включают минимум или максимум, то они имеют точку разбивки 0. Эти ненадежные L-оценки включают минимум, максимум, среднее и средний диапазон. Однако усеченные эквиваленты являются надежными.
Надежные L-оценки, используемые для измерения дисперсии, такие как IQR, обеспечивают надежные показатели масштаба .
На практике в надежной статистике L-оценки были заменены M-оценками , которые обеспечивают надежную статистику, которая также имеет высокую относительную эффективность , но при этом являются гораздо более сложными в вычислительном плане и непрозрачными.
Однако простота L-оценок означает, что их легко интерпретировать и визуализировать, и делает их подходящими для описательной статистики и статистического образования ; многие из них можно даже вычислить в уме из пятичисловой сводки или семичисловой сводки или визуализировать с помощью ящичной диаграммы . L-оценки играют фундаментальную роль во многих подходах к непараметрической статистике .
Хотя L-оценщики непараметрические, они часто используются для оценки параметров , как следует из названия, хотя их часто приходится корректировать, чтобы получить несмещенную согласованную оценку . Выбор L-оценщика и корректировка зависят от распределения, параметр которого оценивается.
Например, при оценке параметра местоположения для симметричного распределения симметричная L-оценка (такая как медиана или середина) будет несмещенной. Однако, если распределение имеет перекос , симметричные L-оценки, как правило, будут смещены и потребуют корректировки. Например, в перекошенном распределении непараметрический перекос (и коэффициенты перекоса Пирсона ) измеряют смещение медианы как оценки среднего.
При оценке параметра масштаба , например, при использовании L-оценки в качестве надежной меры масштаба , например, для оценки дисперсии совокупности или стандартного отклонения совокупности , обычно необходимо умножить ее на масштабный коэффициент , чтобы сделать ее несмещенной и последовательной оценкой; см. параметр масштаба: оценка .
Например, деление IQR на (с использованием функции ошибок ) делает его несмещенной, последовательной оценкой стандартного отклонения популяции, если данные следуют нормальному распределению .
L-оценки также могут использоваться как статистика в их собственном праве – например, медиана является мерой местоположения, а IQR является мерой дисперсии. В этих случаях выборочные статистики могут действовать как оценки их собственного ожидаемого значения ; например, выборочная медиана является оценкой популяционной медианы.
Помимо простоты, L-оценки также часто легко вычисляются и являются надежными.
Предполагая отсортированные данные, L-оценки, включающие только несколько точек, могут быть вычислены с гораздо меньшим количеством математических операций, чем эффективные оценки. [2] [3] До появления электронных калькуляторов и компьютеров они обеспечивали полезный способ извлечения большой части информации из выборки с минимальными трудозатратами. Они оставались на практике до начала и середины 20-го века, когда была возможна автоматизированная сортировка данных перфокарт , но вычисления оставались сложными, [2] и до сих пор используются сегодня для оценок, заданных списком числовых значений в немашиночитаемой форме , где ввод данных более затратен, чем ручная сортировка. Они также позволяют быстро оценивать.
L-оценки часто намного более надежны, чем максимально эффективные традиционные методы — медиана максимально статистически устойчива , имея точку разбиения 50% , а усеченная на X% середина диапазона имеет точку разбиения X%, в то время как выборочное среднее (которое максимально эффективно) минимально надежно, разбиваясь на один выброс.
Хотя L-оценщики не так эффективны, как другие статистики, они часто имеют достаточно высокую относительную эффективность и показывают, что большую часть информации, используемой при оценке, можно получить, используя всего несколько точек — всего одну, две или три. С другой стороны, они показывают, что порядковые статистики содержат значительный объем информации.
Например, с точки зрения эффективности, если имеется выборка нормально распределенного числового параметра , то среднее арифметическое (среднее) для совокупности можно оценить с максимальной эффективностью, вычислив выборочное среднее — сложив всех членов выборки и разделив на количество членов.
Однако для большого набора данных (более 100 точек) из симметричной популяции среднее значение может быть оценено достаточно эффективно относительно наилучшей оценки L-оценщиков. Используя одну точку, это делается путем взятия медианы выборки без каких-либо вычислений (кроме сортировки); это дает эффективность 64% или лучше (для всех n ). Используя две точки, простая оценка — это середина диапазона ( урезанная на 25% середина диапазона ), но более эффективная оценка — это урезанная на 29% середина диапазона, то есть усреднение двух значений на 29% от наименьшего и наибольшего значений: 29-го и 71-го процентилей; это имеет эффективность около 81%. [3] Для трех точек можно использовать тримедиану (среднее значение медианы и середина диапазона), хотя среднее значение 20-го, 50-го и 80-го процентилей дает эффективность 88%. Использование большего количества точек обеспечивает более высокую эффективность, хотя следует отметить, что для очень высокой эффективности достаточно всего 3 точек.
Для оценки стандартного отклонения нормального распределения масштабированный междецильный размах дает достаточно эффективную оценку, хотя вместо этого взятие 7% усеченного размаха (разница между 7-м и 93-м процентилями) и деление на 3 (что соответствует 86% данных нормального распределения, попадающих в 1,5 стандартных отклонения от среднего) дает оценку эффективности около 65%. [3]
Для небольших выборок L-оценки также относительно эффективны: средняя сумма 3-й точки с каждого конца имеет эффективность около 84% для выборок размером около 10, а диапазон, деленный на имеет достаточно хорошую эффективность для размеров до 20, хотя она падает с ростом n , и масштабный коэффициент может быть улучшен (эффективность 85% для 10 точек). Другие эвристические оценки для небольших выборок включают диапазон по n (для стандартной ошибки) и диапазон, квадратичный по медиане (для хи-квадрат распределения Пуассона). [3]