В статистике эффективность является мерой качества оценщика , экспериментального плана [1] или процедуры проверки гипотез . [2] По сути, более эффективному оценщику требуется меньше входных данных или наблюдений, чем менее эффективному, чтобы достичь границы Крамера–Рао . Эффективный оценщик характеризуется наличием наименьшей возможной дисперсии , что указывает на то, что существует небольшое отклонение между оценочным значением и «истинным» значением в смысле нормы L2 . [1]
Относительная эффективность двух процедур — это отношение их эффективностей, хотя часто это понятие используется, когда сравнение проводится между данной процедурой и условной «наилучшей возможной» процедурой. Эффективности и относительная эффективность двух процедур теоретически зависят от размера выборки, доступной для данной процедуры, но часто можно использовать асимптотическую относительную эффективность (определяемую как предел относительной эффективности при увеличении размера выборки) в качестве основной меры сравнения.
Эффективность несмещенной оценки T параметра θ определяется как [ 3 ]
где — информация Фишера выборки. Таким образом, e ( T ) — это минимально возможная дисперсия для несмещенной оценки, деленная на ее фактическую дисперсию. Граница Крамера–Рао может быть использована для доказательства того, что e ( T ) ≤ 1.
Эффективный оценщик — это оценщик , который оценивает интересующую величину некоторым «наилучшим возможным» способом. Понятие «наилучшего возможного» основано на выборе конкретной функции потерь — функции, которая количественно определяет относительную степень нежелательности ошибок оценки различных величин. Наиболее распространенный выбор функции потерь — квадратичный , что приводит к критерию оптимальности среднеквадратичной ошибки . [4]
В общем случае разброс оценщика вокруг параметра θ является мерой эффективности и производительности оценщика. Эта производительность может быть рассчитана путем нахождения среднеквадратической ошибки. Более формально, пусть T будет оценщиком для параметра θ . Среднеквадратическая ошибка T — это значение , которое можно разложить на сумму его дисперсии и смещения:
Оценщик T 1 работает лучше, чем оценщик T 2 , если . [5] Для более конкретного случая, если T 1 и T 2 являются двумя несмещенными оценщиками для одного и того же параметра θ, то дисперсию можно сравнить, чтобы определить производительность. В этом случае T 2 эффективнее T 1 , если дисперсия T 2 меньше дисперсии T 1 , т.е. для всех значений θ . Это соотношение можно определить, упростив более общий случай выше для среднеквадратичной ошибки; поскольку ожидаемое значение несмещенного оценщика равно значению параметра, . Следовательно, для несмещенного оценщика, , поскольку член выпадает при равенстве 0. [5]
Если несмещенная оценка параметра θ достигается для всех значений параметра, то оценка называется эффективной. [3]
Эквивалентно, оценщик достигает равенства в неравенстве Крамера–Рао для всех θ . Нижняя граница Крамера–Рао — это нижняя граница дисперсии несмещенной оценки, представляющая «лучшее», каким может быть несмещенная оценка.
Эффективная оценка также является минимальной дисперсионной несмещенной оценкой (MVUE). Это происходит потому, что эффективная оценка поддерживает равенство по неравенству Крамера–Рао для всех значений параметров, что означает, что она достигает минимальной дисперсии для всех параметров (определение MVUE). Оценка MVUE, даже если она существует, не обязательно эффективна, потому что «минимум» не означает, что равенство выполняется по неравенству Крамера–Рао.
Таким образом, эффективная оценка не обязательно должна существовать, но если она есть, то это MVUE.
Предположим, что { P θ | θ ∈ Θ } — параметрическая модель , а X = ( X 1 , …, X n ) — данные, выбранные из этой модели. Пусть T = T ( X ) — оценщик для параметра θ . Если этот оценщик несмещен (то есть E[ T ] = θ ), то неравенство Крамера–Рао утверждает, что дисперсия этого оценщика ограничена снизу:
где — информационная матрица Фишера модели в точке θ . Обычно дисперсия измеряет степень дисперсии случайной величины вокруг ее среднего значения. Таким образом, оценщики с малыми дисперсиями более сконцентрированы, они точнее оценивают параметры. Мы говорим, что оценщик является эффективным оценщиком конечной выборки (в классе несмещенных оценщиков), если он достигает нижней границы в неравенстве Крамера–Рао выше для всех θ ∈ Θ . Эффективные оценщики всегда являются несмещенными оценщиками с минимальной дисперсией . Однако обратное утверждение неверно: существуют задачи точечной оценки, для которых несмещенный оценщик со средним минимальным дисперсией неэффективен. [6]
Исторически эффективность конечной выборки была ранним критерием оптимальности. Однако этот критерий имеет некоторые ограничения:
Например, среди моделей, встречающихся на практике, существуют эффективные оценки для: среднего значения μ нормального распределения (но не дисперсии σ2 ) , параметра λ распределения Пуассона , вероятности p в биномиальном или полиномиальном распределении .
Рассмотрим модель нормального распределения с неизвестным средним значением, но известной дисперсией: { P θ = N ( θ , σ 2 ) | θ ∈ R }. Данные состоят из n независимых и одинаково распределенных наблюдений из этой модели: X = ( x 1 , …, x n ) . Мы оцениваем параметр θ, используя выборочное среднее значение всех наблюдений:
Эта оценка имеет среднее значение θ и дисперсию σ 2 / n , которая равна обратной величине информации Фишера из выборки. Таким образом, выборочное среднее значение является эффективной оценкой для конечной выборки для среднего значения нормального распределения.
Асимптотическая эффективность требует согласованности (статистики) , асимптотического нормального распределения оценки и асимптотической дисперсионно-ковариационной матрицы не хуже, чем у любой другой оценки. [9]
Рассмотрим выборку размера, полученную из нормального распределения среднего значения и единичной дисперсии , т. е.
Выборочное среднее значение , , выборки , определяется как
Дисперсия среднего значения, 1/ N (квадрат стандартной ошибки ), равна обратной величине информации Фишера из выборки, и, таким образом, по неравенству Крамера–Рао , выборочное среднее значение эффективно в том смысле, что его эффективность равна единице (100%).
Теперь рассмотрим медиану выборки , . Это несмещенная и последовательная оценка для . Для больших медиана выборки приблизительно нормально распределена со средним значением и дисперсией [10]
Эффективность медианы для больших значений , таким образом, равна
Другими словами, относительная дисперсия медианы будет на 57% больше, чем дисперсия среднего значения – стандартная ошибка медианы будет на 25% больше, чем у среднего значения. [11]
Обратите внимание, что это асимптотическая эффективность — то есть эффективность в пределе, когда размер выборки стремится к бесконечности. Для конечных значений эффективность выше этого (например, размер выборки 3 дает эффективность около 74%). [ необходима цитата ]
Таким образом, в этом примере выборочное среднее значение более эффективно, чем выборочная медиана. Однако могут быть меры, по которым медиана работает лучше. Например, медиана гораздо более устойчива к выбросам , так что если гауссовская модель сомнительна или приблизительна, могут быть преимущества в использовании медианы (см. Надежная статистика ).
Если и являются оценками для параметра , то говорят, что доминируют, если:
Формально доминирует , если
справедливо для всех , причем где-то выполняется строгое неравенство.
Относительная эффективность двух несмещенных оценок определяется как [12]
Хотя в целом является функцией , во многих случаях зависимость пропадает; если это так, то значение больше единицы будет указывать на то, что оно предпочтительнее, независимо от истинного значения .
Альтернативой относительной эффективности для сравнения оценщиков является критерий близости Питмана . Он заменяет сравнение среднеквадратических ошибок сравнением того, как часто один оценщик выдает оценки, более близкие к истинному значению, чем другой оценщик.
При оценке среднего значения некоррелированных, одинаково распределенных переменных мы можем воспользоваться тем фактом, что дисперсия суммы является суммой дисперсий . В этом случае эффективность может быть определена как квадрат коэффициента вариации , т.е. [13]
Относительную эффективность двух таких оценок можно, таким образом, интерпретировать как относительный размер выборки одной, необходимый для достижения уверенности другой. Доказательство:
Теперь, поскольку у нас есть , относительная эффективность выражает относительный размер выборки первой оценки, необходимый для соответствия дисперсии второй.
Эффективность оценщика может значительно измениться, если распределение изменится, часто упав. Это одна из мотиваций надежной статистики — оценщик, такой как выборочное среднее, является эффективным оценщиком среднего значения популяции нормального распределения, например, но может быть неэффективным оценщиком распределения смеси двух нормальных распределений с одинаковым средним значением и разными дисперсиями. Например, если распределение представляет собой комбинацию 98% N ( μ, σ ) и 2% N ( μ, 10 σ ), наличие экстремальных значений из последнего распределения (часто «загрязняющих выбросов») значительно снижает эффективность выборочного среднего как оценщика μ. Напротив, усеченное среднее менее эффективно для нормального распределения, но более надежно (т. е. менее подвержено влиянию) изменений в распределении и, таким образом, может быть более эффективным для распределения смеси. Аналогично, форма распределения , такая как асимметрия или тяжелые хвосты , может значительно снизить эффективность оценок, которые предполагают симметричное распределение или тонкие хвосты.
Хотя эффективность является желательным качеством оценщика, ее необходимо сопоставлять с другими соображениями, и оценщик, который эффективен для определенных распределений, может быть неэффективен для других распределений. Что наиболее важно, оценщики, которые эффективны для чистых данных из простого распределения, такого как нормальное распределение (которое является симметричным, унимодальным и имеет тонкие хвосты), могут быть неустойчивы к загрязнению выбросами и могут быть неэффективны для более сложных распределений. В надежной статистике большее значение придается надежности и применимости к широкому спектру распределений, а не эффективности для одного распределения. M-оценщики представляют собой общий класс оценщиков, мотивированных этими проблемами. Они могут быть разработаны для обеспечения как надежности, так и высокой относительной эффективности, хотя, возможно, и более низкой эффективности, чем традиционные оценщики в некоторых случаях. Однако они могут быть очень вычислительно сложными.
Более традиционной альтернативой являются L-оценщики , которые являются очень простой статистикой, которую легко вычислять и интерпретировать, во многих случаях надежны и часто достаточно эффективны для первоначальных оценок. См. применение L-оценщиков для дальнейшего обсуждения.
Эффективность в статистике важна, поскольку она позволяет сравнивать производительность различных оценщиков. Хотя несмещенная оценка обычно предпочтительнее смещенной, более эффективная смещенная оценка иногда может быть более ценной, чем менее эффективная несмещенная оценка. Например, это может произойти, когда значения смещенной оценки собираются вокруг числа, более близкого к истинному значению. Таким образом, производительность оценщика можно легко предсказать, сравнивая их среднеквадратичные ошибки или дисперсии.
Для сравнения значимости тестов значимая мера эффективности может быть определена на основе размера выборки, необходимого для того, чтобы тест достиг заданной мощности задачи . [14]
Эффективность Питмана [15] и эффективность Бахадура (или эффективность Ходжеса–Лемана) [16] [17] [18] относятся к сравнению производительности процедур проверки статистических гипотез .
Для экспериментальных проектов эффективность относится к способности проекта достигать цели исследования с минимальными затратами ресурсов, таких как время и деньги. В простых случаях относительная эффективность проектов может быть выражена как отношение размеров выборки, необходимых для достижения данной цели. [19]
{{cite book}}
: CS1 maint: отсутствует местоположение издателя ( ссылка )