Усеченное среднее или усеченное среднее — это статистическая мера центральной тенденции , во многом похожая на среднее и медиану . Она включает в себя расчет среднего значения после отбрасывания заданных частей распределения вероятностей или выборки на верхнем и нижнем конце, и обычно отбрасывая равное количество обоих. Это количество точек, которые следует отбросить, обычно указывается как процент от общего количества точек, но может также указываться как фиксированное количество точек.
Для большинства статистических приложений отбрасывается от 5 до 25 процентов концов. Например, если задан набор из 8 точек, обрезка на 12,5% отбросит минимальное и максимальное значение в выборке: наименьшее и наибольшее значения, и вычислит среднее значение оставшихся 6 точек. 25% отброшенное среднее (когда отбрасываются наименьшие 25% и наибольшие 25%) известно как межквартильное среднее .
Медиану можно рассматривать как полностью усеченное среднее, и она является наиболее надежной. Как и в случае с другими усеченными оценками , основным преимуществом усеченного среднего является надежность и более высокая эффективность для смешанных распределений и распределений с тяжелыми хвостами (таких как распределение Коши ), за счет более низкой эффективности для некоторых других распределений с менее тяжелыми хвостами (таких как нормальное распределение). Для промежуточных распределений различия между эффективностью среднего и медианы не очень велики, например, для распределения Стьюдента с 2 степенями свободы дисперсии для среднего и медианы почти равны.
В некоторых регионах Центральной Европы его также называют средним Виндзора [ требуется ссылка ], но это название не следует путать с средним Винзора : в последнем случае наблюдения, которые усеченное среднее отбрасывает, заменяются наибольшим/наименьшим из оставшихся значений.
Отбрасывание только максимума и минимума известно какмодифицированное среднее значение , особенно в статистике управления.[1]Это также известно какСредний олимпийский показатель (например, в сельском хозяйстве США, как исредний показатель доходов от урожая на выборах), из-за его использования в олимпийских мероприятиях, таких каксистема судейства ИСУвфигурном катании, чтобы сделать оценку устойчивой к одному выпадающему судье.[2]
Если процент отбрасываемых точек не дает целое число, усеченное среднее может быть определено интерполяцией, обычно линейной интерполяцией, между ближайшими целыми числами. Например, если вам нужно вычислить 15% усеченное среднее для выборки, содержащей 10 записей, строго говоря, это будет означать отбрасывание 1 точки с каждого конца (эквивалентно 10% усеченному среднему). При интерполяции вместо этого следует вычислить 10% усеченное среднее (отбрасывая 1 точку с каждого конца) и 20% усеченное среднее (отбрасывая 2 точки с каждого конца), а затем интерполировать, в данном случае усредняя эти два значения. Аналогично, при интерполяции 12% усеченного среднего следует взять взвешенное среднее : вес 10% усеченного среднего составляет 0,8, а 20% усеченного среднего — 0,2.
Усеченное среднее является полезным оценщиком, поскольку оно менее чувствительно к выбросам, чем среднее, но все равно даст разумную оценку центральной тенденции или среднего для многих статистических моделей. В связи с этим его называют надежным оценщиком . Например, при его использовании в олимпийском судействе усечение максимума и минимума не позволяет одному судье увеличить или понизить общую оценку, дав исключительно высокую или низкую оценку.
Одной из ситуаций, в которой может быть выгодно использовать усеченное среднее, является оценка параметра местоположения распределения Коши , колоколообразного распределения вероятностей с (гораздо) более толстыми хвостами, чем у нормального распределения . Можно показать, что усеченное среднее средних 24% выборочных порядковых статистик (т. е. усечение выборки на 38% с каждого конца) дает оценку параметра местоположения популяции, которая более эффективна, чем использование либо выборочной медианы, либо полного выборочного среднего. [3] [4] Однако из-за толстых хвостов распределения Коши эффективность оценщика снижается по мере того, как большая часть выборки используется в оценке. [3] [4] Обратите внимание, что для распределения Коши ни усеченное среднее, ни полное выборочное среднее, ни выборочная медиана не представляют собой оценку максимального правдоподобия , и ни одна из них не является столь асимптотически эффективной, как оценка максимального правдоподобия; Однако оценку максимального правдоподобия вычислить сложнее, поэтому усеченное среднее значение остается полезной альтернативой. [4] [5]
Можно выполнить t-тест Стьюдента на основе усеченного среднего , который называется t-тестом Юэня, [6] [7] который также имеет несколько реализаций в R. [8] [9]
Метод подсчета очков, используемый во многих видах спорта , оцениваемых коллегией судей, представляет собой усеченное среднее значение: отбрасываются самые низкие и самые высокие баллы; вычисляется среднее значение оставшихся баллов . [10]
Базовая процентная ставка Libor рассчитывается как усеченное среднее: при наличии 18 ответов верхние 4 и нижние 4 отбрасываются, а оставшиеся 10 усредняются (что дает коэффициент усечения 4/18 ≈ 22%). [11]
Рассмотрим набор данных, состоящий из:
5-й процентиль (−6,75) лежит между −40 и −5, а 95-й процентиль (148,6) лежит между 101 и 1053 (значения выделены жирным шрифтом). Тогда 5% усеченное среднее значение приведет к следующему:
Этот пример можно сравнить с использованием процедуры Винзорайзинга .
После составления котировок LIBOR использует усеченный средний процесс, в котором самые высокие и самые низкие значения отбрасываются, а оставшиеся значения усредняются. Иногда это называют «олимпийским средним» из-за его использования на Олимпиаде для устранения влияния предвзятого судьи на окончательный счет спортсмена.
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка )