stringtranslate.com

Усеченное среднее

Усеченное среднее или усеченное среднее — это статистическая мера центральной тенденции , во многом похожая на среднее и медиану . Она включает в себя расчет среднего значения после отбрасывания заданных частей распределения вероятностей или выборки на верхнем и нижнем конце, и обычно отбрасывая равное количество обоих. Это количество точек, которые следует отбросить, обычно указывается как процент от общего количества точек, но может также указываться как фиксированное количество точек.

Для большинства статистических приложений отбрасывается от 5 до 25 процентов концов. Например, если задан набор из 8 точек, обрезка на 12,5% отбросит минимальное и максимальное значение в выборке: наименьшее и наибольшее значения, и вычислит среднее значение оставшихся 6 точек. 25% отброшенное среднее (когда отбрасываются наименьшие 25% и наибольшие 25%) известно как межквартильное среднее .

Медиану можно рассматривать как полностью усеченное среднее, и она является наиболее надежной. Как и в случае с другими усеченными оценками , основным преимуществом усеченного среднего является надежность и более высокая эффективность для смешанных распределений и распределений с тяжелыми хвостами (таких как распределение Коши ), за счет более низкой эффективности для некоторых других распределений с менее тяжелыми хвостами (таких как нормальное распределение). Для промежуточных распределений различия между эффективностью среднего и медианы не очень велики, например, для распределения Стьюдента с 2 степенями свободы дисперсии для среднего и медианы почти равны.

Терминология

В некоторых регионах Центральной Европы его также называют средним Виндзора [ требуется ссылка ], но это название не следует путать с средним Винзора : в последнем случае наблюдения, которые усеченное среднее отбрасывает, заменяются наибольшим/наименьшим из оставшихся значений.

Отбрасывание только максимума и минимума известно какмодифицированное среднее значение , особенно в статистике управления.[1]Это также известно какСредний олимпийский показатель (например, в сельском хозяйстве США, как исредний показатель доходов от урожая на выборах), из-за его использования в олимпийских мероприятиях, таких каксистема судейства ИСУвфигурном катании, чтобы сделать оценку устойчивой к одному выпадающему судье.[2]

Интерполяция

Если процент отбрасываемых точек не дает целое число, усеченное среднее может быть определено интерполяцией, обычно линейной интерполяцией, между ближайшими целыми числами. Например, если вам нужно вычислить 15% усеченное среднее для выборки, содержащей 10 записей, строго говоря, это будет означать отбрасывание 1 точки с каждого конца (эквивалентно 10% усеченному среднему). При интерполяции вместо этого следует вычислить 10% усеченное среднее (отбрасывая 1 точку с каждого конца) и 20% усеченное среднее (отбрасывая 2 точки с каждого конца), а затем интерполировать, в данном случае усредняя эти два значения. Аналогично, при интерполяции 12% усеченного среднего следует взять взвешенное среднее : вес 10% усеченного среднего составляет 0,8, а 20% усеченного среднего — 0,2.

Преимущества

Усеченное среднее является полезным оценщиком, поскольку оно менее чувствительно к выбросам, чем среднее, но все равно даст разумную оценку центральной тенденции или среднего для многих статистических моделей. В связи с этим его называют надежным оценщиком . Например, при его использовании в олимпийском судействе усечение максимума и минимума не позволяет одному судье увеличить или понизить общую оценку, дав исключительно высокую или низкую оценку.

Одной из ситуаций, в которой может быть выгодно использовать усеченное среднее, является оценка параметра местоположения распределения Коши , колоколообразного распределения вероятностей с (гораздо) более толстыми хвостами, чем у нормального распределения . Можно показать, что усеченное среднее средних 24% выборочных порядковых статистик (т. е. усечение выборки на 38% с каждого конца) дает оценку параметра местоположения популяции, которая более эффективна, чем использование либо выборочной медианы, либо полного выборочного среднего. [3] [4] Однако из-за толстых хвостов распределения Коши эффективность оценщика снижается по мере того, как большая часть выборки используется в оценке. [3] [4] Обратите внимание, что для распределения Коши ни усеченное среднее, ни полное выборочное среднее, ни выборочная медиана не представляют собой оценку максимального правдоподобия , и ни одна из них не является столь асимптотически эффективной, как оценка максимального правдоподобия; Однако оценку максимального правдоподобия вычислить сложнее, поэтому усеченное среднее значение остается полезной альтернативой. [4] [5]

Статистические тесты

Можно выполнить t-тест Стьюдента на основе усеченного среднего , который называется t-тестом Юэня, [6] [7] который также имеет несколько реализаций в R. [8] [9]

Примеры

Метод подсчета очков, используемый во многих видах спорта , оцениваемых коллегией судей, представляет собой усеченное среднее значение: отбрасываются самые низкие и самые высокие баллы; вычисляется среднее значение оставшихся баллов . [10]

Базовая процентная ставка Libor рассчитывается как усеченное среднее: при наличии 18 ответов верхние 4 и нижние 4 отбрасываются, а оставшиеся 10 усредняются (что дает коэффициент усечения 4/18 ≈ 22%). [11]

Рассмотрим набор данных, состоящий из:

{92, 19, 101 , 58, 1053 , 91, 26, 78, 10, 13, −40 , 101 , 86, 85, 15, 89, 89, 28, −5 , 41} (N = 20, среднее = 101,5)

5-й процентиль (−6,75) лежит между −40 и −5, а 95-й процентиль (148,6) лежит между 101 и 1053 (значения выделены жирным шрифтом). Тогда 5% усеченное среднее значение приведет к следующему:

{92, 19, 101, 58, 91, 26, 78, 10, 13, 101, 86, 85, 15, 89, 89, 28, −5, 41} (N = 18, среднее = 56,5)

Этот пример можно сравнить с использованием процедуры Винзорайзинга .

Смотрите также

Ссылки

  1. ^ Арулможи, Г.; Статистика для менеджмента, 2-е издание, Tata McGraw-Hill Education, 2009, с. 458
  2. ^ Пол Э. Петерсон (3 августа 2012 г.). «Уроки LIBOR». После составления котировок LIBOR использует усеченный средний процесс, в котором самые высокие и самые низкие значения отбрасываются, а оставшиеся значения усредняются. Иногда это называют «олимпийским средним» из-за его использования на Олимпиаде для устранения влияния предвзятого судьи на окончательный счет спортсмена.
  3. ^ ab Rothenberg, Thomas J.; Fisher, Franklin, M.; Tilanus, CB (1964). «Заметка об оценке по выборке Коши». Журнал Американской статистической ассоциации . 59 (306): 460–463. doi :10.1080/01621459.1964.10482170.{{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  4. ^ abc Блох, Дэниел (1966). «Заметка об оценке параметров местоположения распределения Коши». Журнал Американской статистической ассоциации . 61 (316): 852–855. doi :10.1080/01621459.1966.10480912. JSTOR  2282794.
  5. ^ Фергюсон, Томас С. (1978). «Оценки максимального правдоподобия параметров распределения Коши для выборок размера 3 и 4». Журнал Американской статистической ассоциации . 73 (361): 211–213. doi :10.1080/01621459.1978.10480031. JSTOR  2286549.
  6. ^ Юэн, КК (1974) Двухвыборочное усеченное t-критерий для неравных дисперсий популяции. Биометрика, 61, 165-170.
  7. ^ Уилкокс, Р. Р. (2005). Введение в надежную оценку и проверку гипотез. Academic Press.
  8. ^ «WRS2: Коллекция надежных статистических методов». 20 июля 2021 г.
  9. ^ "DescTools: Инструменты для описательной статистики". 9 сентября 2021 г.
  10. ^ Бялик, Карл (27 июля 2012 г.). «Устранение предвзятости судей — задача олимпийского масштаба». The Wall Street Journal . Получено 7 сентября 2014 г.
  11. ^ "bbalibor: The Basics". Ассоциация британских банкиров.