Класс статистики в теории оценивания
В статистической теории U -статистика — это класс статистик, определяемых как среднее значение по применению заданной функции ко всем кортежам фиксированного размера. Буква «U» означает несмещенный. В элементарной статистике U-статистика возникает естественным образом при создании несмещенных оценок с минимальной дисперсией .
Теория U-статистики позволяет вывести несмещенную оценку с минимальной дисперсией из каждой несмещенной оценки оцениваемого параметра (альтернативно, статистического функционала ) для больших классов распределений вероятностей . [1] [2] Оцениваемый параметр — это измеримая функция кумулятивного распределения вероятностей совокупности : Например, для каждого распределения вероятностей медиана совокупности является оцениваемым параметром. Теория U-статистики применяется к общим классам распределений вероятностей.
История
Многие статистики, первоначально выведенные для конкретных параметрических семейств, были признаны как U-статистики для общих распределений. В непараметрической статистике теория U-статистик используется для установления статистических процедур (таких как оценщики и тесты) и оценщиков, относящихся к асимптотической нормальности и дисперсии (в конечных выборках) таких величин. [3] Теория использовалась для изучения более общих статистик, а также стохастических процессов , таких как случайные графы . [4] [5] [6]
Предположим, что проблема включает независимые и одинаково распределенные случайные величины и что требуется оценка определенного параметра. Предположим, что простая несмещенная оценка может быть построена на основе всего нескольких наблюдений: это определяет базовую оценку, основанную на заданном количестве наблюдений. Например, одно наблюдение само по себе является несмещенной оценкой среднего значения, а пара наблюдений может быть использована для получения несмещенной оценки дисперсии. U-статистика, основанная на этой оценке, определяется как среднее (по всем комбинаторным выборам заданного размера из полного набора наблюдений) базовой оценки, примененной к подвыборкам.
Пранаб К. Сен (1992) дает обзор статьи Василия Хёффдинга (1948), который ввел U-статистику и изложил теорию, связанную с ней, и при этом Сен подчеркивает важность U-статистики в статистической теории. Сен говорит: [7] «Влияние Хёффдинга (1948) в настоящее время является подавляющим и, весьма вероятно, сохранится в ближайшие годы». Обратите внимание, что теория U-статистики не ограничивается [8] случаем независимых и одинаково распределенных случайных величин или скалярными случайными величинами. [9]
Определение
Термин U-статистика, введенный Хёффдингом (1948), определяется следующим образом.
Пусть будут действительными или комплексными числами, и пусть будет -значной функцией -мерных переменных. Для каждого связанная U-статистика определяется как среднее значение по набору -кортежей индексов из с различными записями. Формально,
- .
В частности, если симметрично, то вышеприведенное упрощается до
- ,
где теперь обозначает подмножество возрастающих кортежей .
Каждая U-статистика обязательно является симметричной функцией .
U-статистика очень естественна в статистической работе, особенно в контексте Хёффдинга независимых и одинаково распределенных случайных величин или, в более общем смысле, для взаимозаменяемых последовательностей , таких как простая случайная выборка из конечной популяции, где определяющее свойство называется «наследование в среднем».
Примерами однородных полиномиальных U-статистик являются k- статистика Фишера и полиномиальная статистика Тьюки (Фишер, 1929; Тьюки, 1950).
Для простой случайной выборки φ размера n, взятой из совокупности размером N , U-статистика обладает тем свойством, что среднее значение по выборке ƒ n ( xφ ) в точности равно значению совокупности ƒ N ( x ). [ необходимо разъяснение ]
Примеры
Несколько примеров: если U-статистика представляет собой выборочное среднее значение.
Если , то U-статистика представляет собой среднее попарное отклонение , определенное для .
Если , то U-статистика представляет собой выборочную дисперсию
с делителем , определенную для .
Третья -статистика , асимметрия выборки , определенная для , является U-статистикой.
Следующий случай подчеркивает важный момент. Если — медиана трех значений, то — не медиана значений. Однако это минимальная дисперсионная несмещенная оценка ожидаемого значения медианы трех значений, а не медианы совокупности. Подобные оценки играют центральную роль, когда параметры семейства распределений вероятностей оцениваются с помощью моментов, взвешенных по вероятности, или L-моментов .
Смотрите также
Примечания
- ^ Кокс и Хинкли (1974), стр. 200, стр. 258
- ^ Хёффдинг (1948), между уравнениями (4.3), (4.4)
- ^ Сен (1992)
- ↑ Страница 508 в Королюк, ВС; Боровскич, Ю. В. (1994). Теория U -статистик . Математика и ее приложения. Т. 273 (Перевод П. В. Малышева и Д. В. Малышева с русского оригинального издания 1989 г.). Дордрехт: Kluwer Academic Publishers Group. С. x+552. ISBN 0-7923-2608-3. МР 1472486.
- ^ Страницы 381–382 в Боровских, Ю. В. (1996).U -статистика в банаховых пространствах . Утрехт: VSP. стр. xii+420. ISBN 90-6764-200-2. МР 1419498.
- ↑ Страница xii в Kwapień, Stanisƚlaw; Woyczyński, Wojbor A. (1992). Случайные ряды и стохастические интегралы: одиночные и множественные . Вероятность и ее применение. Бостон, Массачусетс: Birkhäuser Boston, Inc. стр. xvi+360. ISBN 0-8176-3572-6. МР 1167198.
- ^ Сен (1992) стр. 307
- ^ Сен (1992), стр. 306
- ^ В последней главе Боровских обсуждается U-статистика для взаимозаменяемых случайных элементов, принимающих значения в векторном пространстве ( сепарабельном банаховом пространстве ).
Ссылки
- Боровских, Ю. В. (1996).U -статистика в банаховых пространствах . Утрехт: VSP. стр. xii+420. ISBN 90-6764-200-2. МР 1419498.
- Кокс, Д.Р., Хинкли, Д.В. (1974) Теоретическая статистика . Чепмен и Холл. ISBN 0-412-12420-3
- Фишер, РА (1929) Моменты и моменты произведений выборочных распределений. Труды Лондонского математического общества , 2, 30:199–238.
- Hoeffding, W. (1948) Класс статистик с асимптотически нормальным распределением. Annals of Statistics , 19:293–325. (Частично перепечатано в: Kotz, S., Johnson, NL (1992) Breakthroughs in Statistics , Vol I, pp 308–334. Springer-Verlag. ISBN 0-387-94037-5 )
- Королюк, В. С.; Боровских, Ю. В. (1994). Теория U -статистик . Математика и ее приложения. Т. 273 (Перевод П. В. Малышева и Д. В. Малышева с русского оригинального издания 1989 г.). Дордрехт: Kluwer Academic Publishers Group. С. x+552. ISBN 0-7923-2608-3. МР 1472486.
- Ли, А. Дж. (1990) U-статистика: теория и практика . Марсель Деккер, Нью-Йорк. стр. 320 ISBN 0-8247-8253-4
- Сен, П. К. (1992) Введение в Хёффдинг (1948) Класс статистик с асимптотически нормальным распределением. В: Коц, С., Джонсон, Н. Л. Прорывы в статистике , т. I, стр. 299–307. Springer-Verlag. ISBN 0-387-94037-5 .
- Серфлинг, Роберт Дж. (1980). Теоремы аппроксимации математической статистики . Нью-Йорк: John Wiley and Sons. ISBN 0-471-02403-1.
- Tukey, JW (1950). «Некоторые упрощенные выборки». Журнал Американской статистической ассоциации . 45 (252): 501–519. doi :10.1080/01621459.1950.10501142.
- Халмош, П. (1946). «Теория несмещенной оценки». Annals of Mathematical Statistics . 1 (17): 34–43. doi : 10.1214/aoms/1177731020 .