stringtranslate.com

U-статистика

В статистической теории U -статистика — это класс статистик, определяемых как среднее значение по применению заданной функции ко всем кортежам фиксированного размера. Буква «U» означает несмещенный. В элементарной статистике U-статистика возникает естественным образом при создании несмещенных оценок с минимальной дисперсией .

Теория U-статистики позволяет вывести несмещенную оценку с минимальной дисперсией из каждой несмещенной оценки оцениваемого параметра (альтернативно, статистического функционала ) для больших классов распределений вероятностей . [1] [2] Оцениваемый параметр — это измеримая функция кумулятивного распределения вероятностей совокупности : Например, для каждого распределения вероятностей медиана совокупности является оцениваемым параметром. Теория U-статистики применяется к общим классам распределений вероятностей.

История

Многие статистики, первоначально выведенные для конкретных параметрических семейств, были признаны как U-статистики для общих распределений. В непараметрической статистике теория U-статистик используется для установления статистических процедур (таких как оценщики и тесты) и оценщиков, относящихся к асимптотической нормальности и дисперсии (в конечных выборках) таких величин. [3] Теория использовалась для изучения более общих статистик, а также стохастических процессов , таких как случайные графы . [4] [5] [6]

Предположим, что проблема включает независимые и одинаково распределенные случайные величины и что требуется оценка определенного параметра. Предположим, что простая несмещенная оценка может быть построена на основе всего нескольких наблюдений: это определяет базовую оценку, основанную на заданном количестве наблюдений. Например, одно наблюдение само по себе является несмещенной оценкой среднего значения, а пара наблюдений может быть использована для получения несмещенной оценки дисперсии. U-статистика, основанная на этой оценке, определяется как среднее (по всем комбинаторным выборам заданного размера из полного набора наблюдений) базовой оценки, примененной к подвыборкам.

Пранаб К. Сен (1992) дает обзор статьи Василия Хёффдинга (1948), который ввел U-статистику и изложил теорию, связанную с ней, и при этом Сен подчеркивает важность U-статистики в статистической теории. Сен говорит: [7] «Влияние Хёффдинга (1948) в настоящее время является подавляющим и, весьма вероятно, сохранится в ближайшие годы». Обратите внимание, что теория U-статистики не ограничивается [8] случаем независимых и одинаково распределенных случайных величин или скалярными случайными величинами. [9]

Определение

Термин U-статистика, введенный Хёффдингом (1948), определяется следующим образом.

Пусть будут действительными или комплексными числами, и пусть будет -значной функцией -мерных переменных. Для каждого связанная U-статистика определяется как среднее значение по набору -кортежей индексов из с различными записями. Формально,

.

В частности, если симметрично, то вышеприведенное упрощается до

,

где теперь обозначает подмножество возрастающих кортежей .

Каждая U-статистика обязательно является симметричной функцией .

U-статистика очень естественна в статистической работе, особенно в контексте Хёффдинга независимых и одинаково распределенных случайных величин или, в более общем смысле, для взаимозаменяемых последовательностей , таких как простая случайная выборка из конечной популяции, где определяющее свойство называется «наследование в среднем».

Примерами однородных полиномиальных U-статистик являются k- статистика Фишера и полиномиальная статистика Тьюки (Фишер, 1929; Тьюки, 1950).

Для простой случайной выборки φ размера  n, взятой из совокупности размером  N , U-статистика обладает тем свойством, что среднее значение по выборке  ƒ n ( ) в точности равно значению совокупности  ƒ N ( x ). [ необходимо разъяснение ]

Примеры

Несколько примеров: если U-статистика представляет собой выборочное среднее значение.

Если , то U-статистика представляет собой среднее попарное отклонение , определенное для .

Если , то U-статистика представляет собой выборочную дисперсию с делителем , определенную для .

Третья -статистика , асимметрия выборки , определенная для , является U-статистикой.

Следующий случай подчеркивает важный момент. Если — медиана трех значений, то — не медиана значений. Однако это минимальная дисперсионная несмещенная оценка ожидаемого значения медианы трех значений, а не медианы совокупности. Подобные оценки играют центральную роль, когда параметры семейства распределений вероятностей оцениваются с помощью моментов, взвешенных по вероятности, или L-моментов .

Смотрите также

Примечания

  1. ^ Кокс и Хинкли (1974), стр. 200, стр. 258
  2. ^ Хёффдинг (1948), между уравнениями (4.3), (4.4)
  3. ^ Сен (1992)
  4. Страница 508 в Королюк, ВС; Боровскич, Ю. В. (1994). Теория U -статистик . Математика и ее приложения. Т. 273 (Перевод П. В. Малышева и Д. В. Малышева с русского оригинального издания 1989 г.). Дордрехт: Kluwer Academic Publishers Group. С. x+552. ISBN 0-7923-2608-3. МР  1472486.
  5. ^ Страницы 381–382 в Боровских, Ю. В. (1996).U -статистика в банаховых пространствах . Утрехт: VSP. стр. xii+420. ISBN 90-6764-200-2. МР  1419498.
  6. Страница xii в Kwapień, Stanisƚlaw; Woyczyński, Wojbor A. (1992). Случайные ряды и стохастические интегралы: одиночные и множественные . Вероятность и ее применение. Бостон, Массачусетс: Birkhäuser Boston, Inc. стр. xvi+360. ISBN 0-8176-3572-6. МР  1167198.
  7. ^ Сен (1992) стр. 307
  8. ^ Сен (1992), стр. 306
  9. ^ В последней главе Боровских обсуждается U-статистика для взаимозаменяемых случайных элементов, принимающих значения в векторном пространстве ( сепарабельном банаховом пространстве ).

Ссылки