stringtranslate.com

Оценка переменной плотности ядра

В статистике адаптивная или "переменная полоса пропускания" оценка плотности ядра - это форма оценки плотности ядра , в которой размер ядер , используемых в оценке, варьируется в зависимости либо от местоположения образцов, либо от местоположения контрольной точки. Это особенно эффективный метод, когда пространство выборки является многомерным. [1]

Обоснование

Учитывая набор образцов , мы хотим оценить плотность, , в контрольной точке, :

где n — число выборок, K«ядро» , h — его ширина, а D — число измерений в . Ядро можно рассматривать как простой линейный фильтр .

Использование фиксированной ширины фильтра может означать, что в областях с низкой плотностью все образцы попадут в хвосты фильтра с очень низким весом, в то время как в областях с высокой плотностью будет обнаружено избыточное количество образцов в центральной области с весом, близким к единице. Чтобы решить эту проблему, мы изменяем ширину ядра в разных областях пространства выборки. Для этого есть два метода: оценка на основе баллона и поточечная оценка. В оценке на основе баллона ширина ядра варьируется в зависимости от местоположения контрольной точки. В поточечной оценке ширина ядра варьируется в зависимости от местоположения выборки. [1]

Для многомерных оценщиков параметр h можно обобщить, чтобы варьировать не только размер, но и форму ядра. Этот более сложный подход здесь рассматриваться не будет.

Оценщики воздушных шаров

Распространенный метод изменения ширины ядра — сделать ее обратно пропорциональной плотности в контрольной точке:

где k — константа. Если мы подставим обратно оцененную PDF и предположим, что функция ядра Гаусса , мы можем показать, что W — константа: [2]

Аналогичный вывод справедлив для любого ядра, нормализующая функция которого имеет порядок h D , хотя с другим постоянным множителем вместо члена (2 π) D/2 . Это дает обобщение алгоритма k-ближайшего соседа . То есть, равномерная функция ядра вернет технику KNN. [2]

Ошибка состоит из двух компонентов: члена дисперсии и члена смещения. Член дисперсии задается как: [1]

.

Член смещения находится путем оценки приближенной функции в пределе, когда ширина ядра становится намного больше, чем интервал между выборками. Используя разложение Тейлора для действительной функции, член смещения выпадает:

Таким образом, можно получить оптимальную ширину ядра, которая минимизирует ошибку каждой оценки.

Использовать для статистической классификации

Этот метод особенно эффективен при применении к статистической классификации . Есть два способа, которыми мы можем действовать: первый — вычислить PDF каждого класса отдельно, используя различные параметры полосы пропускания, а затем сравнить их, как в Тейлоре. [3] В качестве альтернативы мы можем разделить сумму на основе класса каждого образца:

где c i — класс i-го образца. Класс контрольной точки можно оценить с помощью максимального правдоподобия .


Внешние ссылки

Ссылки

  1. ^ abc DG Terrell; DW Scott (1992). "Оценка плотности переменного ядра". Annals of Statistics . 20 (3): 1236–1265. doi : 10.1214/aos/1176348768 .
  2. ^ ab Mills, Peter (2011). «Эффективная статистическая классификация спутниковых измерений». International Journal of Remote Sensing . 32 (21): 6109–6132. arXiv : 1202.2194 . Bibcode : 2011IJRS...32.6109M. doi : 10.1080/01431161.2010.507795. S2CID  88518570.
  3. ^ Тейлор, Чарльз (1997). «Классификация и оценка плотности ядра». Vistas in Astronomy . 41 (3): 411–417. Bibcode : 1997VA.....41..411T. doi : 10.1016/s0083-6656(97)00046-9.