В статистике адаптивная или "переменная полоса пропускания" оценка плотности ядра - это форма оценки плотности ядра , в которой размер ядер , используемых в оценке, варьируется в зависимости либо от местоположения образцов, либо от местоположения контрольной точки. Это особенно эффективный метод, когда пространство выборки является многомерным. [1]
Учитывая набор образцов , мы хотим оценить плотность, , в контрольной точке, :
где n — число выборок, K — «ядро» , h — его ширина, а D — число измерений в . Ядро можно рассматривать как простой линейный фильтр .
Использование фиксированной ширины фильтра может означать, что в областях с низкой плотностью все образцы попадут в хвосты фильтра с очень низким весом, в то время как в областях с высокой плотностью будет обнаружено избыточное количество образцов в центральной области с весом, близким к единице. Чтобы решить эту проблему, мы изменяем ширину ядра в разных областях пространства выборки. Для этого есть два метода: оценка на основе баллона и поточечная оценка. В оценке на основе баллона ширина ядра варьируется в зависимости от местоположения контрольной точки. В поточечной оценке ширина ядра варьируется в зависимости от местоположения выборки. [1]
Для многомерных оценщиков параметр h можно обобщить, чтобы варьировать не только размер, но и форму ядра. Этот более сложный подход здесь рассматриваться не будет.
Распространенный метод изменения ширины ядра — сделать ее обратно пропорциональной плотности в контрольной точке:
где k — константа. Если мы подставим обратно оцененную PDF и предположим, что функция ядра Гаусса , мы можем показать, что W — константа: [2]
Аналогичный вывод справедлив для любого ядра, нормализующая функция которого имеет порядок h D , хотя с другим постоянным множителем вместо члена (2 π) D/2 . Это дает обобщение алгоритма k-ближайшего соседа . То есть, равномерная функция ядра вернет технику KNN. [2]
Ошибка состоит из двух компонентов: члена дисперсии и члена смещения. Член дисперсии задается как: [1]
Член смещения находится путем оценки приближенной функции в пределе, когда ширина ядра становится намного больше, чем интервал между выборками. Используя разложение Тейлора для действительной функции, член смещения выпадает:
Таким образом, можно получить оптимальную ширину ядра, которая минимизирует ошибку каждой оценки.
Этот метод особенно эффективен при применении к статистической классификации . Есть два способа, которыми мы можем действовать: первый — вычислить PDF каждого класса отдельно, используя различные параметры полосы пропускания, а затем сравнить их, как в Тейлоре. [3] В качестве альтернативы мы можем разделить сумму на основе класса каждого образца:
где c i — класс i-го образца. Класс контрольной точки можно оценить с помощью максимального правдоподобия .