Ядро (статистика)

Термин « ядро» используется в статистическом анализе для обозначения оконной функции . Термин «ядро» имеет несколько различных значений в разных отраслях статистики.

Байесовская статистика

В статистике, особенно в байесовской статистике , ядро функции плотности вероятности (pdf) или функции массы вероятности (pmf) представляет собой форму PDF или pmf, в которой любые факторы, которые не являются функциями какой-либо из переменных в области, являются опущен. ^[1] Обратите внимание, что такие факторы вполне могут быть функциями параметров PDF или PMF. Эти факторы составляют часть коэффициента нормализации распределения вероятностей и во многих ситуациях не нужны. Например, при выборке псевдослучайных чисел большинство алгоритмов выборки игнорируют коэффициент нормализации. Кроме того, в байесовском анализе сопряженных априорных распределений коэффициенты нормализации обычно игнорируются во время вычислений и учитывается только ядро. В конце проверяется форма ядра, и если она соответствует известному распределению, коэффициент нормализации можно восстановить. В противном случае это может оказаться ненужным (например, если необходимо только выполнить выборку из дистрибутива).

Для многих распределений в замкнутой форме можно записать ядро, но не константу нормализации.

Примером является нормальное распределение . Его функция плотности вероятности равна

p(x|\mu,\sigma ^{2})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{- {\frac {(x -\mu )^{2}}{2\sigma ^{2}}}}

и связанное с ним ядро

p(x|\mu,\sigma ^{2})\propto e^{- {\frac {(x-\mu)^{2}}{2\sigma ^{2}}}}

Обратите внимание, что множитель перед экспонентой был опущен, хотя он и содержит параметр , поскольку он не является функцией переменной предметной области . $\sigma ^{2}$ $х$

Анализ шаблонов

Ядро воспроизводящего ядра гильбертова пространства используется в наборе методов, известных как методы ядра, для выполнения таких задач, как статистическая классификация , регрессионный анализ и кластерный анализ данных в неявном пространстве. Такое использование особенно распространено в машинном обучении .

Непараметрическая статистика

В непараметрической статистике ядро — это весовая функция, используемая в методах непараметрической оценки. Ядра используются при оценке плотности ядра для оценки функций плотности случайных величин или в регрессии ядра для оценки условного ожидания случайной величины. Ядра также используются во временных рядах при использовании периодограммы для оценки спектральной плотности , где они известны как оконные функции . Дополнительное использование заключается в оценке изменяющейся во времени интенсивности точечного процесса , где оконные функции (ядра) свертываются с данными временных рядов.

Обычно ширину ядра также необходимо указывать при выполнении непараметрической оценки.

Определение

Ядро — это неотрицательная интегрируемая функция с действительным знаком . Для большинства приложений желательно определить функцию, удовлетворяющую двум дополнительным требованиям:

Нормализация :

{\ displaystyle \ int _ {- \ infty } ^ {+ \ infty } K (u) \, du = 1 \,;}

Симметрия:

K(-u)=K(u){\mbox{для всех значений }}u\,.

Первое требование гарантирует, что метод оценки плотности ядра приводит к функции плотности вероятности . Второе требование гарантирует, что среднее соответствующего распределения будет равно среднему значению используемой выборки.

Если K является ядром, то такой же является и функция K *, определяемая формулой K *( u ) = λ K (λ u ), где λ > 0. Это можно использовать для выбора масштаба, подходящего для данных.

Часто используемые функции ядра

Все ядра ниже в общей системе координат.

Обычно используются несколько типов ядерных функций: равномерная, треугольная, Епанечникова, ^[2] квартика (двухвесная), трехкубическая, ^[3] трехвесовая, гауссова, квадратичная ^[4] и косинус.

В таблице ниже, если дано с ограниченной опорой , то для значений u , лежащих вне опоры. $K$ $K(u)=0$