stringtranslate.com

Положительно определенное ядро

В теории операторов , разделе математики, положительно определенное ядро ​​является обобщением положительно определенной функции или положительно определенной матрицы . Впервые он был введен Джеймсом Мерсером в начале 20 века в контексте решения интегрально-операторных уравнений . С тех пор положительно определенные функции и их различные аналоги и обобщения возникли в различных разделах математики. Они естественным образом возникают в анализе Фурье , теории вероятностей , теории операторов , теории комплексных функций , проблемах моментов , интегральных уравнениях , краевых задачах для уравнений в частных производных , машинном обучении , задаче встраивания , теории информации и других областях.

Определение

Пусть — непустое множество, иногда называемое набором индексов. Симметричная функция называется положительно определенным (pd) ядром, если

справедливо для любого данного .

В теории вероятностей иногда различают положительно определенные ядра, для которых из равенства в (1.1) следует , и положительные полуопределенные (ПСД) ядра, которые не накладывают это условие. Обратите внимание, что это эквивалентно требованию, чтобы любая конечная матрица, построенная путем парной оценки, имела либо полностью положительные (pd), либо неотрицательные (psd) собственные значения .

В математической литературе ядра обычно представляют собой комплексные функции. То есть комплексная функция называется эрмитовым ядром , если и положительно определенной , если для любого конечного набора точек и любых комплексных чисел

где обозначает комплексно-сопряженное . [1] В оставшейся части статьи мы предполагаем функции с действительным знаком, что является обычной практикой в ​​приложениях ядер pd.

Некоторые общие свойства

Примеры ядер pd

История

Положительно определенные ядра, определенные в (1.1), впервые появились в 1909 году в статье Джеймса Мерсера по интегральным уравнениям. [3] Несколько других авторов использовали эту концепцию в последующие два десятилетия, но ни один из них явно не использовал ядра , функции iepd (действительно, М. Матиас и С. Бохнер, похоже, не знали об изучении ядер pd). Работа Мерсера возникла из статьи Гильберта 1904 года [4] об интегральных уравнениях Фредгольма второго рода:

В частности, Гильберт показал, что

где – непрерывное вещественное симметрическое ядро, – непрерывная, – полная система ортонормированных собственных функций , а 's – соответствующие собственные значения (1.2). Гильберт определил «определенное» ядро ​​как такое, для которого двойной интеграл

Примерно в то же время У. Янг [5] , движимый другим вопросом теории интегральных уравнений, показал, что для непрерывных ядер условие (1.1) эквивалентно для всех .

Э.Х. Мур [6] [7] инициировал изучение очень общего вида ядра pd. Если — абстрактное множество, он называет функции , определенные на «положительных эрмитовых матрицах», если они удовлетворяют (1.1) для всех . Мур интересовался обобщением интегральных уравнений и показал, что для каждого такого существует гильбертово пространство функций такое, что для каждого . Это свойство называется воспроизводящим свойством ядра и оказывается важным при решении краевых задач для эллиптических уравнений в частных производных.

Другим направлением развития, в котором большую роль сыграли ядра pd, была теория гармоник в однородных пространствах, начатая Э. Картаном в 1929 г. и продолженная Г. Вейлем и С. Ито. Наиболее полной теорией pd-ядер в однородных пространствах является теория М. Крейна [8] , которая включает в качестве частных случаев работы о pd-функциях и неприводимых унитарных представлениях локально компактных групп.

В теории вероятностей ядра pd возникают как ковариационные ядра случайных процессов. [9]

Связь с воспроизведением ядерных гильбертовых пространств и карт признаков.

Положительно определенные ядра обеспечивают основу, охватывающую некоторые основные конструкции гильбертового пространства. Далее мы представляем тесную связь между положительно определенными ядрами и двумя математическими объектами, а именно воспроизведением гильбертовых пространств и карт признаков.

Пусть – набор, гильбертово пространство функций и соответствующее скалярное произведение на . Для любого функционал оценки определяется . Сначала мы определим воспроизводящее ядро ​​гильбертова пространства (RKHS):

Определение : Пространство называется гильбертовым пространством с воспроизводящим ядром, если функционалы оценки непрерывны.

С каждым RKHS связана особая функция, а именно воспроизводящее ядро:

Определение : Воспроизведение ядра — это такая функция, что

  1. , и
  2. , для всех и .

Последнее свойство называется воспроизводящим свойством.

Следующий результат показывает эквивалентность между RKHS и воспроизводящими ядрами:

Теорема  .  Каждое воспроизводящее ядро ​​порождает уникальное RKHS, и каждое RKHS имеет уникальное воспроизводящее ядро.

Теперь связь между положительно определенными ядрами и RKHS дается следующей теоремой

Теорема  .  Каждое воспроизводящее ядро ​​является положительно определенным, и каждое положительно определенное ядро ​​определяет уникальный RKHS, единственным воспроизводящим ядром которого оно является.

Таким образом, по положительно определенному ядру можно построить связанный с ним RKHS в качестве воспроизводящего ядра.

Как говорилось ранее, положительно определенные ядра могут быть построены из скалярных произведений. Этот факт можно использовать для связи ядер pd с другим интересным объектом, возникающим в приложениях машинного обучения, а именно с картой признаков. Пусть – гильбертово пространство и соответствующее скалярное произведение. Любая карта называется картой объектов. В этом случае мы называем пространством признаков. Легко видеть [10] , что каждая карта признаков определяет уникальное ядро ​​pd по формуле

Ядра и расстояния

Методы ядра часто сравнивают с методами, основанными на расстоянии, такими как метод ближайших соседей . В этом разделе мы обсуждаем параллели между двумя соответствующими ингредиентами, а именно ядрами и расстояниями .

Здесь под функцией расстояния между каждой парой элементов некоторого множества мы подразумеваем метрику , определенную на этом множестве, т. е. любую функцию с неотрицательным знаком, на которой выполняется условие

Одна связь между расстояниями и ядрами pd задается особым типом ядра, называемым отрицательно определенным ядром и определяемым следующим образом.

Определение : Симметричная функция называется отрицательно определенным (nd) ядром, если

справедливо для любого и такого, что .

Параллель между nd ядрами и расстояниями заключается в следующем: всякий раз, когда nd ядро ​​обращается в нуль на множестве и равно нулю только на этом множестве, то его квадратный корень является расстоянием для . [11] В то же время каждое расстояние не обязательно соответствует nd-му ядру. Это верно только для гильбертовых расстояний, где расстояние называется гильбертовым, если можно изометрически вложить метрическое пространство в некоторое гильбертово пространство.

С другой стороны, ядра nd можно отождествить с подсемейством ядер pd, известным как бесконечно делимые ядра. Ядро с неотрицательным знаком называется бесконечно делимым, если для каждого существует положительно определенное ядро ​​такое, что .

Другая связь заключается в том, что ядро ​​pd вызывает псевдометрику , где первое ограничение на функцию расстояния ослабляется, чтобы учесть . Учитывая положительно определенное ядро , мы можем определить функцию расстояния как:

Некоторые приложения

Ядра в машинном обучении

Положительно определенные ядра, благодаря их эквивалентности с воспроизводящими ядерными гильбертовыми пространствами, особенно важны в области статистической теории обучения из-за знаменитой теоремы о репрезентаторе , которая утверждает, что каждая функция-минимизатор в RKHS может быть записана как линейная комбинация функции ядра. оцениваются в точках обучения. Это практически полезный результат, поскольку он эффективно упрощает эмпирическую задачу минимизации риска с бесконечномерной до конечномерной задачи оптимизации.

Ядра в вероятностных моделях

В теории вероятностей существует несколько различных способов возникновения ядер.

Предположим теперь, что шумовая переменная с нулевым средним значением и дисперсией добавлена ​​к , так что шум независим для разных и не зависит от там, тогда проблема нахождения хорошей оценки для идентична приведенной выше, но с измененной ядро, заданное .

Численное решение уравнений в частных производных

Одной из крупнейших областей применения так называемых бессеточных методов является численное решение уравнений в частных уравнениях . Некоторые из популярных бессеточных методов тесно связаны с положительно определенными ядрами (например, бессеточный локальный метод Петрова Галеркина (МЛПГ), метод воспроизводящих ядерных частиц (РКПМ) и гидродинамика сглаженных частиц (SPH) ). Эти методы используют радиальное базисное ядро ​​для коллокации . [12]

Теорема о расширении Стайнспринга

Другие приложения

В литературе по компьютерным экспериментам [13] и другим инженерным экспериментам все чаще встречаются модели, основанные на ядрах pd, RBF или кригинге . Одной из таких тем является методология поверхности отклика . Другими типами приложений, которые сводятся к подбору данных, являются быстрое прототипирование и компьютерная графика . Здесь часто используются неявные модели поверхности для аппроксимации или интерполяции данных облака точек.

Ядра pd применяются в различных других областях математики в многомерной интеграции, многомерной оптимизации, а также в численном анализе и научных вычислениях, где изучаются быстрые, точные и адаптивные алгоритмы, идеально реализуемые в высокопроизводительных вычислительных средах. [14]

Смотрите также

Рекомендации

  1. ^ Березанский, Юрий Макарович (1968). Разложения по собственным функциям самосопряженных операторов . Провиденс, Род-Айленд: Американское математическое общество. стр. 45–47. ISBN 978-0-8218-1567-0.
  2. ^ Хейн М. и Буске О. (2005). «Гильбертовы метрики и положительно определенные ядра вероятностных мер». Гахрамани З. и Коуэлл Р., редакторы, Труды AISTATS 2005.
  3. ^ Мерсер, Дж. (1909). «Функции положительного и отрицательного типа и их связь с теорией интегральных уравнений». Философские труды Лондонского королевского общества, серия A 209, стр. 415–446.
  4. ^ Гильберт, Д. (1904). «Grundzuge einer allgemeinen Theorie der linearen Integralgleichungen I», Gott. Nachrichten, матем.-физ. К1 (1904), стр. 49-91.
  5. ^ Янг, WH (1909). «Заметка об одном классе симметрических функций и теореме, необходимой в теории интегральных уравнений», Филос. Пер. Рой.Сок. Лондон, сер. А, 209, стр. 415–446.
  6. ^ Мур, Э.Х. (1916). «О правильно положительных эрмитовых матрицах», Bull. амер. Математика. Соц. 23, 59, стр. 66-67.
  7. ^ Мур, Э.Х. (1935). «Общий анализ, часть I», Мемуары амер. Филос. Соц. 1, Филадельфия.
  8. ^ Крейн. М (1949/1950). "Эрмитово-положительные ядра на однородных пространствах I и II" (на русском языке), Украина. Мат. З. 1 (1949), стр. 64–98 и 2 (1950), стр. 10–59. Английский перевод: амер. Математика. Соц. Переводы Сер. 2, 34 (1963), стр. 69–164.
  9. ^ Лоев, М. (1960). «Теория вероятностей», 2-е изд., Ван Ностранд, Принстон, Нью-Джерси.
  10. ^ Росаско Л. и Поджо Т. (2015). Рукопись «Регуляризация машинного обучения - конспекты лекций MIT 9.520».
  11. ^ Берг, К., Кристенсен, JPR, и Рессел, П. (1984). «Гармонический анализ полугрупп». Номер 100 в текстах для выпускников по математике, Springer Verlag.
  12. ^ Шабак Р. и Вендланд Х. (2006). «Техники ядра: от машинного обучения к бессеточным методам», Cambridge University Press, Acta Numerica (2006), стр. 1–97.
  13. ^ Хааланд, Б. и Цянь, PZG (2010). «Точные эмуляторы для масштабных компьютерных экспериментов», Анн. Стат.
  14. ^ Гумеров Н.А. и Дурайсвами Р. (2007). «Быстрая интерполяция радиальной базисной функции с помощью предварительно обусловленной итерации Крылова». СИАМ Дж. Сайент. Вычисление 29/5, стр. 1876–1899.