stringtranslate.com

Размерность Вапника–Червоненкиса

В теории Вапника–Червоненкиса размерность Вапника –Червоненкиса (VC) является мерой размера (емкости, сложности, выразительной силы, богатства или гибкости) класса множеств. Понятие может быть распространено на классы бинарных функций. Она определяется как мощность наибольшего набора точек, который алгоритм может разбить , что означает, что алгоритм всегда может выучить идеальный классификатор для любой маркировки хотя бы одной конфигурации этих точек данных. Первоначально она была определена Владимиром Вапником и Алексеем Червоненкисом . [1]

Неформально, емкость модели классификации связана с тем, насколько она может быть сложной. Например, рассмотрим пороговое значение полинома высокой степени : если полином оценивается выше нуля, эта точка классифицируется как положительная, в противном случае как отрицательная. Полином высокой степени может быть волнистым, поэтому он может хорошо соответствовать заданному набору точек обучения. Но можно ожидать, что классификатор будет делать ошибки в других точках, потому что он слишком волнистый. Такой полином имеет высокую емкость. Гораздо более простой альтернативой является пороговое значение линейной функции. Эта функция может не соответствовать обучающему набору, потому что у нее низкая емкость. Это понятие емкости делается строго ниже.

Определения

VC-измерение множества-семейства

Пусть — семейство множеств (множество множеств) и множество. Их пересечение определяется как следующее семейство множеств:

Мы говорим, что множество разрушено , если оно содержит все подмножества , то есть:

Размерность VC — это мощность наибольшего множества, которое разрушается . Если произвольно большие множества могут быть разрушены, размерность VC равна .

Измерение VC модели классификации

Говорят, что бинарная модель классификации с некоторым вектором параметров разрушает набор обычно расположенных точек данных , если для каждого назначения меток этим точкам существует такое , что модель не делает ошибок при оценке этого набора точек данных [ необходима ссылка ] .

Измерение VC модели — это максимальное количество точек, которые можно расположить так, чтобы они разбились. Более формально, это максимальный кардинал, такой, что существует в целом позиционированный набор точек данных с кардинальностью , который может быть раздроблен .

Примеры

  1. является постоянным классификатором (без параметров); Его размерность VC равна 0, поскольку он не может разбить даже одну точку. В общем случае размерность VC конечной модели классификации, которая может возвращать не более различных классификаторов, составляет не более (это верхняя граница размерности VC; лемма Зауэра–Шелаха дает нижнюю границу размерности).
  2. является однопараметрическим пороговым классификатором на действительных числах; т. е. для определенного порога классификатор возвращает 1, если входное число больше, чем , и 0 в противном случае. Размерность VC равна 1, потому что: (a) он может разбить одну точку. Для каждой точки классификатор помечает ее как 0, если и помечает ее как 1, если . (b) он не может разбить все наборы с двумя точками. Для каждого набора из двух чисел, если меньшее помечено как 1, то большее также должно быть помечено как 1, поэтому не все маркировки возможны.
  3. является однопараметрическим интервальным классификатором действительных чисел; т. е. для определенного параметра классификатор возвращает 1, если входное число находится в интервале , и 0 в противном случае. Размерность VC равна 2, потому что: (a) Он может разбить некоторые наборы из двух точек. Например, для каждого набора классификатор помечает его как (0,0), если или если , как (1,0), если , как (1,1), если , и как (0,1), если . (b) Он не может разбить ни один набор из трех точек. Для каждого набора из трех чисел, если наименьшее и наибольшее помечены как 1, то среднее также должно быть помечено как 1, поэтому не все маркировки возможны.
  4. представляет собой прямую линию как модель классификации точек в двумерной плоскости (эта модель используется персептроном ) . Линия должна разделять положительные точки данных от отрицательных точек данных. Существуют наборы из 3 точек, которые действительно можно разбить с помощью этой модели (любые 3 точки, которые не являются коллинеарными, можно разбить). Однако ни один набор из 4 точек не может быть разбит: по теореме Радона любые четыре точки можно разбить на два подмножества с пересекающимися выпуклыми оболочками , поэтому невозможно отделить одно из этих двух подмножеств от другого. Таким образом, размерность VC этого конкретного классификатора равна 3. Важно помнить, что хотя можно выбрать любое расположение точек, расположение этих точек не может измениться при попытке разбить для некоторого назначения меток. Обратите внимание, что  для трех точек показаны только 3 из 2 3 = 8 возможных назначений меток.
  5. является однопараметрическим синусоидальным классификатором, т. е. для определенного параметра классификатор возвращает 1, если входное число имеет и 0 в противном случае. Размерность VC бесконечна, поскольку она может разрушить любое конечное подмножество множества . [2] : 57 

Использует

В статистической теории обучения

Измерение VC может предсказать вероятностную верхнюю границу ошибки теста модели классификации. Вапник [3] доказал, что вероятность ошибки теста (т. е. риска с функцией потерь 0–1), отдаляющейся от верхней границы (на данных, которые взяты iid из того же распределения, что и обучающий набор), определяется по формуле:

где — размерность VC модели классификации, , а — размер обучающего набора (ограничение: эта формула верна, когда . Когда больше, ошибка теста может быть намного выше ошибки обучения. Это происходит из-за переобучения ).

Измерение VC также появляется в границах сложности выборки . Пространство бинарных функций с измерением VC может быть изучено с помощью: [4] : 73 

выборки, где — ошибка обучения, а — вероятность неудачи. Таким образом, сложность выборки является линейной функцией размерности VC пространства гипотез.

Ввычислительная геометрия

Размерность VC является одним из критических параметров размера ε-сетей , определяющим сложность алгоритмов аппроксимации на их основе; множества диапазонов без конечной размерности VC могут вообще не иметь конечных ε-сетей.

Границы

  1. Размерность VC двойственного множества-семейства строго меньше , и это наилучшее возможное значение.
  2. Размерность VC конечного множества-семейства не превышает . [2] : 56  Это происходит потому, что по определению.
  3. Дано множество-семейство , определим как множество-семейство, содержащее все пересечения элементов . Тогда: [2] : 57 
  4. Дано множество-семейство и элемент , определить где обозначает симметричную разность множеств . Тогда: [2] : 58 

Примеры классов VC

VC-размерность конечной проективной плоскости

Конечная проективная плоскость порядка n представляет собой совокупность из n 2 + n + 1 множеств (называемых «прямыми») над n 2 + n + 1 элементами (называемыми «точками»), для которых:

Размерность VC конечной проективной плоскости равна 2. [5]

Доказательство : (a) Для каждой пары различных точек существует одна линия, которая содержит их обе, линии, которые содержат только одну из них, и линии, которые не содержат ни одной из них, поэтому каждое множество размера 2 разрушено. (b) Для любой тройки из трех различных точек, если существует линия x , которая содержит все три, то не существует линии y , которая содержит ровно две (поскольку тогда x и y пересеклись бы в двух точках, что противоречит определению проективной плоскости). Следовательно, ни одно множество размера 3 не разрушено.

Измерение VC усиливающего классификатора

Предположим, у нас есть базовый класс простых классификаторов, размерность VC которых равна .

Мы можем построить более мощный классификатор, объединив несколько различных классификаторов из ; этот метод называется бустингом . Формально, имея классификаторы и вектор веса , мы можем определить следующий классификатор:

Размерность VC множества всех таких классификаторов (для всех выборок классификаторов из и весового вектора из ), предполагая , не превышает: [4] : 108–109 

VC-измерение нейронной сети

Нейронная сеть описывается направленным ациклическим графом G ( V , E ), где:

Размерность VC нейронной сети ограничена следующим образом: [4] : 234–235 

Обобщения

Размерность VC определена для пространств бинарных функций (функций до {0,1}). Было предложено несколько обобщений для пространств небинарных функций.

Смотрите также

Сноски

  1. ^ Вапник, В. Н.; Червоненкис, А. Я. (1971). «О равномерной сходимости относительных частот событий к их вероятностям». Теория вероятностей и ее приложения . 16 (2): 264. doi :10.1137/1116025.Это английский перевод, сделанный Б. Секлером, русской статьи: "О равномерной сходимости относительных частот событий к их вероятностям". Докл. АН . 181 (4): 781. 1968.Перевод был воспроизведен как: Вапник, В. Н.; Червоненкис, А. Я. (2015). "О равномерной сходимости относительных частот событий к их вероятностям". Меры сложности . стр. 11. doi :10.1007/978-3-319-21852-6_3. ISBN 978-3-319-21851-9.
  2. ^ abcd Mohri, Mehryar ; Rostamizadeh, Afshin; Talwalkar, Ameet (2012). Основы машинного обучения . США, Массачусетс: MIT Press. ISBN 9780262018258.
  3. ^ Вапник 2000.
  4. ^ abc Шалев-Шварц, Шай; Бен-Дэвид, Шай (2014). Понимание машинного обучения – от теории к алгоритмам . Cambridge University Press. ISBN 9781107057135.
  5. ^ Алон, Н.; Хаусслер, Д.; Вельцль, Э. (1987). "Разбиение и геометрическое вложение пространств диапазонов конечной размерности Вапника-Червоненкиса". Труды третьего ежегодного симпозиума по вычислительной геометрии – SCG '87 . стр. 331. doi :10.1145/41958.41994. ISBN 978-0897912310. S2CID  7394360.
  6. ^ ab Natarajan 1989.
  7. ^ Брухим 2022.
  8. ^ Поллард 1984.
  9. ^ Энтони и Бартлетт 2009.
  10. ^ Моргенштерн и Рафгарден 2015.
  11. ^ Карпински и Макинтайр 1997.

Ссылки