Нелинейное снижение размерности , также известное как обучение многообразиям , представляет собой любой из различных родственных методов, направленных на проекцию многомерных данных, потенциально существующих в нелинейных многообразиях, которые не могут быть адекватно охвачены методами линейной декомпозиции, на скрытые многообразия меньшей размерности с целью либо визуализации данных в пространстве меньшей размерности, либо изучения самого отображения (либо из пространства большей размерности в вложение меньшей размерности, либо наоборот). [1] [2] Методы, описанные ниже, можно понимать как обобщения методов линейной декомпозиции, используемых для снижения размерности , таких как разложение по сингулярным значениям и анализ главных компонент .
Машинам может быть сложно работать с данными высокой размерности, требуя значительного времени и пространства для анализа. Это также представляет собой проблему для людей, поскольку трудно визуализировать или понимать данные в более чем трех измерениях. Уменьшение размерности набора данных, при сохранении его основных характеристик относительно нетронутыми, может сделать алгоритмы более эффективными и позволить аналитикам визуализировать тенденции и закономерности.
Представления данных с уменьшенной размерностью часто называют «внутренними переменными». Это описание подразумевает, что это значения, из которых были получены данные. Например, рассмотрим набор данных, содержащий изображения буквы «А», которая была масштабирована и повернута на различные величины. Каждое изображение имеет размер 32×32 пикселя. Каждое изображение может быть представлено как вектор из 1024 значений пикселей. Каждая строка является образцом на двумерном многообразии в 1024-мерном пространстве ( пространство Хэмминга ). Внутренняя размерность равна двум, поскольку для получения данных были изменены две переменные (вращение и масштаб). Информация о форме или виде буквы «А» не является частью внутренних переменных, поскольку она одинакова в каждом случае. Нелинейное уменьшение размерности отбросит коррелированную информацию (букву «А») и восстановит только изменяющуюся информацию (вращение и масштаб). На изображении справа показаны примеры изображений из этого набора данных (в целях экономии места показаны не все входные изображения) и график двумерных точек, полученный в результате использования алгоритма NLDR (в данном случае использовался Manifold Sculpting) для сведения данных всего к двум измерениям.
Для сравнения, если использовать анализ главных компонент , который является линейным алгоритмом уменьшения размерности, для уменьшения этого же набора данных до двух измерений, то полученные значения не будут так хорошо организованы. Это показывает, что многомерные векторы (каждый из которых представляет букву «A»), которые выбирают это многообразие, изменяются нелинейно.
Таким образом, должно быть очевидно, что NLDR имеет несколько приложений в области компьютерного зрения. Например, рассмотрим робота, который использует камеру для навигации в закрытой статической среде. Изображения, полученные этой камерой, можно считать образцами на многообразии в многомерном пространстве, а внутренние переменные этого многообразия будут представлять положение и ориентацию робота.
Инвариантные многообразия представляют общий интерес для редукции порядка модели в динамических системах . В частности, если в фазовом пространстве есть притягивающее инвариантное многообразие, близлежащие траектории будут сходиться к нему и оставаться на нем неопределенно долго, что делает его кандидатом на редукцию размерности динамической системы. Хотя существование таких многообразий в общем случае не гарантируется, теория спектральных подмногообразий (SSM) дает условия для существования уникальных притягивающих инвариантных объектов в широком классе динамических систем. [3] Активные исследования в области NLDR стремятся развернуть многообразия наблюдений, связанные с динамическими системами, для разработки методов моделирования. [4]
Ниже перечислены некоторые из наиболее известных методов нелинейного снижения размерности .
Картирование Сэммона — один из первых и самых популярных методов NLDR.
Самоорганизующаяся карта ( SOM, также называемая картой Кохонена ) и ее вероятностный вариант — генеративное топографическое картирование (GTM) — используют точечное представление во встроенном пространстве для формирования модели скрытой переменной на основе нелинейного отображения встроенного пространства в многомерное пространство. [6] Эти методы связаны с работой над сетями плотности, которые также основаны на той же вероятностной модели.
Возможно, наиболее широко используемый алгоритм для размерной редукции — это ядерный PCA . [7] PCA начинается с вычисления ковариационной матрицы матрицы
Затем он проецирует данные на первые k собственных векторов этой матрицы. Для сравнения, KPCA начинает с вычисления ковариационной матрицы данных после преобразования в более многомерное пространство,
Затем он проецирует преобразованные данные на первые k собственных векторов этой матрицы, как и PCA. Он использует трюк с ядром , чтобы разложить большую часть вычислений, так что весь процесс может быть выполнен без фактического вычисления . Конечно, должен быть выбран таким образом, чтобы у него было известное соответствующее ядро. К сожалению, нетривиально найти хорошее ядро для данной проблемы, поэтому KPCA не дает хороших результатов с некоторыми проблемами при использовании стандартных ядер. Например, известно, что он плохо работает с этими ядрами на многообразии швейцарского рулета . Однако можно рассматривать некоторые другие методы, которые хорошо работают в таких условиях (например, собственные карты Лапласа, LLE), как особые случаи ядра PCA путем построения матрицы ядра, зависящей от данных. [8]
KPCA имеет внутреннюю модель, поэтому ее можно использовать для отображения точек на ее внедрении, которые не были доступны во время обучения.
Главные кривые и многообразия дают естественную геометрическую основу для нелинейного снижения размерности и расширяют геометрическую интерпретацию PCA путем явного построения вложенного многообразия и кодирования с использованием стандартной геометрической проекции на многообразие. Этот подход был первоначально предложен Тревором Хасти в его диссертации 1984 года [11] , которую он официально представил в 1989 году. [12] Эта идея была далее исследована многими авторами. [13] Как определить «простоту» многообразия, зависит от проблемы, однако, она обычно измеряется внутренней размерностью и/или гладкостью многообразия. Обычно главное многообразие определяется как решение задачи оптимизации. Целевая функция включает качество аппроксимации данных и некоторые штрафные члены за изгиб многообразия. Популярные начальные приближения генерируются линейным PCA и SOM Кохонена.
Собственные карты Лапласа используют спектральные методы для выполнения снижения размерности. [14] Этот метод основан на базовом предположении, что данные лежат в многообразии низкой размерности в пространстве высокой размерности. [15] Этот алгоритм не может встраивать точки вне выборки, но существуют методы, основанные на регуляризации гильбертова пространства воспроизводящего ядра, для добавления этой возможности. [16] Такие методы можно применять и к другим нелинейным алгоритмам снижения размерности.
Традиционные методы, такие как анализ главных компонент, не учитывают внутреннюю геометрию данных. Собственные карты Лапласа строят граф из информации о соседстве набора данных. Каждая точка данных служит узлом на графе, а связность между узлами регулируется близостью соседних точек (например, с использованием алгоритма k-ближайших соседей ). Граф, сгенерированный таким образом, можно рассматривать как дискретную аппроксимацию низкоразмерного многообразия в высокоразмерном пространстве. Минимизация функции стоимости на основе графика гарантирует, что точки, близкие друг к другу на многообразии, отображаются близко друг к другу в низкоразмерном пространстве, сохраняя локальные расстояния. Собственные функции оператора Лапласа–Бельтрами на многообразии служат в качестве измерений вложения, поскольку при мягких условиях этот оператор имеет счетный спектр, который является базисом для квадратично интегрируемых функций на многообразии (сравните с рядами Фурье на многообразии единичной окружности). Попытки поместить собственные карты Лапласа на прочную теоретическую основу увенчались определенным успехом, поскольку при определенных не ограничивающих предположениях было показано, что графическая матрица Лапласа сходится к оператору Лапласа–Бельтрами, когда число точек стремится к бесконечности. [15]
Isomap [17] представляет собой комбинацию алгоритма Флойда–Уоршелла с классическим многомерным шкалированием (MDS). Классический MDS берет матрицу парных расстояний между всеми точками и вычисляет положение для каждой точки. Isomap предполагает, что парные расстояния известны только между соседними точками, и использует алгоритм Флойда–Уоршелла для вычисления парных расстояний между всеми остальными точками. Это эффективно оценивает полную матрицу парных геодезических расстояний между всеми точками. Затем Isomap использует классический MDS для вычисления сокращенных размерных положений всех точек. Landmark-Isomap является вариантом этого алгоритма, который использует ориентиры для увеличения скорости за счет некоторой потери точности.
В обучении многообразиям предполагается, что входные данные выбираются из многообразия низкой размерности , которое встроено в векторное пространство более высокой размерности. Основная интуиция MVU заключается в использовании локальной линейности многообразий и создании отображения, которое сохраняет локальные окрестности в каждой точке базового многообразия.
Локально-линейное встраивание (LLE) было представлено примерно в то же время, что и Isomap. [18] Оно имеет несколько преимуществ перед Isomap, включая более быструю оптимизацию при реализации для использования преимуществ алгоритмов разреженной матрицы и лучшие результаты при решении многих задач. LLE также начинается с поиска набора ближайших соседей каждой точки. Затем он вычисляет набор весов для каждой точки, который наилучшим образом описывает точку как линейную комбинацию ее соседей. Наконец, он использует метод оптимизации на основе собственных векторов для поиска низкоразмерного встраивания точек, так что каждая точка по-прежнему описывается той же линейной комбинацией своих соседей. LLE имеет тенденцию плохо обрабатывать неравномерные плотности выборок, поскольку нет фиксированной единицы, которая бы предотвращала дрейф весов, поскольку различные регионы различаются по плотности выборок. LLE не имеет внутренней модели.
LLE вычисляет барицентрические координаты точки X i на основе ее соседей X j . Исходная точка реконструируется линейной комбинацией, заданной весовой матрицей W ij , ее соседей. Ошибка реконструкции задается функцией стоимости E ( W ).
Веса W ij относятся к величине вклада точки X j при реконструкции точки X i . Функция стоимости минимизируется при двух ограничениях: (a) Каждая точка данных X i реконструируется только из своих соседей, тем самым заставляя W ij быть равным нулю, если точка X j не является соседом точки X i и (b) Сумма каждой строки матрицы весов равна 1.
Исходные точки данных собираются в пространстве размерности D , и цель алгоритма — уменьшить размерность до d таким образом, чтобы D >> d . Те же веса W ij , которые реконструируют i- ю точку данных в пространстве размерности D , будут использоваться для реконструкции той же точки в пространстве размерности d . На основе этой идеи создается карта сохранения соседства. Каждая точка X i в пространстве размерности D отображается на точку Y i в пространстве размерности d путем минимизации функции стоимости
В этой функции стоимости, в отличие от предыдущей, веса W ij сохраняются фиксированными, а минимизация выполняется в точках Y i для оптимизации координат. Эту задачу минимизации можно решить, решив разреженную задачу собственных значений N X N ( где N — число точек данных), нижние d ненулевых собственных векторов которой обеспечивают ортогональный набор координат. Обычно точки данных восстанавливаются из K ближайших соседей, измеряемых с помощью евклидова расстояния . Для такой реализации алгоритм имеет только один свободный параметр K, который можно выбрать с помощью перекрестной проверки.
Как и LLE, Hessian LLE также основан на методах разреженных матриц. [19] Он имеет тенденцию давать результаты гораздо более высокого качества, чем LLE. К сожалению, он имеет очень дорогостоящую вычислительную сложность, поэтому он не очень подходит для многообразий с большой выборкой. Он не имеет внутренней модели.
Модифицированный LLE (MLLE) [20] — это еще один вариант LLE, который использует несколько весов в каждой окрестности для решения проблемы обусловленности локальной матрицы весов, которая приводит к искажениям в картах LLE. Грубо говоря, несколько весов являются локальной ортогональной проекцией исходных весов, созданных LLE. Создатели этого регуляризованного варианта также являются авторами локального выравнивания касательного пространства (LTSA), которое подразумевается в формулировке MLLE при понимании того, что глобальная оптимизация ортогональных проекций каждого вектора весов, по сути, выравнивает локальные касательные пространства каждой точки данных. Теоретические и эмпирические выводы из правильного применения этого алгоритма имеют далеко идущие последствия. [21]
LTSA [22] основан на интуиции, что при правильном развертывании многообразия все касательные гиперплоскости к многообразию станут выровненными. Он начинается с вычисления k -ближайших соседей каждой точки. Он вычисляет касательное пространство в каждой точке, вычисляя d -первые главные компоненты в каждой локальной окрестности. Затем он оптимизируется для поиска вложения, которое выровняет касательные пространства.
Развертка максимальной дисперсии , Isomap и локально-линейное вложение разделяют общую интуицию, основанную на представлении о том, что если многообразие развернуто должным образом, то дисперсия по точкам максимизируется. Его начальный шаг, как и Isomap и локально-линейное вложение, заключается в поиске k -ближайших соседей каждой точки. Затем он стремится решить задачу максимизации расстояния между всеми несоседними точками, ограниченными таким образом, чтобы расстояния между соседними точками сохранялись. Основной вклад этого алгоритма - это метод приведения этой задачи к задаче полуопределенного программирования. К сожалению, решатели полуопределенного программирования имеют высокую вычислительную стоимость. Как и локально-линейное вложение, он не имеет внутренней модели.
Автоэнкодер — это нейронная сеть прямого распространения , которая обучена аппроксимировать функцию идентичности. То есть она обучена отображать вектор значений в тот же вектор. При использовании для целей снижения размерности один из скрытых слоев сети ограничен содержанием только небольшого количества сетевых единиц. Таким образом, сеть должна научиться кодировать вектор в небольшое количество измерений, а затем декодировать его обратно в исходное пространство. Таким образом, первая половина сети представляет собой модель, которая отображает из высокоразмерного в низкоразмерное пространство, а вторая половина отображает из низкоразмерного в высокоразмерное пространство. Хотя идея автоэнкодеров довольно стара, [23] обучение глубоких автоэнкодеров только недавно стало возможным благодаря использованию ограниченных машин Больцмана и автоэнкодеров со стекированным шумоподавлением. С автоэнкодерами связан алгоритм NeuroScale, который использует функции напряжения, вдохновленные многомерным масштабированием и отображениями Сэммона (см. выше), чтобы изучить нелинейное отображение из высокоразмерного во встроенное пространство. Отображения в NeuroScale основаны на сетях радиальных базисных функций .
Модели скрытых переменных гауссовского процесса (GPLVM) [24] являются вероятностными методами снижения размерности, которые используют гауссовские процессы (GP) для поиска нелинейного вложения малой размерности для многомерных данных. Они являются расширением вероятностной формулировки PCA. Модель определяется вероятностно, а затем скрытые переменные маргинализуются, а параметры получаются путем максимизации правдоподобия. Как и в ядерном PCA, они используют функцию ядра для формирования нелинейного отображения (в форме гауссовского процесса ). Однако в GPLVM отображение происходит из встроенного (скрытого) пространства в пространство данных (например, в сетях плотности и GTM), тогда как в ядерном PCA оно происходит в противоположном направлении. Первоначально он был предложен для визуализации многомерных данных, но был расширен для построения общей модели многообразия между двумя пространствами наблюдения. GPLVM и его многочисленные варианты были предложены специально для моделирования движения человека, например, ограниченная сзади GPLVM, динамическая модель GP (GPDM), сбалансированная GPDM (B-GPDM) и топологически ограниченная GPDM. Чтобы захватить эффект связи многообразий позы и походки в анализе походки, было предложено многослойное совместное многообразие походка-поза. [25]
Широко используется t-распределенное стохастическое соседнее встраивание (t-SNE) [26] . Это один из методов семейства стохастических соседских встраиваний. Алгоритм вычисляет вероятность того, что пары точек данных в пространстве высокой размерности связаны, а затем выбирает низкоразмерные встраивания, которые производят похожее распределение.
Карта реляционной перспективы — это алгоритм многомерного масштабирования . Алгоритм находит конфигурацию точек данных на многообразии, моделируя многочастичную динамическую систему на замкнутом многообразии, где точки данных отображаются на частицы, а расстояния (или различия) между точками данных представляют собой отталкивающую силу. По мере того, как многообразие постепенно увеличивается в размерах, многочастичная система постепенно остывает и сходится к конфигурации, которая отражает информацию о расстоянии точек данных.
Карта относительной перспективы была вдохновлена физической моделью, в которой положительно заряженные частицы свободно движутся по поверхности шара. Направляемая силой Кулона между частицами, минимальная энергетическая конфигурация частиц будет отражать силу отталкивающих сил между частицами.
Карта реляционной перспективы была введена в [27] . Сначала алгоритм использовал плоский тор в качестве многообразия изображений, затем он был расширен (в программном обеспечении VisuMap для использования других типов замкнутых многообразий, таких как сфера , проективное пространство и бутылка Клейна , в качестве многообразий изображений).
Карты заражения используют множественные заражения в сети для отображения узлов в виде облака точек. [28] В случае модели глобальных каскадов скорость распространения можно регулировать с помощью порогового параметра . Для карты заражения это эквивалентно алгоритму Isomap .
Анализ криволинейных компонентов (CCA) ищет конфигурацию точек в выходном пространстве, которая сохраняет исходные расстояния настолько, насколько это возможно, при этом фокусируясь на малых расстояниях в выходном пространстве (в отличие от отображения Сэммона , которое фокусируется на малых расстояниях в исходном пространстве). [29]
Следует отметить, что CCA, как итеративный алгоритм обучения, на самом деле начинает с фокусировки на больших расстояниях (как алгоритм Сэммона), а затем постепенно меняет фокус на малые расстояния. Информация о малых расстояниях перезапишет информацию о больших расстояниях, если придется идти на компромиссы между ними.
Функция напряжения CCA связана с суммой правых дивергенций Брегмана. [30]
CDA [29] обучает самоорганизующуюся нейронную сеть подгонять многообразие и стремится сохранить геодезические расстояния в его внедрении. Он основан на анализе криволинейных компонентов (который расширил отображение Сэммона), но вместо этого использует геодезические расстояния.
Диффеоморфное уменьшение размерности или Diffeomap [31] изучает гладкое диффеоморфное отображение, которое переносит данные в линейное подпространство меньшей размерности. Методы решают для гладкого индексированного по времени векторного поля, так что потоки вдоль поля, которые начинаются в точках данных, заканчиваются в линейном подпространстве меньшей размерности, тем самым пытаясь сохранить попарные различия как при прямом, так и при обратном отображении.
Выравнивание многообразий использует предположение, что разрозненные наборы данных, созданные схожими процессами генерации, будут совместно использовать схожее базовое представление многообразия. Изучая проекции из каждого исходного пространства в общее многообразие, восстанавливаются соответствия, и знания из одной области могут быть перенесены в другую. Большинство методов выравнивания многообразий рассматривают только два набора данных, но эта концепция распространяется на произвольное количество начальных наборов данных. [32]
Диффузионные карты используют связь между диффузией тепла и случайным блужданием ( цепь Маркова ); проводится аналогия между оператором диффузии на многообразии и матрицей перехода Маркова, работающей с функциями, определенными на графике, узлы которого были выбраны из многообразия. [33] В частности, пусть набор данных представлен как . Основное предположение диффузионной карты заключается в том, что высокоразмерные данные лежат на низкоразмерном многообразии размерности . Пусть X представляет набор данных и представляет распределение точек данных на X . Далее, определим ядро , которое представляет некоторое понятие сродства точек в X . Ядро обладает следующими свойствами [34]
k симметричен
k сохраняет положительность
Таким образом, можно рассматривать отдельные точки данных как узлы графа, а ядро k — как определение некоторого рода сродства на этом графе. Граф симметричен по построению, поскольку ядро симметрично. Здесь легко увидеть, что из кортежа ( X , k ) можно построить обратимую цепь Маркова . Этот метод является общим для множества полей и известен как граф Лапласиан.
Например, график K = ( X , E ) можно построить с использованием гауссовского ядра.
В приведенном выше уравнении обозначает, что является ближайшим соседом . Соответственно, геодезическое расстояние должно использоваться для фактического измерения расстояний на многообразии . Поскольку точная структура многообразия недоступна, для ближайших соседей геодезическое расстояние аппроксимируется евклидовым расстоянием. Выбор модулирует наше понятие близости в том смысле, что если то и если то . Первое означает, что произошла очень незначительная диффузия, в то время как последнее подразумевает, что процесс диффузии почти завершен. Различные стратегии выбора можно найти в. [35]
Для точного представления марковской матрицы ее необходимо нормализовать с помощью соответствующей матрицы степеней :
теперь представляет собой цепь Маркова. - вероятность перехода из в за один временной шаг. Аналогично вероятность перехода из в за t временных шагов определяется как . Здесь матрица умножена сама на себя t раз.
Матрица Маркова представляет собой некоторое понятие локальной геометрии набора данных X. Основное различие между картами диффузии и анализом главных компонент заключается в том, что в картах диффузии рассматриваются только локальные особенности данных, а не рассматриваются корреляции всего набора данных.
определяет случайное блуждание по набору данных, что означает, что ядро захватывает некоторую локальную геометрию набора данных. Цепь Маркова определяет быстрые и медленные направления распространения через значения ядра. По мере того, как блуждание распространяется вперед во времени, информация о локальной геометрии агрегируется таким же образом, как локальные переходы (определяемые дифференциальными уравнениями) динамической системы. [34] Метафора диффузии возникает из определения расстояния диффузии семейства
Для фиксированного t определяет расстояние между любыми двумя точками набора данных на основе связности путей: значение будет тем меньше, чем больше путей соединяют x с y и наоборот. Поскольку величина включает сумму по всем путям длины t, гораздо более устойчива к шуму в данных, чем геодезическое расстояние. учитывает все отношения между точками x и y при вычислении расстояния и служит лучшим понятием близости, чем просто евклидово расстояние или даже геодезическое расстояние.
Локальное многомерное масштабирование выполняет многомерное масштабирование в локальных регионах, а затем использует выпуклую оптимизацию для объединения всех частей. [36]
Нелинейный PCA (NLPCA) использует обратное распространение для обучения многослойного персептрона (MLP) для подгонки к многообразию. [37] В отличие от типичного обучения MLP, которое обновляет только веса, NLPCA обновляет как веса, так и входы. То есть, и веса, и входы рассматриваются как скрытые значения. После обучения скрытые входы являются низкоразмерным представлением наблюдаемых векторов, и MLP отображает это низкоразмерное представление в высокоразмерное пространство наблюдения.
Масштабирование на основе данных высокой размерности (DD-HDS) [38] тесно связано с картографированием Сэммона и анализом криволинейных компонентов, за исключением того, что (1) оно одновременно штрафует ложные соседства и разрывы, фокусируясь на малых расстояниях как в исходном, так и в выходном пространстве, и что (2) оно учитывает явление концентрации меры , адаптируя весовую функцию к распределению расстояний.
Manifold Sculpting [39] использует градуированную оптимизацию для поиска вложения. Как и другие алгоритмы, он вычисляет k -ближайших соседей и пытается найти вложение, которое сохраняет отношения в локальных окрестностях. Он медленно масштабирует дисперсию из более высоких измерений, одновременно корректируя точки в более низких измерениях, чтобы сохранить эти отношения. Если скорость масштабирования мала, он может найти очень точные вложения. Он может похвастаться более высокой эмпирической точностью, чем другие алгоритмы с несколькими проблемами. Его также можно использовать для уточнения результатов других алгоритмов обучения многообразий. Однако он с трудом разворачивает некоторые многообразия, если только не используется очень низкая скорость масштабирования. У него нет модели.
RankVisu [40] предназначен для сохранения ранга соседства, а не расстояния. RankVisu особенно полезен для сложных задач (когда сохранение расстояния не может быть достигнуто удовлетворительным образом). Действительно, ранг соседства менее информативен, чем расстояние (ранги могут быть выведены из расстояний, но расстояния не могут быть выведены из рангов), и его сохранение, таким образом, проще.
Топологически ограниченное изометрическое вложение (TCIE) [41] — это алгоритм, основанный на аппроксимации геодезических расстояний после фильтрации геодезических, несовместимых с евклидовой метрикой. Нацеленный на исправление искажений, вызванных использованием Isomap для отображения внутренне невыпуклых данных, TCIE использует весовой метод наименьших квадратов MDS для получения более точного отображения. Алгоритм TCIE сначала обнаруживает возможные граничные точки в данных, а во время вычисления геодезической длины отмечает несовместимые геодезические, чтобы им был дан небольшой вес в последующей взвешенной мажорации напряжений .
Равномерная аппроксимация и проекция многообразия (UMAP) — это нелинейный метод снижения размерности. [42] Он похож на t-SNE. [43]
Метод, основанный на матрицах близости, — это метод, в котором данные представляются алгоритму в виде матрицы подобия или матрицы расстояний . Все эти методы попадают в более широкий класс метрического многомерного масштабирования . Различия, как правило, заключаются в различиях в том, как вычисляются данные близости; например, isomap , локально линейные вложения , развертка максимальной дисперсии и отображение Сэммона (которое на самом деле не является отображением) являются примерами методов метрического многомерного масштабирования.