Уменьшение размерности

Снижение размерности , или уменьшение размерности , — это преобразование данных из многомерного пространства в низкомерное пространство так, чтобы низкоразмерное представление сохраняло некоторые значимые свойства исходных данных, в идеале близкие к его внутренней размерности . Работа в многомерных пространствах может быть нежелательна по многим причинам; необработанные данные часто бывают скудными из-за проклятия размерности , а анализ данных обычно невыполним с вычислительной точки зрения (трудно контролировать или обрабатывать). Снижение размерности распространено в областях, которые имеют дело с большим количеством наблюдений и/или большим количеством переменных, таких как обработка сигналов , распознавание речи , нейроинформатика и биоинформатика . ^[1]

Методы принято разделять на линейные и нелинейные. ^[1] Подходы также можно разделить на выбор признаков и извлечение признаков . ^[2] Снижение размерности можно использовать для уменьшения шума , визуализации данных , кластерного анализа или в качестве промежуточного шага для облегчения других анализов.

Выбор функции

Подходы к выбору функций пытаются найти подмножество входных переменных (также называемых функциями или атрибутами). Три стратегии: стратегия фильтрации (например, получение информации ), стратегия оболочки (например, поиск, основанный на точности) и встроенная стратегия (выбранные функции добавляются или удаляются при построении модели на основе ошибок прогнозирования).

Анализ данных , такой как регрессия или классификация, может быть выполнен в уменьшенном пространстве более точно, чем в исходном пространстве. ^[3]

Проекция функции

Проекция признаков (также называемая извлечением признаков) преобразует данные из многомерного пространства в пространство с меньшим количеством измерений. Преобразование данных может быть линейным, как в анализе главных компонентов (PCA), но также существует множество нелинейных методов уменьшения размерности . ^[4]^[5] Для многомерных данных тензорное представление может использоваться для уменьшения размерности посредством многолинейного обучения подпространства . ^[6]

Анализ главных компонентов (PCA)

Основной линейный метод уменьшения размерности, анализ главных компонент, выполняет линейное отображение данных в пространство меньшей размерности таким образом, чтобы дисперсия данных в низкоразмерном представлении была максимальной. На практике строится ковариационная (а иногда и корреляционная ) матрица данных и вычисляются собственные векторы этой матрицы. Собственные векторы, соответствующие наибольшим собственным значениям (главным компонентам), теперь можно использовать для восстановления значительной доли дисперсии исходных данных. Более того, первые несколько собственных векторов часто можно интерпретировать с точки зрения крупномасштабного физического поведения системы, поскольку они часто вносят большую часть энергии системы, особенно в низкоразмерных системах. Тем не менее, это необходимо доказывать в каждом конкретном случае, поскольку не все системы демонстрируют такое поведение. Исходное пространство (с размерностью количества точек) было уменьшено (с потерей данных, но, будем надеяться, с сохранением наиболее важной дисперсии) до пространства, охватываемого несколькими собственными векторами. ^{[ нужна цитата ]}

Неотрицательная матричная факторизация (NMF)

NMF разлагает неотрицательную матрицу на произведение двух неотрицательных, что оказалось многообещающим инструментом в областях, где существуют только неотрицательные сигналы, ^[7]^[8] , таких как астрономия. ^[9]^[10] NMF хорошо известен со времен правила мультипликативного обновления Ли и Сына, ^[7] которое постоянно развивается: учет неопределенностей, ^[9] учет недостающих данных и параллельные вычисления, ^[11] последовательные конструкция ^[11] , которая приводит к стабильности и линейности NMF, ^[10], а также другие обновления , включая обработку недостающих данных при цифровой обработке изображений . ^[12]

Благодаря стабильной компонентной базе при построении и линейному процессу моделирования последовательный NMF ^[11] способен сохранять поток при прямых изображениях околозвездных структур в астрономии, ^[10] как один из методов обнаружения экзопланет , особенно для прямых визуализация околозвездных дисков . По сравнению с PCA, NMF не удаляет среднее значение матриц, что приводит к физическим неотрицательным потокам; поэтому NMF способен сохранить больше информации, чем PCA, как продемонстрировали Ren et al. ^[10]

Ядро PCA

Анализ главных компонент можно использовать нелинейным способом с помощью трюка с ядром . Полученный метод способен создавать нелинейные отображения, которые максимизируют дисперсию данных. Полученный метод называется Kernel PCA .

Ядро PCA на основе графов

Другие известные нелинейные методы включают в себя методы обучения многообразиям , такие как Isomap , локально линейное вложение (LLE), ^[13] Hessian LLE, собственные карты Лапласа и методы, основанные на анализе касательного пространства. ^[14] Эти методы создают низкоразмерное представление данных с использованием функции стоимости, которая сохраняет локальные свойства данных и может рассматриваться как определение графового ядра для Kernel PCA.

Совсем недавно были предложены методы, которые вместо определения фиксированного ядра пытаются изучить ядро с помощью полуопределенного программирования . Наиболее ярким примером такого метода является развертывание максимальной дисперсии (MVU). Основная идея MVU состоит в том, чтобы точно сохранить все попарные расстояния между ближайшими соседями (во внутреннем пространстве продукта), максимизируя при этом расстояния между точками, которые не являются ближайшими соседями.

Альтернативный подход к сохранению соседства заключается в минимизации функции стоимости, которая измеряет разницу между расстояниями во входном и выходном пространствах. Важные примеры таких методов включают: классическое многомерное масштабирование , идентичное PCA; Isomap , использующий геодезические расстояния в пространстве данных; карты диффузии , которые используют диффузионные расстояния в пространстве данных; t-распределенное стохастическое внедрение соседей (t-SNE), которое минимизирует расхождение между распределениями по парам точек; и анализ криволинейных компонентов.

Другой подход к нелинейному уменьшению размерности заключается в использовании автоэнкодеров — особого вида нейронных сетей прямого распространения со скрытым слоем, узким местом. ^[15] Обучение глубоких кодировщиков обычно выполняется с использованием жадного послойного предварительного обучения (например, с использованием стека ограниченных машин Больцмана ), за которым следует этап точной настройки на основе обратного распространения ошибки .

Линейный дискриминантный анализ (LDA)

Линейный дискриминантный анализ (LDA) — это обобщение линейного дискриминанта Фишера, метода, используемого в статистике, распознавании образов и машинном обучении для поиска линейной комбинации признаков, которая характеризует или разделяет два или более классов объектов или событий.

Обобщенный дискриминантный анализ (GDA)

GDA занимается нелинейным дискриминантным анализом с использованием оператора функции ядра. Базовая теория близка к машинам опорных векторов (SVM), поскольку метод GDA обеспечивает отображение входных векторов в многомерное пространство признаков. ^[16]^[17] Подобно LDA, цель GDA состоит в том, чтобы найти проекцию функций в пространство более низкой размерности путем максимизации соотношения разброса между классами и разброса внутри класса.

Автоэнкодер

Автоэнкодеры можно использовать для изучения нелинейных функций уменьшения размерности и кодирования вместе с обратной функцией от кодирования к исходному представлению.

т-СНЭ

T-распределенное стохастическое встраивание соседей (t-SNE) — это метод нелинейного уменьшения размерности, полезный для визуализации многомерных наборов данных. Его не рекомендуется использовать в таком анализе, как кластеризация или обнаружение выбросов, поскольку он не обязательно хорошо сохраняет плотность или расстояния. ^[18]

УМАП

Приближение и проекция равномерного многообразия (UMAP) - это метод нелинейного уменьшения размерности. Визуально он похож на t-SNE, но предполагает, что данные равномерно распределены на локально связном римановом многообразии и что риманова метрика локально постоянна или приблизительно локально постоянна.

Уменьшение размеров

Для наборов данных большой размерности (т. е. с числом измерений более 10) уменьшение размерности обычно выполняется до применения алгоритма K-ближайших соседей (k-NN), чтобы избежать эффектов проклятия размерности . ^[19]

Извлечение признаков и уменьшение размерности можно объединить за один этап с использованием методов анализа главных компонентов (PCA), линейного дискриминантного анализа (LDA), канонического корреляционного анализа (CCA) или неотрицательной матричной факторизации (NMF) в качестве последующего этапа предварительной обработки. путем кластеризации с помощью K-NN по векторам признаков в пространстве уменьшенной размерности. В машинном обучении этот процесс также называется низкоразмерным встраиванием . ^[20]

Для наборов данных очень большой размерности (например, при выполнении поиска по сходству в видеопотоках в реальном времени, данных ДНК или многомерных временных рядах ) выполняется быстрый приблизительный поиск K-NN с использованием локально-чувствительного хеширования , случайной проекции , ^[21] «эскизов». , ^[22] или другие методы многомерного поиска по сходству из набора инструментов конференции VLDB могут быть единственным возможным вариантом.

Приложения

Метод уменьшения размерности, который иногда используется в нейробиологии , представляет собой максимально информативные измерения , ^{[ нужна ссылка ]} , которая находит низкоразмерное представление набора данных, такое, что сохраняется как можно больше информации об исходных данных.

Смотрите также

Примечания

^ Аб ван дер Маатен, Лоуренс; Постма, Эрик; ван ден Херик, Яап (26 октября 2009 г.). «Уменьшение размерности: сравнительный обзор» (PDF) . J Mach Learn Res . 10 : 66–71.
^ Пудил, П.; Нововичова, Ю. (1998). «Новые методы выбора подмножества функций с учетом знания проблем». Ин Лю, Хуан; Мотода, Хироши (ред.). Извлечение признаков, построение и выбор . п. 101. дои : 10.1007/978-1-4615-5725-8_7. ISBN 978-1-4613-7622-4.
^ Рико-Сулайес, Антонио (2017). «Уменьшение размерности векторного пространства в автоматической классификации для установления авторства». Revista Ingeniería Electronica, Automática y Comunicaciones . 38 (3): 26–35. ISSN 1815-5928.
^ Самет, Х. (2006) Основы многомерных и метрических структур данных . Морган Кауфманн. ISBN 0-12-369446-9
^ К. Дин, X. Хе, Х. Чжа, HD Саймон, Адаптивное уменьшение размерности для кластеризации многомерных данных, Материалы международной конференции по интеллектуальному анализу данных, 2002 г.
^ Лу, Хайпин; Платаниотис, КН; Венецанопулос, АН (2011). «Обзор многолинейного обучения подпространства для тензорных данных» (PDF) . Распознавание образов . 44 (7): 1540–1551. Бибкод : 2011PatRe..44.1540L. дои : 10.1016/j.patcog.2011.01.004.
^ ab Дэниел Д. Ли и Х. Себастьян Сын (1999). «Изучение частей объектов путем факторизации неотрицательной матрицы». Природа . 401 (6755): 788–791. Бибкод : 1999Natur.401..788L. дои : 10.1038/44565. PMID 10548103. S2CID 4428232.
^ Дэниел Д. Ли и Х. Себастьян Сын (2001). Алгоритмы факторизации неотрицательной матрицы (PDF) . Достижения в области нейронных систем обработки информации 13: Материалы конференции 2000 года. МТИ Пресс . стр. 556–562.
^ Аб Блэнтон, Майкл Р.; Роуэйс, Сэм (2007). «К-коррекции и преобразования фильтров в ультрафиолетовом, оптическом и ближнем инфракрасном диапазонах». Астрономический журнал . 133 (2): 734–754. arXiv : astro-ph/0606170 . Бибкод : 2007AJ....133..734B. дои : 10.1086/510127. S2CID 18561804.
^ abcd Рен, Бин; Пуэйо, Лоран; Чжу, Гуантунь Б.; Дюшен, Гаспар (2018). «Неотрицательная матричная факторизация: надежное извлечение расширенных структур». Астрофизический журнал . 852 (2): 104. arXiv : 1712.10317 . Бибкод : 2018ApJ...852..104R. дои : 10.3847/1538-4357/aaa1f2 . S2CID 3966513.
^ abc Чжу, Гуантунь Б. (19 декабря 2016 г.). «Неотрицательная матричная факторизация (NMF) с гетероскедастическими неопределенностями и отсутствующими данными». arXiv : 1612.06037 [astro-ph.IM].
^ Рен, Бин; Пуэйо, Лоран; Чен, Кристина; Шоке, Элоди; Дебес, Джон Х.; Дюшен, Гаспар; Менар, Франсуа; Перрин, Маршалл Д. (2020). «Использование вменения данных для разделения сигналов при высококонтрастной визуализации». Астрофизический журнал . 892 (2): 74. arXiv : 2001.00563 . Бибкод : 2020ApJ...892...74R. дои : 10.3847/1538-4357/ab7024 . S2CID 209531731.
^ Роуэйс, ST; Саул, ЛК (2000). «Нелинейное уменьшение размерности путем локально линейного встраивания». Наука . 290 (5500): 2323–2326. Бибкод : 2000Sci...290.2323R. CiteSeerX 10.1.1.111.3313 . дои : 10.1126/science.290.5500.2323. PMID 11125150. S2CID 5987139.
^ Чжан, Чжэньюэ; Чжа, Хунъюань (2004). «Основные многообразия и нелинейное уменьшение размерности посредством выравнивания касательного пространства». Журнал SIAM по научным вычислениям . 26 (1): 313–338. Бибкод : 2004SJSC...26..313Z. дои : 10.1137/s1064827502419154.
^ Хунбин Ху, Стивен А. Захориан, (2010) «Методы уменьшения размерности для фонетического распознавания HMM», ICASSP 2010, Даллас, Техас
^ Бода, Г.; Ануар, Ф. (2000). «Обобщенный дискриминантный анализ с использованием ядерного подхода». Нейронные вычисления . 12 (10): 2385–2404. CiteSeerX 10.1.1.412.760 . дои : 10.1162/089976600300014980. PMID 11032039. S2CID 7036341.
^ Хагигат, Мохаммед; Зонуз, Саман; Абдель-Мотталеб, Мохамед (2015). «CloudID: надежная облачная и межкорпоративная биометрическая идентификация». Экспертные системы с приложениями . 42 (21): 7905–7916. дои : 10.1016/j.eswa.2015.06.025.
^ Шуберт, Эрих; Герц, Майкл (2017). «Внутреннее t-стохастическое встраивание соседей для визуализации и обнаружения выбросов». В Биксе, Кристиан; Борутта, Феликс; Крегер, Пер; Зайдль, Томас (ред.). Поиск по сходству и его применение . Конспекты лекций по информатике. Том. 10609. Чам: Springer International Publishing. стр. 188–203. дои : 10.1007/978-3-319-68474-1_13. ISBN 978-3-319-68474-1.
^ Кевин Бейер, Джонатан Гольдштейн, Рагху Рамакришнан, Ури Шафт (1999) «Когда имеет смысл слово «ближайший сосед»?». Теория баз данных — ICDT99 , 217–235.
^ Шоу, Б.; Джебара, Т. (2009). «Встраивание, сохраняющее структуру» (PDF) . Материалы 26-й ежегодной международной конференции по машинному обучению – ICML '09 . п. 1. CiteSeerX 10.1.1.161.451 . дои : 10.1145/1553374.1553494. ISBN 9781605585161. S2CID 8522279.
^ Бингхэм, Э.; Маннила, Х. (2001). «Случайная проекция при уменьшении размерности». Материалы седьмой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных – KDD '01 . п. 245. дои : 10.1145/502512.502546. ISBN 978-1581133912. S2CID 1854295.
^ Шаша, D High (2004) Открытие производительности во временных рядах Берлин: Springer. ISBN 0-387-00857-8

Внешние ссылки

Специальный выпуск JMLR о выборе переменных и функций
Карты ELastic MAP, заархивированные 20 июля 2011 г. на Wayback Machine.
Локально линейное вложение
Визуальное сравнение различных методов уменьшения размерности
Глобальная геометрическая основа для нелинейного уменьшения размерности