Уменьшение размерности

Сокращение размерности , или уменьшение размерности , представляет собой преобразование данных из пространства высокой размерности в пространство низкой размерности таким образом, что представление низкой размерности сохраняет некоторые значимые свойства исходных данных, в идеале близкие к его внутренней размерности . Работа в пространствах высокой размерности может быть нежелательной по многим причинам; необработанные данные часто бывают разреженными из-за проклятия размерности , а анализ данных обычно вычислительно невыполним (его трудно контролировать или с ним трудно иметь дело). Сокращение размерности распространено в областях, которые имеют дело с большим количеством наблюдений и/или большим количеством переменных, таких как обработка сигналов , распознавание речи , нейроинформатика и биоинформатика . ^[1]

Методы обычно делятся на линейные и нелинейные подходы. ^[1] Подходы также можно разделить на выбор признаков и извлечение признаков . ^[2] Снижение размерности может использоваться для снижения шума , визуализации данных , кластерного анализа или в качестве промежуточного шага для облегчения других видов анализа.

Выбор характеристик

Подходы отбора признаков пытаются найти подмножество входных переменных (также называемых признаками или атрибутами). Три стратегии: стратегия фильтра (например, прирост информации ), стратегия оболочки (например, поиск, основанный на точности) и встроенная стратегия (выбранные признаки добавляются или удаляются при построении модели на основе ошибок прогнозирования).

Анализ данных , такой как регрессия или классификация, может быть выполнен в сокращенном пространстве более точно, чем в исходном пространстве. ^[3]

Проекция объекта

Проекция признаков (также называемая извлечением признаков) преобразует данные из многомерного пространства в пространство с меньшим количеством измерений. Преобразование данных может быть линейным, как в анализе главных компонент (PCA), но также существует множество нелинейных методов снижения размерности . ^[4]^[5] Для многомерных данных тензорное представление может использоваться для снижения размерности посредством обучения мультилинейному подпространству . ^[6]

Анализ главных компонент (PCA)

Основной линейный метод снижения размерности, анализ главных компонент, выполняет линейное отображение данных в пространство меньшей размерности таким образом, что дисперсия данных в представлении меньшей размерности максимизируется. На практике строится ковариационная (а иногда и корреляционная ) матрица данных и вычисляются собственные векторы этой матрицы. Собственные векторы, соответствующие наибольшим собственным значениям (главные компоненты), теперь могут использоваться для реконструкции большой доли дисперсии исходных данных. Более того, первые несколько собственных векторов часто можно интерпретировать в терминах крупномасштабного физического поведения системы, поскольку они часто вносят подавляющее большинство энергии системы, особенно в системах меньшей размерности. Тем не менее, это должно быть доказано в каждом конкретном случае, поскольку не все системы демонстрируют такое поведение. Исходное пространство (с размерностью числа точек) было уменьшено (с потерей данных, но, как мы надеемся, с сохранением наиболее важной дисперсии) до пространства, охватываемого несколькими собственными векторами. ^{[ необходима ссылка ]}

Неотрицательная матричная факторизация (NMF)

NMF разлагает неотрицательную матрицу на произведение двух неотрицательных, что стало многообещающим инструментом в областях, где существуют только неотрицательные сигналы, ^[7]^[8], таких как астрономия. ^[9]^[10] NMF хорошо известен со времен правила мультипликативного обновления Ли и Сына, ^[7] которое постоянно совершенствуется: включение неопределенностей, ^[9] рассмотрение отсутствующих данных и параллельных вычислений, ^[11] последовательное построение ^[11] , которое приводит к стабильности и линейности NMF, ^[10] а также другие обновления , включая обработку отсутствующих данных при цифровой обработке изображений . ^[12]

При стабильной компонентной базе во время построения и линейном процессе моделирования последовательный NMF ^[11] способен сохранять поток при прямом отображении околозвездных структур в астрономии ^[10] как один из методов обнаружения экзопланет , особенно для прямого отображения околозвездных дисков . По сравнению с PCA, NMF не удаляет среднее значение матриц, что приводит к физически неотрицательным потокам; поэтому NMF способен сохранять больше информации, чем PCA, как продемонстрировали Рен и др. ^[10]

Ядро PCA

Анализ главных компонент может быть использован нелинейным способом с помощью трюка ядра . Полученная техника способна строить нелинейные отображения, которые максимизируют дисперсию в данных. Полученная техника называется ядерным PCA .

Графическое ядро PCA

Другие известные нелинейные методы включают методы обучения многообразий , такие как Isomap , локально линейное вложение (LLE), ^[13] гессиан LLE, собственные карты Лапласа и методы, основанные на анализе касательного пространства. ^[14] Эти методы создают низкоразмерное представление данных с использованием функции стоимости, которая сохраняет локальные свойства данных, и могут рассматриваться как определение графового ядра для Kernel PCA.

Совсем недавно были предложены методы, которые вместо определения фиксированного ядра пытаются изучить ядро с помощью полуопределенного программирования . Наиболее ярким примером такого метода является развертка максимальной дисперсии (MVU). Основная идея MVU заключается в точном сохранении всех попарных расстояний между ближайшими соседями (в пространстве внутреннего произведения) при максимизации расстояний между точками, которые не являются ближайшими соседями.

Альтернативный подход к сохранению соседства заключается в минимизации функции стоимости, которая измеряет разницу между расстояниями во входном и выходном пространствах. Важные примеры таких методов включают: классическое многомерное масштабирование , которое идентично PCA; Isomap , которое использует геодезические расстояния в пространстве данных; диффузионные карты , которые используют диффузионные расстояния в пространстве данных; t-распределенное стохастическое вложение соседей (t-SNE), которое минимизирует расхождение между распределениями по парам точек; и криволинейный компонентный анализ.

Другой подход к нелинейному снижению размерности заключается в использовании автокодировщиков , особого вида нейронных сетей прямого распространения со скрытым слоем узкого места. ^[15] Обучение глубоких кодировщиков обычно выполняется с использованием жадного послойного предварительного обучения (например, с использованием стека ограниченных машин Больцмана ), за которым следует этап тонкой настройки на основе обратного распространения .

Линейный дискриминантный анализ (ЛДА)

Линейный дискриминантный анализ (ЛДА) представляет собой обобщение линейного дискриминанта Фишера — метода, используемого в статистике, распознавании образов и машинном обучении для нахождения линейной комбинации признаков, которая характеризует или разделяет два или более классов объектов или событий.

Обобщенный дискриминантный анализ (GDA)

GDA занимается нелинейным дискриминантным анализом с использованием оператора функции ядра. Базовая теория близка к машинам опорных векторов (SVM), поскольку метод GDA обеспечивает отображение входных векторов в многомерное пространство признаков. ^[16]^[17] Подобно LDA, цель GDA состоит в том, чтобы найти проекцию для признаков в маломерное пространство путем максимизации отношения разброса между классами к разбросу внутри класса.

Автоэнкодер

Автокодировщики могут использоваться для изучения нелинейных функций сокращения размерности и кодировок вместе с обратной функцией от кодировки к исходному представлению.

т-СНЭ

T-распределенное стохастическое соседнее встраивание (t-SNE) — это нелинейный метод снижения размерности, полезный для визуализации многомерных наборов данных. Его не рекомендуется использовать в таких анализах, как кластеризация или обнаружение выбросов, поскольку он не обязательно хорошо сохраняет плотности или расстояния. ^[18]

УМАП

Равномерное многообразие аппроксимации и проекции (UMAP) является нелинейным методом снижения размерности. Визуально он похож на t-SNE, но предполагает, что данные равномерно распределены на локально связном римановом многообразии и что риманова метрика локально постоянна или приблизительно локально постоянна.

Уменьшение размеров

Для многомерных наборов данных (т.е. с числом измерений более 10) уменьшение размерности обычно выполняется до применения алгоритма K-ближайших соседей (k-NN), чтобы избежать эффектов проклятия размерности . ^[19]

Извлечение признаков и уменьшение размерности можно объединить в один шаг, используя анализ главных компонент (PCA), линейный дискриминантный анализ (LDA), канонический корреляционный анализ (CCA) или методы неотрицательной матричной факторизации (NMF) в качестве шага предварительной обработки с последующей кластеризацией с помощью K-NN на векторах признаков в пространстве с уменьшенной размерностью. В машинном обучении этот процесс также называется встраиванием с низкой размерностью . ^[20]

Для очень многомерных наборов данных (например, при выполнении поиска сходства в прямых видеопотоках, данных ДНК или многомерных временных рядах ) запуск быстрого приближенного поиска K-NN с использованием локально-чувствительного хеширования , случайной проекции , ^[21] «скетчей» ^[22] или других методов многомерного поиска сходства из набора инструментов конференции VLDB может быть единственным возможным вариантом.

Приложения

Метод снижения размерности, который иногда используется в нейронауке, — это максимально информативные измерения , ^{[ требуется ссылка ]} , которые находят представление набора данных с меньшей размерностью таким образом, чтобы сохранить как можно больше информации об исходных данных.

Смотрите также

Примечания

^ Аб ван дер Маатен, Лоуренс; Постма, Эрик; ван ден Херик, Яап (26 октября 2009 г.). «Уменьшение размерности: сравнительный обзор» (PDF) . J Mach Learn Res . 10 : 66–71.
^ Пудил, П.; Нововичова, Дж. (1998). «Новые методы выбора подмножества признаков с учетом проблемных знаний». В Лю, Хуан; Мотода, Хироши (ред.). Извлечение, построение и выбор признаков . стр. 101. doi :10.1007/978-1-4615-5725-8_7. ISBN 978-1-4613-7622-4.
^ Рико-Сулайес, Антонио (2017). «Уменьшение размерности векторного пространства в автоматической классификации для установления авторства». Revista Ingeniería Electronica, Automática y Comunicaciones . 38 (3): 26–35. ISSN 1815-5928.
^ Самет, Х. (2006) Основы многомерных и метрических структур данных . Морган Кауфманн. ISBN 0-12-369446-9
^ C. Ding, X. He, H. Zha, HD Simon, Адаптивное уменьшение размерности для кластеризации многомерных данных, Труды Международной конференции по интеллектуальному анализу данных, 2002 г.
^ Лу, Хайпин; Платаниотис, КН; Венецанопулос, А.Н. (2011). «Обзор многолинейного обучения подпространства для тензорных данных» (PDF) . Распознавание образов . 44 (7): 1540–1551. Bibcode : 2011PatRe..44.1540L. doi : 10.1016/j.patcog.2011.01.004.
^ ab Daniel D. Lee & H. Sebastian Seung (1999). «Изучение частей объектов с помощью неотрицательной матричной факторизации». Nature . 401 (6755): 788–791. Bibcode :1999Natur.401..788L. doi :10.1038/44565. PMID 10548103. S2CID 4428232.
^ Дэниел Д. Ли и Х. Себастьян Сын (2001). Алгоритмы неотрицательной матричной факторизации (PDF) . Достижения в области нейронных систем обработки информации 13: Труды конференции 2000 года. MIT Press . С. 556–562.
^ ab Blanton, Michael R.; Roweis, Sam (2007). «K-коррекции и преобразования фильтров в ультрафиолетовом, оптическом и ближнем инфракрасном диапазонах». The Astronomical Journal . 133 (2): 734–754. arXiv : astro-ph/0606170 . Bibcode : 2007AJ....133..734B. doi : 10.1086/510127. S2CID 18561804.
^ abcd Ren, Bin; Pueyo, Laurent; Zhu, Guangtun B.; Duchêne, Gaspard (2018). «Неотрицательная матричная факторизация: надежное извлечение расширенных структур». The Astrophysical Journal . 852 (2): 104. arXiv : 1712.10317 . Bibcode :2018ApJ...852..104R. doi : 10.3847/1538-4357/aaa1f2 . S2CID 3966513.
^ abc Zhu, Guangtun B. (2016-12-19). «Неотрицательная матричная факторизация (NMF) с гетероскедастическими неопределенностями и пропущенными данными». arXiv : 1612.06037 [astro-ph.IM].
^ Рен, Бин; Пуэйо, Лоран; Чен, Кристин; Шоке, Элоди; Дебес, Джон Х.; Дюшен, Гаспар; Менар, Франсуа; Перрен, Маршалл Д. (2020). «Использование импутации данных для разделения сигналов в высококонтрастных изображениях». The Astrophysical Journal . 892 (2): 74. arXiv : 2001.00563 . Bibcode :2020ApJ...892...74R. doi : 10.3847/1538-4357/ab7024 . S2CID 209531731.
^ Роуайс, СТ; Саул, ЛК (2000). «Нелинейное снижение размерности путем локально-линейного вложения». Science . 290 (5500): 2323–2326. Bibcode :2000Sci...290.2323R. CiteSeerX 10.1.1.111.3313 . doi :10.1126/science.290.5500.2323. PMID 11125150. S2CID 5987139.
^ Чжан, Чжэньюэ; Чжа, Хунъюань (2004). «Главные многообразия и нелинейное снижение размерности с помощью выравнивания касательного пространства». Журнал SIAM по научным вычислениям . 26 (1): 313–338. Bibcode : 2004SJSC...26..313Z. doi : 10.1137/s1064827502419154.
^ Хунбин Ху, Стивен А. Захориан, (2010) «Методы снижения размерности для фонетического распознавания HMM», ICASSP 2010, Даллас, Техас
^ Baudat, G.; Anouar, F. (2000). «Обобщенный дискриминантный анализ с использованием подхода ядра». Neural Computation . 12 (10): 2385–2404. CiteSeerX 10.1.1.412.760 . doi :10.1162/089976600300014980. PMID 11032039. S2CID 7036341.
^ Хагигат, Мохаммад; Зонуз, Саман; Абдель-Мотталеб, Мохамед (2015). «CloudID: надежная облачная и кросс-корпоративная биометрическая идентификация». Экспертные системы с приложениями . 42 (21): 7905–7916. doi :10.1016/j.eswa.2015.06.025.
^ Шуберт, Эрих; Герц, Михаэль (2017). «Внутреннее t-стохастическое вложение соседей для визуализации и обнаружения выбросов». В Beecks, Кристиан; Борутта, Феликс; Крёгер, Пир; Зайдл, Томас (ред.). Поиск по сходству и приложения . Конспект лекций по информатике. Том 10609. Cham: Springer International Publishing. стр. 188–203. doi :10.1007/978-3-319-68474-1_13. ISBN 978-3-319-68474-1.
^ Кевин Бейер, Джонатан Голдштейн, Рагу Рамакришнан, Ури Шафт (1999) «Когда «ближайший сосед» имеет смысл?». Теория баз данных — ICDT99 , 217–235
^ Shaw, B.; Jebara, T. (2009). "Встраивание с сохранением структуры" (PDF) . Труды 26-й ежегодной международной конференции по машинному обучению – ICML '09 . стр. 1. CiteSeerX 10.1.1.161.451 . doi :10.1145/1553374.1553494. ISBN 9781605585161. S2CID 8522279.
^ Бингем, Э.; Маннила, Х. (2001). «Случайная проекция в снижении размерности». Труды седьмой международной конференции ACM SIGKDD по обнаружению знаний и добыче данных – KDD '01 . стр. 245. doi :10.1145/502512.502546. ISBN 978-1581133912. S2CID 1854295.
^ Шаша, Д. Хай (2004) Performance Discovery in Time Series Берлин: Springer. ISBN 0-387-00857-8

Ссылки

Бёмке, Брэд; Гринвелл, Брэндон М. (2019). «Уменьшение размерности». Практическое машинное обучение с Р. Чепменом и Холлом. стр. 343–396. ISBN 978-1-138-49568-5.
Каннингем, П. (2007). Сокращение размерности (технический отчет). Университетский колледж Дублина. UCD-CSI-2007-7.
Фодор, И. (2002). Обзор методов снижения размерности (технический отчет). Центр прикладных научных вычислений, Национальный университет Лоуренса в Ливерморе. UCRL-ID-148494.
Лакшми Падмаджа, Дьярам; Вишнувардхан, Б (2016). «Сравнительное исследование методов выбора подмножества признаков для снижения размерности научных данных». 2016 IEEE 6-я Международная конференция по передовым вычислениям (IACC) . стр. 31–34. doi :10.1109/IACC.2016.16. ISBN 978-1-4673-8286-1. S2CID 14532363.

Внешние ссылки

Специальный выпуск JMLR о выборе переменных и признаков
ELastic MAPs Архивировано 20 июля 2011 г. на Wayback Machine
Локально линейное вложение
Визуальное сравнение различных методов уменьшения размерности
Глобальная геометрическая структура для нелинейного снижения размерности