Неконтролируемое обучение

Неконтролируемое обучение — это структура в машинном обучении , где, в отличие от контролируемого обучения , алгоритмы изучают закономерности исключительно из немаркированных данных. ^[1] Другие структуры в спектре надзора включают слабый или полуконтроль , где небольшая часть данных помечена, и самоконтроль . Некоторые исследователи считают самоконтролируемое обучение формой неконтролируемого обучения. ^[2]

Концептуально, неконтролируемое обучение делится на аспекты данных, обучения, алгоритма и нижестоящих приложений. Обычно набор данных собирается дешево «в дикой природе», например, массивный текстовый корпус , полученный с помощью веб-сканирования , с незначительной фильтрацией (например, Common Crawl ). Это выгодно отличается от контролируемого обучения, где набор данных (например, ImageNet1000 ) обычно создается вручную, что намного дороже.

Были алгоритмы, разработанные специально для неконтролируемого обучения, такие как алгоритмы кластеризации, такие как k-средние , методы снижения размерности , такие как анализ главных компонент (PCA) , машинное обучение Больцмана и автокодировщики . После появления глубокого обучения большинство крупномасштабного неконтролируемого обучения выполнялось путем обучения архитектур нейронных сетей общего назначения методом градиентного спуска , адаптированных для выполнения неконтролируемого обучения путем разработки соответствующей процедуры обучения.

Иногда обученную модель можно использовать как есть, но чаще всего они модифицируются для последующих приложений. Например, метод генеративного предварительного обучения обучает модель генерировать текстовый набор данных, прежде чем настраивать ее для других приложений, таких как классификация текста. ^[3]^[4] В качестве другого примера, автокодировщики обучаются хорошим признакам , которые затем могут использоваться в качестве модуля для других моделей, таких как модель скрытой диффузии .

Задачи

Тенденция к задаче использовать контролируемые и неконтролируемые методы. Названия задач, пересекающие границы круга, являются преднамеренными. Это показывает, что классическое разделение творческих задач (слева), использующих неконтролируемые методы, размыто в современных схемах обучения.

Задачи часто классифицируются как дискриминационные (распознавание) или генеративные (воображение). Часто, но не всегда, дискриминационные задачи используют контролируемые методы, а генеративные задачи используют неконтролируемые (см. диаграмму Венна ); однако разделение очень размыто. Например, распознавание объектов благоприятствует контролируемому обучению, но неконтролируемое обучение также может группировать объекты в группы. Более того, по мере продвижения вперед некоторые задачи используют оба метода, а некоторые задачи переходят от одного к другому. Например, распознавание изображений начиналось как строго контролируемое, но стало гибридным, используя неконтролируемое предварительное обучение, а затем снова перешло к контролю с появлением отсева , ReLU и адаптивных скоростей обучения .

Типичная генеративная задача выглядит следующим образом. На каждом шаге из набора данных выбирается точка данных, часть данных удаляется, и модель должна вывести удаленную часть. Это особенно очевидно для шумоподавляющих автоэнкодеров и BERT .

Архитектуры нейронных сетей

Обучение

На этапе обучения неконтролируемая сеть пытается имитировать данные, которые ей дали, и использует ошибку в имитированном выходе для исправления себя (т. е. исправления своих весов и смещений). Иногда ошибка выражается как низкая вероятность того, что произойдет ошибочный выход, или она может выражаться как нестабильное состояние высокой энергии в сети.

В отличие от контролируемых методов, доминирующих в обратном распространении , неконтролируемое обучение также использует другие методы, включая: правило обучения Хопфилда, правило обучения Больцмана, контрастное расхождение , бодрствование-сон , вариационный вывод , максимальное правдоподобие , апостериорный максимум , выборку Гиббса и ошибки реконструкции обратного распространения или скрытые репараметризации состояний. Более подробную информацию см. в таблице ниже.

Энергия

Функция энергии — это макроскопическая мера состояния активации сети. В машинах Больцмана она играет роль функции стоимости. Эта аналогия с физикой вдохновлена анализом Людвига Больцмана макроскопической энергии газа из микроскопических вероятностей движения частиц , где k — постоянная Больцмана, а T — температура. В сети RBM соотношение имеет вид , ^[5] где и изменяются по всем возможным схемам активации и . Точнее, , где — схема активации всех нейронов (видимых и скрытых). Поэтому некоторые ранние нейронные сети носят название Машина Больцмана. Пол Смоленский называет Гармонию . Сеть ищет низкую энергию, которая является высокой Гармонией. $p\propto e^{-E/kT}$ $p=e^{-E}/Z$ $p$ $E$ $\textstyle {Z=\sum _{\scriptscriptstyle {\text{All Patterns}}}e^{-E({\text{pattern}})}}$ $p(a)=e^{-E(a)}/Z$ $a$ $-E\,$

Сети

В этой таблице показаны схемы соединений различных неконтролируемых сетей, подробности которых будут приведены в разделе Сравнение сетей. Круги — это нейроны, а ребра между ними — веса соединений. По мере изменения дизайна сети добавляются функции для включения новых возможностей или удаляются для ускорения обучения. Например, нейроны изменяются между детерминированными (Хопфилд) и стохастическими (Больцман), чтобы обеспечить надежный вывод, веса удаляются внутри слоя (RBM), чтобы ускорить обучение, или соединениям разрешается становиться асимметричными (Гельмгольц).

Из сетей, носящих имена людей, только Хопфилд работал непосредственно с нейронными сетями. Больцман и Гельмгольц были до искусственных нейронных сетей, но их работа в физике и физиологии вдохновила аналитические методы, которые использовались.

История

Конкретные сети

Здесь мы выделяем некоторые характеристики избранных сетей. Подробности каждой из них приведены в сравнительной таблице ниже.

Сеть Хопфилда: Ферромагнетизм вдохновил сети Хопфилда. Нейрон соответствует железному домену с бинарными магнитными моментами Up и Down, а нейронные связи соответствуют влиянию домена друг на друга. Симметричные связи позволяют формулировать глобальную энергию. Во время вывода сеть обновляет каждое состояние, используя стандартную функцию шага активации. Симметричные веса и правильные энергетические функции гарантируют сходимость к стабильному шаблону активации. Асимметричные веса трудно анализировать. Сети Хопфилда используются как адресуемые по содержанию памяти (CAM).
Машина Больцмана: Это стохастические сети Хопфилда. Их значение состояния выбирается из этой pdf следующим образом: предположим, что двоичный нейрон активируется с вероятностью Бернулли p(1) = 1/3 и остается с p(0) = 2/3. Выбирается из него, беря равномерно распределенное случайное число y и вставляя его в инвертированную кумулятивную функцию распределения , которая в этом случае является ступенчатой функцией с порогом 2/3. Обратная функция = { 0, если x <= 2/3, 1, если x > 2/3 }.
Сигмовидная сеть убеждений: Представленная Рэдфордом Нилом в 1992 году, эта сеть применяет идеи из вероятностных графических моделей к нейронным сетям. Ключевое отличие заключается в том, что узлы в графических моделях имеют заранее заданные значения, тогда как особенности нейронов Belief Net определяются после обучения. Сеть представляет собой редкосвязный направленный ациклический граф, состоящий из бинарных стохастических нейронов. Правило обучения исходит из максимального правдоподобия на p(X): Δw _ij s _j * (s _i - p _i ), где p _i = 1 / ( 1 + e ^{взвешенных входов в нейрон i} ). s _j являются активациями из несмещенной выборки апостериорного распределения, и это проблематично из-за проблемы Explaining Away, поднятой Джудеей Перл. Вариационные байесовские методы используют суррогатную апостериорную вероятность и явно игнорируют эту сложность. $\propto$
Сеть Глубоких Убеждений: Представленная Хинтоном, эта сеть является гибридом RBM и Sigmoid Belief Network. Верхние 2 слоя — это RBM, а второй слой ниже образует сигмоидальную сеть убеждений. Ее обучают методом стекированной RBM , а затем отбрасывают веса распознавания ниже верхней RBM. По состоянию на 2009 год оптимальной глубиной, по-видимому, является 3-4 слоя. ^[6]
машина Гельмгольца: Это ранние источники вдохновения для вариационных автокодировщиков. Его 2 сети объединены в одну — прямые веса управляют распознаванием, а обратные веса реализуют воображение. Это, возможно, первая сеть, которая делает и то, и другое. Гельмгольц не работал в области машинного обучения, но он вдохновил на идею «статистической машины вывода, чья функция заключается в выводе вероятных причин сенсорного ввода». ^[7] стохастический двоичный нейрон выводит вероятность того, что его состояние равно 0 или 1. Входные данные обычно не считаются слоем, но в режиме генерации машины Гельмгольца слой данных получает входные данные из среднего слоя и имеет отдельные веса для этой цели, поэтому он считается слоем. Следовательно, эта сеть имеет 3 слоя.
Вариационный автоэнкодер: Они вдохновлены машинами Гельмгольца и объединяют вероятностную сеть с нейронными сетями. Автоэнкодер — это 3-слойная CAM-сеть, где средний слой должен быть некоторым внутренним представлением входных шаблонов. Нейронная сеть кодера — это распределение вероятностей q _φ (z при заданном x), а сеть декодера — это p _θ (x при заданном z). Веса называются phi и theta, а не W и V, как в Гельмгольце — косметическое различие. Эти 2 сети здесь могут быть полностью связаны или использовать другую схему NN.

Сравнение сетей

Обучение по методу Хебба, ART, SOM

Классическим примером неконтролируемого обучения в изучении нейронных сетей является принцип Дональда Хебба , то есть нейроны, которые активируются вместе, связываются друг с другом. ^[8] В обучении по Хеббу связь усиливается независимо от ошибки, но является исключительно функцией совпадения потенциалов действия между двумя нейронами. ^[9] Похожая версия, которая изменяет синаптические веса, учитывает время между потенциалами действия ( пластичность, зависящая от времени спайка или STDP). Было высказано предположение, что обучение по Хеббу лежит в основе ряда когнитивных функций, таких как распознавание образов и экспериментальное обучение.

Среди моделей нейронных сетей самоорганизующаяся карта (SOM) и теория адаптивного резонанса (ART) обычно используются в алгоритмах неконтролируемого обучения. SOM — это топографическая организация, в которой близлежащие местоположения на карте представляют входы со схожими свойствами. Модель ART позволяет изменять количество кластеров в зависимости от размера проблемы и позволяет пользователю контролировать степень сходства между членами одних и тех же кластеров с помощью определяемой пользователем константы, называемой параметром бдительности. Сети ART используются для многих задач распознавания образов, таких как автоматическое распознавание целей и обработка сейсмических сигналов. ^[10]

Вероятностные методы

Два основных метода, используемых в неконтролируемом обучении, — это главный компонентный и кластерный анализ . Кластерный анализ используется в неконтролируемом обучении для группировки или сегментации наборов данных с общими атрибутами с целью экстраполяции алгоритмических связей. ^[11] Кластерный анализ — это раздел машинного обучения , который группирует данные, которые не были помечены , классифицированы или категоризированы. Вместо того чтобы реагировать на обратную связь, кластерный анализ выявляет общие черты в данных и реагирует на основе наличия или отсутствия таких общих черт в каждом новом фрагменте данных. Этот подход помогает обнаруживать аномальные точки данных, которые не вписываются ни в одну из групп.

Центральное применение неконтролируемого обучения находится в области оценки плотности в статистике , ^[12] хотя неконтролируемое обучение охватывает многие другие области, включающие обобщение и объяснение особенностей данных. Его можно противопоставить контролируемому обучению, сказав, что в то время как контролируемое обучение направлено на вывод условного распределения вероятностей , обусловленного меткой входных данных, неконтролируемое обучение направлено на вывод априорного распределения вероятностей.

Подходы

Некоторые из наиболее распространенных алгоритмов, используемых в неконтролируемом обучении, включают: (1) Кластеризация, (2) Обнаружение аномалий, (3) Подходы к обучению моделей скрытых переменных. Каждый подход использует несколько методов следующим образом:

Методы кластеризации включают: иерархическую кластеризацию , ^[13] k-средние , ^[14] смешанные модели , кластеризацию на основе моделей , DBSCAN и алгоритм OPTICS.
Методы обнаружения аномалий включают: фактор локального выброса и лес изоляции.
Подходы к обучению моделей скрытых переменных, такие как алгоритм максимизации ожидания (EM), метод моментов и методы слепого разделения сигналов ( анализ главных компонент , анализ независимых компонент , неотрицательная матричная факторизация , разложение по сингулярным значениям )

Метод моментов

Одним из статистических подходов к неконтролируемому обучению является метод моментов . В методе моментов неизвестные параметры (представляющие интерес) в модели связаны с моментами одной или нескольких случайных величин, и, таким образом, эти неизвестные параметры могут быть оценены с учетом моментов. Моменты обычно оцениваются по образцам эмпирически. Базовыми моментами являются моменты первого и второго порядка. Для случайного вектора момент первого порядка является средним вектором , а момент второго порядка является ковариационной матрицей (когда среднее равно нулю). Моменты более высокого порядка обычно представляются с помощью тензоров , которые являются обобщением матриц до более высоких порядков в виде многомерных массивов.

В частности, показано, что метод моментов эффективен при изучении параметров моделей скрытых переменных . Модели скрытых переменных — это статистические модели, в которых в дополнение к наблюдаемым переменным существует также набор скрытых переменных, которые не наблюдаются. Весьма практичным примером моделей скрытых переменных в машинном обучении является тематическое моделирование , которое представляет собой статистическую модель для генерации слов (наблюдаемых переменных) в документе на основе темы (скрытой переменной) документа. В тематическом моделировании слова в документе генерируются в соответствии с различными статистическими параметрами при изменении темы документа. Показано, что метод моментов (методы тензорной декомпозиции) последовательно восстанавливает параметры большого класса моделей скрытых переменных при некоторых предположениях. ^[15]

Алгоритм Expectation–maximization (EM) также является одним из наиболее практичных методов обучения моделей скрытых переменных. Однако он может застрять в локальных оптимумах, и не гарантируется, что алгоритм будет сходиться к истинным неизвестным параметрам модели. Напротив, для метода моментов глобальная сходимость гарантируется при некоторых условиях.

Смотрите также

Ссылки

^ Wu, Wei. "Unsupervised Learning" (PDF) . Архивировано (PDF) из оригинала 14 апреля 2024 г. . Получено 26 апреля 2024 г. .
^ Лю, Сяо; Чжан, Фаньцзинь; Хоу, Чжэньюй; Миан, Ли; Ван, Чжаоюй; Чжан, Цзин; Тан, Цзе (2021). «Обучение с самоконтролем: порождающее или контрастное». Транзакции IEEE по знаниям и инженерии данных : 1–1. arXiv : 2006.08218 . дои :10.1109/TKDE.2021.3090866. ISSN 1041-4347.
^ Рэдфорд, Алек; Нарасимхан, Картик; Салиманс, Тим; Суцкевер, Илья (11 июня 2018 г.). «Улучшение понимания языка с помощью генеративного предварительного обучения» (PDF) . OpenAI . стр. 12. Архивировано (PDF) из оригинала 26 января 2021 г. . Получено 23 января 2021 г. .
^ Ли, Чжохань; Уоллес, Эрик; Шен, Шэн; Линь, Кевин; Койцер, Курт; Кляйн, Дэн; Гонсалес, Джои (21.11.2020). «Обучай по-крупному, а затем сжимай: переосмысление размера модели для эффективного обучения и вывода трансформаторов». Труды 37-й Международной конференции по машинному обучению . PMLR: 5958–5968.
^ Хинтон, Г. (2012). "Практическое руководство по обучению ограниченных машин Больцмана" (PDF) . Нейронные сети: приемы торговли . Конспект лекций по информатике. Том 7700. Springer. С. 599–619. doi :10.1007/978-3-642-35289-8_32. ISBN 978-3-642-35289-8. Архивировано (PDF) из оригинала 2022-09-03 . Получено 2022-11-03 .
^ "Deep Belief Nets" (видео). Сентябрь 2009. Архивировано из оригинала 2022-03-08 . Получено 2022-03-27 . {{cite web}}: Неизвестный параметр |people=проигнорирован ( помощь )
^ Питер, Даян ; Хинтон, Джеффри Э .; Нил, Рэдфорд М.; Земель , Ричард С. (1995). «Машина Гельмгольца». Neural Computation . 7 (5): 889–904. doi :10.1162/neco.1995.7.5.889. hdl : 21.11116/0000-0002-D6D3-E . PMID 7584891. S2CID 1890561.
^ Buhmann, J.; Kuhnel, H. (1992). "Неконтролируемая и контролируемая кластеризация данных с помощью конкурентных нейронных сетей". [Труды 1992] IJCNN Международная объединенная конференция по нейронным сетям . Том 4. IEEE. С. 796–801. doi :10.1109/ijcnn.1992.227220. ISBN 0780305590. S2CID 62651220.
^ Комесанья-Кампос, Альберто; Боуза-Родригес, Хосе Бенито (июнь 2016 г.). «Применение обучения Хебба в процессе принятия решений по проектированию». Журнал интеллектуального производства . 27 (3): 487–506. doi :10.1007/s10845-014-0881-z. ISSN 0956-5515. S2CID 207171436.
^ Карпентер, GA и Гроссберг, S. (1988). «Искусство адаптивного распознавания образов самоорганизующейся нейронной сетью» (PDF) . Компьютер . 21 (3): 77–88. doi :10.1109/2.33. S2CID 14625094. Архивировано из оригинала (PDF) 2018-05-16 . Получено 2013-09-16 .
^ Роман, Виктор (2019-04-21). "Неконтролируемое машинное обучение: кластерный анализ". Medium . Архивировано из оригинала 2020-08-21 . Получено 2019-10-01 .
^ Jordan, Michael I.; Bishop, Christopher M. (2004). "7. Интеллектуальные системы §Нейронные сети". В Tucker, Allen B. (ред.). Computer Science Handbook (2-е изд.). Chapman & Hall/CRC Press. doi :10.1201/9780203494455. ISBN 1-58488-360-X. Архивировано из оригинала 2022-11-03 . Получено 2022-11-03 .
^ Хасти, Тибширани и Фридман 2009, стр. 485–586
^ Garbade, Dr Michael J. (2018-09-12). "Understanding K-means Clustering in Machine Learning". Medium . Архивировано из оригинала 2019-05-28 . Получено 2019-10-31 .
^ Anandkumar, Animashree; Ge, Rong; Hsu, Daniel; Kakade, Sham; Telgarsky, Matus (2014). «Тензорные разложения для обучения моделям со скрытыми переменными» (PDF) . Journal of Machine Learning Research . 15 : 2773–2832. arXiv : 1210.7559 . Bibcode :2012arXiv1210.7559A. Архивировано (PDF) из оригинала 20.03.2015 . Получено 10.04.2015 .

Дальнейшее чтение

Буске, О.; фон Люксбург, У.; Рэтч, Г., ред. (2004). Расширенные лекции по машинному обучению. Springer. ISBN 978-3540231226.
Дуда, Ричард О .; Харт, Питер Э .; Сторк, Дэвид Г. (2001). «Неконтролируемое обучение и кластеризация». Классификация образов (2-е изд.). Wiley. ISBN 0-471-05669-3.
Hastie, Trevor ; Tibshirani, Robert ; Friedman, Jerome (2009). «Неконтролируемое обучение». Элементы статистического обучения: добыча данных, вывод и прогнозирование . Springer. стр. 485–586. doi :10.1007/978-0-387-84858-7_14. ISBN 978-0-387-84857-0. Архивировано из оригинала 2022-11-03 . Получено 2022-11-03 .
Хинтон, Джеффри ; Сейновски, Терренс Дж. , ред. (1999). Неконтролируемое обучение: основы нейронных вычислений . MIT Press . ISBN 0-262-58168-X.