Обучение без присмотра

Обучение без учителя — это метод машинного обучения , при котором, в отличие от обучения с учителем , алгоритмы изучают закономерности исключительно на основе немаркированных данных. Есть надежда, что посредством мимикрии, которая является важным способом обучения людей, машина будет вынуждена построить краткое представление своего мира, а затем генерировать из него образный контент.

Другими методами в спектре контроля являются обучение с подкреплением , при котором машине в качестве руководства присваивается только числовая оценка производительности, а также слабый или полуконтроль , при котором помечается небольшая часть данных, и самоконтроль .

Нейронные сети

Задачи против методов

Тенденция к использованию в задаче контролируемых и неконтролируемых методов. Названия задач, выходящие за границы круга, созданы намеренно. Это показывает, что классическое разделение творческих задач (слева) с использованием неконтролируемых методов размыто в современных схемах обучения.

Задачи нейронной сети часто подразделяются на дискриминационные (распознавание) или генеративные (воображение). Часто, но не всегда, в различительных задачах используются контролируемые методы, а в генеративных задачах — неконтролируемые (см. диаграмму Венна ); однако разделение очень размыто. Например, распознавание объектов способствует обучению с учителем, но обучение без учителя также может группировать объекты в группы. Более того, по мере продвижения вперед в некоторых задачах используются оба метода, а в некоторых задачах меняется один на другой. Например, распознавание изображений началось с жесткого контроля, но стало гибридным из-за использования неконтролируемого предварительного обучения, а затем снова перешло к контролю с появлением отсева , ReLU и адаптивных скоростей обучения .

Обучение

На этапе обучения неконтролируемая сеть пытается имитировать предоставленные ей данные и использует ошибку в имитируемых выходных данных, чтобы исправить себя (т. е. исправить свои веса и смещения). Иногда ошибка выражается как низкая вероятность возникновения ошибочного вывода или как нестабильное состояние с высокой энергией в сети.

В отличие от доминирующего использования обратного распространения ошибки в методах с учителем , в обучении без учителя также используются другие методы, в том числе: правило обучения Хопфилда, правило обучения Больцмана, контрастное расхождение , бодрствование во сне , вариационный вывод , максимальное правдоподобие , максимум апостериори , выборка Гиббса и ошибки реконструкции с обратным распространением ошибки. или скрытые репараметризации состояния. Более подробную информацию смотрите в таблице ниже.

Энергия

Энергетическая функция — это макроскопическая мера состояния активации сети. В машинах Больцмана она играет роль функции стоимости. Эта аналогия с физикой навеяна анализом Людвигом Больцманом макроскопической энергии газа на основе микроскопических вероятностей движения частиц , где k — постоянная Больцмана, а T — температура. В сети RBM соотношение , ^[1] где и варьируются по каждому возможному шаблону активации и . Точнее, , где – закономерность активации всех нейронов (видимых и скрытых). Следовательно, некоторые ранние нейронные сети носят название «Машина Больцмана». Павел Смоленский называет Гармонию . Сеть ищет низкую энергию, которая является высокой Гармонией. $p\propto e^{-E/kT}$ $p=e^{-E}/Z$ $p$ $E$ $\textstyle {Z=\sum _{\scriptscriptstyle {\text{All Patterns}}}e^{-E({\text{pattern}})}}$ $p(a)=e^{-E(a)}/Z$ $a$ $-E\,$

Сети

В этой таблице приведены схемы подключения различных неконтролируемых сетей, подробности о которых будут приведены в разделе «Сравнение сетей». Круги — это нейроны, а ребра между ними — веса связей. По мере изменения конструкции сети функции добавляются, чтобы обеспечить новые возможности, или удаляются, чтобы ускорить обучение. Например, нейроны меняются между детерминированными (Хопфилд) и стохастическими (Больцманн), чтобы обеспечить устойчивый вывод, веса удаляются внутри слоя (RBM), чтобы ускорить обучение, или соединениям позволяют стать асимметричными (Гельмгольц).

Из сетей, носящих имена людей, только Хопфилд работал напрямую с нейронными сетями. Больцман и Гельмгольц появились раньше искусственных нейронных сетей, но их работы в области физики и физиологии вдохновили на использование аналитических методов.

История

Конкретные сети

Здесь мы выделим некоторые характеристики избранных сетей. Подробности о каждом из них приведены в сравнительной таблице ниже.

Сеть Хопфилда: Ферромагнетизм вдохновил сети Хопфилда. Нейрон соответствует железному домену с бинарными магнитными моментами Up и Down, а нейронные связи соответствуют влиянию домена друг на друга. Симметричные связи позволяют создать глобальную энергетическую формулу. Во время вывода сеть обновляет каждое состояние, используя стандартную функцию шага активации. Симметричные веса и правильные энергетические функции гарантируют сходимость к стабильному шаблону активации. Асимметричные веса трудно анализировать. Сети Хопфилда используются в качестве адресуемой памяти (CAM).
Машина Больцмана: Это стохастические сети Хопфилда. Значение их состояния выбирается из этого PDF-файла следующим образом: предположим, что бинарный нейрон срабатывает с вероятностью Бернулли p(1) = 1/3 и отдыхает с p(0) = 2/3. Из него делают выборку, беря равномерно распределенное случайное число y и подставляя его в инвертированную кумулятивную функцию распределения , которая в данном случае является ступенчатой функцией с порогом 2/3. Обратная функция = { 0, если x <= 2/3, 1, если x > 2/3 }.
Сигмовидная сеть убеждений: Эта сеть, представленная Рэдфордом Нилом в 1992 году, применяет идеи вероятностных графических моделей к нейронным сетям. Ключевое отличие состоит в том, что узлы в графических моделях имеют заранее заданные значения, тогда как функции нейронов сети убеждений определяются после обучения. Сеть представляет собой разреженный ориентированный ациклический граф, состоящий из бинарных стохастических нейронов. Правило обучения основано на максимальном правдоподобии для p(X): Δw _ij s _j * (s _i - p _i ), где p _i = 1 / ( 1 + e ^{взвешенные входные данные в нейрон i} ). s _j являются активациями из несмещенной выборки апостериорного распределения, и это проблематично из-за проблемы объяснения, поднятой Джудой Перлом. Вариационные байесовские методы используют суррогатный апостериор и явно игнорируют эту сложность. $\propto$
Сеть глубоких убеждений: Эта сеть, представленная Хинтоном, представляет собой гибрид RBM и сигмовидной сети убеждений. Два верхних уровня представляют собой RBM, а второй уровень, расположенный ниже, образует сигмовидную сеть убеждений. Его обучают методом составного RBM , а затем отбрасывают веса распознавания ниже верхнего RBM. По состоянию на 2009 год оптимальной глубиной кажется 3-4 слоя. ^[2]
Машина Гельмгольца: Это ранние источники вдохновения для вариационных автоэнкодеров. Его две сети объединены в одну: прямые веса управляют распознаванием, а обратные веса реализуют воображение. Возможно, это первая сеть, которая делает и то, и другое. Гельмгольц не занимался машинным обучением, но он вдохновил идею «машины статистического вывода, функция которой состоит в том, чтобы определить вероятные причины сенсорной информации». ^[3] стохастический бинарный нейрон выдает вероятность того, что его состояние равно 0 или 1. Входные данные обычно не считаются слоем, но в режиме генерации машины Гельмгольца уровень данных получает входные данные от среднего уровня и имеет отдельные веса для этой цели, поэтому он считается слоем. Следовательно, эта сеть имеет 3 слоя.
Вариационный автоэнкодер: Они вдохновлены машинами Гельмгольца и сочетают в себе сеть вероятностей с нейронными сетями. Автоэнкодер — это трехуровневая сеть CAM, где средний уровень должен представлять собой некоторое внутреннее представление входных шаблонов. Нейронная сеть кодера представляет собой распределение вероятностей q _φ (z при заданном x), а сеть декодера — это p _θ (x при заданном z). Веса называются фи и тета, а не W и V, как у Гельмгольца — косметическое отличие. Эти две сети здесь можно полностью соединить или использовать другую схему NN.

Сравнение сетей

Хеббианское обучение, ART, SOM

Классическим примером обучения без учителя при изучении нейронных сетей является принцип Дональда Хебба , то есть нейроны, которые срабатывают вместе, соединяются вместе. ^[4] При обучении Хебба связь усиливается независимо от ошибки, но является исключительно функцией совпадения потенциалов действия между двумя нейронами. ^[5] Аналогичная версия, которая изменяет синаптические веса, учитывает время между потенциалами действия ( пластичность, зависящая от времени спайка, или STDP). Было высказано предположение, что хеббианское обучение лежит в основе ряда когнитивных функций, таких как распознавание образов и экспериментальное обучение.

Среди моделей нейронных сетей в алгоритмах обучения без учителя обычно используются самоорганизующаяся карта (SOM) и теория адаптивного резонанса (ART). SOM — это топографическая организация, в которой близлежащие места на карте представляют собой входные данные со схожими свойствами. Модель ART позволяет изменять количество кластеров в зависимости от размера проблемы и позволяет пользователю контролировать степень сходства между членами одних и тех же кластеров с помощью определяемой пользователем константы, называемой параметром бдительности. Сети ART используются для многих задач распознавания образов, таких как автоматическое распознавание целей и обработка сейсмических сигналов. ^[6]

Вероятностные методы

Двумя основными методами, используемыми в обучении без учителя, являются анализ главных компонентов и кластерный анализ . Кластерный анализ используется при обучении без учителя для группировки или сегментирования наборов данных с общими атрибутами для экстраполяции алгоритмических связей. ^[7] Кластерный анализ — это отрасль машинного обучения , которая группирует данные, которые не были помечены , классифицированы или категоризированы. Вместо реагирования на обратную связь кластерный анализ выявляет общие черты в данных и реагирует на основе наличия или отсутствия таких общих черт в каждой новой части данных. Этот подход помогает обнаружить аномальные точки данных, которые не вписываются ни в одну группу.

Основное применение обучения без учителя находится в области оценки плотности в статистике ^[8] , хотя обучение без учителя охватывает множество других областей, включающих обобщение и объяснение особенностей данных. Его можно противопоставить обучению с учителем, сказав, что обучение с учителем направлено на вывод условного распределения вероятностей , обусловленного меткой входных данных; Обучение без учителя направлено на получение априорного распределения вероятностей.

Подходы

Некоторые из наиболее распространенных алгоритмов, используемых в обучении без учителя, включают: (1) Кластеризация, (2) Обнаружение аномалий, (3) Подходы к обучению моделей со скрытыми переменными. Каждый подход использует несколько методов, а именно:

Методы кластеризации включают: иерархическую кластеризацию , ^[9] k-средние , ^[10] смешанные модели , DBSCAN и алгоритм OPTICS.
К методам обнаружения аномалий относятся: локальный коэффициент выбросов и изоляционный лес.
Подходы к изучению моделей со скрытыми переменными, такие как алгоритм ожидания-максимизации (EM), метод моментов и методы слепого разделения сигналов ( анализ главных компонентов , анализ независимых компонентов , факторизация неотрицательной матрицы , разложение по сингулярным значениям )

Метод моментов

Одним из статистических подходов к обучению без учителя является метод моментов . В методе моментов неизвестные параметры (интересующие) в модели связаны с моментами одной или нескольких случайных величин, и, таким образом, эти неизвестные параметры могут быть оценены с учетом моментов. Моменты обычно оцениваются по выборкам эмпирическим путем. Базовыми моментами являются моменты первого и второго порядка. Для случайного вектора момент первого порядка — это средний вектор, а момент второго порядка — ковариационная матрица (когда среднее значение равно нулю). Моменты более высокого порядка обычно представляются с помощью тензоров , которые представляют собой обобщение матриц до более высоких порядков в виде многомерных массивов.

В частности, показана эффективность метода моментов при изучении параметров моделей со скрытыми переменными . Модели со скрытыми переменными — это статистические модели, в которых помимо наблюдаемых переменных существует также набор скрытых переменных, которые не наблюдаются. Весьма практичным примером моделей скрытых переменных в машинном обучении является тематическое моделирование , которое представляет собой статистическую модель для генерации слов (наблюдаемых переменных) в документе на основе темы (латентной переменной) документа. При тематическом моделировании слова в документе генерируются в соответствии с различными статистическими параметрами при изменении темы документа. Показано, что метод моментов (методы тензорной декомпозиции) последовательно восстанавливают параметры большого класса моделей со скрытыми переменными при некоторых предположениях. ^[11]

Алгоритм ожидания-максимизации (EM) также является одним из наиболее практичных методов изучения моделей со скрытыми переменными. Однако он может застрять в локальных оптимумах, и нет гарантии, что алгоритм сходится к истинным неизвестным параметрам модели. Напротив, для метода моментов глобальная сходимость гарантируется при некоторых условиях.

Смотрите также

дальнейшее чтение

Буске, О.; фон Люксбург, У.; Раетч, Г., ред. (2004). Продвинутые лекции по машинному обучению. Спрингер. ISBN 978-3540231226.
Дуда, Ричард О .; Харт, Питер Э .; Сторк, Дэвид Г. (2001). «Обучение без учителя и кластеризация». Классификация узоров (2-е изд.). Уайли. ISBN 0-471-05669-3.
Хасти, Тревор ; Тибширани, Роберт ; Фридман, Джером (2009). «Обучение без учителя». Элементы статистического обучения: интеллектуальный анализ данных, логические выводы и прогнозирование . Спрингер. стр. 485–586. дои : 10.1007/978-0-387-84858-7_14. ISBN 978-0-387-84857-0.
Хинтон, Джеффри ; Сейновский, Терренс Дж. , ред. (1999). Обучение без учителя: основы нейронных вычислений . МТИ Пресс . ISBN 0-262-58168-Х.