Ограниченная машина Больцмана

Ограниченная машина Больцмана ( RBM ) (также называемая ограниченной моделью Шеррингтона-Киркпатрика с внешним полем или ограниченной стохастической моделью Изинга-Ленца-Литтла ) представляет собой генеративную стохастическую искусственную нейронную сеть , которая может изучать распределение вероятностей по набору входных данных. ^[1]

Первоначально RBM были предложены Полом Смоленским под названием Harmonium в 1986 году ^[2] и приобрели известность после того, как Джеффри Хинтон и его коллеги использовали для них алгоритмы быстрого обучения в середине 2000-х годов. RBM нашли применение в уменьшении размерности , ^[3]классификации , ^[4]совместной фильтрации , ^[5]изучении признаков , ^[6]тематическом моделировании , ^[7]иммунологии , ^[8] и даже квантовой механике многих тел . ^[9]^[10] Их можно обучать как под присмотром , так и без присмотра , в зависимости от задачи. ^[^{нужна цитата}^]

Как следует из названия, RBM являются вариантом машин Больцмана с тем ограничением, что их нейроны должны формировать двудольный граф :

пара узлов из каждой из двух групп блоков (обычно называемых «видимыми» и «скрытыми» блоками соответственно) может иметь симметричное соединение между собой; и
между узлами внутри группы нет связей.

Напротив, «неограниченные» машины Больцмана могут иметь связи между скрытыми блоками . Это ограничение позволяет использовать более эффективные алгоритмы обучения , чем доступные для общего класса машин Больцмана, в частности алгоритм контрастивной дивергенции на основе градиента . ^[11]

Ограниченные машины Больцмана также можно использовать в сетях глубокого обучения . В частности, сети глубоких убеждений могут быть сформированы путем «наложения» RBM и, при необходимости, точной настройки полученной глубокой сети с помощью градиентного спуска и обратного распространения ошибки . ^[12]

Состав

Стандартный тип RBM имеет скрытые и видимые двоичные ( логические ) единицы измерения и состоит из матрицы весов размера . Каждому весовому элементу матрицы связана связь между видимой (входной) единицей и скрытой единицей . Кроме того, существуют веса смещения (смещения) для и для . Учитывая веса и смещения, энергия конфигурации (пара логических векторов) $($ $v$ $,$ $h$ $)$ определяется как $W$ $m\times n$ $(w_{i,j})$ $v_{i}$ $h_{j}$ $a_{i}$ $v_{i}$ $b_{j}$ $h_{j}$

E(v,h)=-\sum _{i}a_{i}v_{i}-\sum _{j}b_{j}h_{j}-\sum _{i}\sum _{j}v_{i}w_{i,j}h_{j}

или, в матричной записи,

E(v,h)=-a^{\mathrm {T} }v-b^{\mathrm {T} }h-v^{\mathrm {T} }Wh.

Эта энергетическая функция аналогична функции сети Хопфилда . Как и в случае с обычными машинами Больцмана, совместное распределение вероятностей для видимых и скрытых векторов определяется через функцию энергии следующим образом: ^[13]

P(v,h)={\frac {1}{Z}}e^{-E(v,h)}

где - статистическая сумма , определяемая как сумма всех возможных конфигураций, которую можно интерпретировать как нормализующую константу , гарантирующую, что сумма вероятностей равна 1. Предельная вероятность видимого вектора представляет собой сумму всех возможных конфигураций скрытого слоя, ^[13] $Z$ $e^{-E(v,h)}$ $P(v,h)$

P(v)={\frac {1}{Z}}\sum _{\{h\}}e^{-E(v,h)}

и наоборот. Поскольку базовая структура графа RBM является двудольной (что означает отсутствие внутриуровневых связей), активации скрытых модулей взаимно независимы, учитывая активацию видимых модулей. И наоборот, видимые активации юнитов взаимно независимы, учитывая активацию скрытых юнитов. ^[11] То есть для m видимых единиц и n скрытых единиц условная вероятность конфигурации видимых единиц $v$ при заданной конфигурации скрытых единиц $h$ равна

P(v|h)=\prod _{i=1}^{m}P(v_{i}|h)

И наоборот, условная вероятность $h$ при условии $v$ равна

P(h|v)=\prod _{j=1}^{n}P(h_{j}|v)

Индивидуальные вероятности активации определяются выражением

P(h_{j}=1|v)=\sigma \left(b_{j}+\sum _{i=1}^{m}w_{i,j}v_{i}\right)

\,P(v_{i}=1|h)=\sigma \left(a_{i}+\sum _{j=1}^{n}w_{i,j}h_{j}\right)

где обозначает логистическую сигмовидную . $\sigma$

Видимые единицы Ограниченной машины Больцмана могут быть полиномиальными , хотя скрытые единицы — это Бернулли . ^{[ необходимы пояснения ]} В этом случае логистическая функция для видимых единиц заменяется функцией softmax.

P(v_{i}^{k}=1|h)={\frac {\exp(a_{i}^{k}+\Sigma _{j}W_{ij}^{k}h_{j})}{\Sigma _{k'=1}^{K}\exp(a_{i}^{k'}+\Sigma _{j}W_{ij}^{k'}h_{j})}}

где K — количество дискретных значений, которые имеют видимые значения. Они применяются в тематическом моделировании ^[7] и рекомендательных системах . ^[5]

Связь с другими моделями

Ограниченные машины Больцмана представляют собой частный случай машин Больцмана и марковских случайных полей . ^[14]^[15]

Графическая модель УОР соответствует модели факторного анализа . ^[16]

Алгоритм обучения

Ограниченные машины Больцмана обучаются максимизировать произведение вероятностей, присвоенных некоторому обучающему набору (матрице, каждая строка которой рассматривается как видимый вектор ), $V$ $v$

\arg \max _{W}\prod _{v\in V}P(v)

или, что то же самое, чтобы максимизировать ожидаемую логарифмическую вероятность обучающей выборки , выбранной случайным образом из : ^[14]^[15] $v$ $V$

\arg \max _{W}\mathbb {E} \left[\log P(v)\right]

Алгоритм, наиболее часто используемый для обучения RBM, то есть для оптимизации весовой матрицы , — это алгоритм контрастивной дивергенции (CD) Хинтона , изначально разработанный для обучения моделей PoE ( продукта экспертов ). ^[17]^[18] Алгоритм выполняет выборку Гиббса и используется внутри процедуры градиентного спуска (аналогично тому, как обратное распространение ошибки используется внутри такой процедуры при обучении нейронных сетей прямого распространения) для вычисления обновления веса. $W$

Базовую одноэтапную процедуру контрастивной дивергенции (CD-1) для одного образца можно резюмировать следующим образом:

Возьмите обучающую выборку $v$ , вычислите вероятности скрытых единиц и выберите скрытый вектор активации $h$ из этого распределения вероятностей.
Вычислите внешнее произведение v и $h$ и назовите его $положительным$ градиентом .
Из $h$ выберите реконструкцию $v'$ видимых единиц, затем повторите выборку скрытых активаций $h'$ из этого. (шаг выборки Гиббса)
Вычислите внешнее произведение v $'$ и $h'$ и назовите его отрицательным градиентом .
Пусть обновление весовой матрицы будет представлять собой положительный градиент минус отрицательный градиент, умноженный на некоторую скорость обучения: . $W$ $\Delta W=\epsilon (vh^{\mathsf {T}}-v'h'^{\mathsf {T}})$
Аналогично обновите смещения $a$ и $b$ : , . $\Delta a=\epsilon (v-v')$ $\Delta b=\epsilon (h-h')$

Практическое руководство по обучению RBM, написанное Хинтоном, можно найти на его домашней странице. ^[13]

Многоуровневая ограниченная машина Больцмана

Разница между штабелированными ограниченными машинами Больцмана и RBM заключается в том, что RBM имеет боковые связи внутри слоя, которые запрещены для облегчения анализа. С другой стороны, Stacked Boltzmann состоит из комбинации неконтролируемой трехслойной сети с симметричными весами и контролируемого тонко настроенного верхнего слоя для распознавания трех классов.
Использование Stacked Boltzmann предназначено для понимания естественных языков , извлечения документов , создания изображений и классификации. Эти функции обучаются с помощью неконтролируемого предварительного обучения и/или контролируемой точной настройки. В отличие от ненаправленного симметричного верхнего слоя, с двусторонним несимметричным слоем для подключения для RBM. Ограниченная больцмановская связность является трехслойной с несимметричными весами, причем две сети объединены в одну.
Stacked Boltzmann действительно имеет сходство с RBM: нейрон для Stacked Boltzmann представляет собой стохастический бинарный нейрон Хопфилда, который аналогичен ограниченной машине Больцмана. Энергия как Ограниченного Больцмана, так и RBM определяется вероятностной мерой Гибба: . Тренировочный процесс Restricted Boltzmann аналогичен RBM. Ограниченное обучение Больцмана по одному слою за раз и приближение к равновесному состоянию с помощью 3-сегментного прохода, без выполнения обратного распространения. Ограниченный метод Больцмана использует как контролируемый, так и неконтролируемый метод на различных RBM для предварительного обучения классификации и распознаванию. В обучении используется контрастивная дивергенция с выборкой Гиббса: Δw _ij = e*(p _ij - p' _ij ) $E=-{\frac {1}{2}}\sum _{i,j}{w_{ij}{s_{i}}{s_{j}}}+\sum _{i}{\theta _{i}}{s_{i}}$
Ограниченная сила Больцмана заключается в том, что он выполняет нелинейное преобразование, поэтому его легко расширять и он может создавать иерархический уровень функций. Слабость заключается в том, что он имеет сложные вычисления для целочисленных и действительных нейронов. Он не следует градиенту какой-либо функции, поэтому приближение контрастного расхождения к максимальному правдоподобию является импровизированным. ^[13]

Литература

Фишер, Ася; Игель, Кристиан (2012), «Введение в ограниченные машины Больцмана», Прогресс в распознавании образов, анализе изображений, компьютерном зрении и приложениях , Конспекты лекций по информатике, том. 7441, Берлин, Гейдельберг: Springer Berlin Heidelberg, стр. 14–36, doi : 10.1007/978-3-642-33275-3_2 , ISBN 978-3-642-33274-6

Смотрите также

Библиография

Чен, Эдвин (18 июля 2011 г.). «Введение в ограниченные машины Больцмана». Блог Эдвина Чена .
Николсон, Крис; Гибсон, Адам. «Учебное пособие для начинающих по ограниченным машинам Больцмана». Документация Deeplearning4j . Архивировано из оригинала 11 февраля 2017 г. Проверено 15 ноября 2018 г.{{cite web}}: CS1 maint: bot: original URL status unknown (link)
Николсон, Крис; Гибсон, Адам. «Понимание УОР». Документация Deeplearning4j . Архивировано из оригинала 20 сентября 2016 г. Проверено 29 декабря 2014 г.

Внешние ссылки

Реализация RBM Бернулли на Python и учебное пособие
SimpleRBM — это очень небольшой код RBM (24 КБ), который поможет вам узнать, как учатся и работают RBM.
Реализация Джулии машин с ограниченным доступом Больцмана: https://github.com/cossio/RestrictedBoltzmannMachines.jl