Ограниченная машина Больцмана ( RBM ) (также называемая ограниченной моделью Шеррингтона-Киркпатрика с внешним полем или ограниченной стохастической моделью Изинга-Ленца-Литтла ) представляет собой генеративную стохастическую искусственную нейронную сеть , которая может изучать распределение вероятностей по набору входных данных. [1]
пара узлов из каждой из двух групп блоков (обычно называемых «видимыми» и «скрытыми» блоками соответственно) может иметь симметричное соединение между собой; и
между узлами внутри группы нет связей.
Напротив, «неограниченные» машины Больцмана могут иметь связи между скрытыми блоками . Это ограничение позволяет использовать более эффективные алгоритмы обучения , чем доступные для общего класса машин Больцмана, в частности алгоритм контрастивной дивергенции на основе градиента . [11]
Стандартный тип RBM имеет скрытые и видимые двоичные ( логические ) единицы измерения и состоит из матрицы весов размера . Каждому весовому элементу матрицы связана связь между видимой (входной) единицей и скрытой единицей . Кроме того, существуют веса смещения (смещения) для и для . Учитывая веса и смещения, энергия конфигурации (пара логических векторов) ( v , h ) определяется как
или, в матричной записи,
Эта энергетическая функция аналогична функции сети Хопфилда . Как и в случае с обычными машинами Больцмана, совместное распределение вероятностей для видимых и скрытых векторов определяется через функцию энергии следующим образом: [13]
где - статистическая сумма , определяемая как сумма всех возможных конфигураций, которую можно интерпретировать как нормализующую константу , гарантирующую, что сумма вероятностей равна 1. Предельная вероятность видимого вектора представляет собой сумму всех возможных конфигураций скрытого слоя, [13]
,
и наоборот. Поскольку базовая структура графа RBM является двудольной (что означает отсутствие внутриуровневых связей), активации скрытых модулей взаимно независимы, учитывая активацию видимых модулей. И наоборот, видимые активации юнитов взаимно независимы, учитывая активацию скрытых юнитов. [11] То есть для m видимых единиц и n скрытых единиц условная вероятность конфигурации видимых единиц v при заданной конфигурации скрытых единиц h равна
.
И наоборот, условная вероятность h при условии v равна
где K — количество дискретных значений, которые имеют видимые значения. Они применяются в тематическом моделировании [7] и рекомендательных системах . [5]
Ограниченные машины Больцмана обучаются максимизировать произведение вероятностей, присвоенных некоторому обучающему набору (матрице, каждая строка которой рассматривается как видимый вектор ),
Алгоритм, наиболее часто используемый для обучения RBM, то есть для оптимизации весовой матрицы , — это алгоритм контрастивной дивергенции (CD) Хинтона , изначально разработанный для обучения моделей PoE ( продукта экспертов ). [17] [18]
Алгоритм выполняет выборку Гиббса и используется внутри процедуры градиентного спуска (аналогично тому, как обратное распространение ошибки используется внутри такой процедуры при обучении нейронных сетей прямого распространения) для вычисления обновления веса.
Базовую одноэтапную процедуру контрастивной дивергенции (CD-1) для одного образца можно резюмировать следующим образом:
Возьмите обучающую выборку v , вычислите вероятности скрытых единиц и выберите скрытый вектор активации h из этого распределения вероятностей.
Из h выберите реконструкцию v' видимых единиц, затем повторите выборку скрытых активаций h' из этого. (шаг выборки Гиббса)
Вычислите внешнее произведение v ' и h' и назовите его отрицательным градиентом .
Пусть обновление весовой матрицы будет представлять собой положительный градиент минус отрицательный градиент, умноженный на некоторую скорость обучения: .
Аналогично обновите смещения a и b : , .
Практическое руководство по обучению RBM, написанное Хинтоном, можно найти на его домашней странице. [13]
Многоуровневая ограниченная машина Больцмана
Разница между штабелированными ограниченными машинами Больцмана и RBM заключается в том, что RBM имеет боковые связи внутри слоя, которые запрещены для облегчения анализа. С другой стороны, Stacked Boltzmann состоит из комбинации неконтролируемой трехслойной сети с симметричными весами и контролируемого тонко настроенного верхнего слоя для распознавания трех классов.
Использование Stacked Boltzmann предназначено для понимания естественных языков , извлечения документов , создания изображений и классификации. Эти функции обучаются с помощью неконтролируемого предварительного обучения и/или контролируемой точной настройки. В отличие от ненаправленного симметричного верхнего слоя, с двусторонним несимметричным слоем для подключения для RBM. Ограниченная больцмановская связность является трехслойной с несимметричными весами, причем две сети объединены в одну.
Stacked Boltzmann действительно имеет сходство с RBM: нейрон для Stacked Boltzmann представляет собой стохастический бинарный нейрон Хопфилда, который аналогичен ограниченной машине Больцмана. Энергия как Ограниченного Больцмана, так и RBM определяется вероятностной мерой Гибба: . Тренировочный процесс Restricted Boltzmann аналогичен RBM. Ограниченное обучение Больцмана по одному слою за раз и приближение к равновесному состоянию с помощью 3-сегментного прохода, без выполнения обратного распространения. Ограниченный метод Больцмана использует как контролируемый, так и неконтролируемый метод на различных RBM для предварительного обучения классификации и распознаванию. В обучении используется контрастивная дивергенция с выборкой Гиббса: Δw ij = e*(p ij - p' ij )
Ограниченная сила Больцмана заключается в том, что он выполняет нелинейное преобразование, поэтому его легко расширять и он может создавать иерархический уровень функций. Слабость заключается в том, что он имеет сложные вычисления для целочисленных и действительных нейронов. Он не следует градиенту какой-либо функции, поэтому приближение контрастного расхождения к максимальному правдоподобию является импровизированным. [13]
Литература
Фишер, Ася; Игель, Кристиан (2012), «Введение в ограниченные машины Больцмана», Прогресс в распознавании образов, анализе изображений, компьютерном зрении и приложениях , Конспекты лекций по информатике, том. 7441, Берлин, Гейдельберг: Springer Berlin Heidelberg, стр. 14–36, doi : 10.1007/978-3-642-33275-3_2 , ISBN 978-3-642-33274-6
^ Хинтон, GE; Салахутдинов Р.Р. (2006). «Уменьшение размерности данных с помощью нейронных сетей» (PDF) . Наука . 313 (5786): 504–507. Бибкод : 2006Sci...313..504H. дои : 10.1126/science.1127647. PMID 16873662. S2CID 1658773. Архивировано из оригинала (PDF) 23 декабря 2015 г. Проверено 2 декабря 2015 г.
^ Ларошель, Х.; Бенджио, Ю. (2008). Классификация с использованием дискриминативных ограниченных машин Больцмана (PDF) . Материалы 25-й международной конференции по машинному обучению - ICML '08. п. 536. дои : 10.1145/1390156.1390224. ISBN978-1-60558-205-4.
^ аб Салахутдинов Р.; Мних, А.; Хинтон, Г. (2007). Ограниченные машины Больцмана для совместной фильтрации . Материалы 24-й международной конференции по машинному обучению - ICML '07. п. 791. дои : 10.1145/1273496.1273596. ISBN978-1-59593-793-3.
^ Коутс, Адам; Ли, Хонглак; Нг, Эндрю Ю. (2011). Анализ однослойных сетей при обучении функций без учителя (PDF) . Международная конференция по искусственному интеллекту и статистике (AISTATS). Архивировано из оригинала (PDF) 20 декабря 2014 г. Проверено 19 декабря 2014 г.
^ Брави, Барбара; Ди Джоаккино, Андреа; Фернандес-де-Коссио-Диас, Хорхе; Вальчак, Александра М; Мора, Тьерри; Кокко, Симона; Монассон, Реми (8 сентября 2023 г.). Битбол, Анн-Флоренция; Эйзен, Майкл Б. (ред.). «Подход к переносу обучения для прогнозирования иммуногенности антигена и специфичности рецептора Т-клеток». электронная жизнь . 12 : е85126. дои : 10.7554/eLife.85126 . ISSN 2050-084X. ПМЦ 10522340 . ПМИД 37681658.
^ Карлео, Джузеппе; Тройер, Матиас (10 февраля 2017 г.). «Решение квантовой задачи многих тел с помощью искусственных нейронных сетей». Наука . 355 (6325): 602–606. arXiv : 1606.02318 . Бибкод : 2017Sci...355..602C. doi : 10.1126/science.aag2302. ISSN 0036-8075. PMID 28183973. S2CID 206651104.
^ Мелько, Роджер Г.; Карлео, Джузеппе; Карраскилья, Хуан; Сирак, Дж. Игнасио (сентябрь 2019 г.). «Ограниченные машины Больцмана в квантовой физике». Физика природы . 15 (9): 887–892. Бибкод : 2019NatPh..15..887M. дои : 10.1038/s41567-019-0545-1. ISSN 1745-2481. S2CID 256704838.
^ аб Мигель А. Каррейра-Перпиньян и Джеффри Хинтон (2005). О контрастном дивергентном обучении. Искусственный интеллект и статистика .
^ Хинтон, Г. (2009). «Сети глубоких убеждений». Схоларпедия . 4 (5): 5947. Бибкод : 2009SchpJ...4.5947H. doi : 10.4249/scholarpedia.5947 .
^ abcd Джеффри Хинтон (2010). Практическое руководство по обучению ограниченных машин Больцмана . UTML TR 2010–003, Университет Торонто.
^ аб Суцкевер, Илья; Тилеман, Тиймен (2010). «О свойствах конвергенции контрастной дивергенции» (PDF) . Учеб. 13-я Международная конференция. Об искусственном интеллекте и статистике (AISTATS) . Архивировано из оригинала (PDF) 10 июня 2015 г.
^ ab Ася Фишер и Кристиан Игель. Машины Больцмана с ограниченным обучением: введение. Архивировано 10 июня 2015 г. на Wayback Machine . Распознавание образов 47, стр. 25–39, 2014 г.
^ Мария Анхелика Куэто; Джейсон Мортон; Бернд Штурмфельс (2010). «Геометрия ограниченной машины Больцмана». Алгебраические методы в статистике и теории вероятностей . 516 . Американское математическое общество. arXiv : 0908.4425 . Бибкод : 2009arXiv0908.4425A.
^ Джеффри Хинтон (1999). Продукция экспертов. ИКАНН, 1999 год .
^ Хинтон, GE (2002). «Продукты обучения экспертов путем минимизации контрастного расхождения» (PDF) . Нейронные вычисления . 14 (8): 1771–1800. дои : 10.1162/089976602760128018. PMID 12180402. S2CID 207596505.
Библиография
Чен, Эдвин (18 июля 2011 г.). «Введение в ограниченные машины Больцмана». Блог Эдвина Чена .
Николсон, Крис; Гибсон, Адам. «Учебное пособие для начинающих по ограниченным машинам Больцмана». Документация Deeplearning4j . Архивировано из оригинала 11 февраля 2017 г. Проверено 15 ноября 2018 г.{{cite web}}: CS1 maint: bot: original URL status unknown (link)
Николсон, Крис; Гибсон, Адам. «Понимание УОР». Документация Deeplearning4j . Архивировано из оригинала 20 сентября 2016 г. Проверено 29 декабря 2014 г.