stringtranslate.com

Ограниченная машина Больцмана

Схема ограниченной машины Больцмана с тремя видимыми блоками и четырьмя скрытыми блоками (без блоков смещения)

Ограниченная машина Больцмана ( RBM ) (также называемая ограниченной моделью Шеррингтона-Киркпатрика с внешним полем или ограниченной стохастической моделью Изинга-Ленца-Литтла ) представляет собой генеративную стохастическую искусственную нейронную сеть , которая может изучать распределение вероятностей по набору входных данных. [1]

Первоначально RBM были предложены Полом Смоленским под названием Harmonium в 1986 году [2] и приобрели известность после того, как Джеффри Хинтон и его коллеги использовали для них алгоритмы быстрого обучения в середине 2000-х годов. RBM нашли применение в уменьшении размерности , [3] классификации , [4] совместной фильтрации , [5] изучении признаков , [6] тематическом моделировании , [7] иммунологии , [8] и даже квантовой механике многих тел . [9] [10] Их можно обучать как под присмотром , так и без присмотра , в зависимости от задачи. [ нужна цитата ]

Как следует из названия, RBM являются вариантом машин Больцмана с тем ограничением, что их нейроны должны формировать двудольный граф :

Напротив, «неограниченные» машины Больцмана могут иметь связи между скрытыми блоками . Это ограничение позволяет использовать более эффективные алгоритмы обучения , чем доступные для общего класса машин Больцмана, в частности алгоритм контрастивной дивергенции на основе градиента . [11]

Ограниченные машины Больцмана также можно использовать в сетях глубокого обучения . В частности, сети глубоких убеждений могут быть сформированы путем «наложения» RBM и, при необходимости, точной настройки полученной глубокой сети с помощью градиентного спуска и обратного распространения ошибки . [12]

Состав

Стандартный тип RBM имеет скрытые и видимые двоичные ( логические ) единицы измерения и состоит из матрицы весов размера . Каждому весовому элементу матрицы связана связь между видимой (входной) единицей и скрытой единицей . Кроме того, существуют веса смещения (смещения) для и для . Учитывая веса и смещения, энергия конфигурации (пара логических векторов) ( v , h ) определяется как

или, в матричной записи,

Эта энергетическая функция аналогична функции сети Хопфилда . Как и в случае с обычными машинами Больцмана, совместное распределение вероятностей для видимых и скрытых векторов определяется через функцию энергии следующим образом: [13]

где - статистическая сумма , определяемая как сумма всех возможных конфигураций, которую можно интерпретировать как нормализующую константу , гарантирующую, что сумма вероятностей равна 1. Предельная вероятность видимого вектора представляет собой сумму всех возможных конфигураций скрытого слоя, [13]

,

и наоборот. Поскольку базовая структура графа RBM является двудольной (что означает отсутствие внутриуровневых связей), активации скрытых модулей взаимно независимы, учитывая активацию видимых модулей. И наоборот, видимые активации юнитов взаимно независимы, учитывая активацию скрытых юнитов. [11] То есть для m видимых единиц и n скрытых единиц условная вероятность конфигурации видимых единиц v при заданной конфигурации скрытых единиц h равна

.

И наоборот, условная вероятность h при условии v равна

.

Индивидуальные вероятности активации определяются выражением

и

где обозначает логистическую сигмовидную .

Видимые единицы Ограниченной машины Больцмана могут быть полиномиальными , хотя скрытые единицы — это Бернулли . [ необходимы пояснения ] В этом случае логистическая функция для видимых единиц заменяется функцией softmax.

где K — количество дискретных значений, которые имеют видимые значения. Они применяются в тематическом моделировании [7] и рекомендательных системах . [5]

Связь с другими моделями

Ограниченные машины Больцмана представляют собой частный случай машин Больцмана и марковских случайных полей . [14] [15]

Графическая модель УОР соответствует модели факторного анализа . [16]

Алгоритм обучения

Ограниченные машины Больцмана обучаются максимизировать произведение вероятностей, присвоенных некоторому обучающему набору (матрице, каждая строка которой рассматривается как видимый вектор ),

или, что то же самое, чтобы максимизировать ожидаемую логарифмическую вероятность обучающей выборки , выбранной случайным образом из : [14] [15]

Алгоритм, наиболее часто используемый для обучения RBM, то есть для оптимизации весовой матрицы , — это алгоритм контрастивной дивергенции (CD) Хинтона , изначально разработанный для обучения моделей PoE ( продукта экспертов ). [17] [18] Алгоритм выполняет выборку Гиббса и используется внутри процедуры градиентного спуска (аналогично тому, как обратное распространение ошибки используется внутри такой процедуры при обучении нейронных сетей прямого распространения) для вычисления обновления веса.

Базовую одноэтапную процедуру контрастивной дивергенции (CD-1) для одного образца можно резюмировать следующим образом:

  1. Возьмите обучающую выборку v , вычислите вероятности скрытых единиц и выберите скрытый вектор активации h из этого распределения вероятностей.
  2. Вычислите внешнее произведение v и h и назовите его положительным градиентом .
  3. Из h выберите реконструкцию v' видимых единиц, затем повторите выборку скрытых активаций h' из этого. (шаг выборки Гиббса)
  4. Вычислите внешнее произведение v ' и h' и назовите его отрицательным градиентом .
  5. Пусть обновление весовой матрицы будет представлять собой положительный градиент минус отрицательный градиент, умноженный на некоторую скорость обучения: .
  6. Аналогично обновите смещения a и b : , .

Практическое руководство по обучению RBM, написанное Хинтоном, можно найти на его домашней странице. [13]

Многоуровневая ограниченная машина Больцмана

Литература

Смотрите также

Рекомендации

  1. ^ Шеррингтон, Дэвид; Киркпатрик, Скотт (1975), «Разрешимая модель спинового стекла», Physical Review Letters , 35 (35): 1792–1796, Бибкод : 1975PhRvL..35.1792S, doi : 10.1103/PhysRevLett.35.1792
  2. ^ Смоленский, Павел (1986). «Глава 6: Обработка информации в динамических системах: основы теории гармонии» (PDF) . В Румельхарте, Дэвид Э.; Маклелланд, Джеймс Л. (ред.). Параллельная распределенная обработка: исследования микроструктуры познания, Том 1: Основы . МТИ Пресс. стр. 194–281. ISBN 0-262-68053-Х.
  3. ^ Хинтон, GE; Салахутдинов Р.Р. (2006). «Уменьшение размерности данных с помощью нейронных сетей» (PDF) . Наука . 313 (5786): 504–507. Бибкод : 2006Sci...313..504H. дои : 10.1126/science.1127647. PMID  16873662. S2CID  1658773. Архивировано из оригинала (PDF) 23 декабря 2015 г. Проверено 2 декабря 2015 г.
  4. ^ Ларошель, Х.; Бенджио, Ю. (2008). Классификация с использованием дискриминативных ограниченных машин Больцмана (PDF) . Материалы 25-й международной конференции по машинному обучению - ICML '08. п. 536. дои : 10.1145/1390156.1390224. ISBN 978-1-60558-205-4.
  5. ^ аб Салахутдинов Р.; Мних, А.; Хинтон, Г. (2007). Ограниченные машины Больцмана для совместной фильтрации . Материалы 24-й международной конференции по машинному обучению - ICML '07. п. 791. дои : 10.1145/1273496.1273596. ISBN 978-1-59593-793-3.
  6. ^ Коутс, Адам; Ли, Хонглак; Нг, Эндрю Ю. (2011). Анализ однослойных сетей при обучении функций без учителя (PDF) . Международная конференция по искусственному интеллекту и статистике (AISTATS). Архивировано из оригинала (PDF) 20 декабря 2014 г. Проверено 19 декабря 2014 г.
  7. ^ ab Руслан Салахутдинов и Джеффри Хинтон (2010). Реплицированный softmax: модель ненаправленной темы. Архивировано 25 мая 2012 г. на Wayback Machine . Нейронные системы обработки информации 23 .
  8. ^ Брави, Барбара; Ди Джоаккино, Андреа; Фернандес-де-Коссио-Диас, Хорхе; Вальчак, Александра М; Мора, Тьерри; Кокко, Симона; Монассон, Реми (8 сентября 2023 г.). Битбол, Анн-Флоренция; Эйзен, Майкл Б. (ред.). «Подход к переносу обучения для прогнозирования иммуногенности антигена и специфичности рецептора Т-клеток». электронная жизнь . 12 : е85126. дои : 10.7554/eLife.85126 . ISSN  2050-084X. ПМЦ 10522340 . ПМИД  37681658. 
  9. ^ Карлео, Джузеппе; Тройер, Матиас (10 февраля 2017 г.). «Решение квантовой задачи многих тел с помощью искусственных нейронных сетей». Наука . 355 (6325): 602–606. arXiv : 1606.02318 . Бибкод : 2017Sci...355..602C. doi : 10.1126/science.aag2302. ISSN  0036-8075. PMID  28183973. S2CID  206651104.
  10. ^ Мелько, Роджер Г.; Карлео, Джузеппе; Карраскилья, Хуан; Сирак, Дж. Игнасио (сентябрь 2019 г.). «Ограниченные машины Больцмана в квантовой физике». Физика природы . 15 (9): 887–892. Бибкод : 2019NatPh..15..887M. дои : 10.1038/s41567-019-0545-1. ISSN  1745-2481. S2CID  256704838.
  11. ^ аб Мигель А. Каррейра-Перпиньян и Джеффри Хинтон (2005). О контрастном дивергентном обучении. Искусственный интеллект и статистика .
  12. ^ Хинтон, Г. (2009). «Сети глубоких убеждений». Схоларпедия . 4 (5): 5947. Бибкод : 2009SchpJ...4.5947H. doi : 10.4249/scholarpedia.5947 .
  13. ^ abcd Джеффри Хинтон (2010). Практическое руководство по обучению ограниченных машин Больцмана . UTML TR 2010–003, Университет Торонто.
  14. ^ аб Суцкевер, Илья; Тилеман, Тиймен (2010). «О свойствах конвергенции контрастной дивергенции» (PDF) . Учеб. 13-я Международная конференция. Об искусственном интеллекте и статистике (AISTATS) . Архивировано из оригинала (PDF) 10 июня 2015 г.
  15. ^ ab Ася Фишер и Кристиан Игель. Машины Больцмана с ограниченным обучением: введение. Архивировано 10 июня 2015 г. на Wayback Machine . Распознавание образов 47, стр. 25–39, 2014 г.
  16. ^ Мария Анхелика Куэто; Джейсон Мортон; Бернд Штурмфельс (2010). «Геометрия ограниченной машины Больцмана». Алгебраические методы в статистике и теории вероятностей . 516 . Американское математическое общество. arXiv : 0908.4425 . Бибкод : 2009arXiv0908.4425A.
  17. ^ Джеффри Хинтон (1999). Продукция экспертов. ИКАНН, 1999 год .
  18. ^ Хинтон, GE (2002). «Продукты обучения экспертов путем минимизации контрастного расхождения» (PDF) . Нейронные вычисления . 14 (8): 1771–1800. дои : 10.1162/089976602760128018. PMID  12180402. S2CID  207596505.

Библиография

Внешние ссылки