stringtranslate.com

Машина Больцмана

Графическое изображение примера машины Больцмана.
Графическое изображение примера машины Больцмана. Каждое ненаправленное ребро представляет зависимость. В этом примере есть 3 скрытых и 4 видимых блока. Это не ограниченная машина Больцмана.

Машина Больцмана (также называемая моделью Шеррингтона-Киркпатрика с внешним полем или стохастической моделью Изинга-Ленца-Литтла ), названная в честь Людвига Больцмана , представляет собой стохастическую модель спинового стекла с внешним полем, т.е. модель Шеррингтона-Киркпатрика , [1] это стохастическая модель Изинга . Это метод статистической физики , применяемый в контексте когнитивной науки . [2] Его также классифицируют как марковское случайное поле . [3]

Машины Больцмана теоретически интригуют из-за локальности и хеббианской природы их алгоритма обучения (обучающихся по правилу Хебба), а также из-за их параллелизма и сходства их динамики с простыми физическими процессами . Машины Больцмана с неограниченной связностью не оказались полезными для решения практических задач машинного обучения или вывода , но если связность правильно ограничена, обучение можно сделать достаточно эффективным, чтобы его можно было использовать для решения практических задач. [4]

Они названы в честь распределения Больцмана в статистической механике , которое используется в их функции выборки . Они были широко популяризированы и продвинуты Джеффри Хинтоном , Терри Сейновски и Яном ЛеКуном в сообществах когнитивных наук, особенно в машинном обучении , [2] как часть « энергетических моделей » (EBM), поскольку в качестве энергии используются гамильтонианы спиновых стекол. в качестве отправной точки для определения задачи обучения. [5]

Состав

Графическое изображение примера машины Больцмана с весовыми метками.
Графическое изображение машины Больцмана с обозначением нескольких гирь. Каждое ненаправленное ребро представляет зависимость и имеет вес . В этом примере есть 3 скрытых объекта (синие) и 4 видимых объекта (белые). Это не ограниченная машина Больцмана.

Машина Больцмана, как и модель Шеррингтона-Киркпатрика , представляет собой сеть блоков с полной «энергией» ( гамильтонианом ), определенной для всей сети. Его единицы выдают двоичные результаты. Машинные веса Больцмана стохастические . Глобальная энергия в машине Больцмана по форме идентична энергии сетей Хопфилда и моделей Изинга :

Где:

Часто веса представляются в виде симметричной матрицы с нулями по диагонали.

Вероятность единичного состояния

Разница в глобальной энергии, возникающая в результате того, что одна единица равна 0 (выключено) и 1 (включено), записанная в предположении симметричной матрицы весов, определяется выражением:

Это можно выразить как разность энергий двух состояний:

Замена энергии каждого состояния его относительной вероятностью в соответствии с фактором Больцмана (свойство распределения Больцмана , заключающееся в том, что энергия состояния пропорциональна отрицательной логарифмической вероятности этого состояния) дает:

где — постоянная Больцмана , которая включена в искусственное представление о температуре . Затем мы переставляем члены и считаем, что вероятность включения и выключения устройства должна в сумме равняться единице:

Решая для , вероятность того, что -я единица включена, дает:

где скаляр называется температурой системы. Это соотношение является источником логистической функции , находящейся в вероятностных выражениях в вариантах машины Больцмана.

Равновесное состояние

Сеть работает путем многократного выбора устройства и сброса его состояния. После достаточно долгой работы при определенной температуре вероятность глобального состояния сети зависит только от энергии этого глобального состояния в соответствии с распределением Больцмана , а не от начального состояния, из которого был запущен процесс. Это означает, что логарифмические вероятности глобальных состояний становятся линейными по своим энергиям. Это соотношение верно, когда машина находится «в тепловом равновесии », а это означает, что распределение вероятностей глобальных состояний сходится. Запуск сети начинается с высокой температуры, ее температура постепенно снижается до достижения теплового равновесия при более низкой температуре. Затем оно может сходиться к распределению, в котором уровень энергии колеблется вокруг глобального минимума. Этот процесс называется имитацией отжига .

Чтобы обучить сеть так, чтобы вероятность ее сходимости к глобальному состоянию в соответствии с внешним распределением по этим состояниям, веса должны быть установлены так, чтобы глобальные состояния с наибольшей вероятностью получали наименьшую энергию. Это достигается путем обучения.

Обучение

Единицы в машине Больцмана разделены на «видимые» единицы V и «скрытые» единицы H. Видимые единицы — это те, которые получают информацию из «окружения», т. е. обучающий набор представляет собой набор двоичных векторов по множество V. Распределение по обучающему набору обозначается .

Распределение по глобальным состояниям сходится, когда машина Больцмана достигает теплового равновесия . Мы обозначаем это распределение после того, как мы маргинализируем его по скрытым единицам, как .

Наша цель — аппроксимировать «реальное» распределение, используя то, что производит машина. Сходство двух распределений измеряется расхождением Кульбака – Лейблера , :

где сумма ведется по всем возможным состояниям . является функцией весов, поскольку они определяют энергию состояния, а энергия определяет , как и обещает распределение Больцмана. Алгоритм градиентного спуска изменяет заданный вес путем вычитания частной производной по весу.

Тренировка на машине Больцмана включает в себя два чередующихся этапа. Одна из них — «положительная» фаза, когда состояния видимых единиц фиксируются к определенному вектору двоичного состояния, выбранному из обучающего набора (согласно ). Другая — это «негативная» фаза, когда сети разрешено работать свободно, т. е. состояние только входных узлов определяется внешними данными, а выходным узлам разрешено плавающее состояние. Градиент по отношению к заданному весу определяется уравнением: [2]

где:

Этот результат следует из того факта, что при тепловом равновесии вероятность любого глобального состояния , когда сеть работает автономно, определяется распределением Больцмана.

Это правило обучения биологически правдоподобно, поскольку единственная информация, необходимая для изменения весов, предоставляется «локальной» информацией. То есть соединению ( биологически синапсу ) не нужна информация ни о чем, кроме двух нейронов, которые оно соединяет. Это более биологически реалистично, чем информация, необходимая для соединения во многих других алгоритмах обучения нейронных сетей, таких как обратное распространение ошибки .

Обучение машины Больцмана не использует алгоритм EM , который широко используется в машинном обучении . Минимизация KL-дивергенции эквивалентна максимизации логарифмического правдоподобия данных. Таким образом, процедура обучения выполняет градиентное восхождение на основе логарифмического правдоподобия наблюдаемых данных. В этом отличие от алгоритма EM, где апостериорное распределение скрытых узлов должно быть рассчитано до максимизации ожидаемого значения полной вероятности данных во время M-шага.

Обучение смещений аналогично, но использует только активность одного узла:

Проблемы

Теоретически машина Больцмана представляет собой довольно общую вычислительную среду. Например, при обучении на фотографиях машина теоретически моделирует распространение фотографий и может использовать эту модель, например, для завершения частичной фотографии.

К сожалению, машины Больцмана сталкиваются с серьезной практической проблемой, а именно: кажется, что они перестают правильно обучаться, когда машина масштабируется до чего-то большего, чем тривиальный размер. [ нужна цитация ] Это связано с важными эффектами, а именно:

Типы

Ограниченная машина Больцмана

Графическое изображение примера ограниченной машины Больцмана
Графическое изображение ограниченной машины Больцмана. Четыре синих блока представляют собой скрытые блоки, а три красных блока представляют видимые состояния. В ограниченных машинах Больцмана имеются только связи (зависимости) между скрытыми и видимыми единицами и нет связей между однотипными единицами (нет ни скрытых-скрытых, ни видимых-видимых связей).

Хотя обучение в обычных машинах Больцмана непрактично, его можно сделать весьма эффективным в ограниченной машине Больцмана (RBM), которая не допускает внутриуровневых связей между скрытыми и видимыми модулями, т.е. нет связи между видимыми и видимыми и скрытыми со скрытыми модулями. . После обучения одного RBM деятельность его скрытых подразделений можно рассматривать как данные для обучения RBM более высокого уровня. Этот метод объединения RBM позволяет эффективно обучать множество слоев скрытых модулей и является одной из наиболее распространенных стратегий глубокого обучения . По мере добавления каждого нового слоя генеративная модель улучшается.

Расширение ограниченной машины Больцмана позволяет использовать вещественные данные, а не двоичные данные. [6]

Одним из примеров практического применения RBM является распознавание речи. [7]

Глубокая машина Больцмана

Глубокая машина Больцмана (DBM) — это тип двоичного попарного марковского случайного поля ( неориентированная вероятностная графическая модель ) с несколькими слоями скрытых случайных величин . Это сеть симметрично связанных стохастических двоичных единиц . Он состоит из набора видимых модулей и слоев скрытых модулей . Никакие соединения не связывают модули одного и того же уровня (например, RBM ). Для DBM вероятность, присвоенная вектору ν , равна

где – набор скрытых модулей, – параметры модели, представляющие видимо-скрытые и скрыто-скрытые взаимодействия. [8] В DBN только два верхних слоя образуют ограниченную машину Больцмана (которая представляет собой неориентированную графическую модель ), а нижние уровни образуют направленную генеративную модель. В DBM все слои симметричны и ненаправлены.

Как и DBN , DBM могут изучать сложные и абстрактные внутренние представления входных данных в таких задачах, как распознавание объектов или речи , используя ограниченные размеченные данные для точной настройки представлений, построенных с использованием большого набора немаркированных сенсорных входных данных. Однако, в отличие от DBN и глубоких сверточных нейронных сетей , они выполняют процедуру вывода и обучения в обоих направлениях, снизу вверх и сверху вниз, что позволяет DBM лучше раскрывать представления входных структур. [9] [10] [11]

Однако низкая скорость DBM ограничивает их производительность и функциональность. Поскольку точное обучение с максимальным правдоподобием невозможно для DBM, возможно только приблизительное обучение с максимальным правдоподобием. Другой вариант — использовать вывод среднего поля для оценки ожиданий, зависящих от данных, и аппроксимации ожидаемой достаточной статистики с помощью цепи Маркова Монте-Карло (MCMC). [8] Этот приблизительный вывод, который необходимо сделать для каждого тестового ввода, примерно в 25–50 раз медленнее, чем один проход «снизу вверх» в DBM. Это делает совместную оптимизацию непрактичной для больших наборов данных и ограничивает использование DBM для таких задач, как представление функций.

Мультимодальная глубинная машина Больцмана

Мультимодальные глубинные машины Больцмана успешно используются для классификации и поиска недостающих данных. Точность классификации мультимодальной глубокой машины Больцмана превосходит машины опорных векторов , скрытое распределение Дирихле и сеть глубоких убеждений , когда модели тестируются на данных как с модальностями изображения-текста, так и с одной модальностью. [ нужна цитата ] Мультимодальные глубокие машины Больцмана также способны предсказывать недостающие модальности с учетом наблюдаемых с достаточно хорошей точностью. [ нужна цитата ] Самостоятельное обучение создает более интересную и мощную модель мультимодальности. OpenAI разработала модели CLIP и DALL-E , которые произвели революцию в мультимодальности.

Мультимодальное глубокое обучение используется для скрининга рака – по крайней мере, одна разрабатываемая система объединяет такие разные типы данных. [12] [13]

RBM с шипами и плитами

Потребность в глубоком обучении с входными данными с действительными значениями , как в гауссовых RBM, привела к созданию RBM с шипами и плитами ( ss RBM ), который моделирует входные данные с непрерывными значениями и двоичными скрытыми переменными . [14] Подобно базовым RBM и их вариантам, RBM с шипами и плитами представляет собой двудольный граф , в то время как, как и RBM G , видимые единицы (входные данные) имеют действительные значения. Разница заключается в скрытом слое, где каждая скрытая единица имеет двоичную переменную пика и переменную плиты с действительным знаком. Шип — это дискретная вероятностная масса в нуле, а плита — это плотность в непрерывной области; [15] их смесь образует априорный . [16]

Расширение ss RBM , называемое μ-ss RBM, обеспечивает дополнительные возможности моделирования с использованием дополнительных членов в функции энергии . Один из этих терминов позволяет модели сформировать условное распределение пиковых переменных путем исключения переменных плиты с учетом наблюдения.

По математике

В более общей математической терминологии распределение Больцмана также известно как мера Гиббса . В статистике и машинном обучении это называется лог-линейной моделью . В глубоком обучении распределение Больцмана используется в распределении выборки стохастических нейронных сетей, таких как машина Больцмана.

История

Машина Больцмана основана на модели спинового стекла стохастической модели Изинга Шеррингтона-Киркпатрика . [17]

Оригинальный вклад в применение таких энергетических моделей в когнитивной науке появился в работах Хинтона и Сейновски. [18] [19]

В плодотворной публикации Джона Хопфилда физика соединилась со статистической механикой, в ней упоминаются спиновые стекла. [20]

Идея применения модели Изинга с отожженной выборкой Гиббса присутствует в проекте Дугласа Хофштадтера Copycat . [21] [22]

Подобные идеи (со сменой знака энергетической функции) встречаются в «Теории гармонии» Павла Смоленского .

Явная аналогия, проведенная со статистической механикой в ​​формулировке машины Больцмана, привела к использованию терминологии, заимствованной из физики (например, «энергия», а не «гармония»), которая стала стандартом в этой области. Широкому распространению этой терминологии, возможно, способствовал тот факт, что ее использование привело к заимствованию множества концепций и методов статистической механики. Различные предложения использовать для вывода моделируемый отжиг, очевидно, были независимыми.

Модели Изинга стали рассматриваться как частный случай марковских случайных полей , которые находят широкое применение в лингвистике , робототехнике , компьютерном зрении и искусственном интеллекте .

Смотрите также

.

Рекомендации

  1. ^ Шеррингтон, Дэвид; Киркпатрик, Скотт (1975), «Разрешимая модель спинового стекла», Physical Review Letters , 35 (35): 1792–1796, Бибкод : 1975PhRvL..35.1792S, doi : 10.1103/PhysRevLett.35.1792
  2. ^ abc Экли, Дэвид Х.; Хинтон, Джеффри Э.; Сейновский, Терренс Дж. (1985). «Алгоритм обучения для машин Больцмана» (PDF) . Когнитивная наука . 9 (1): 147–169. дои : 10.1207/s15516709cog0901_7 . Архивировано из оригинала (PDF) 18 июля 2011 года.
  3. ^ Хинтон, Джеффри Э. (24 мая 2007 г.). «Машина Больцмана». Схоларпедия . 2 (5): 1668. Бибкод : 2007SchpJ...2.1668H. doi : 10.4249/scholarpedia.1668 . ISSN  1941-6016.
  4. Осборн, Томас Р. (1 января 1990 г.). «Быстрое обучение машин Больцмана с локальным торможением». Международная конференция по нейронным сетям . Спрингер Нидерланды. стр. 785. doi : 10.1007/978-94-009-0643-3_76. ISBN 978-0-7923-0831-7.
  5. ^ Нейкамп, Э.; Хилл, Мэн; Хан, Т. (2020), «Об анатомии обучения энергетических моделей на основе максимального правдоподобия на основе MCMC», Труды конференции AAAI по искусственному интеллекту , 4 (34): 5272–5280, arXiv : 1903.12370 , doi : 10.1609/aaai.v34i04.5973
  6. ^ Последние разработки в области глубокого обучения, 22 марта 2010 г., заархивировано из оригинала 22 декабря 2021 г. , получено 17 февраля 2020 г.
  7. ^ Ю, Донг; Даль, Джордж; Асеро, Алекс; Дэн, Ли (2011). «Контекстно-зависимые предварительно обученные глубокие нейронные сети для распознавания речи с большим словарным запасом» (PDF) . Исследования Майкрософт . 20 .
  8. ^ Аб Хинтон, Джеффри; Салахутдинов, Руслан (2012). «Лучший способ предварительной подготовки глубоких машин Больцмана» (PDF) . Достижения в области нейронных технологий . 3 : 1–9. Архивировано из оригинала (PDF) 13 августа 2017 г. Проверено 18 августа 2017 г.
  9. ^ Хинтон, Джеффри; Салахутдинов, Руслан (2009). «Эффективное обучение глубоких машин Больцмана» (PDF) . Материалы Двенадцатой Международной конференции по искусственному интеллекту и статистике . Том. 3. С. 448–455. Архивировано из оригинала (PDF) 6 ноября 2015 г. Проверено 18 августа 2017 г.
  10. ^ Бенджио, Йошуа; ЛеКун, Янн (2007). «Масштабирование алгоритмов обучения в сторону ИИ» (PDF) . Университет Монреаля (препринт).
  11. ^ Ларошель, Хьюго; Салахутдинов, Руслан (2010). «Эффективное обучение глубоких машин Больцмана» (PDF) . Материалы тринадцатой Международной конференции по искусственному интеллекту и статистике . стр. 693–700. Архивировано из оригинала (PDF) 14 августа 2017 г. Проверено 18 августа 2017 г.
  12. ^ Куах, Катянна. «Гарвардские ученые создают мультимодальную систему искусственного интеллекта для прогнозирования рака». Регистр . Архивировано из оригинала 20 сентября 2022 года . Проверено 16 сентября 2022 г.
  13. ^ Чен, Ричард Дж.; Лу, Мин Ю.; Уильямсон, Дрю ФК; Чен, Тиффани Ю.; Липкова Яна; Нур, Захра; Шабан, Мухаммед; Шейди, Маха; Уильямс, Мане; Джу, Бумджин; Махмуд, Фейсал (8 августа 2022 г.). «Интегративный гистологически-геномный анализ панрака посредством мультимодального глубокого обучения». Раковая клетка . 40 (8): 865–878.e6. doi : 10.1016/j.ccell.2022.07.004 . ISSN  1535-6108. ПМЦ 10397370 . PMID  35944502. S2CID  251456162. 
    • Пресс-релиз обучающей больницы: «Новая технология искусственного интеллекта объединяет несколько типов данных для прогнозирования исходов рака». Бригам и женская больница черезmedicalxpress.com . Архивировано из оригинала 20 сентября 2022 года . Проверено 18 сентября 2022 г.
  14. ^ Курвиль, Аарон; Бергстра, Джеймс; Бенджио, Йошуа (2011). «Машина Больцмана с ограничением шипов и плит» (PDF) . JMLR: Материалы семинара и конференции . 15 : 233–241. Архивировано из оригинала (PDF) 4 марта 2016 г. Проверено 25 августа 2019 г.
  15. ^ Курвиль, Аарон; Бергстра, Джеймс; Бенджио, Йошуа (2011). «Неконтролируемые модели изображений с помощью RBM с шипами и плитами» (PDF) . Материалы 28-й Международной конференции по машинному обучению . Том. 10. С. 1–8. Архивировано из оригинала (PDF) 4 марта 2016 г. Проверено 25 августа 2019 г.
  16. ^ Митчелл, Т; Бошан, Дж (1988). «Выбор байесовской переменной в линейной регрессии». Журнал Американской статистической ассоциации . 83 (404): 1023–1032. дои : 10.1080/01621459.1988.10478694.
  17. ^ Шеррингтон, Дэвид; Киркпатрик, Скотт (29 декабря 1975 г.). «Разрешимая модель спинового стекла». Письма о физических отзывах . 35 (26): 1792–1796. Бибкод : 1975PhRvL..35.1792S. doi : 10.1103/physrevlett.35.1792. ISSN  0031-9007.
  18. ^ Хинтон, Джеффри; Сейновски, Терренс Дж. (май 1983 г.). Анализ совместных вычислений. 5-й ежегодный конгресс Общества когнитивных наук. Рочестер, Нью-Йорк . Проверено 17 февраля 2020 г.[ постоянная мертвая ссылка ]
  19. ^ Хинтон, Джеффри Э.; Сейновски, Терренс Дж. (июнь 1983 г.). Оптимальный перцептивный вывод . Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR). Вашингтон, округ Колумбия: Компьютерное общество IEEE. стр. 448–453.
  20. ^ Хопфилд, Джей-Джей (1982). «Нейронные сети и физические системы с возникающими коллективными вычислительными способностями». Труды Национальной академии наук Соединенных Штатов Америки . 79 (8). [сн]: 2554–8. Бибкод : 1982PNAS...79.2554H. дои : 10.1073/pnas.79.8.2554 . OCLC  848771572. PMC 346238 . ПМИД  6953413. 
  21. ^ Хофштадтер, ДР (январь 1984 г.). Проект Copycat: эксперимент в области недетерминизма и творческих аналогий . Центр оборонной технической информации. ОКЛК  227617764.
  22. ^ Хофштадтер, Дуглас Р. (1988). «Недетерминированный подход к аналогии с использованием модели ферромагнетизма Изинга». В Кайаниелло, Эдуардо Р. (ред.). Физика познавательных процессов . Тинек, Нью-Джерси: World Scientific. ISBN 9971-5-0255-0. ОСЛК  750950619.
  23. ^ Лиу, CY; Лин, С.-Л. (1989). «Другой вариант машины Больцмана». Международная совместная конференция по нейронным сетям . Вашингтон, округ Колумбия, США: IEEE. стр. 449–454. doi : 10.1109/IJCNN.1989.118618.

дальнейшее чтение

Внешние ссылки