Машина Больцмана (также называемая моделью Шеррингтона-Киркпатрика с внешним полем или стохастической моделью Изинга-Ленца-Литтла ), названная в честь Людвига Больцмана , представляет собой стохастическую модель спинового стекла с внешним полем, т.е. модель Шеррингтона-Киркпатрика , [1] это стохастическая модель Изинга . Это метод статистической физики , применяемый в контексте когнитивной науки . [2] Его также классифицируют как марковское случайное поле . [3]
Машины Больцмана теоретически интригуют из-за локальности и хеббианской природы их алгоритма обучения (обучающихся по правилу Хебба), а также из-за их параллелизма и сходства их динамики с простыми физическими процессами . Машины Больцмана с неограниченной связностью не оказались полезными для решения практических задач машинного обучения или вывода , но если связность правильно ограничена, обучение можно сделать достаточно эффективным, чтобы его можно было использовать для решения практических задач. [4]
Они названы в честь распределения Больцмана в статистической механике , которое используется в их функции выборки . Они были широко популяризированы и продвинуты Джеффри Хинтоном , Терри Сейновски и Яном ЛеКуном в сообществах когнитивных наук, особенно в машинном обучении , [2] как часть « энергетических моделей » (EBM), поскольку в качестве энергии используются гамильтонианы спиновых стекол. в качестве отправной точки для определения задачи обучения. [5]
Машина Больцмана, как и модель Шеррингтона-Киркпатрика , представляет собой сеть блоков с полной «энергией» ( гамильтонианом ), определенной для всей сети. Его единицы выдают двоичные результаты. Машинные веса Больцмана стохастические . Глобальная энергия в машине Больцмана по форме идентична энергии сетей Хопфилда и моделей Изинга :
Где:
Часто веса представляются в виде симметричной матрицы с нулями по диагонали.
Разница в глобальной энергии, возникающая в результате того, что одна единица равна 0 (выключено) и 1 (включено), записанная в предположении симметричной матрицы весов, определяется выражением:
Это можно выразить как разность энергий двух состояний:
Замена энергии каждого состояния его относительной вероятностью в соответствии с фактором Больцмана (свойство распределения Больцмана , заключающееся в том, что энергия состояния пропорциональна отрицательной логарифмической вероятности этого состояния) дает:
где — постоянная Больцмана , которая включена в искусственное представление о температуре . Затем мы переставляем члены и считаем, что вероятность включения и выключения устройства должна в сумме равняться единице:
Решая для , вероятность того, что -я единица включена, дает:
где скаляр называется температурой системы. Это соотношение является источником логистической функции , находящейся в вероятностных выражениях в вариантах машины Больцмана.
Сеть работает путем многократного выбора устройства и сброса его состояния. После достаточно долгой работы при определенной температуре вероятность глобального состояния сети зависит только от энергии этого глобального состояния в соответствии с распределением Больцмана , а не от начального состояния, из которого был запущен процесс. Это означает, что логарифмические вероятности глобальных состояний становятся линейными по своим энергиям. Это соотношение верно, когда машина находится «в тепловом равновесии », а это означает, что распределение вероятностей глобальных состояний сходится. Запуск сети начинается с высокой температуры, ее температура постепенно снижается до достижения теплового равновесия при более низкой температуре. Затем оно может сходиться к распределению, в котором уровень энергии колеблется вокруг глобального минимума. Этот процесс называется имитацией отжига .
Чтобы обучить сеть так, чтобы вероятность ее сходимости к глобальному состоянию в соответствии с внешним распределением по этим состояниям, веса должны быть установлены так, чтобы глобальные состояния с наибольшей вероятностью получали наименьшую энергию. Это достигается путем обучения.
Единицы в машине Больцмана разделены на «видимые» единицы V и «скрытые» единицы H. Видимые единицы — это те, которые получают информацию из «окружения», т. е. обучающий набор представляет собой набор двоичных векторов по множество V. Распределение по обучающему набору обозначается .
Распределение по глобальным состояниям сходится, когда машина Больцмана достигает теплового равновесия . Мы обозначаем это распределение после того, как мы маргинализируем его по скрытым единицам, как .
Наша цель — аппроксимировать «реальное» распределение, используя то, что производит машина. Сходство двух распределений измеряется расхождением Кульбака – Лейблера , :
где сумма ведется по всем возможным состояниям . является функцией весов, поскольку они определяют энергию состояния, а энергия определяет , как и обещает распределение Больцмана. Алгоритм градиентного спуска изменяет заданный вес путем вычитания частной производной по весу.
Тренировка на машине Больцмана включает в себя два чередующихся этапа. Одна из них — «положительная» фаза, когда состояния видимых единиц фиксируются к определенному вектору двоичного состояния, выбранному из обучающего набора (согласно ). Другая — это «негативная» фаза, когда сети разрешено работать свободно, т. е. состояние только входных узлов определяется внешними данными, а выходным узлам разрешено плавающее состояние. Градиент по отношению к заданному весу определяется уравнением: [2]
где:
Этот результат следует из того факта, что при тепловом равновесии вероятность любого глобального состояния , когда сеть работает автономно, определяется распределением Больцмана.
Это правило обучения биологически правдоподобно, поскольку единственная информация, необходимая для изменения весов, предоставляется «локальной» информацией. То есть соединению ( биологически синапсу ) не нужна информация ни о чем, кроме двух нейронов, которые оно соединяет. Это более биологически реалистично, чем информация, необходимая для соединения во многих других алгоритмах обучения нейронных сетей, таких как обратное распространение ошибки .
Обучение машины Больцмана не использует алгоритм EM , который широко используется в машинном обучении . Минимизация KL-дивергенции эквивалентна максимизации логарифмического правдоподобия данных. Таким образом, процедура обучения выполняет градиентное восхождение на основе логарифмического правдоподобия наблюдаемых данных. В этом отличие от алгоритма EM, где апостериорное распределение скрытых узлов должно быть рассчитано до максимизации ожидаемого значения полной вероятности данных во время M-шага.
Обучение смещений аналогично, но использует только активность одного узла:
Теоретически машина Больцмана представляет собой довольно общую вычислительную среду. Например, при обучении на фотографиях машина теоретически моделирует распространение фотографий и может использовать эту модель, например, для завершения частичной фотографии.
К сожалению, машины Больцмана сталкиваются с серьезной практической проблемой, а именно: кажется, что они перестают правильно обучаться, когда машина масштабируется до чего-то большего, чем тривиальный размер. [ нужна цитация ] Это связано с важными эффектами, а именно:
Хотя обучение в обычных машинах Больцмана непрактично, его можно сделать весьма эффективным в ограниченной машине Больцмана (RBM), которая не допускает внутриуровневых связей между скрытыми и видимыми модулями, т.е. нет связи между видимыми и видимыми и скрытыми со скрытыми модулями. . После обучения одного RBM деятельность его скрытых подразделений можно рассматривать как данные для обучения RBM более высокого уровня. Этот метод объединения RBM позволяет эффективно обучать множество слоев скрытых модулей и является одной из наиболее распространенных стратегий глубокого обучения . По мере добавления каждого нового слоя генеративная модель улучшается.
Расширение ограниченной машины Больцмана позволяет использовать вещественные данные, а не двоичные данные. [6]
Одним из примеров практического применения RBM является распознавание речи. [7]
Глубокая машина Больцмана (DBM) — это тип двоичного попарного марковского случайного поля ( неориентированная вероятностная графическая модель ) с несколькими слоями скрытых случайных величин . Это сеть симметрично связанных стохастических двоичных единиц . Он состоит из набора видимых модулей и слоев скрытых модулей . Никакие соединения не связывают модули одного и того же уровня (например, RBM ). Для DBM вероятность, присвоенная вектору ν , равна
где – набор скрытых модулей, – параметры модели, представляющие видимо-скрытые и скрыто-скрытые взаимодействия. [8] В DBN только два верхних слоя образуют ограниченную машину Больцмана (которая представляет собой неориентированную графическую модель ), а нижние уровни образуют направленную генеративную модель. В DBM все слои симметричны и ненаправлены.
Как и DBN , DBM могут изучать сложные и абстрактные внутренние представления входных данных в таких задачах, как распознавание объектов или речи , используя ограниченные размеченные данные для точной настройки представлений, построенных с использованием большого набора немаркированных сенсорных входных данных. Однако, в отличие от DBN и глубоких сверточных нейронных сетей , они выполняют процедуру вывода и обучения в обоих направлениях, снизу вверх и сверху вниз, что позволяет DBM лучше раскрывать представления входных структур. [9] [10] [11]
Однако низкая скорость DBM ограничивает их производительность и функциональность. Поскольку точное обучение с максимальным правдоподобием невозможно для DBM, возможно только приблизительное обучение с максимальным правдоподобием. Другой вариант — использовать вывод среднего поля для оценки ожиданий, зависящих от данных, и аппроксимации ожидаемой достаточной статистики с помощью цепи Маркова Монте-Карло (MCMC). [8] Этот приблизительный вывод, который необходимо сделать для каждого тестового ввода, примерно в 25–50 раз медленнее, чем один проход «снизу вверх» в DBM. Это делает совместную оптимизацию непрактичной для больших наборов данных и ограничивает использование DBM для таких задач, как представление функций.
Мультимодальные глубинные машины Больцмана успешно используются для классификации и поиска недостающих данных. Точность классификации мультимодальной глубокой машины Больцмана превосходит машины опорных векторов , скрытое распределение Дирихле и сеть глубоких убеждений , когда модели тестируются на данных как с модальностями изображения-текста, так и с одной модальностью. [ нужна цитата ] Мультимодальные глубокие машины Больцмана также способны предсказывать недостающие модальности с учетом наблюдаемых с достаточно хорошей точностью. [ нужна цитата ] Самостоятельное обучение создает более интересную и мощную модель мультимодальности. OpenAI разработала модели CLIP и DALL-E , которые произвели революцию в мультимодальности.
Мультимодальное глубокое обучение используется для скрининга рака – по крайней мере, одна разрабатываемая система объединяет такие разные типы данных. [12] [13]Потребность в глубоком обучении с входными данными с действительными значениями , как в гауссовых RBM, привела к созданию RBM с шипами и плитами ( ss RBM ), который моделирует входные данные с непрерывными значениями и двоичными скрытыми переменными . [14] Подобно базовым RBM и их вариантам, RBM с шипами и плитами представляет собой двудольный граф , в то время как, как и RBM G , видимые единицы (входные данные) имеют действительные значения. Разница заключается в скрытом слое, где каждая скрытая единица имеет двоичную переменную пика и переменную плиты с действительным знаком. Шип — это дискретная вероятностная масса в нуле, а плита — это плотность в непрерывной области; [15] их смесь образует априорный . [16]
Расширение ss RBM , называемое μ-ss RBM, обеспечивает дополнительные возможности моделирования с использованием дополнительных членов в функции энергии . Один из этих терминов позволяет модели сформировать условное распределение пиковых переменных путем исключения переменных плиты с учетом наблюдения.
В более общей математической терминологии распределение Больцмана также известно как мера Гиббса . В статистике и машинном обучении это называется лог-линейной моделью . В глубоком обучении распределение Больцмана используется в распределении выборки стохастических нейронных сетей, таких как машина Больцмана.
Машина Больцмана основана на модели спинового стекла стохастической модели Изинга Шеррингтона-Киркпатрика . [17]
Оригинальный вклад в применение таких энергетических моделей в когнитивной науке появился в работах Хинтона и Сейновски. [18] [19]
В плодотворной публикации Джона Хопфилда физика соединилась со статистической механикой, в ней упоминаются спиновые стекла. [20]
Идея применения модели Изинга с отожженной выборкой Гиббса присутствует в проекте Дугласа Хофштадтера Copycat . [21] [22]
Подобные идеи (со сменой знака энергетической функции) встречаются в «Теории гармонии» Павла Смоленского .
Явная аналогия, проведенная со статистической механикой в формулировке машины Больцмана, привела к использованию терминологии, заимствованной из физики (например, «энергия», а не «гармония»), которая стала стандартом в этой области. Широкому распространению этой терминологии, возможно, способствовал тот факт, что ее использование привело к заимствованию множества концепций и методов статистической механики. Различные предложения использовать для вывода моделируемый отжиг, очевидно, были независимыми.
Модели Изинга стали рассматриваться как частный случай марковских случайных полей , которые находят широкое применение в лингвистике , робототехнике , компьютерном зрении и искусственном интеллекте .