машина Больцмана

Графическое изображение примера машины Больцмана. — Графическое представление примера машины Больцмана. Каждое ненаправленное ребро представляет зависимость. В этом примере есть 3 скрытых и 4 видимых блока. Это не ограниченная машина Больцмана.

Машина Больцмана (также называемая моделью Шеррингтона–Киркпатрика с внешним полем или стохастической моделью Изинга ), названная в честь Людвига Больцмана, представляет собой модель спинового стекла с внешним полем, т. е. модель Шеррингтона–Киркпатрика , ^[1] которая является стохастической моделью Изинга . Это статистический физический метод, применяемый в контексте когнитивной науки . ^[2] Он также классифицируется как марковское случайное поле . ^[3]

Машины Больцмана теоретически интересны из-за локальности и хеббовской природы их обучающего алгоритма (обучаются по правилу Хебба), а также из-за их параллельности и сходства их динамики с простыми физическими процессами . Машины Больцмана с неограниченной связностью не доказали свою полезность для практических задач машинного обучения или вывода , но если связность должным образом ограничена, обучение можно сделать достаточно эффективным, чтобы быть полезным для практических задач. ^[4]

Они названы в честь распределения Больцмана в статистической механике , которое используется в их функции выборки . Они были широко популяризированы и продвигались Джеффри Хинтоном , Терри Сейновски и Яном Лекуном в сообществах когнитивных наук, особенно в машинном обучении , ^[2] как часть « энергетических моделей » (EBM), поскольку гамильтонианы спиновых стекол в качестве энергии используются в качестве отправной точки для определения задачи обучения. ^[5]

Структура

Графическое изображение примера машины Больцмана с метками веса. — Графическое представление машины Больцмана с несколькими помеченными весами. Каждое ненаправленное ребро представляет зависимость и взвешено весом . В этом примере есть 3 скрытых блока (синие) и 4 видимых блока (белые). Это не ограниченная машина Больцмана. $w_{ij}$

Машина Больцмана, как и модель Шеррингтона–Киркпатрика , представляет собой сеть единиц с общей «энергией» ( Гамильтонианом ), определенной для всей сети. Ее единицы производят бинарные результаты. Веса машины Больцмана являются стохастическими . Глобальная энергия в машине Больцмана идентична по форме энергии сетей Хопфилда и моделей Изинга : $E$

E=-\left(\sum _{i<j}w_{ij}\,s_{i}\,s_{j}+\sum _{i}\theta _{i}\,s_{i}\right)

Где:

$w_{ij}$ прочность связи между единицами . $j$ $я$
$s_{i}$ это состояние, , единицы . $s_{i}\in \{0,1\}$ $я$
$\theta _{i}$ — смещение единицы в глобальной энергетической функции. ( — порог активации для единицы.) $я$ $-\тета _{i}$

Часто веса представляются в виде симметричной матрицы с нулями по диагонали. $w_{ij}$ $W=[w_{ij}]$

Вероятность состояния единицы

Разница в глобальной энергии, возникающая из-за того, что одна единица равна 0 (выключено) по сравнению с 1 (включено), записанная в предположении симметричной матрицы весов, определяется по формуле: $я$ $\Delta E_{i}$

\Delta E_{i}=\sum _{j>i}w_{ij}\,s_{j}+\sum _{j<i}w_{ji}\,s_{j}+\theta _{i}

Это можно выразить как разность энергий двух состояний:

\Delta E_{i}=E_{\text{i=выкл}}-E_{\text{i=вкл}}

Подставляя вместо энергии каждого состояния его относительную вероятность в соответствии с фактором Больцмана (свойство распределения Больцмана , согласно которому энергия состояния пропорциональна отрицательному логарифму вероятности этого состояния), получаем:

\Delta E_{i}=-k_{B}T\ln(p_{\text{i=off}})-(-k_{B}T\ln(p_{\text{i=on}})),

где - постоянная Больцмана и поглощается искусственным понятием температуры . Отмечая, что вероятности включения или выключения единицы в сумме позволяют упростить: $k_{B}$ $Т$ $1$

-{\frac {\Delta E_{i}}{k_{B}T}}=-\ln(p_{i={\text{on}}})+\ln(p_{i={\text{off}}})=\ln {\Big (}{\frac {1-p_{i={\text{on}}}}{p_{i={\text{on}}}}}{\Big )}=\ln(p_{i={\text{on}}}^{-1}-1),

откуда вероятность того, что -я единица дается выражением $я$

p_{i={\text{on}}}={\frac {1}{1+\exp {\Big (}-{\frac {\Delta E_{i}}{k_{B}T}}{\Big )}}},

где скаляр называется температурой системы . Это соотношение является источником логистической функции, найденной в выражениях вероятности в вариантах машины Больцмана. $Т$

Состояние равновесия

Сеть работает, многократно выбирая единицу и сбрасывая ее состояние. После достаточно долгой работы при определенной температуре вероятность глобального состояния сети зависит только от энергии этого глобального состояния, согласно распределению Больцмана , а не от начального состояния, с которого был начат процесс. Это означает, что логарифмические вероятности глобальных состояний становятся линейными по своим энергиям. Это соотношение верно, когда машина находится «в тепловом равновесии », что означает, что распределение вероятностей глобальных состояний сошлось. При запуске сети, начиная с высокой температуры, ее температура постепенно понижается до достижения теплового равновесия при более низкой температуре. Затем она может сойтись к распределению, в котором уровень энергии колеблется вокруг глобального минимума. Этот процесс называется имитацией отжига .

Чтобы обучить сеть так, чтобы вероятность ее сходимости к глобальному состоянию соответствовала внешнему распределению по этим состояниям, веса должны быть установлены так, чтобы глобальные состояния с наивысшими вероятностями получали наименьшие энергии. Это делается путем обучения.

Обучение

Единицы в машине Больцмана делятся на «видимые» единицы, V, и «скрытые» единицы, H. Видимые единицы — это те, которые получают информацию из «окружающей среды», т. е. обучающий набор представляет собой набор двоичных векторов по набору V. Распределение по обучающему набору обозначается . $P^{+}(V)$

Распределение по глобальным состояниям сходится, когда машина Больцмана достигает теплового равновесия . Мы обозначаем это распределение, после того как мы маргинализируем его по скрытым единицам, как . $P^{-}(V)$

Наша цель — аппроксимировать «реальное» распределение, используя полученное машиной. Сходство двух распределений измеряется с помощью расхождения Кульбака–Лейблера : $P^{+}(V)$ $P^{-}(V)$ $G$

G=\sum _ {v}{P^{+}(v)\ln \left({\frac {P^{+}(v)}{P^{-}(v)}}\ верно)}

где сумма берется по всем возможным состояниям . является функцией весов, поскольку они определяют энергию состояния, а энергия определяет , как и обещано распределением Больцмана. Алгоритм градиентного спуска по изменяет заданный вес, , вычитая частную производную по весу. $V$ $G$ $P^{-}(v)$ $G$ $w_{ij}$ $G$

Обучение машины Больцмана включает две чередующиеся фазы. Одна из них — «положительная» фаза, где состояния видимых единиц фиксируются на определенном двоичном векторе состояний, выбранном из обучающего набора (согласно ). Другая — «отрицательная» фаза, где сети разрешено работать свободно, т. е. только входные узлы имеют свое состояние, определяемое внешними данными, но выходные узлы могут плавать. Градиент относительно заданного веса, , задается уравнением: ^[2] $P^{+}$ $w_{ij}$

{\frac {\partial {G}}{\partial {w_{ij}}}}=- {\frac {1}{R}}[p_{ij}^{+}-p_{ij} ^{-}]

где:

$p_{ij}^{+}$ вероятность того, что оба блока i и j включены, когда машина находится в равновесии в положительной фазе.
$p_{ij}^{-}$ вероятность того, что оба блока i и j включены, когда машина находится в равновесии в отрицательной фазе.
$R$ обозначает скорость обучения

Этот результат следует из того факта, что при тепловом равновесии вероятность любого глобального состояния , когда сеть работает автономно, определяется распределением Больцмана. $P^{-}(с)$ $с$

Это правило обучения биологически правдоподобно, поскольку единственная информация, необходимая для изменения весов, предоставляется «локальной» информацией. То есть, соединение ( биологически синапс ) не нуждается в информации ни о чем, кроме двух нейронов, которые оно соединяет. Это более биологически реалистично, чем информация, необходимая соединению во многих других алгоритмах обучения нейронных сетей, таких как обратное распространение .

Обучение машины Больцмана не использует алгоритм EM , который широко используется в машинном обучении . Минимизируя KL-расхождение , это эквивалентно максимизации логарифмического правдоподобия данных. Таким образом, процедура обучения выполняет градиентный подъем по логарифмическому правдоподобию наблюдаемых данных. Это отличается от алгоритма EM, где апостериорное распределение скрытых узлов должно быть рассчитано до максимизации ожидаемого значения полного правдоподобия данных во время M-шага.

Обучение смещений происходит аналогично, но использует только активность одного узла:

{\frac {\partial {G}}{\partial {\theta _{i}}}}=-{\frac {1}{R}}[p_{i}^{+}-p_{i}^{-}]

Проблемы

Теоретически машина Больцмана является довольно общей вычислительной средой. Например, если ее обучить на фотографиях, машина теоретически смоделирует распределение фотографий и сможет использовать эту модель, например, для завершения частичной фотографии.

К сожалению, машины Больцмана сталкиваются с серьезной практической проблемой, а именно, что они, по-видимому, перестают правильно обучаться, когда масштаб машины увеличивается до чего-либо большего, чем тривиальный размер. ^{[ необходима цитата ]} Это связано с важными эффектами, а именно:

требуемый порядок времени для сбора равновесной статистики растет экспоненциально с размером машины и с величиной силы связи ^{[ необходима цитата ]}
Силы связей более пластичны, когда связанные единицы имеют вероятности активации, промежуточные между нулем и единицей, что приводит к так называемой дисперсионной ловушке. Чистый эффект заключается в том, что шум заставляет силы связей следовать случайному блужданию, пока активность не насытится.

Типы

Ограниченная машина Больцмана

Хотя обучение непрактично в обычных машинах Больцмана, его можно сделать достаточно эффективным в ограниченной машине Больцмана (RBM), которая не допускает внутрислойных связей между скрытыми и видимыми единицами, т. е. нет связи между видимыми и видимыми и скрытыми и скрытыми единицами. После обучения одной RBM действия ее скрытых единиц можно рассматривать как данные для обучения RBM более высокого уровня. Этот метод наложения RBM позволяет эффективно обучать много слоев скрытых единиц и является одной из наиболее распространенных стратегий глубокого обучения . По мере добавления каждого нового слоя генеративная модель улучшается.

Расширение ограниченной машины Больцмана позволяет использовать действительные данные вместо двоичных данных. ^[6]

Одним из примеров практического применения RBM является распознавание речи. ^[7]

Глубокая машина Больцмана

Глубокая машина Больцмана (DBM) — это тип бинарного попарного марковского случайного поля ( ненаправленная вероятностная графическая модель ) с несколькими слоями скрытых случайных величин . Это сеть симметрично связанных стохастических бинарных единиц . Она включает в себя набор видимых единиц и слоев скрытых единиц . Никакие соединения не связывают единицы одного и того же слоя (как RBM ). Для DBM вероятность, назначенная вектору $ν,$ равна ${\boldsymbol {\nu }}\in \{0,1\}^{D}$ ${\boldsymbol {h}}^{(1)}\in \{0,1\}^{F_{1}},{\boldsymbol {h}}^{(2)}\in \{0,1\}^{F_{2}},\ldots ,{\boldsymbol {h}}^{(L)}\in \{0,1\}^{F_{L}}$

p({\boldsymbol {\nu }})={\frac {1}{Z}}\sum _{h}e^{\sum _{ij}W_{ij}^{(1)}\nu _{i}h_{j}^{(1)}+\sum _{jl}W_{jl}^{(2)}h_{j}^{(1)}h_{l}^{(2)}+\sum _{lm}W_{lm}^{(3)}h_{l}^{(2)}h_{m}^{(3)}},

где — набор скрытых единиц, а — параметры модели, представляющие взаимодействия «видимо-скрыто» и «скрыто-скрыто». ^[8] В DBN только два верхних слоя образуют ограниченную машину Больцмана (которая является ненаправленной графической моделью ), тогда как нижние слои образуют направленную генеративную модель. В DBM все слои симметричны и ненаправлены. ${\boldsymbol {h}}=\{{\boldsymbol {h}}^{(1)},{\boldsymbol {h}}^{(2)},{\boldsymbol {h}}^{(3)}\}$ $\theta =\{{\boldsymbol {W}}^{(1)},{\boldsymbol {W}}^{(2)},{\boldsymbol {W}}^{(3)}\}$

Подобно DBN , DBM могут изучать сложные и абстрактные внутренние представления входных данных в таких задачах, как распознавание объектов или речи , используя ограниченные, маркированные данные для точной настройки представлений, построенных с использованием большого набора немаркированных сенсорных входных данных. Однако, в отличие от DBN и глубоких сверточных нейронных сетей , они выполняют процедуру вывода и обучения в обоих направлениях, снизу вверх и сверху вниз, что позволяет DBM лучше раскрывать представления входных структур. ^[9]^[10]^[11]

Однако медленная скорость DBM ограничивает их производительность и функциональность. Поскольку точное обучение по методу максимального правдоподобия не поддается обработке для DBM, возможно только приблизительное обучение по методу максимального правдоподобия. Другой вариант — использовать вывод среднего поля для оценки ожиданий, зависящих от данных, и аппроксимировать ожидаемую достаточную статистику с помощью метода Монте-Карло с цепями Маркова (MCMC). ^[8] Этот приблизительный вывод, который должен быть сделан для каждого тестового входа, примерно в 25–50 раз медленнее, чем одиночный проход снизу вверх в DBM. Это делает совместную оптимизацию непрактичной для больших наборов данных и ограничивает использование DBM для таких задач, как представление признаков.

RBM с шипами и плитами

Необходимость глубокого обучения с вещественными входными данными, как в гауссовых RBM, привела к RBM с шипами и плитами ( ss RBM ), которая моделирует непрерывно-значные входные данные с бинарными скрытыми переменными . ^[12] Подобно базовым RBM и их вариантам, RBM с шипами и плитами представляет собой двудольный граф , в то время как, как и в G RBM , видимые единицы (входные данные) являются вещественными. Разница заключается в скрытом слое, где каждая скрытая единица имеет двоичную переменную спайка и вещественную переменную плиты. Шип представляет собой дискретную вероятностную массу в нуле, в то время как плита представляет собой плотность в непрерывной области; ^[13] их смесь образует априорное значение . ^[14]

Расширение ss RBM, называемое μ-ss RBM, обеспечивает дополнительную моделирующую способность с использованием дополнительных членов в энергетической функции . Один из этих членов позволяет модели формировать условное распределение переменных спайка путем маргинализации переменных слэба с учетом наблюдения.

В математике

В более общей математической обстановке распределение Больцмана также известно как мера Гиббса . В статистике и машинном обучении оно называется логлинейной моделью . В глубоком обучении распределение Больцмана используется в выборочном распределении стохастических нейронных сетей, таких как машина Больцмана.

История

Машина Больцмана основана на модели спинового стекла Шеррингтона–Киркпатрика Дэвида Шеррингтона и Скотта Киркпатрика . ^[15] В основополагающей публикации Джона Хопфилда (1982) были применены методы статистической механики, в основном недавно разработанная (1970-е годы) теория спиновых стекол, для изучения ассоциативной памяти (позже названной «сетью Хопфилда»). ^[16]

Первоначальный вклад в применение таких энергетических моделей в когнитивной науке был представлен в работах Джеффри Хинтона и Терри Сейновски . ^[17]^[18]^[19] В интервью 1995 года Хинтон заявил, что в феврале или марте 1983 года он собирался сделать доклад о моделировании отжига в сетях Хопфилда, поэтому ему пришлось разработать алгоритм обучения для доклада, что привело к появлению алгоритма машинного обучения Больцмана. ^[20]

Идея применения модели Изинга с отожженной выборкой Гиббса была использована в проекте Copycat Дугласа Хофштадтера (1984). ^[21]^[22]

Явная аналогия, проведенная со статистической механикой в формулировке машины Больцмана, привела к использованию терминологии, заимствованной из физики (например, «энергия»), которая стала стандартной в этой области. Широкое принятие этой терминологии, возможно, было обусловлено тем фактом, что ее использование привело к принятию различных концепций и методов из статистической механики. Различные предложения использовать имитацию отжига для вывода были, по-видимому, независимыми.

Похожие идеи (с изменением знака в энергетической функции) встречаются в «Теории гармонии» Пола Смоленского . ^[23] Модели Изинга можно обобщить до марковских случайных полей , которые находят широкое применение в лингвистике , робототехнике , компьютерном зрении и искусственном интеллекте .

В 2024 году Хопфилд и Хинтон были удостоены Нобелевской премии по физике за их основополагающий вклад в машинное обучение , в частности, за машину Больцмана. ^[24]

Смотрите также

Ссылки

^ Шеррингтон, Дэвид; Киркпатрик, Скотт (1975), «Решаемая модель спинового стекла», Physical Review Letters , 35 (35): 1792–1796, Bibcode : 1975PhRvL..35.1792S, doi : 10.1103/PhysRevLett.35.1792
^ abc Ackley, David H.; Hinton, Geoffrey E.; Sejnowski, Terrence J. (1985). "A Learning Algorithm for Boltzmann Machines" (PDF) . Cognitive Science . 9 (1): 147–169. doi : 10.1207/s15516709cog0901_7 . Архивировано из оригинала (PDF) 18 июля 2011 г.
^ Хинтон, Джеффри Э. (2007-05-24). "Машина Больцмана". Scholarpedia . 2 (5): 1668. Bibcode : 2007SchpJ...2.1668H. doi : 10.4249/scholarpedia.1668 . ISSN 1941-6016.
^ Osborn, Thomas R. (1 января 1990 г.). "Быстрое обучение машин Больцмана с локальным торможением". Международная конференция по нейронным сетям . Springer Netherlands. стр. 785. doi :10.1007/978-94-009-0643-3_76. ISBN 978-0-7923-0831-7.
^ Nijkamp, E.; Hill, M. E; Han, T. (2020), «Об анатомии обучения по методу максимального правдоподобия на основе MCMC для моделей на основе энергии», Труды конференции AAAI по искусственному интеллекту , 4 (34): 5272–5280, arXiv : 1903.12370 , doi : 10.1609/aaai.v34i04.5973
↑ Последние разработки в области глубокого обучения, 22 марта 2010 г., архивировано из оригинала 22.12.2021 г. , извлечено 17.02.2020 г.
^ Ю, Донг; Даль, Джордж; Асеро, Алекс; Дэн, Ли (2011). «Предварительно обученные глубокие нейронные сети, зависящие от контекста, для распознавания речи с большим словарным запасом» (PDF) . Microsoft Research . 20 .
^ ab Hinton, Geoffrey; Salakhutdinov, Ruslan (2012). "Лучший способ предварительной подготовки глубоких машин Больцмана" (PDF) . Advances in Neural . 3 : 1–9. Архивировано из оригинала (PDF) 2017-08-13 . Получено 2017-08-18 .
^ Хинтон, Джеффри; Салахутдинов, Руслан (2009). "Эффективное обучение глубоких машин Больцмана" (PDF) . Труды Двенадцатой международной конференции по искусственному интеллекту и статистике . Том 3. стр. 448–455. Архивировано из оригинала (PDF) 2015-11-06 . Получено 2017-08-18 .
^ Бенджио, Йошуа; ЛеКун, Янн (2007). «Масштабирование алгоритмов обучения в сторону ИИ» (PDF) . Университет Монреаля (препринт).
^ Ларошель, Хьюго; Салахутдинов, Руслан (2010). "Эффективное обучение глубоких машин Больцмана" (PDF) . Труды Тринадцатой международной конференции по искусственному интеллекту и статистике . стр. 693–700. Архивировано из оригинала (PDF) 2017-08-14 . Получено 2017-08-18 .
^ Курвиль, Аарон; Бергстра, Джеймс; Бенджио, Йошуа (2011). «Машина Больцмана с ограничением в виде шипа и плиты» (PDF) . JMLR: Труды семинара и конференции . 15 : 233–241. Архивировано из оригинала (PDF) 2016-03-04 . Получено 2019-08-25 .
^ Курвиль, Аарон; Бергстра, Джеймс; Бенджио, Йошуа (2011). "Unsupervised Models of Images by Spike-and-Slab RBMs" (PDF) . Труды 28-й Международной конференции по машинному обучению . Том 10. стр. 1–8. Архивировано из оригинала (PDF) 2016-03-04 . Получено 2019-08-25 .
^ Митчелл, Т.; Бошамп, Дж. (1988). «Байесовский выбор переменной в линейной регрессии». Журнал Американской статистической ассоциации . 83 (404): 1023–1032. doi :10.1080/01621459.1988.10478694.
^ Шеррингтон, Дэвид; Киркпатрик, Скотт (1975-12-29). «Решаемая модель спинового стекла». Physical Review Letters . 35 (26): 1792–1796. Bibcode : 1975PhRvL..35.1792S. doi : 10.1103/physrevlett.35.1792. ISSN 0031-9007.
^ Хопфилд, Дж. Дж. (1982). «Нейронные сети и физические системы с возникающими коллективными вычислительными способностями». Труды Национальной академии наук Соединенных Штатов Америки . 79 (8). [sn]: 2554–8. Bibcode : 1982PNAS...79.2554H. doi : 10.1073/pnas.79.8.2554 . OCLC 848771572. PMC 346238. PMID 6953413.
^ Хинтон, Джеффри; Сейновски, Терренс Дж. (май 1983 г.). Анализ кооперативных вычислений. 5-й ежегодный конгресс Общества когнитивной науки. Рочестер, Нью-Йорк . Получено 17 февраля 2020 г.^{[ постоянная мертвая ссылка ]}
^ Хинтон, Джеффри Э.; Сейновски, Терренс Дж. (июнь 1983 г.). Оптимальный перцептивный вывод . Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR). Вашингтон, округ Колумбия: IEEE Computer Society. стр. 448–453.
^ Fahlman SE, Hinton GE, Sejnowski TJ. Массово-параллельные архитектуры для искусственного интеллекта: NETL, Thistle и машины Больцмана. В: Genesereth MR, редактор. AAAI-83. Вашингтон, округ Колумбия: AAAI; 1983. стр. 109–113
↑ Глава 16. Rosenfeld, Edward, and James A. Anderson, eds. 2000. Talking Nets: An Oral History of Neural Networks . Переиздание. The MIT Press.
^ Хофштадтер, DR (январь 1984). Проект Copycat: эксперимент в недетерминизме и творческих аналогиях . Центр технической информации Министерства обороны. OCLC 227617764.
^ Хофштадтер, Дуглас Р. (1988). «Недетерминированный подход к аналогии, включающий модель Изинга ферромагнетизма». В Caianiello, Eduardo R. (ред.). Физика когнитивных процессов . Teaneck, Нью-Джерси: World Scientific. ISBN 9971-5-0255-0. OCLC 750950619.
^ Смоленский, Пол. «Обработка информации в динамических системах: Основы теории гармонии». (1986): 194-281.
^ Джонстон, Хэмиш (2024-10-08). "Джон Хопфилд и Джеффри Хинтон разделят Нобелевскую премию по физике 2024 года". Physics World . Получено 2024-10-18 .

Дальнейшее чтение

Hinton, GE ; Sejnowski, TJ (1986). DE Rumelhart; JL McClelland (ред.). "Обучение и переобучение в машинах Больцмана" (PDF) . Параллельная распределенная обработка: исследования микроструктуры познания. Том 1: Основы : 282–317. Архивировано из оригинала (PDF) 2010-07-05.
Хинтон, GE (2002). «Продукты обучения экспертов путем минимизации контрастивного расхождения» (PDF) . Нейронные вычисления . 14 (8): 1771–1800. CiteSeerX 10.1.1.35.8613 . doi :10.1162/089976602760128018. PMID 12180402. S2CID 207596505.
Hinton, GE ; Osindero, S.; Teh, Y. (2006). "Быстрый алгоритм обучения для сетей с глубокими убеждениями" (PDF) . Neural Computation . 18 (7): 1527–1554. CiteSeerX 10.1.1.76.1541 . doi :10.1162/neco.2006.18.7.1527. PMID 16764513. S2CID 2309950.
Котари П. (2020): https://www.forbes.com/sites/tomtaulli/2020/02/02/coronavirus-can-ai-artificial-intelligence-make-a-difference/?sh=1eca51e55817
Монтуфар, Гвидо (2018). «Ограниченные машины Больцмана: Введение и обзор» (PDF) . MPI MiS (Препринт) . Получено 1 августа 2023 г. .

Внешние ссылки

Статья Хинтона в Scholarpedia о машинах Больцмана
Выступление Джеффри Хинтона в Google