stringtranslate.com

Вариационные байесовские методы

Вариационные байесовские методы — это семейство методов аппроксимации трудноразрешимых интегралов , возникающих при байесовском выводе и машинном обучении . Они обычно используются в сложных статистических моделях , состоящих из наблюдаемых переменных (обычно называемых «данными»), а также неизвестных параметров и скрытых переменных , с различными видами отношений между тремя типами случайных величин , которые могут быть описаны графической моделью . Как это типично для байесовского вывода, параметры и скрытые переменные группируются вместе как «ненаблюдаемые переменные». Вариационные байесовские методы в основном используются для двух целей:

  1. Обеспечить аналитическую аппроксимацию апостериорной вероятности ненаблюдаемых переменных, чтобы сделать статистические выводы по этим переменным.
  2. Получить нижнюю границу предельного правдоподобия (иногда называемого доказательством ) наблюдаемых данных (т. е. предельной вероятности данных с учетом модели с маргинализацией, выполняемой по ненаблюдаемым переменным). Обычно это используется для выбора модели , общая идея заключается в том, что более высокая предельная вероятность для данной модели указывает на лучшее соответствие данных этой моделью и, следовательно, большую вероятность того, что рассматриваемая модель была той, которая сгенерировала данные. (См. также статью о байесовском факторе .)

В первой цели (аппроксимации апостериорной вероятности) вариационный Байес является альтернативой методам выборки Монте-Карло , в частности, методам Монте-Карло с цепью Маркова , таким как выборка Гиббса , для использования полностью байесовского подхода к статистическому выводу по сложным распределениям , которые трудно оценить напрямую или по образцу . В частности, в то время как методы Монте-Карло обеспечивают численную аппроксимацию точной апостериорной функции с использованием набора выборок, вариационный Байес обеспечивает локально оптимальное, точное аналитическое решение для аппроксимации апостериорной функции.

Вариационный Байес можно рассматривать как расширение алгоритма максимизации ожидания (EM) от максимальной апостериорной оценки (оценка MAP) единственного наиболее вероятного значения каждого параметра до полностью байесовской оценки, которая вычисляет (приблизительно) все апостериорное распределение. параметров и скрытых переменных. Как и в EM, он находит набор оптимальных значений параметров и имеет ту же переменную структуру, что и EM, основанную на наборе взаимосвязанных (взаимозависимых) уравнений, которые не могут быть решены аналитически.

Для многих приложений вариационный Байес дает решения, сравнимые по точности с выборкой Гиббса, но с большей скоростью. Однако получение набора уравнений, используемых для итеративного обновления параметров, часто требует большого объема работы по сравнению с получением сопоставимых уравнений выборки Гиббса. Это справедливо даже для многих моделей, которые концептуально довольно просты, как показано ниже в случае базовой неиерархической модели только с двумя параметрами и без скрытых переменных.

Математический вывод

Проблема

В вариационном выводе апостериорное распределение по набору ненаблюдаемых переменных с учетом некоторых данных аппроксимируется так называемым вариационным распределением .

Распределение ограничено принадлежностью к семейству распределений более простой формы, чем (например, семейству гауссовых распределений), выбранному с целью сделать его похожим на истинное апостериорное .

Сходство (или несходство) измеряется с помощью функции несходства, и, следовательно, вывод выполняется путем выбора распределения , которое минимизирует .

Дивергенция КЛ

Наиболее распространенный тип вариационного Байеса использует расхождение Кульбака – Лейблера (KL-дивергенцию) Q от P в качестве функции несходства. Этот выбор делает эту минимизацию осуществимой. KL-дивергенция определяется как

Обратите внимание, что Q и P перевернуты, чего можно было ожидать. Такое использование обратной КЛ-дивергенции концептуально похоже на алгоритм максимизации ожидания . (Другое использование KL-дивергенции приводит к алгоритму распространения ожиданий .)

несговорчивость

Вариационные методы обычно используются для формирования аппроксимации:

Маргинализация для вычисления знаменателя обычно неразрешима, потому что, например, пространство поиска комбинаторно велико. Поэтому мы ищем аппроксимацию, используя .

Нижняя граница доказательств

Учитывая , что KL-дивергенция, указанная выше, также может быть записана как

Поскольку – константа относительно и поскольку – распределение, мы имеем

которое согласно определению ожидаемого значения (для дискретной случайной величины ) можно записать следующим образом

который можно переставить так, чтобы он стал

Поскольку логарифмическое свидетельство фиксировано относительно , ​​максимизация конечного члена минимизирует отклонение KL от . При соответствующем выборе , становится возможным вычисление и максимизация. Следовательно, у нас есть как аналитическое приближение для апостериорного значения , так и нижняя оценка логарифмической очевидности (поскольку KL-дивергенция неотрицательна).

Нижняя граница известна как (отрицательная) вариационная свободная энергия по аналогии с термодинамической свободной энергией , поскольку ее также можно выразить как отрицательную энергию плюс энтропию . Этот термин также известен как нижняя граница доказательств , сокращенно ELBO , чтобы подчеркнуть, что это нижняя граница логарифмической достоверности данных.

Доказательства

С помощью обобщенной теоремы Пифагора о дивергенции Брегмана , частным случаем которой является KL-дивергенция, можно показать, что: [1] [2]

Обобщенная теорема Пифагора для расходимости Брегмана [2]

где – выпуклое множество и равенство имеет место, если:

В этом случае глобальный минимизатор с можно найти следующим образом: [1]

в котором нормировочная константа равна:

На практике этот термин часто называют нижней границей доказательства ( ELBO ), поскольку [1] , как показано выше.

Поменяв местами роли и мы можем итеративно вычислить аппроксимированные и истинные маргинальные значения модели и соответственно. Хотя эта итерационная схема гарантированно сходится монотонно, [1] сходящаяся схема является лишь локальным минимизатором .

Если ограниченное пространство ограничено независимым пространством, то есть приведенная выше итерационная схема станет так называемым приближением среднего поля, как показано ниже.

Приближение среднего поля

Обычно предполагается, что вариационное распределение факторизуется по некоторому разделу скрытых переменных, т.е. для некоторого разделения скрытых переменных на ,

С помощью вариационного исчисления (отсюда и название «вариационный Байес») можно показать , что «лучшее» распределение для каждого из факторов (с точки зрения распределения, минимизирующего КЛ-расхождение, как описано выше) удовлетворяет: [3]

где — математическое ожидание логарифма совместной вероятности данных и скрытых переменных, взятое по всем переменным, не входящим в разбиение: для вывода распределения см. лемму 4.1 из [4] .

На практике мы обычно работаем в терминах логарифмов, т.е.:

Константа в приведенном выше выражении связана с константой нормализации (знаменатель в приведенном выше выражении для ) и обычно восстанавливается при проверке, поскольку остальную часть выражения обычно можно распознать как распределение известного типа (например, гауссово , гамма-распределение) . , и т. д.).

Используя свойства ожиданий, выражение обычно можно упростить до функции фиксированных гиперпараметров предшествующих распределений скрытых переменных и ожиданий (а иногда и более высоких моментов , таких как дисперсия ) скрытых переменных, не входящих в текущий раздел (т. е. скрытые переменные, не включенные в ). Это создает круговые зависимости между параметрами распределений переменных в одном разделе и ожиданиями переменных в других разделах. Это, естественно, предполагает итерационный алгоритм, очень похожий на EM ( алгоритм максимизации ожидания ), в котором ожидания (и, возможно, более высокие моменты) скрытых переменных инициализируются каким-то образом (возможно, случайным образом), а затем параметры каждого распределения вычисляется, в свою очередь, с использованием текущих значений ожиданий, после чего ожидание вновь вычисленного распределения устанавливается соответствующим образом в соответствии с вычисленными параметрами. Алгоритм такого типа гарантированно сходится . [5]

Другими словами, для каждого из разбиений переменных, упростив выражение распределения по переменным разбиения и исследовав функциональную зависимость распределения от рассматриваемых переменных, обычно можно определить семейство распределения (что, в свою очередь, определяет значение константы). Формула для параметров распределения будет выражаться через гиперпараметры предыдущих распределений (которые являются известными константами), а также через ожидания функций переменных в других разделах. Обычно эти ожидания можно упростить до функций ожиданий самих переменных (т.е. средств ); иногда также появляются ожидания квадратов переменных (которые могут быть связаны с дисперсией переменных) или ожидания более высоких степеней (т.е. более высоких моментов ). В большинстве случаев распределения других переменных будут принадлежать к известным семействам, и можно найти формулы для соответствующих ожиданий. Однако эти формулы зависят от параметров этих распределений, которые, в свою очередь, зависят от ожиданий относительно других переменных. В результате формулы для параметров распределения каждой переменной могут быть выражены как серия уравнений со взаимными нелинейными зависимостями между переменными. Обычно решить эту систему уравнений напрямую не представляется возможным. Однако, как описано выше, зависимости предполагают простой итерационный алгоритм, который в большинстве случаев гарантированно сходится. Пример сделает этот процесс более понятным.

Формула двойственности для вариационного вывода

Наглядная иллюстрация алгоритма вариационного вывода координат по формуле двойственности [4]

Следующая теорема называется формулой двойственности для вариационного вывода. [4] Это объясняет некоторые важные свойства вариационных распределений, используемых в вариационных методах Байеса.

Теорема. Рассмотрим два вероятностных пространства и с . Предположим, что существует общая доминирующая вероятностная мера такая, что и . Пусть обозначает любую случайную величину с действительным знаком, на которой удовлетворяет . Тогда имеет место равенство

Далее, верхняя грань в правой части достигается тогда и только тогда, когда выполняется

почти наверняка по вероятностной мере , где и обозначают производные Радона-Никодима вероятностных мер и по соответствен- но.

Базовый пример

Рассмотрим простую неиерархическую байесовскую модель, состоящую из набора наблюдений iid из гауссовского распределения с неизвестными средним значением и дисперсией . [6] Ниже мы подробно рассмотрим эту модель, чтобы проиллюстрировать работу вариационного метода Байеса.

Для математического удобства в следующем примере мы работаем с точки зрения точности — то есть обратной величины дисперсии (или в многомерном гауссове, обратной ковариационной матрице ) — а не самой дисперсии. (С теоретической точки зрения точность и дисперсия эквивалентны, поскольку между ними существует взаимно однозначное соответствие .)

Математическая модель

Мы размещаем сопряженные априорные распределения на неизвестном среднем значении и точности , т.е. среднее значение также соответствует распределению Гаусса, а точность соответствует гамма-распределению . Другими словами:

Гиперпараметры и в предыдущих распределениях фиксированы и имеют заданные значения . Им можно задать небольшие положительные числа, чтобы получить широкие априорные распределения, указывающие на незнание априорных распределений и .

Нам даны точки данных , и наша цель — вывести апостериорное распределение параметров и

Совместная вероятность

Совместную вероятность всех переменных можно переписать как

где отдельные факторы

где

Факторизованное приближение

Предположим, что , т.е. что апостериорное распределение разлагается на независимые факторы для и . Этот тип предположения лежит в основе вариационного байесовского метода. Истинное апостериорное распределение на самом деле не учитывает этот фактор (на самом деле, в этом простом случае известно, что это гауссово-гамма-распределение ), и, следовательно, результат, который мы получим, будет аппроксимацией.

Вывод q ( µ )

Затем

В приведенном выше выводе и относятся к значениям, постоянным по отношению к . Обратите внимание, что этот термин не является функцией и будет иметь одно и то же значение независимо от значения . Следовательно, в строке 3 мы можем объединить его с постоянным членом в конце. То же самое делаем в строке 7.

Последняя строка представляет собой просто квадратичный многочлен от . Поскольку это логарифм , мы можем видеть, что это распределение является гауссовым .

С помощью определенного количества утомительных математических вычислений (расширение квадратов внутри фигурных скобок, выделение и группировка членов, включающих и завершающих квадрат над ), мы можем получить параметры распределения Гаусса:

Обратите внимание, что все вышеперечисленные шаги можно сократить, используя формулу суммы двух квадратичных дробей .

Другими словами:

Вывод q(τ)

Вывод аналогичен вышеизложенному, хотя для краткости мы опускаем некоторые детали.

Возведя обе стороны в степень, мы увидим, что это гамма-распределение . Конкретно:

Алгоритм расчета параметров

Подведем итоги предыдущих разделов:

и

В каждом случае параметры распределения по одной из переменных зависят от ожиданий, принятых по отношению к другой переменной. Мы можем расширить ожидания, используя стандартные формулы для математических ожиданий моментов гауссовского и гамма-распределений:

Применение этих формул к приведенным выше уравнениям в большинстве случаев тривиально, но уравнение для требует больше работы:

Затем мы можем записать уравнения параметров следующим образом, без каких-либо ожиданий:

Обратите внимание, что между формулами для и существуют циклические зависимости . Это, естественно, предполагает EM -подобный алгоритм:

  1. Вычислите и используйте эти значения для вычисления и
  2. Инициализируйте каким-либо произвольным значением.
  3. Используйте текущее значение вместе с известными значениями других параметров для вычисления .
  4. Используйте текущее значение вместе с известными значениями других параметров для вычисления .
  5. Повторяйте последние два шага до тех пор, пока не произойдет сходимость (т. е. пока ни одно из значений не изменится более чем на небольшую величину).

Затем у нас есть значения гиперпараметров аппроксимирующих распределений апостериорных параметров, которые мы можем использовать для вычисления любых желаемых свойств апостериорного показателя — например, его среднего значения и дисперсии, 95%-ной области с самой высокой плотностью (наименьший интервал, включающий 95 % от общей вероятности) и т. д.

Можно показать, что этот алгоритм гарантированно сходится к локальному максимуму.

Отметим также, что апостериорные распределения имеют ту же форму, что и соответствующие априорные распределения. Мы этого не предполагали; единственное предположение, которое мы сделали, заключалось в том, что распределения факторизуются, и форма распределений получается естественным образом. Оказывается (см. ниже), что тот факт, что апостериорные распределения имеют ту же форму, что и априорные распределения, является не совпадением, а общим результатом всякий раз, когда априорные распределения являются членами экспоненциального семейства , что имеет место для большинства стандартные дистрибутивы.

Дальнейшее обсуждение

Пошаговый рецепт

В приведенном выше примере показан метод, с помощью которого выводится вариационно-байесовская аппроксимация апостериорной плотности вероятности в данной байесовской сети :

  1. Опишите сеть с помощью графической модели , идентифицируя наблюдаемые переменные (данные) и ненаблюдаемые переменные ( параметры и скрытые переменные ) и их условные распределения вероятностей . Затем вариационный Байес построит аппроксимацию апостериорной вероятности . Основное свойство аппроксимации состоит в том, что это факторизованное распределение, т.е. произведение двух или более независимых распределений по непересекающимся подмножествам ненаблюдаемых переменных.
  2. Разделите ненаблюдаемые переменные на два или более подмножества, на основе которых будут получены независимые факторы. Для этого не существует универсальной процедуры; создание слишком большого количества подмножеств дает плохую аппроксимацию, а создание слишком малого количества делает всю вариационную процедуру Байеса неразрешимой. Обычно первое разделение заключается в разделении параметров и скрытых переменных; часто этого достаточно, чтобы получить приемлемый результат. Предположим, что разделы называются .
  3. Для данного разбиения запишите формулу наилучшего аппроксимирующего распределения, используя основное уравнение .
  4. Заполните формулу совместного распределения вероятностей , используя графическую модель. Любые условные распределения компонентов, которые не включают ни одну из переменных, можно игнорировать; они будут свернуты в постоянный член.
  5. Упростите формулу и примените оператор ожидания, следуя приведенному выше примеру. В идеале это должно упроститься до ожиданий основных функций переменных, которых нет в (например, первого или второго необработанных моментов , ожидания логарифма и т. д.). Чтобы вариационная процедура Байеса работала хорошо, эти ожидания обычно должны быть выражены аналитически как функции параметров и/или гиперпараметров распределений этих переменных. Во всех случаях эти математические ожидания являются константами по отношению к переменным в текущем разделе.
  6. Функциональная форма формулы относительно переменных текущего раздела указывает на тип распределения. В частности, возведение формулы в степень генерирует функцию плотности вероятности (PDF) распределения (или, по крайней мере, что-то пропорциональное ей с неизвестной константой нормализации ). Чтобы весь метод был управляемым, должна быть возможность распознать функциональную форму как принадлежащую известному распределению. Для преобразования формулы в форму, соответствующую PDF известного распределения, могут потребоваться значительные математические манипуляции. Когда это возможно, константа нормализации может быть восстановлена ​​по определению, а уравнения для параметров известного распределения могут быть получены путем извлечения соответствующих частей формулы.
  7. Когда все ожидания могут быть аналитически заменены функциями переменных, не входящих в текущее разбиение, а PDF-файл приведен в форму, позволяющую идентифицировать его с известным распределением, результатом является набор уравнений, выражающих значения оптимальных параметров как функции параметры переменных в других разделах.
  8. Когда эту процедуру можно применить ко всем разделам, результатом является набор взаимосвязанных уравнений, определяющих оптимальные значения всех параметров.
  9. Затем применяется процедура типа максимизации ожидания (EM), выбирающая начальное значение для каждого параметра и повторяющаяся серия шагов, где на каждом этапе мы циклически просматриваем уравнения, обновляя каждый параметр по очереди. Это гарантированно сходится.

Наиболее важные моменты

Из-за всех математических манипуляций легко потерять общую картину. Важные вещи:

  1. Идея вариационного Байеса состоит в том, чтобы построить аналитическую аппроксимацию апостериорной вероятности набора ненаблюдаемых переменных (параметров и скрытых переменных) по данным. Это означает, что форма решения аналогична другим методам байесовского вывода , таким как выборка Гиббса — то есть распределение, которое стремится описать все, что известно о переменных. Как и в других байесовских методах – но в отличие, например, от максимизации ожидания (EM) или других методов максимального правдоподобия – оба типа ненаблюдаемых переменных (т.е. параметры и скрытые переменные) обрабатываются одинаково, т.е. как случайные величины . Оценки переменных затем можно получить стандартными байесовскими способами, например, вычислив среднее значение распределения для получения одноточечной оценки или выведя достоверный интервал , область с наибольшей плотностью и т. д.
  2. «Аналитическая аппроксимация» означает, что можно записать формулу апостериорного распределения. Формула обычно состоит из произведения известных распределений вероятностей, каждое из которых факторизуется по набору ненаблюдаемых переменных (т.е. оно условно независимо от других переменных с учетом наблюдаемых данных). Эта формула не является истинным апостериорным распределением, а является его приближением; в частности, оно, как правило, довольно близко согласуется в самые низкие моменты ненаблюдаемых переменных, например среднего значения и дисперсии .
  3. Результатом всех математических манипуляций является (1) идентичность распределений вероятностей, составляющих факторы, и (2) взаимозависимые формулы для параметров этих распределений. Фактические значения этих параметров вычисляются численно с помощью поочередной итерационной процедуры, очень похожей на EM.

По сравнению с максимизацией ожидания (EM)

Вариационный Байес (ВБ) часто сравнивают с максимизацией ожидания (ЕМ). Реальная численная процедура очень похожа, поскольку обе представляют собой чередующиеся итерационные процедуры, которые последовательно сходятся к оптимальным значениям параметров. Начальные шаги по получению соответствующих процедур также отчасти схожи: оба начинаются с формул для плотностей вероятности и оба включают значительное количество математических манипуляций.

Однако существует ряд различий. Самое главное — то , что вычисляется.

Более сложный пример

Модель байесовской смеси Гаусса с использованием пластинчатых обозначений . Меньшие квадраты обозначают фиксированные параметры; большие кружки обозначают случайные величины. Заполненные фигуры обозначают известные значения. Индикация [K] означает вектор размера K ; [ D , D ] означает матрицу размера D × D ; Только K означает категориальную переменную с K результатами. Волнистая линия, идущая от z и заканчивающаяся перекладиной, указывает на переключатель — значение этой переменной выбирает для других входящих переменных, какое значение использовать из массива возможных значений size- K .

Представьте себе модель байесовской смеси Гаусса , описываемую следующим образом: [7]

Примечание:

Интерпретация вышеуказанных переменных следующая:

Совместную вероятность всех переменных можно переписать как

где отдельные факторы

где

Предположим, что .

Тогда [8]

где мы определили

Возведение в степень обеих частей формулы доходности

Требование, чтобы это было нормализовано, в конечном итоге требует, чтобы сумма была равна 1 по всем значениям , что дает

где

Другими словами, является продуктом полиномиальных распределений для одного наблюдения и факторов по каждому отдельному , который распределяется как полиномиальное распределение для одного наблюдения с параметрами для .

Кроме того, отметим, что

что является стандартным результатом для категориальных распределений.

Теперь, рассматривая фактор , обратите внимание, что он автоматически учитывается из -за структуры графической модели, определяющей нашу модель гауссовой смеси, которая указана выше.

Затем,

Взяв экспоненту от обеих частей, мы признаем распределение Дирихле

где

где

Окончательно

Группируя и считывая члены, включающие и , результатом является распределение Гаусса-Вишарта, определяемое формулой

учитывая определения

Наконец, обратите внимание, что этим функциям требуются значения , которые используют , который, в свою очередь, определяется на основе , и . Теперь, когда мы определили распределения, по которым берутся эти ожидания, мы можем вывести для них формулы:

Эти результаты приводят к

Их можно преобразовать из пропорциональных в абсолютные значения путем нормализации так, чтобы сумма соответствующих значений равнялась 1.

Обратите внимание, что:

  1. Уравнения обновления для параметров , , и переменных и зависят от статистики , , и , а эта статистика, в свою очередь, зависит от .
  2. Уравнения обновления параметров переменной зависят от статистики , которая, в свою очередь, зависит от .
  3. Уравнение обновления для имеет прямую круговую зависимость от , и , а также косвенную круговую зависимость от , и через и .

Это предполагает итеративную процедуру, которая чередует два этапа:

  1. E-шаг, который вычисляет значение, используя текущие значения всех других параметров.
  2. M-шаг, который использует новое значение для вычисления новых значений всех остальных параметров.

Обратите внимание, что эти шаги тесно связаны со стандартным алгоритмом EM для получения максимального правдоподобия или максимального апостериорного (MAP) решения для параметров модели гауссовой смеси . Обязанности на этапе E близко соответствуют апостериорным вероятностям скрытых переменных с учетом данных, т.е. вычисление статистики , и близко соответствует вычислению соответствующей статистики «мягкого подсчета» по данным; и использование этой статистики для вычисления новых значений параметров близко соответствует использованию мягких подсчетов для вычисления новых значений параметров в обычной ЭМ по модели гауссовой смеси.

Распределения экспоненциального семейства

Обратите внимание, что в предыдущем примере, когда предполагалось, что распределение по ненаблюдаемым переменным разлагается на распределения по «параметрам» и распределения по «скрытым данным», полученное «лучшее» распределение для каждой переменной находилось в том же семействе, что и соответствующее предварительное распределение по переменной. Это общий результат, который справедлив для всех предыдущих распределений, полученных из экспоненциального семейства .

Смотрите также

Рекомендации

  1. ^ abcd Tran, Вьет Хунг (2018). «Вариационный байесовский вывод копулы с помощью информационной геометрии». arXiv : 1803.10998 [cs.IT].
  2. ^ Аб Адамчик, Мартин (2014). «Информационная геометрия расхождений Брегмана и некоторые приложения в рассуждениях нескольких экспертов». Энтропия . 16 (12): 6338–6381. Бибкод : 2014Entrp..16.6338A. дои : 10.3390/e16126338 .
  3. Нгуен, Дуй (15 августа 2023 г.). «ГЛУБОКОЕ ВВЕДЕНИЕ В ВАРИАЦИОННОЕ ЗАМЕЧАНИЕ». ССНР  4541076 . Проверено 15 августа 2023 г.
  4. ^ abc Ли, Се Юн (2021). «Сэмплер Гиббса и вариационный вывод по координатному восхождению: теоретико-множественный обзор». Коммуникации в статистике - теория и методы . 51 (6): 1–21. arXiv : 2008.01006 . дои : 10.1080/03610926.2021.1921214. S2CID  220935477.
  5. ^ Бойд, Стивен П.; Ванденберге, Ливен (2004). Выпуклая оптимизация (PDF) . Издательство Кембриджского университета. ISBN 978-0-521-83378-3. Проверено 15 октября 2011 г.
  6. ^ Бишоп, Кристофер М. (2006). «Глава 10». Распознавание образов и машинное обучение . Спрингер. ISBN 978-0-387-31073-2.
  7. Нгуен, Дуй (15 августа 2023 г.). «ГЛУБОКОЕ ВВЕДЕНИЕ В ВАРИАЦИОННОЕ ЗАМЕЧАНИЕ». ССНР  4541076 . Проверено 15 августа 2023 г.
  8. Нгуен, Дуй (15 августа 2023 г.). «ГЛУБОКОЕ ВВЕДЕНИЕ В ВАРИАЦИОННОЕ ЗАМЕЧАНИЕ». ССНР  4541076 . Проверено 15 августа 2023 г.
  9. ^ Сотириос П. Чацис, «Бесконечные машины дискриминации с максимальной энтропией с марковским переключением», Proc. 30-я Международная конференция по машинному обучению (ICML). Журнал исследований машинного обучения: материалы семинаров и конференций, том. 28, нет. 3, стр. 729–737, июнь 2013 г.

Внешние ссылки