Генеративная модель

В статистической классификации два основных подхода называются генеративным подходом и дискриминативным подходом. Эти классификаторы вычисляют разными подходами, отличающимися степенью статистического моделирования . Терминология противоречива, ^[a] но, согласно Джебаре (2004), можно выделить три основных типа:

Генеративная модель — это статистическая модель совместного распределения вероятностей для заданной наблюдаемой переменной X и целевой переменной Y ; ^[1] ${\ displaystyle P (X, Y)}$
Дискриминативная модель — это модель условной вероятности цели Y при условии наблюдения x ; и $P(Y\mid X=x)$
Классификаторы, рассчитанные без использования вероятностной модели, также называются «дискриминативными».

Различие между этими двумя последними классами проводится не всегда; ^[2] Джебара (2004) называет эти три класса генеративным обучением , условным обучением и различительным обучением , но Нг и Джордан (2002) различают только два класса, называя их генеративными классификаторами (совместное распределение) и дискриминативными классификаторами (условное распределение или нет распределения), не делая различия между двумя последними классами. ^[3] Аналогично, классификатор, основанный на генеративной модели, является генеративным классификатором , а классификатор, основанный на дискриминационной модели, является дискриминативным классификатором , хотя этот термин также относится к классификаторам, которые не основаны на модели.

Стандартные примеры каждого из них, все из которых являются линейными классификаторами :

генеративные классификаторы:
- наивный классификатор Байеса и
- линейный дискриминантный анализ
дискриминационная модель:
- логистическая регрессия

Применительно к классификации требуется перейти от наблюдения x к метке y (или распределению вероятностей по меткам). Это можно вычислить напрямую, без использования распределения вероятностей ( классификатор без распределения ); можно оценить вероятность присвоения ярлыка данному наблюдению ( дискриминативная модель ) и основывать на этом классификацию; или можно оценить совместное распределение ( генеративная модель ), на основе этого вычислить условную вероятность , а затем основать на этом классификацию. Они становятся все более косвенными, но все более вероятностными, что позволяет применять больше предметных знаний и теории вероятностей. На практике используются разные подходы, в зависимости от конкретной проблемы, а гибриды могут сочетать в себе сильные стороны нескольких подходов. $P(Y|X=x)$ ${\ displaystyle P (X, Y)}$ $P(Y|X=x)$

Определение

Альтернативное разделение определяет их симметрично как:

генеративная модель — это модель условной вероятности наблюдаемой X при заданной цели y , символически, ^[4] $P(X\mid Y=y)$
дискриминативная модель — это модель условной вероятности цели Y при условии наблюдения x , символически, ^[5] $P(Y\mid X=x)$

Независимо от точного определения, терминология является конституционной, поскольку генеративная модель может использоваться для «генерации» случайных экземпляров ( результатов ) либо наблюдения и цели , либо наблюдения x с заданным целевым значением y , ^[4] в то время как дискриминационная модель модель или дискриминативный классификатор (без модели) могут использоваться для «различения» значения целевой переменной Y с учетом наблюдения x . ^[5] Разница между «различать» (различать) и «классифицировать» тонкая, и они не различаются последовательно. (Термин «дискриминационный классификатор» становится плеоназмом , когда «дискриминация» эквивалентна «классификации».) $(x,y)$

Термин «генеративная модель» также используется для описания моделей, которые генерируют экземпляры выходных переменных таким образом, который не имеет четкой связи с распределениями вероятностей по потенциальным выборкам входных переменных. Генеративно-состязательные сети являются примерами этого класса генеративных моделей и оцениваются в первую очередь по сходству конкретных результатов с потенциальными входами. Такие модели не являются классификаторами.

Отношения между моделями

Применительно к классификации наблюдаемая X часто является непрерывной переменной , целевая Y обычно представляет собой дискретную переменную, состоящую из конечного набора меток, а условную вероятность также можно интерпретировать как (недетерминированную) целевую функцию , учитывая X в качестве входов и Y в качестве выходов. $P(Y\mid X)$ ${\ displaystyle f \ двоеточие от X \ до Y}$

Учитывая конечный набор меток, два определения «генеративной модели» тесно связаны. Модель условного распределения — это модель распределения каждой метки, а модель совместного распределения эквивалентна модели распределения значений метки вместе с распределением наблюдений по метке ; символически. Таким образом, хотя модель совместного распределения вероятностей более информативна, чем модель распределения меток (но без их относительных частот), это относительно небольшой шаг, поэтому они не всегда различаются. $P(X\mid Y=y)$ ${\ displaystyle P (Y)}$ $P(X\mid Y)$ $P(X,Y)=P(X\mid Y)P(Y).$

Учитывая модель совместного распределения, распределение отдельных переменных можно вычислить как маргинальные распределения и (считая X непрерывным, следовательно, интегрируя по нему, и Y как дискретным, следовательно, суммируя по нему), и любое условное распределение может вычисляется на основе определения условной вероятности : и . ${\ displaystyle P (X, Y)}$ $P(X)=\sum _{y}P(X,Y=y)$ $P(Y)=\int _{x}P(Y,X=x)$ $P(X\mid Y)=P(X,Y)/P(Y)$ $P(Y\mid X)=P(X,Y)/P(X)$

Учитывая модель одной условной вероятности и предполагаемые распределения вероятностей для переменных X и Y , обозначенных и , можно оценить противоположную условную вероятность, используя правило Байеса : ${\ displaystyle P (X)}$ ${\ displaystyle P (Y)}$

{\ Displaystyle P (X \ середина Y) P (Y) = P (Y \ середина X) P (X).}

Например, учитывая генеративную модель для , можно оценить: $P(X\mid Y)$

{\ displaystyle P (Y \ середина X) = P (X \ середина Y) P (Y) / P (X),}

и учитывая дискриминативную модель для можно оценить: $P(Y\mid X)$

{\ Displaystyle P (X \ середина Y) = P (Y \ середина X) P (X) / P (Y).}

Обратите внимание, что правило Байеса (вычисление одной условной вероятности через другую) и определение условной вероятности (вычисление условной вероятности через совместное распределение) также часто путают.

Контраст с дискриминативными классификаторами

Генеративный алгоритм моделирует способ генерации данных, чтобы классифицировать сигнал. Он задает вопрос: исходя из моих предположений о генерации, какая категория с наибольшей вероятностью будет генерировать этот сигнал? Дискриминационный алгоритм не заботится о том, как были сгенерированы данные, он просто классифицирует данный сигнал. Итак, дискриминационные алгоритмы пытаются учиться непосредственно на данных, а затем пытаются их классифицировать. С другой стороны, генеративные алгоритмы пытаются изучить, что можно позже преобразовать для классификации данных. Одним из преимуществ генеративных алгоритмов является то, что их можно использовать для генерации новых данных, аналогичных существующим данным. С другой стороны, было доказано, что некоторые дискриминационные алгоритмы дают лучшую производительность, чем некоторые генеративные алгоритмы в задачах классификации. ^[6] ${\ displaystyle p (y | x)}$ ${\ displaystyle p (x, y)}$ ${\ displaystyle p (y | x)}$ ${\ displaystyle p (x, y)}$

Несмотря на то, что дискриминационные модели не должны моделировать распределение наблюдаемых переменных, они, как правило, не могут выражать сложные взаимосвязи между наблюдаемыми и целевыми переменными. Но в целом они не обязательно работают лучше, чем генеративные модели, при решении задач классификации и регрессии . Эти два класса рассматриваются как взаимодополняющие друг друга или как разные взгляды на одну и ту же процедуру. ^[7]

Глубокие генеративные модели

С развитием глубокого обучения новое семейство методов, называемое глубокими генеративными моделями (DGM), ^[8]^[9] формируется посредством комбинации генеративных моделей и глубоких нейронных сетей. Увеличение масштаба нейронных сетей обычно сопровождается увеличением масштаба обучающих данных, оба из которых необходимы для хорошей производительности. ^[10]

Популярные DGM включают вариационные автоэнкодеры (VAE), генеративно-состязательные сети (GAN) и авторегрессионные модели. В последнее время наблюдается тенденция к построению очень больших глубоких генеративных моделей. ^[8] Например, GPT-3 и его предшественник GPT-2 [ ^11] представляют собой авторегрессионные модели нейронного языка, содержащие миллиарды параметров, BigGAN ^[12] и VQ-VAE ^[13] , которые используются для генерации изображений. который может иметь сотни миллионов параметров, а Jukebox — это очень большая генеративная модель музыкального звука, содержащая миллиарды параметров. ^[14]

Типы

Генеративные модели

Типы генеративных моделей:

Если наблюдаемые данные действительно выбираются из генеративной модели, то подгонка параметров генеративной модели для максимизации правдоподобия данных является распространенным методом. Однако, поскольку большинство статистических моделей являются лишь приближениями к истинному распределению, если применение модели состоит в том, чтобы сделать вывод о подмножестве переменных, зависящих от известных значений других, то можно утверждать, что это приближение делает больше предположений, чем необходимо для решения проблема под рукой. В таких случаях может быть более точным моделировать функции условной плотности непосредственно с использованием дискриминационной модели (см. ниже), хотя детали конкретного приложения в конечном итоге будут определять, какой подход наиболее подходит в каждом конкретном случае.

Дискриминационные модели

Примеры

Простой пример

Предположим, что входные данные — , набор меток для — , и имеются следующие 4 точки данных: $x\in \{1,2\}$ $х$ $y\in \{0,1\}$ $(x,y)=\{(1,0),(1,1),(2,0),(2,0)\}$

Для приведенных выше данных оценка совместного распределения вероятностей на основе эмпирической меры будет следующей: ${\ displaystyle p (x, y)}$

пока будет следующее: ${\ displaystyle p (y | x)}$

Генерация текста

Шеннон (1948) приводит пример, в котором таблица частот пар английских слов используется для создания предложения, начинающегося со слов «представление и быстрота - это хорошо»; это не настоящий английский язык, но который будет все больше приближаться к нему по мере того, как таблица перемещается от пар слов к тройкам слов и т. д.

Смотрите также

Примечания

^ Три ведущих источника, Нг и Джордан 2002, Джебара 2004 и Митчелл 2015, дают разные подразделения и определения.

Внешние ссылки

Шеннон, CE (1948). «Математическая теория связи» (PDF) . Технический журнал Bell System . 27 (июль, октябрь): 379–423, 623–656. doi :10.1002/j.1538-7305.1948.tb01338.x. hdl : 10338.dmlcz/101429 .
Митчелл, Том М. (2015). «3. Генеративные и дискриминативные классификаторы: наивный Байес и логистическая регрессия» (PDF) . Машинное обучение .
Нг, Эндрю Ю .; Джордан, Майкл И. (2002). «Дискриминативные и генеративные классификаторы: сравнение логистической регрессии и наивного Байеса» (PDF) . Достижения в области нейронных систем обработки информации .
Джебара, Тони (2004). Машинное обучение: дискриминативное и генеративное. Международная серия Springer по инженерным наукам и информатике. Клювер Академик (Спрингер). ISBN 978-1-4020-7647-3.
Джебара, Тони (2002). Дискриминативное, генеративное и имитационное обучение (доктор философии). Массачусетский Институт Технологий . hdl : 1721.1/8323., (зеркало, зеркало), опубликовано в виде книги (вверху)