Генеративная модель

В статистической классификации два основных подхода называются генеративным подходом и дискриминативным подходом. Они вычисляют классификаторы с помощью разных подходов, отличающихся степенью статистического моделирования . Терминология непоследовательна, ^[a], но можно выделить три основных типа, следуя Jebara (2004):

Генеративная модель — это статистическая модель совместного распределения вероятностей для заданной наблюдаемой переменной X и целевой переменной Y ; ^[1] Генеративная модель может использоваться для «генерации» случайных экземпляров ( результатов ) наблюдения x . ^[2] $P(X,Y)$
Дискриминационная модель — это модель условной вероятности цели Y при наличии наблюдения x . Она может быть использована для «дискриминации» значения целевой переменной Y при наличии наблюдения x . ^[3] $P(Y\mid X=x)$
Классификаторы, вычисляемые без использования вероятностной модели, также условно называют «дискриминативными».

Различие между этими двумя последними классами не проводится последовательно; ^[4] Джебара (2004) называет эти три класса генеративным обучением , условным обучением и дискриминативным обучением , но Нг и Джордан (2002) различают только два класса, называя их генеративными классификаторами (совместное распределение) и дискриминативными классификаторами (условное распределение или отсутствие распределения), не делая различий между двумя последними классами. ^[5] Аналогично, классификатор, основанный на генеративной модели, является генеративным классификатором , в то время как классификатор, основанный на дискриминативной модели, является дискриминативным классификатором , хотя этот термин также относится к классификаторам, которые не основаны на модели.

Стандартными примерами каждого из них, все из которых являются линейными классификаторами , являются:

Генеративные классификаторы:
- наивный байесовский классификатор и
- линейный дискриминантный анализ
дискриминационная модель:
- логистическая регрессия

В применении к классификации, кто-то хочет перейти от наблюдения x к метке y (или распределению вероятностей по меткам). Можно вычислить это напрямую, без использования распределения вероятностей ( классификатор без распределения ); можно оценить вероятность метки, заданной наблюдением ( дискриминационная модель ), и основать на этом классификацию; или можно оценить совместное распределение ( генеративная модель ), из этого вычислить условную вероятность , а затем основать на этом классификацию. Они все более косвенные, но все более вероятностные, что позволяет применять больше знаний о предметной области и теории вероятностей. На практике используются разные подходы в зависимости от конкретной проблемы, и гибриды могут объединять сильные стороны нескольких подходов. $P(Y|X=x)$ $P(X,Y)$ $P(Y|X=x)$

Определение

Альтернативное деление определяет их симметрично как:

Генеративная модель — это модель условной вероятности наблюдаемого X при заданной цели y , символически ^[2] $P(X\mid Y=y)$
дискриминационная модель — это модель условной вероятности цели Y при заданном наблюдении x , символически ^[3] $P(Y\mid X=x)$

Независимо от точного определения, терминология является конституционной, поскольку генеративная модель может использоваться для «генерации» случайных экземпляров ( результатов ) либо наблюдения и цели , либо наблюдения x при заданном целевом значении y , ^[2] в то время как дискриминационная модель или дискриминационный классификатор (без модели) могут использоваться для «дискриминации» значения целевой переменной Y при заданном наблюдении x . ^[3] Разница между «дискриминировать» (различать) и «классифицировать» тонка, и они не всегда различаются. (Термин «дискриминационный классификатор» становится плеоназмом, когда «дискриминация» эквивалентна «классификации».) $(x,y)$

Термин «генеративная модель» также используется для описания моделей, которые генерируют экземпляры выходных переменных таким образом, что не имеют четкой связи с распределениями вероятностей по потенциальным образцам входных переменных. Генеративные состязательные сети являются примерами этого класса генеративных моделей и оцениваются в первую очередь по сходству конкретных выходов с потенциальными входами. Такие модели не являются классификаторами.

Взаимоотношения между моделями

Применительно к классификации наблюдаемая величина X часто является непрерывной переменной , целевая величина Y — это, как правило, дискретная переменная, состоящая из конечного набора меток, а условная вероятность также может быть интерпретирована как (недетерминированная) целевая функция , рассматривающая X как входы, а Y — как выходы. $P(Y\mid X)$ $f\двоеточие от X до Y$

При наличии конечного набора меток два определения «генеративной модели» тесно связаны. Модель условного распределения — это модель распределения каждой метки, а модель совместного распределения эквивалентна модели распределения значений меток вместе с распределением наблюдений, заданных меткой, ; символически, Таким образом, хотя модель совместного распределения вероятностей более информативна, чем модель распределения меток (но без их относительных частот), это относительно небольшой шаг, поэтому они не всегда различаются. $P(X\mid Y=y)$ $P(Y)$ $P(X\середина Y)$ $P(X,Y)=P(X\mid Y)P(Y).$

При наличии модели совместного распределения распределение отдельных переменных можно вычислить как маргинальные распределения и (рассматривая X как непрерывное, следовательно, интегрируя по нему, а Y как дискретное, следовательно, суммируя по нему), и любое условное распределение можно вычислить из определения условной вероятности : и . $P(X,Y)$ $P(X)=\sum _{y}P(X,Y=y)$ $P(Y)=\int _{x}P(Y,X=x)$ $P(X\mid Y)=P(X,Y)/P(Y)$ $P(Y\mid X)=P(X,Y)/P(X)$

Имея модель одной условной вероятности и предполагаемые распределения вероятностей для переменных X и Y , обозначенные и , можно оценить противоположную условную вероятность, используя правило Байеса : $P(X)$ $P(Y)$

P(X\mid Y)P(Y)=P(Y\mid X)P(X).

Например, имея генеративную модель для , можно оценить: $P(X\середина Y)$

P(Y\mid X)=P(X\mid Y)P(Y)/P(X),

и учитывая дискриминационную модель для , можно оценить: $P(Y\mid X)$

P(X\середина Y)=P(Y\середина X)P(X)/P(Y).

Обратите внимание, что правило Байеса (вычисление одной условной вероятности через другую) и определение условной вероятности (вычисление условной вероятности через совместное распределение) также часто смешиваются.

Контраст с дискриминативными классификаторами

Генеративный алгоритм моделирует, как были сгенерированы данные, чтобы классифицировать сигнал. Он задает вопрос: исходя из моих предположений о генерации, какая категория, скорее всего, сгенерирует этот сигнал? Дискриминативный алгоритм не заботится о том, как были сгенерированы данные, он просто категоризирует заданный сигнал. Таким образом, дискриминативные алгоритмы пытаются учиться непосредственно на данных, а затем пытаются классифицировать данные. С другой стороны, генеративные алгоритмы пытаются узнать, что может быть преобразовано в дальнейшем для классификации данных. Одним из преимуществ генеративных алгоритмов является то, что вы можете использовать для генерации новых данных, похожих на существующие данные. С другой стороны, было доказано, что некоторые дискриминативные алгоритмы дают лучшую производительность, чем некоторые генеративные алгоритмы в задачах классификации. ^[6] $p(y|x)$ $p(x,y)$ $p(y|x)$ $p(x,y)$

Несмотря на то, что дискриминантные модели не должны моделировать распределение наблюдаемых переменных, они, как правило, не могут выражать сложные отношения между наблюдаемыми и целевыми переменными. Но в целом они не обязательно работают лучше, чем генеративные модели, в задачах классификации и регрессии . Эти два класса рассматриваются как взаимодополняющие или как разные представления одной и той же процедуры. ^[7]

Глубокие генеративные модели

С развитием глубокого обучения , новое семейство методов, называемых глубокими генеративными моделями (DGM), ^[8]^[9] формируется посредством объединения генеративных моделей и глубоких нейронных сетей. Увеличение масштаба нейронных сетей обычно сопровождается увеличением масштаба обучающих данных, и то и другое требуется для хорошей производительности. ^[10]

Популярные DGM включают вариационные автокодировщики (VAE), генеративные состязательные сети (GAN) и авторегрессивные модели. В последнее время наблюдается тенденция к построению очень больших глубоких генеративных моделей. ^[8] Например, GPT-3 и его предшественник GPT - 2 ^[11] являются авторегрессивными нейронными языковыми моделями, которые содержат миллиарды параметров, BigGAN ^[12] и VQ-VAE ^[13], которые используются для генерации изображений, которые могут иметь сотни миллионов параметров, а Jukebox является очень большой генеративной моделью для музыкального аудио, которая содержит миллиарды параметров. ^[14]

Типы

Генеративные модели

Типы генеративных моделей:

Если наблюдаемые данные действительно взяты из генеративной модели, то подгонка параметров генеративной модели для максимизации правдоподобия данных является распространенным методом. Однако, поскольку большинство статистических моделей являются лишь приближениями к истинному распределению, если применение модели заключается в выводе о подмножестве переменных, обусловленных известными значениями других, то можно утверждать, что приближение делает больше предположений, чем необходимо для решения рассматриваемой проблемы. В таких случаях может быть более точным моделировать условные функции плотности напрямую с использованием дискриминативной модели (см. ниже), хотя детали, специфичные для конкретного приложения, в конечном итоге будут диктовать, какой подход является наиболее подходящим в каждом конкретном случае.

Дискриминационные модели

Примеры

Простой пример

Предположим, что входные данные равны , набор меток для равен , и имеются следующие 4 точки данных: $x\in \{1,2\}$ $x$ $y\in \{0,1\}$ $(x,y)=\{(1,0),(1,1),(2,0),(2,1)\}$

Для приведенных выше данных оценка совместного распределения вероятностей на основе эмпирической меры будет следующей: $p(x,y)$

в то время как будет следующим: $p(y|x)$

Генерация текста

Шеннон (1948) приводит пример, в котором таблица частот пар английских слов используется для создания предложения, начинающегося со слов «representing and speedily is an good» («представлять и быстро есть хорошо»); это не совсем английский язык, но он будет все больше приближаться к нему по мере того, как таблица будет перемещаться от пар слов к троек слов и т. д.

Смотрите также

Примечания

^ Три ведущих источника, Ng & Jordan 2002, Jebara 2004 и Mitchell 2015, дают различные подразделения и определения.

Ссылки

^ Нг и Джордан (2002): «Генеративные классификаторы изучают модель совместной вероятности входных данных x и метки y и делают свои прогнозы, используя правила Байеса для вычисления , а затем выбирая наиболее вероятную метку y» . $p(x,y)$ $p(y\mid x)$
^ abc Mitchell 2015: «Мы можем использовать правило Байеса в качестве основы для проектирования алгоритмов обучения (аппроксиматоров функций) следующим образом: учитывая, что мы хотим изучить некоторую целевую функцию , или, что эквивалентно, , мы используем обучающие данные для изучения оценок и . Затем новые примеры X можно классифицировать с использованием этих оценочных распределений вероятностей и правила Байеса. Этот тип классификатора называется генеративным классификатором, потому что мы можем рассматривать распределение как описание того, как генерировать случайные экземпляры X, обусловленные целевым атрибутом Y . $f\двоеточие от X до Y$ $P(Y\mid X)$ $P(X\середина Y)$ $P(Y)$ $P(X\середина Y)$
^ abc Mitchell 2015: «Логистическая регрессия — это алгоритм аппроксимации функции, который использует обучающие данные для прямой оценки , в отличие от наивного байесовского алгоритма. В этом смысле логистическую регрессию часто называют дискриминативным классификатором, поскольку мы можем рассматривать распределение как непосредственно дискриминативное значение целевого значения Y для любого заданного экземпляра X». $P(Y\mid X)$ $P(Y\mid X)$
^ Джебара 2004, 2.4 Дискриминативное обучение: «Это различие между условным обучением и дискриминативным обучением в настоящее время не является общепринятым соглашением в этой области».
^ Нг и Джордан 2002: «Дискриминативные классификаторы моделируют апостериорную выборку напрямую или изучают прямую карту из входных данных x в метки классов». $p(y|x)$
^ Нг и Джордан 2002
^ Бишоп, CM; Лассер, Дж. (24 сентября 2007 г.), «Генеративный или дискриминационный? получение лучшего из обоих миров», в Бернардо, Дж. М. (ред.), Байесовская статистика 8: труды восьмой международной встречи в Валенсии, 2–6 июня 2006 г., Oxford University Press, стр. 3–23, ISBN 978-0-19-921465-5
^ ab «Масштабирование — исследователи продвигают крупномасштабные глубокие генеративные модели». Microsoft . 9 апреля 2020 г.
^ "Генеративные модели". OpenAI . 16 июня 2016 г.
^ Каплан, Джаред; МакКэндлиш, Сэм; Хениган, Том; Браун, Том Б.; Чесс, Бенджамин; Чайлд, Ревон; Грей, Скотт; Рэдфорд, Алек; Ву, Джеффри; Амодеи, Дарио (2020). «Законы масштабирования для моделей нейронного языка». arXiv : 2001.08361 [stat.ML].
^ "Лучшие языковые модели и их последствия". OpenAI . 14 февраля 2019 г.
^ Брок, Эндрю; Донахью, Джефф; Симонян, Карен (2018). «Крупномасштабное обучение GAN для синтеза естественных изображений с высокой точностью». arXiv : 1809.11096 [cs.LG].
^ Разави, Али; ван ден Оорд, Аарон; Виньялс, Ориол (2019). «Создание разнообразных изображений высокого качества с помощью VQ-VAE-2». arXiv : 1906.00446 [cs.LG].
^ "Музыкальный автомат". ОпенАИ . 30 апреля 2020 г.

Внешние ссылки

Shannon, CE (1948). "Математическая теория связи" (PDF) . Bell System Technical Journal . 27 (июль, октябрь): 379–423, 623–656. doi :10.1002/j.1538-7305.1948.tb01338.x. hdl : 10338.dmlcz/101429 . Архивировано из оригинала (PDF) 2016-06-06 . Получено 2016-01-09 .
Митчелл, Том М. (2015). "3. Генеративные и дискриминационные классификаторы: наивная байесовская и логистическая регрессия" (PDF) . Машинное обучение .
Нг, Эндрю Й.; Джордан , Майкл И. (2002). "О дискриминативных и генеративных классификаторах: сравнение логистической регрессии и наивного байесовца" (PDF) . Достижения в области нейронных систем обработки информации .
Джебара, Тони (2004). Машинное обучение: дискриминативное и генеративное. Международная серия Springer по инжинирингу и информатике. Kluwer Academic (Springer). ISBN 978-1-4020-7647-3.
Джебара, Тони (2002). Дискриминационное, генеративное и имитационное обучение (PhD). Массачусетский технологический институт . hdl :1721.1/8323., (зеркало, зеркало), опубликовано в виде книги (выше)