stringtranslate.com

Генеративная модель

В статистической классификации два основных подхода называются генеративным подходом и дискриминативным подходом. Они вычисляют классификаторы с помощью разных подходов, отличающихся степенью статистического моделирования . Терминология непоследовательна, [a], но можно выделить три основных типа, следуя Jebara (2004):

  1. Генеративная модель — это статистическая модель совместного распределения вероятностей для заданной наблюдаемой переменной X и целевой переменной Y ; [1] Генеративная модель может использоваться для «генерации» случайных экземпляров ( результатов ) наблюдения x . [2]
  2. Дискриминационная модель — это модель условной вероятности цели Y при наличии наблюдения x . Она может быть использована для «дискриминации» значения целевой переменной Y при наличии наблюдения x . [3]
  3. Классификаторы, вычисляемые без использования вероятностной модели, также условно называют «дискриминативными».

Различие между этими двумя последними классами не проводится последовательно; [4] Джебара (2004) называет эти три класса генеративным обучением , условным обучением и дискриминативным обучением , но Нг и Джордан (2002) различают только два класса, называя их генеративными классификаторами (совместное распределение) и дискриминативными классификаторами (условное распределение или отсутствие распределения), не делая различий между двумя последними классами. [5] Аналогично, классификатор, основанный на генеративной модели, является генеративным классификатором , в то время как классификатор, основанный на дискриминативной модели, является дискриминативным классификатором , хотя этот термин также относится к классификаторам, которые не основаны на модели.

Стандартными примерами каждого из них, все из которых являются линейными классификаторами , являются:

В применении к классификации, кто-то хочет перейти от наблюдения x к метке y (или распределению вероятностей по меткам). Можно вычислить это напрямую, без использования распределения вероятностей ( классификатор без распределения ); можно оценить вероятность метки, заданной наблюдением ( дискриминационная модель ), и основать на этом классификацию; или можно оценить совместное распределение ( генеративная модель ), из этого вычислить условную вероятность , а затем основать на этом классификацию. Они все более косвенные, но все более вероятностные, что позволяет применять больше знаний о предметной области и теории вероятностей. На практике используются разные подходы в зависимости от конкретной проблемы, и гибриды могут объединять сильные стороны нескольких подходов.

Определение

Альтернативное деление определяет их симметрично как:

Независимо от точного определения, терминология является конституционной, поскольку генеративная модель может использоваться для «генерации» случайных экземпляров ( результатов ) либо наблюдения и цели , либо наблюдения x при заданном целевом значении y , [2] в то время как дискриминационная модель или дискриминационный классификатор (без модели) могут использоваться для «дискриминации» значения целевой переменной Y при заданном наблюдении x . [3] Разница между «дискриминировать» (различать) и «классифицировать» тонка, и они не всегда различаются. (Термин «дискриминационный классификатор» становится плеоназмом, когда «дискриминация» эквивалентна «классификации».)

Термин «генеративная модель» также используется для описания моделей, которые генерируют экземпляры выходных переменных таким образом, что не имеют четкой связи с распределениями вероятностей по потенциальным образцам входных переменных. Генеративные состязательные сети являются примерами этого класса генеративных моделей и оцениваются в первую очередь по сходству конкретных выходов с потенциальными входами. Такие модели не являются классификаторами.

Взаимоотношения между моделями

Применительно к классификации наблюдаемая величина X часто является непрерывной переменной , целевая величина Y — это, как правило, дискретная переменная, состоящая из конечного набора меток, а условная вероятность также может быть интерпретирована как (недетерминированная) целевая функция , рассматривающая X как входы, а Y — как выходы.

При наличии конечного набора меток два определения «генеративной модели» тесно связаны. Модель условного распределения — это модель распределения каждой метки, а модель совместного распределения эквивалентна модели распределения значений меток вместе с распределением наблюдений, заданных меткой, ; символически, Таким образом, хотя модель совместного распределения вероятностей более информативна, чем модель распределения меток (но без их относительных частот), это относительно небольшой шаг, поэтому они не всегда различаются.

При наличии модели совместного распределения распределение отдельных переменных можно вычислить как маргинальные распределения и (рассматривая X как непрерывное, следовательно, интегрируя по нему, а Y как дискретное, следовательно, суммируя по нему), и любое условное распределение можно вычислить из определения условной вероятности : и .

Имея модель одной условной вероятности и предполагаемые распределения вероятностей для переменных X и Y , обозначенные и , можно оценить противоположную условную вероятность, используя правило Байеса :

Например, имея генеративную модель для , можно оценить:

и учитывая дискриминационную модель для , можно оценить:

Обратите внимание, что правило Байеса (вычисление одной условной вероятности через другую) и определение условной вероятности (вычисление условной вероятности через совместное распределение) также часто смешиваются.

Контраст с дискриминативными классификаторами

Генеративный алгоритм моделирует, как были сгенерированы данные, чтобы классифицировать сигнал. Он задает вопрос: исходя из моих предположений о генерации, какая категория, скорее всего, сгенерирует этот сигнал? Дискриминативный алгоритм не заботится о том, как были сгенерированы данные, он просто категоризирует заданный сигнал. Таким образом, дискриминативные алгоритмы пытаются учиться непосредственно на данных, а затем пытаются классифицировать данные. С другой стороны, генеративные алгоритмы пытаются узнать, что может быть преобразовано в дальнейшем для классификации данных. Одним из преимуществ генеративных алгоритмов является то, что вы можете использовать для генерации новых данных, похожих на существующие данные. С другой стороны, было доказано, что некоторые дискриминативные алгоритмы дают лучшую производительность, чем некоторые генеративные алгоритмы в задачах классификации. [6]

Несмотря на то, что дискриминантные модели не должны моделировать распределение наблюдаемых переменных, они, как правило, не могут выражать сложные отношения между наблюдаемыми и целевыми переменными. Но в целом они не обязательно работают лучше, чем генеративные модели, в задачах классификации и регрессии . Эти два класса рассматриваются как взаимодополняющие или как разные представления одной и той же процедуры. [7]

Глубокие генеративные модели

С развитием глубокого обучения , новое семейство методов, называемых глубокими генеративными моделями (DGM), [8] [9] формируется посредством объединения генеративных моделей и глубоких нейронных сетей. Увеличение масштаба нейронных сетей обычно сопровождается увеличением масштаба обучающих данных, и то и другое требуется для хорошей производительности. [10]

Популярные DGM включают вариационные автокодировщики (VAE), генеративные состязательные сети (GAN) и авторегрессивные модели. В последнее время наблюдается тенденция к построению очень больших глубоких генеративных моделей. [8] Например, GPT-3 и его предшественник GPT - 2 [11] являются авторегрессивными нейронными языковыми моделями, которые содержат миллиарды параметров, BigGAN [12] и VQ-VAE [13], которые используются для генерации изображений, которые могут иметь сотни миллионов параметров, а Jukebox является очень большой генеративной моделью для музыкального аудио, которая содержит миллиарды параметров. [14]

Типы

Генеративные модели

Типы генеративных моделей:

Если наблюдаемые данные действительно взяты из генеративной модели, то подгонка параметров генеративной модели для максимизации правдоподобия данных является распространенным методом. Однако, поскольку большинство статистических моделей являются лишь приближениями к истинному распределению, если применение модели заключается в выводе о подмножестве переменных, обусловленных известными значениями других, то можно утверждать, что приближение делает больше предположений, чем необходимо для решения рассматриваемой проблемы. В таких случаях может быть более точным моделировать условные функции плотности напрямую с использованием дискриминативной модели (см. ниже), хотя детали, специфичные для конкретного приложения, в конечном итоге будут диктовать, какой подход является наиболее подходящим в каждом конкретном случае.

Дискриминационные модели

Примеры

Простой пример

Предположим, что входные данные равны , набор меток для равен , и имеются следующие 4 точки данных:

Для приведенных выше данных оценка совместного распределения вероятностей на основе эмпирической меры будет следующей:

в то время как будет следующим:

Генерация текста

Шеннон (1948) приводит пример, в котором таблица частот пар английских слов используется для создания предложения, начинающегося со слов «representing and speedily is an good» («представлять и быстро есть хорошо»); это не совсем английский язык, но он будет все больше приближаться к нему по мере того, как таблица будет перемещаться от пар слов к троек слов и т. д.

Смотрите также

Примечания

  1. ^ Три ведущих источника, Ng & Jordan 2002, Jebara 2004 и Mitchell 2015, дают различные подразделения и определения.

Ссылки

  1. ^ Нг и Джордан (2002): «Генеративные классификаторы изучают модель совместной вероятности входных данных x и метки y и делают свои прогнозы, используя правила Байеса для вычисления , а затем выбирая наиболее вероятную метку .
  2. ^ abc Mitchell 2015: «Мы можем использовать правило Байеса в качестве основы для проектирования алгоритмов обучения (аппроксиматоров функций) следующим образом: учитывая, что мы хотим изучить некоторую целевую функцию , или, что эквивалентно, , мы используем обучающие данные для изучения оценок и . Затем новые примеры X можно классифицировать с использованием этих оценочных распределений вероятностей и правила Байеса. Этот тип классификатора называется генеративным классификатором, потому что мы можем рассматривать распределение как описание того, как генерировать случайные экземпляры X, обусловленные целевым атрибутом Y .
  3. ^ abc Mitchell 2015: «Логистическая регрессия — это алгоритм аппроксимации функции, который использует обучающие данные для прямой оценки , в отличие от наивного байесовского алгоритма. В этом смысле логистическую регрессию часто называют дискриминативным классификатором, поскольку мы можем рассматривать распределение как непосредственно дискриминативное значение целевого значения Y для любого заданного экземпляра X».
  4. ^ Джебара 2004, 2.4 Дискриминативное обучение: «Это различие между условным обучением и дискриминативным обучением в настоящее время не является общепринятым соглашением в этой области».
  5. ^ Нг и Джордан 2002: «Дискриминативные классификаторы моделируют апостериорную выборку напрямую или изучают прямую карту из входных данных x в метки классов».
  6. ^ Нг и Джордан 2002
  7. ^ Бишоп, CM; Лассер, Дж. (24 сентября 2007 г.), «Генеративный или дискриминационный? получение лучшего из обоих миров», в Бернардо, Дж. М. (ред.), Байесовская статистика 8: труды восьмой международной встречи в Валенсии, 2–6 июня 2006 г., Oxford University Press, стр. 3–23, ISBN 978-0-19-921465-5
  8. ^ ab «Масштабирование — исследователи продвигают крупномасштабные глубокие генеративные модели». Microsoft . 9 апреля 2020 г.
  9. ^ "Генеративные модели". OpenAI . 16 июня 2016 г.
  10. ^ Каплан, Джаред; МакКэндлиш, Сэм; Хениган, Том; Браун, Том Б.; Чесс, Бенджамин; Чайлд, Ревон; Грей, Скотт; Рэдфорд, Алек; Ву, Джеффри; Амодеи, Дарио (2020). «Законы масштабирования для моделей нейронного языка». arXiv : 2001.08361 [stat.ML].
  11. ^ "Лучшие языковые модели и их последствия". OpenAI . 14 февраля 2019 г.
  12. ^ Брок, Эндрю; Донахью, Джефф; Симонян, Карен (2018). «Крупномасштабное обучение GAN для синтеза естественных изображений с высокой точностью». arXiv : 1809.11096 [cs.LG].
  13. ^ Разави, Али; ван ден Оорд, Аарон; Виньялс, Ориол (2019). «Создание разнообразных изображений высокого качества с помощью VQ-VAE-2». arXiv : 1906.00446 [cs.LG].
  14. ^ "Музыкальный автомат". ОпенАИ . 30 апреля 2020 г.

Внешние ссылки