stringtranslate.com

Генеративная модель

В статистической классификации два основных подхода называются генеративным подходом и дискриминативным подходом. Эти классификаторы вычисляют разными подходами, отличающимися степенью статистического моделирования . Терминология противоречива, [a] но, согласно Джебаре (2004), можно выделить три основных типа:

  1. Генеративная модель — это статистическая модель совместного распределения вероятностей для заданной наблюдаемой переменной X и целевой переменной Y ; [1]
  2. Дискриминативная модель — это модель условной вероятности цели Y при условии наблюдения x ; и
  3. Классификаторы, рассчитанные без использования вероятностной модели, также называются «дискриминативными».

Различие между этими двумя последними классами проводится не всегда; [2] Джебара (2004) называет эти три класса генеративным обучением , условным обучением и различительным обучением , но Нг и Джордан (2002) различают только два класса, называя их генеративными классификаторами (совместное распределение) и дискриминативными классификаторами (условное распределение или нет распределения), не делая различия между двумя последними классами. [3] Аналогично, классификатор, основанный на генеративной модели, является генеративным классификатором , а классификатор, основанный на дискриминационной модели, является дискриминативным классификатором , хотя этот термин также относится к классификаторам, которые не основаны на модели.

Стандартные примеры каждого из них, все из которых являются линейными классификаторами :

Применительно к классификации требуется перейти от наблюдения x к метке y (или распределению вероятностей по меткам). Это можно вычислить напрямую, без использования распределения вероятностей ( классификатор без распределения ); можно оценить вероятность присвоения ярлыка данному наблюдению ( дискриминативная модель ) и основывать на этом классификацию; или можно оценить совместное распределение ( генеративная модель ), на основе этого вычислить условную вероятность , а затем основать на этом классификацию. Они становятся все более косвенными, но все более вероятностными, что позволяет применять больше предметных знаний и теории вероятностей. На практике используются разные подходы, в зависимости от конкретной проблемы, а гибриды могут сочетать в себе сильные стороны нескольких подходов.

Определение

Альтернативное разделение определяет их симметрично как:

Независимо от точного определения, терминология является конституционной, поскольку генеративная модель может использоваться для «генерации» случайных экземпляров ( результатов ) либо наблюдения и цели , либо наблюдения x с заданным целевым значением y , [4] в то время как дискриминационная модель модель или дискриминативный классификатор (без модели) могут использоваться для «различения» значения целевой переменной Y с учетом наблюдения x . [5] Разница между «различать» (различать) и «классифицировать» тонкая, и они не различаются последовательно. (Термин «дискриминационный классификатор» становится плеоназмом , когда «дискриминация» эквивалентна «классификации».)

Термин «генеративная модель» также используется для описания моделей, которые генерируют экземпляры выходных переменных таким образом, который не имеет четкой связи с распределениями вероятностей по потенциальным выборкам входных переменных. Генеративно-состязательные сети являются примерами этого класса генеративных моделей и оцениваются в первую очередь по сходству конкретных результатов с потенциальными входами. Такие модели не являются классификаторами.

Отношения между моделями

Применительно к классификации наблюдаемая X часто является непрерывной переменной , целевая Y обычно представляет собой дискретную переменную, состоящую из конечного набора меток, а условную вероятность также можно интерпретировать как (недетерминированную) целевую функцию , учитывая X в качестве входов и Y в качестве выходов.

Учитывая конечный набор меток, два определения «генеративной модели» тесно связаны. Модель условного распределения — это модель распределения каждой метки, а модель совместного распределения эквивалентна модели распределения значений метки вместе с распределением наблюдений по метке ; символически. Таким образом, хотя модель совместного распределения вероятностей более информативна, чем модель распределения меток (но без их относительных частот), это относительно небольшой шаг, поэтому они не всегда различаются.

Учитывая модель совместного распределения, распределение отдельных переменных можно вычислить как маргинальные распределения и (считая X непрерывным, следовательно, интегрируя по нему, и Y как дискретным, следовательно, суммируя по нему), и любое условное распределение может вычисляется на основе определения условной вероятности : и .

Учитывая модель одной условной вероятности и предполагаемые распределения вероятностей для переменных X и Y , обозначенных и , можно оценить противоположную условную вероятность, используя правило Байеса :

Например, учитывая генеративную модель для , можно оценить:

и учитывая дискриминативную модель для можно оценить:

Обратите внимание, что правило Байеса (вычисление одной условной вероятности через другую) и определение условной вероятности (вычисление условной вероятности через совместное распределение) также часто путают.

Контраст с дискриминативными классификаторами

Генеративный алгоритм моделирует способ генерации данных, чтобы классифицировать сигнал. Он задает вопрос: исходя из моих предположений о генерации, какая категория с наибольшей вероятностью будет генерировать этот сигнал? Дискриминационный алгоритм не заботится о том, как были сгенерированы данные, он просто классифицирует данный сигнал. Итак, дискриминационные алгоритмы пытаются учиться непосредственно на данных, а затем пытаются их классифицировать. С другой стороны, генеративные алгоритмы пытаются изучить, что можно позже преобразовать для классификации данных. Одним из преимуществ генеративных алгоритмов является то, что их можно использовать для генерации новых данных, аналогичных существующим данным. С другой стороны, было доказано, что некоторые дискриминационные алгоритмы дают лучшую производительность, чем некоторые генеративные алгоритмы в задачах классификации. [6]

Несмотря на то, что дискриминационные модели не должны моделировать распределение наблюдаемых переменных, они, как правило, не могут выражать сложные взаимосвязи между наблюдаемыми и целевыми переменными. Но в целом они не обязательно работают лучше, чем генеративные модели, при решении задач классификации и регрессии . Эти два класса рассматриваются как взаимодополняющие друг друга или как разные взгляды на одну и ту же процедуру. [7]

Глубокие генеративные модели

С развитием глубокого обучения новое семейство методов, называемое глубокими генеративными моделями (DGM), [8] [9] формируется посредством комбинации генеративных моделей и глубоких нейронных сетей. Увеличение масштаба нейронных сетей обычно сопровождается увеличением масштаба обучающих данных, оба из которых необходимы для хорошей производительности. [10]

Популярные DGM включают вариационные автоэнкодеры (VAE), генеративно-состязательные сети (GAN) и авторегрессионные модели. В последнее время наблюдается тенденция к построению очень больших глубоких генеративных моделей. [8] Например, GPT-3 и его предшественник GPT-2 [ 11] представляют собой авторегрессионные модели нейронного языка, содержащие миллиарды параметров, BigGAN [12] и VQ-VAE [13] , которые используются для генерации изображений. который может иметь сотни миллионов параметров, а Jukebox — это очень большая генеративная модель музыкального звука, содержащая миллиарды параметров. [14]

Типы

Генеративные модели

Типы генеративных моделей:

Если наблюдаемые данные действительно выбираются из генеративной модели, то подгонка параметров генеративной модели для максимизации правдоподобия данных является распространенным методом. Однако, поскольку большинство статистических моделей являются лишь приближениями к истинному распределению, если применение модели состоит в том, чтобы сделать вывод о подмножестве переменных, зависящих от известных значений других, то можно утверждать, что это приближение делает больше предположений, чем необходимо для решения проблема под рукой. В таких случаях может быть более точным моделировать функции условной плотности непосредственно с использованием дискриминационной модели (см. ниже), хотя детали конкретного приложения в конечном итоге будут определять, какой подход наиболее подходит в каждом конкретном случае.

Дискриминационные модели

Примеры

Простой пример

Предположим, что входные данные — , набор меток для — , и имеются следующие 4 точки данных:

Для приведенных выше данных оценка совместного распределения вероятностей на основе эмпирической меры будет следующей:

пока будет следующее:

Генерация текста

Шеннон (1948) приводит пример, в котором таблица частот пар английских слов используется для создания предложения, начинающегося со слов «представление и быстрота - это хорошо»; это не настоящий английский язык, но который будет все больше приближаться к нему по мере того, как таблица перемещается от пар слов к тройкам слов и т. д.

Смотрите также

Примечания

  1. ^ Три ведущих источника, Нг и Джордан 2002, Джебара 2004 и Митчелл 2015, дают разные подразделения и определения.

Рекомендации

  1. ^ Нг и Джордан (2002): «Генераторные классификаторы изучают модель совместной вероятности входных данных x и метки y и делают свои прогнозы, используя правила Байеса для расчета , а затем выбирая наиболее вероятную метку y .
  2. ^ Джебара 2004, 2.4 Дискриминационное обучение: «Это различие между условным обучением и различительным обучением в настоящее время не является устоявшимся соглашением в этой области».
  3. ^ Нг и Джордан 2002: «Дискриминативные классификаторы моделируют апостериорное поведение напрямую или изучают прямую карту входных данных x с метками классов».
  4. ^ ab Mitchell 2015: «Мы можем использовать правило Байеса в качестве основы для разработки алгоритмов обучения (аппроксиматоров функций) следующим образом: учитывая, что мы хотим изучить некоторую целевую функцию или, что то же самое, мы используем обучающие данные для изучения оценок и Новые примеры X затем могут быть классифицированы с использованием этих предполагаемых распределений вероятностей плюс правило Байеса. Этот тип классификатора называется генеративным классификатором , потому что мы можем рассматривать распределение как описание того, как генерировать случайные экземпляры X , обусловленные целевым атрибутом Y.
  5. ^ ab Mitchell 2015: «Логистическая регрессия — это алгоритм аппроксимации функции, который использует обучающие данные для непосредственной оценки , в отличие от наивного Байеса. В этом смысле логистическую регрессию часто называют дискриминативным классификатором, потому что мы можем рассматривать распределение как непосредственно дискриминирующее. значение целевого значения Y для любого данного экземпляра X
  6. ^ Нг и Джордан, 2002 г.
  7. ^ Бишоп, CM; Лассер, Дж. (24 сентября 2007 г.), «Генеративный или дискриминативный? Получение лучшего из обоих миров», Бернардо, Дж. М. (редактор), Байесовская статистика 8: материалы восьмой Валенсийской международной встречи, 2–6 июня 2006 г. , Oxford University Press, стр. 3–23, ISBN. 978-0-19-921465-5
  8. ^ ab «Расширение масштабов - исследователи продвигают крупномасштабные глубокие генеративные модели». Майкрософт . 9 апреля 2020 г.
  9. ^ «Генеративные модели». ОпенАИ . 16 июня 2016 г.
  10. ^ Каплан, Джаред; МакКэндлиш, Сэм; Хениган, Том; Браун, Том Б.; Шахматы, Бенджамин; Дитя, Ревон; Грей, Скотт; Рэдфорд, Алек; Ву, Джеффри; Амодей, Дарио (2020). «Законы масштабирования для моделей нейронного языка». arXiv : 2001.08361 [stat.ML].
  11. ^ «Лучшие языковые модели и их последствия». ОпенАИ . 14 февраля 2019 г.
  12. ^ Брок, Эндрю; Донахью, Джефф; Симонян, Карен (2018). «Крупномасштабное обучение GAN для высокоточного синтеза естественных изображений». arXiv : 1809.11096 [cs.LG].
  13. ^ Разави, Али; ван ден Оорд, Аарон; Виньялс, Ориол (2019). «Создание разнообразных изображений высокого качества с помощью VQ-VAE-2». arXiv : 1906.00446 [cs.LG].
  14. ^ "Музыкальный автомат". ОпенАИ . 30 апреля 2020 г.

Внешние ссылки