В статистической классификации два основных подхода называются генеративным подходом и дискриминативным подходом. Они вычисляют классификаторы с помощью разных подходов, отличающихся степенью статистического моделирования . Терминология непоследовательна, [a], но можно выделить три основных типа, следуя Jebara (2004):
Различие между этими двумя последними классами не проводится последовательно; [4] Джебара (2004) называет эти три класса генеративным обучением , условным обучением и дискриминативным обучением , но Нг и Джордан (2002) различают только два класса, называя их генеративными классификаторами (совместное распределение) и дискриминативными классификаторами (условное распределение или отсутствие распределения), не делая различий между двумя последними классами. [5] Аналогично, классификатор, основанный на генеративной модели, является генеративным классификатором , в то время как классификатор, основанный на дискриминативной модели, является дискриминативным классификатором , хотя этот термин также относится к классификаторам, которые не основаны на модели.
Стандартными примерами каждого из них, все из которых являются линейными классификаторами , являются:
В применении к классификации, кто-то хочет перейти от наблюдения x к метке y (или распределению вероятностей по меткам). Можно вычислить это напрямую, без использования распределения вероятностей ( классификатор без распределения ); можно оценить вероятность метки, заданной наблюдением ( дискриминационная модель ), и основать на этом классификацию; или можно оценить совместное распределение ( генеративная модель ), из этого вычислить условную вероятность , а затем основать на этом классификацию. Они все более косвенные, но все более вероятностные, что позволяет применять больше знаний о предметной области и теории вероятностей. На практике используются разные подходы в зависимости от конкретной проблемы, и гибриды могут объединять сильные стороны нескольких подходов.
Альтернативное деление определяет их симметрично как:
Независимо от точного определения, терминология является конституционной, поскольку генеративная модель может использоваться для «генерации» случайных экземпляров ( результатов ) либо наблюдения и цели , либо наблюдения x при заданном целевом значении y , [2] в то время как дискриминационная модель или дискриминационный классификатор (без модели) могут использоваться для «дискриминации» значения целевой переменной Y при заданном наблюдении x . [3] Разница между «дискриминировать» (различать) и «классифицировать» тонка, и они не всегда различаются. (Термин «дискриминационный классификатор» становится плеоназмом, когда «дискриминация» эквивалентна «классификации».)
Термин «генеративная модель» также используется для описания моделей, которые генерируют экземпляры выходных переменных таким образом, что не имеют четкой связи с распределениями вероятностей по потенциальным образцам входных переменных. Генеративные состязательные сети являются примерами этого класса генеративных моделей и оцениваются в первую очередь по сходству конкретных выходов с потенциальными входами. Такие модели не являются классификаторами.
Применительно к классификации наблюдаемая величина X часто является непрерывной переменной , целевая величина Y — это, как правило, дискретная переменная, состоящая из конечного набора меток, а условная вероятность также может быть интерпретирована как (недетерминированная) целевая функция , рассматривающая X как входы, а Y — как выходы.
При наличии конечного набора меток два определения «генеративной модели» тесно связаны. Модель условного распределения — это модель распределения каждой метки, а модель совместного распределения эквивалентна модели распределения значений меток вместе с распределением наблюдений, заданных меткой, ; символически, Таким образом, хотя модель совместного распределения вероятностей более информативна, чем модель распределения меток (но без их относительных частот), это относительно небольшой шаг, поэтому они не всегда различаются.
При наличии модели совместного распределения распределение отдельных переменных можно вычислить как маргинальные распределения и (рассматривая X как непрерывное, следовательно, интегрируя по нему, а Y как дискретное, следовательно, суммируя по нему), и любое условное распределение можно вычислить из определения условной вероятности : и .
Имея модель одной условной вероятности и предполагаемые распределения вероятностей для переменных X и Y , обозначенные и , можно оценить противоположную условную вероятность, используя правило Байеса :
Например, имея генеративную модель для , можно оценить:
и учитывая дискриминационную модель для , можно оценить:
Обратите внимание, что правило Байеса (вычисление одной условной вероятности через другую) и определение условной вероятности (вычисление условной вероятности через совместное распределение) также часто смешиваются.
Генеративный алгоритм моделирует, как были сгенерированы данные, чтобы классифицировать сигнал. Он задает вопрос: исходя из моих предположений о генерации, какая категория, скорее всего, сгенерирует этот сигнал? Дискриминативный алгоритм не заботится о том, как были сгенерированы данные, он просто категоризирует заданный сигнал. Таким образом, дискриминативные алгоритмы пытаются учиться непосредственно на данных, а затем пытаются классифицировать данные. С другой стороны, генеративные алгоритмы пытаются узнать, что может быть преобразовано в дальнейшем для классификации данных. Одним из преимуществ генеративных алгоритмов является то, что вы можете использовать для генерации новых данных, похожих на существующие данные. С другой стороны, было доказано, что некоторые дискриминативные алгоритмы дают лучшую производительность, чем некоторые генеративные алгоритмы в задачах классификации. [6]
Несмотря на то, что дискриминантные модели не должны моделировать распределение наблюдаемых переменных, они, как правило, не могут выражать сложные отношения между наблюдаемыми и целевыми переменными. Но в целом они не обязательно работают лучше, чем генеративные модели, в задачах классификации и регрессии . Эти два класса рассматриваются как взаимодополняющие или как разные представления одной и той же процедуры. [7]
С развитием глубокого обучения , новое семейство методов, называемых глубокими генеративными моделями (DGM), [8] [9] формируется посредством объединения генеративных моделей и глубоких нейронных сетей. Увеличение масштаба нейронных сетей обычно сопровождается увеличением масштаба обучающих данных, и то и другое требуется для хорошей производительности. [10]
Популярные DGM включают вариационные автокодировщики (VAE), генеративные состязательные сети (GAN) и авторегрессивные модели. В последнее время наблюдается тенденция к построению очень больших глубоких генеративных моделей. [8] Например, GPT-3 и его предшественник GPT - 2 [11] являются авторегрессивными нейронными языковыми моделями, которые содержат миллиарды параметров, BigGAN [12] и VQ-VAE [13], которые используются для генерации изображений, которые могут иметь сотни миллионов параметров, а Jukebox является очень большой генеративной моделью для музыкального аудио, которая содержит миллиарды параметров. [14]
Типы генеративных моделей:
Если наблюдаемые данные действительно взяты из генеративной модели, то подгонка параметров генеративной модели для максимизации правдоподобия данных является распространенным методом. Однако, поскольку большинство статистических моделей являются лишь приближениями к истинному распределению, если применение модели заключается в выводе о подмножестве переменных, обусловленных известными значениями других, то можно утверждать, что приближение делает больше предположений, чем необходимо для решения рассматриваемой проблемы. В таких случаях может быть более точным моделировать условные функции плотности напрямую с использованием дискриминативной модели (см. ниже), хотя детали, специфичные для конкретного приложения, в конечном итоге будут диктовать, какой подход является наиболее подходящим в каждом конкретном случае.
Предположим, что входные данные равны , набор меток для равен , и имеются следующие 4 точки данных:
Для приведенных выше данных оценка совместного распределения вероятностей на основе эмпирической меры будет следующей:
в то время как будет следующим:
Шеннон (1948) приводит пример, в котором таблица частот пар английских слов используется для создания предложения, начинающегося со слов «representing and speedily is an good» («представлять и быстро есть хорошо»); это не совсем английский язык, но он будет все больше приближаться к нему по мере того, как таблица будет перемещаться от пар слов к троек слов и т. д.