Дискриминационная модель

Дискриминационные модели , также называемые условными моделями , представляют собой класс логистических моделей, используемых для классификации или регрессии. Они различают границы принятия решений на основе наблюдаемых данных, таких как «прошел/не прошел», «выиграл/проиграл», «жив/мертв» или «здоров/болен».

Типичные дискриминационные модели включают логистическую регрессию (LR), условные случайные поля (CRF) (заданные на неориентированном графе), деревья решений и многие другие. Типичные подходы к генеративным моделям включают наивные байесовские классификаторы , модели гауссовой смеси , вариационные автокодировщики , генеративно-состязательные сети и другие.

Определение

В отличие от генеративного моделирования, которое изучает совместную вероятность , дискриминационное моделирование изучает или сопоставляет данную ненаблюдаемую переменную (цель) с меткой класса , зависящей от наблюдаемых переменных (обучающие выборки). Например, при распознавании объектов это , скорее всего, вектор необработанных пикселей (или признаков, извлеченных из необработанных пикселей изображения). В рамках вероятностной структуры это делается путем моделирования условного распределения вероятностей , которое можно использовать для прогнозирования по . Обратите внимание, что по-прежнему существует различие между условной моделью и дискриминационной моделью, хотя чаще их просто относят к дискриминационной модели. ${\ displaystyle P (x, y)}$ ${\ displaystyle P (y | x)}$ $х$ $y$ $x$ $P(y|x)$ $y$ $x$

Чистая дискриминативная модель против условной модели

Условная модель моделирует условное распределение вероятностей , в то время как традиционная дискриминативная модель направлена на оптимизацию сопоставления входных данных с наиболее похожими обученными выборками. ^[1]

Типичные подходы дискриминационного моделирования

Следующий подход основан на предположении, что ему дан обучающий набор данных , где соответствующий выходной сигнал для входных данных . ^[2] $D=\{(x_{i};y_{i})|i\leq N\in \mathbb {Z} \}$ $y_{i}$ $x_{i}$

Линейный классификатор

Мы намерены использовать эту функцию для моделирования поведения того, что мы наблюдали из набора обучающих данных, с помощью метода линейного классификатора . Используя вектор совместных признаков , функция решения определяется как: $f(x)$ $\phi (x,y)$

f(x;w)=\arg \max _{y}w^{T}\phi (x,y)

Согласно интерпретации Мемишевича, ^[2] , которая также является , вычисляет оценку, которая измеряет совместимость входных данных с потенциальным выходом . Затем определяется класс с наибольшим количеством баллов. $w^{T}\phi (x,y)$ $c(x,y;w)$ $x$ $y$ $\arg \max$

Логистическая регрессия (LR)

Поскольку функция потерь 0–1 широко используется в теории принятия решений, условное распределение вероятностей , где — вектор параметров для оптимизации обучающих данных, для модели логистической регрессии можно пересмотреть следующим образом: $P(y|x;w)$ $w$

P(y|x;w)={\frac {1}{Z(x;w)}}\exp(w^{T}\phi (x,y))

, с

Z(x;w)=\textstyle \sum _{y}\displaystyle \exp(w^{T}\phi (x,y))

Уравнение выше представляет собой логистическую регрессию . Обратите внимание, что основное различие между моделями заключается в способе введения апостериорной вероятности. Апостериорная вероятность выводится из параметрической модели. Затем мы можем максимизировать параметр, используя следующее уравнение:

L(w)=\textstyle \sum _{i}\displaystyle \log p(y^{i}|x^{i};w)

Его также можно заменить приведенным ниже уравнением логарифмических потерь :

l^{\log }(x^{i},y^{i},c(x^{i};w))=-\log p(y^{i}|x^{i};w)=\log Z(x^{i};w)-w^{T}\phi (x^{i},y^{i})

Поскольку логарифмические потери дифференцируемы, для оптимизации модели можно использовать градиентный метод. Глобальный оптимум гарантирован, поскольку целевая функция выпукла. Градиент логарифмической вероятности представлен:

{\frac {\partial L(w)}{\partial w}}=\textstyle \sum _{i}\displaystyle \phi (x^{i},y^{i})-E_{p(y|x^{i};w)}\phi (x^{i},y)

где ожидание . $E_{p(y|x^{i};w)}$ $p(y|x^{i};w)$

Вышеупомянутый метод обеспечит эффективные вычисления для относительно небольшого количества классификаций.

Контраст с генеративной моделью

Контраст в подходах

Допустим, нам даны метки классов (классификация) и переменные функций в качестве обучающих выборок. $m$ $n$ $Y:\{y_{1},y_{2},\ldots ,y_{m}\},X:\{x_{1},x_{2},\ldots ,x_{n}\}$

Генеративная модель принимает совместную вероятность , где входные данные, а метку, и предсказывает наиболее возможную известную метку для неизвестной переменной, используя теорему Байеса . ^[3] $P(x,y)$ $x$ $y$ ${\widetilde {y}}\in Y$ ${\widetilde {x}}$

Дискриминационные модели, в отличие от генеративных , не позволяют генерировать выборки из совместного распределения наблюдаемых и целевых переменных. Однако для таких задач, как классификация и регрессия , которые не требуют совместного распределения, дискриминационные модели могут дать более высокую производительность (отчасти потому, что они требуют меньше переменных для вычисления). ^[4]^[5]^[3] С другой стороны, генеративные модели обычно более гибки, чем дискриминационные модели, при выражении зависимостей в сложных задачах обучения. Кроме того, большинство дискриминационных моделей по своей сути являются контролируемыми и не могут легко поддерживать обучение без учителя . Детали, специфичные для приложения, в конечном итоге определяют целесообразность выбора дискриминационной или генеративной модели.

Дискриминационные модели и генеративные модели также различаются введением апостериорной возможности . ^[6] Чтобы обеспечить наименьшие ожидаемые потери, необходимо минимизировать ошибочную классификацию результатов. В дискриминационной модели апостериорные вероятности выводятся из параметрической модели, где параметры берутся из обучающих данных. Точки оценки параметров получаются в результате максимизации правдоподобия или вычисления распределения по параметрам. С другой стороны, учитывая, что генеративные модели фокусируются на совместной вероятности, апостериорная возможность класса рассматривается в теореме Байеса , которая $P(y|x)$ $P(k)$

P(y|x)={\frac {p(x|y)p(y)}{\textstyle \sum _{i}p(x|i)p(i)\displaystyle }}={\frac {p(x|y)p(y)}{p(x)}}

. ^[6]

Преимущества и недостатки в применении

В повторных экспериментах здесь применяются логистическая регрессия и наивный Байес для различных моделей задачи двоичной классификации, дискриминационное обучение приводит к меньшим асимптотическим ошибкам, тогда как генеративное обучение быстрее приводит к более высоким асимптотическим ошибкам. ^[3] Однако в совместной работе Улусоя и Бишопа « Сравнение генеративных и дискриминативных методов обнаружения и классификации объектов» они утверждают, что приведенное выше утверждение верно только тогда, когда модель подходит для данных (т.е. распределение данных правильно моделируется с помощью генеративная модель).

Преимущества

Существенными преимуществами использования дискриминативного моделирования являются:

Более высокая точность, что в большинстве случаев приводит к лучшему результату обучения.
Позволяет упростить ввод и обеспечивает прямой подход к $P(y|x)$
Экономит ресурс вычислений
Генерирует меньшие асимптотические ошибки

По сравнению с преимуществами использования генеративного моделирования:

Принимает во внимание все данные, что может привести к замедлению обработки как к недостатку.
Требуется меньше обучающих выборок
Гибкая структура, которая может легко взаимодействовать с другими потребностями приложения.

Недостатки

Метод обучения обычно требует нескольких методов численной оптимизации ^[1]
Точно так же по определению, дискриминационная модель потребует сочетания нескольких подзадач для решения сложной реальной проблемы ^[2]

Оптимизации в приложениях

Поскольку оба способа моделирования имеют как преимущества, так и недостатки, сочетание обоих подходов будет хорошим практическим моделированием. Например, в статье Марраса « Совместная дискриминативная генеративная модель для построения и классификации деформируемых моделей» [ ^7] он и его соавторы применяют комбинацию двух моделей для классификации лиц моделей и получают более высокую точность, чем традиционный подход.

Аналогично, Кельм ^[8] также предложил комбинацию двух моделей для классификации пикселей в своей статье « Комбинирование генеративных и дискриминативных методов для классификации пикселей с многоусловным обучением» .

В процессе извлечения отличительных признаков перед кластеризацией анализ главных компонентов (PCA), хотя и широко используется, не обязательно является дискриминационным подходом. Напротив, LDA является дискриминационным. ^[9] Линейный дискриминантный анализ (LDA) обеспечивает эффективный способ устранения недостатка, который мы перечислили выше. Как мы знаем, дискриминативная модель требует комбинации нескольких подзадач перед классификацией, и LDA обеспечивает подходящее решение этой проблемы за счет уменьшения размерности.

Типы

Примеры дискриминативных моделей включают в себя:

Логистическая регрессия — тип обобщенной линейной регрессии , используемый для прогнозирования двоичных или категориальных результатов (также известный как классификаторы максимальной энтропии ).
Бустинг (метаалгоритм)
Условные случайные поля
Линейная регрессия
Случайные леса

Смотрите также

Генеративная модель