Дискриминационные модели , также называемые условными моделями , представляют собой класс логистических моделей, используемых для классификации или регрессии. Они различают границы принятия решений на основе наблюдаемых данных, таких как «прошел/не прошел», «выиграл/проиграл», «жив/мертв» или «здоров/болен».
Типичные дискриминационные модели включают логистическую регрессию (LR), условные случайные поля (CRF) (заданные на неориентированном графе), деревья решений и многие другие. Типичные подходы к генеративным моделям включают наивные байесовские классификаторы , модели гауссовой смеси , вариационные автокодировщики , генеративно-состязательные сети и другие.
В отличие от генеративного моделирования, которое изучает совместную вероятность , дискриминационное моделирование изучает или сопоставляет данную ненаблюдаемую переменную (цель) с меткой класса , зависящей от наблюдаемых переменных (обучающие выборки). Например, при распознавании объектов это , скорее всего, вектор необработанных пикселей (или признаков, извлеченных из необработанных пикселей изображения). В рамках вероятностной структуры это делается путем моделирования условного распределения вероятностей , которое можно использовать для прогнозирования по . Обратите внимание, что по-прежнему существует различие между условной моделью и дискриминационной моделью, хотя чаще их просто относят к дискриминационной модели.
Условная модель моделирует условное распределение вероятностей , в то время как традиционная дискриминативная модель направлена на оптимизацию сопоставления входных данных с наиболее похожими обученными выборками. [1]
Следующий подход основан на предположении, что ему дан обучающий набор данных , где соответствующий выходной сигнал для входных данных . [2]
Мы намерены использовать эту функцию для моделирования поведения того, что мы наблюдали из набора обучающих данных, с помощью метода линейного классификатора . Используя вектор совместных признаков , функция решения определяется как:
Согласно интерпретации Мемишевича, [2] , которая также является , вычисляет оценку, которая измеряет совместимость входных данных с потенциальным выходом . Затем определяется класс с наибольшим количеством баллов.
Поскольку функция потерь 0–1 широко используется в теории принятия решений, условное распределение вероятностей , где — вектор параметров для оптимизации обучающих данных, для модели логистической регрессии можно пересмотреть следующим образом:
Уравнение выше представляет собой логистическую регрессию . Обратите внимание, что основное различие между моделями заключается в способе введения апостериорной вероятности. Апостериорная вероятность выводится из параметрической модели. Затем мы можем максимизировать параметр, используя следующее уравнение:
Его также можно заменить приведенным ниже уравнением логарифмических потерь :
Поскольку логарифмические потери дифференцируемы, для оптимизации модели можно использовать градиентный метод. Глобальный оптимум гарантирован, поскольку целевая функция выпукла. Градиент логарифмической вероятности представлен:
где ожидание .
Вышеупомянутый метод обеспечит эффективные вычисления для относительно небольшого количества классификаций.
Допустим, нам даны метки классов (классификация) и переменные функций в качестве обучающих выборок.
Генеративная модель принимает совместную вероятность , где входные данные, а метку, и предсказывает наиболее возможную известную метку для неизвестной переменной, используя теорему Байеса . [3]
Дискриминационные модели, в отличие от генеративных , не позволяют генерировать выборки из совместного распределения наблюдаемых и целевых переменных. Однако для таких задач, как классификация и регрессия , которые не требуют совместного распределения, дискриминационные модели могут дать более высокую производительность (отчасти потому, что они требуют меньше переменных для вычисления). [4] [5] [3] С другой стороны, генеративные модели обычно более гибки, чем дискриминационные модели, при выражении зависимостей в сложных задачах обучения. Кроме того, большинство дискриминационных моделей по своей сути являются контролируемыми и не могут легко поддерживать обучение без учителя . Детали, специфичные для приложения, в конечном итоге определяют целесообразность выбора дискриминационной или генеративной модели.
Дискриминационные модели и генеративные модели также различаются введением апостериорной возможности . [6] Чтобы обеспечить наименьшие ожидаемые потери, необходимо минимизировать ошибочную классификацию результатов. В дискриминационной модели апостериорные вероятности выводятся из параметрической модели, где параметры берутся из обучающих данных. Точки оценки параметров получаются в результате максимизации правдоподобия или вычисления распределения по параметрам. С другой стороны, учитывая, что генеративные модели фокусируются на совместной вероятности, апостериорная возможность класса рассматривается в теореме Байеса , которая
В повторных экспериментах здесь применяются логистическая регрессия и наивный Байес для различных моделей задачи двоичной классификации, дискриминационное обучение приводит к меньшим асимптотическим ошибкам, тогда как генеративное обучение быстрее приводит к более высоким асимптотическим ошибкам. [3] Однако в совместной работе Улусоя и Бишопа « Сравнение генеративных и дискриминативных методов обнаружения и классификации объектов» они утверждают, что приведенное выше утверждение верно только тогда, когда модель подходит для данных (т.е. распределение данных правильно моделируется с помощью генеративная модель).
Существенными преимуществами использования дискриминативного моделирования являются:
По сравнению с преимуществами использования генеративного моделирования:
Поскольку оба способа моделирования имеют как преимущества, так и недостатки, сочетание обоих подходов будет хорошим практическим моделированием. Например, в статье Марраса « Совместная дискриминативная генеративная модель для построения и классификации деформируемых моделей» [ 7] он и его соавторы применяют комбинацию двух моделей для классификации лиц моделей и получают более высокую точность, чем традиционный подход.
Аналогично, Кельм [8] также предложил комбинацию двух моделей для классификации пикселей в своей статье « Комбинирование генеративных и дискриминативных методов для классификации пикселей с многоусловным обучением» .
В процессе извлечения отличительных признаков перед кластеризацией анализ главных компонентов (PCA), хотя и широко используется, не обязательно является дискриминационным подходом. Напротив, LDA является дискриминационным. [9] Линейный дискриминантный анализ (LDA) обеспечивает эффективный способ устранения недостатка, который мы перечислили выше. Как мы знаем, дискриминативная модель требует комбинации нескольких подзадач перед классификацией, и LDA обеспечивает подходящее решение этой проблемы за счет уменьшения размерности.
Примеры дискриминативных моделей включают в себя: