stringtranslate.com

Перекрестная энтропия

В теории информации перекрестная энтропия между двумя распределениями вероятностей и по одному и тому же базовому набору событий измеряет среднее количество битов , необходимых для идентификации события, взятого из набора, если схема кодирования, используемая для набора, оптимизирована для предполагаемого распределения вероятностей. , а не истинное распределение .

Определение

Перекрестная энтропия распределения относительно распределения по заданному набору определяется следующим образом:

,

где – оператор ожидаемого значения относительно распределения .

Определение может быть сформулировано с использованием дивергенции Кульбака – Лейблера , дивергенции от ( также известной как относительная энтропия относительно ).

где энтропия . _ _

Для дискретных распределений вероятностей и с тем же носителем это означает

Аналогичная ситуация и для непрерывных распределений. Приходится предполагать, что и абсолютно непрерывны относительно некоторой эталонной меры (обычно это мера Лебега на борелевской σ-алгебре ). Пусть и – функции плотности вероятности и относительно . Затем

и поэтому

Примечание: это обозначение также используется для другого понятия — совместной энтропии и .

Мотивация

В теории информации теорема Крафта -Макмиллана устанавливает, что любая непосредственно декодируемая схема кодирования сообщения для идентификации одного значения из набора возможностей может рассматриваться как представление неявного распределения вероятностей по , где длина кода для в биты. Следовательно, перекрестную энтропию можно интерпретировать как ожидаемую длину сообщения на единицу данных, когда предполагается неправильное распределение, в то время как данные фактически следуют распределению . Вот почему ожидание принимается за истинное распределение вероятностей, а не за . Действительно, ожидаемая длина сообщения при истинном распределении равна

Оценка

Существует много ситуаций, когда необходимо измерить перекрестную энтропию, но ее распределение неизвестно. Примером может служить языковое моделирование , при котором модель создается на основе обучающего набора , а затем на тестовом наборе измеряется ее перекрестная энтропия, чтобы оценить, насколько точна модель в прогнозировании тестовых данных. В этом примере — истинное распределение слов в любом корпусе, а также распределение слов, предсказанное моделью. Поскольку истинное распределение неизвестно, перекрестную энтропию невозможно вычислить напрямую. В этих случаях оценка перекрестной энтропии рассчитывается по следующей формуле:

где — размер тестового набора, а — вероятность события, оцененная на основе обучающего набора. Другими словами, это оценка вероятности модели, что i-е слово текста равно . Сумма усредняется по словам теста. Это оценка истинной перекрестной энтропии методом Монте-Карло , где тестовый набор рассматривается как образцы из [ необходима цитация ] .

Отношение к максимальной вероятности

Перекрестная энтропия возникает в задачах классификации при введении логарифма под видом функции логарифма правдоподобия .

Раздел посвящен теме оценки вероятности различных возможных дискретных исходов. Для этого обозначим параметризованное семейство распределений через , с учетом усилий по оптимизации. Рассмотрим заданную конечную последовательность значений обучающего набора, полученную в результате условно независимой выборки. Вероятность, присвоенная любому рассматриваемому параметру модели, затем определяется произведением всех вероятностей . Возможны повторения, приводящие к равным коэффициентам в продукте. Если количество вхождений значения, равного (для некоторого индекса ), обозначено , то частота этого значения равна . Обозначим последнее через , поскольку его можно понимать как эмпирическую аппроксимацию распределения вероятностей, лежащего в основе сценария. Далее обозначаем недоумением , которое можно увидеть равным по правилам вычисления логарифма , и где произведение превышает значения без двойного счета . Так

или

Поскольку логарифм является монотонной возрастающей функцией, он не влияет на экстремизацию. Итак, заметьте, что максимизация правдоподобия означает минимизацию перекрестной энтропии.

Минимизация перекрестной энтропии

Минимизация перекрестной энтропии часто используется при оптимизации и оценке вероятности редких событий. При сравнении распределения с фиксированным эталонным распределением кросс-энтропия и расхождение KL идентичны с точностью до аддитивной константы (поскольку она фиксирована): Согласно неравенству Гиббса , оба принимают свои минимальные значения, когда , что соответствует расхождению KL, и для перекрестной энтропии. В инженерной литературе принцип минимизации KL-дивергенции (« Принцип минимальной дискриминационной информации » Кульбака ) часто называют принципом минимальной перекрестной энтропии (MCE), или Minxent .

Однако, как обсуждалось в статье « Расхождение Кульбака – Лейблера» , иногда распределение представляет собой фиксированное априорное эталонное распределение, и распределение оптимизируется так , чтобы оно было как можно ближе к нему с учетом некоторых ограничений. В этом случае две минимизации не эквивалентны. Это привело к некоторой двусмысленности в литературе: некоторые авторы пытались разрешить это несоответствие, вновь заявив, что кросс-энтропия равна , а не . Фактически, перекрестная энтропия — это другое название относительной энтропии ; см. Ковер и Томас [1] и Гуд. [2] С другой стороны, не согласуется с литературой и может вводить в заблуждение.

Функция перекрестных энтропийных потерь и логистическая регрессия

Перекрестная энтропия может использоваться для определения функции потерь в машинном обучении и оптимизации . Мао, Мори и Чжун (2023) дают обширный анализ свойств семейства функций перекрестных энтропийных потерь в машинном обучении, включая теоретические гарантии обучения и расширения состязательного обучения. [3] Истинная вероятность — это истинная метка, а данное распределение — это прогнозируемое значение текущей модели. Это также известно как логарифмические потери (или логарифмические потери [4] или логистические потери ); [5] термины «логарифмические потери» и «перекрестные энтропийные потери» используются как взаимозаменяемые. [6]

Более конкретно, рассмотрим модель бинарной регрессии , которую можно использовать для классификации наблюдений на два возможных класса (часто обозначаемых просто и ). Выходные данные модели для данного наблюдения с учетом вектора входных признаков можно интерпретировать как вероятность, которая служит основой для классификации наблюдения. В логистической регрессии вероятность моделируется с использованием логистической функции где — некоторая функция входного вектора , обычно просто линейная функция. Вероятность выхода определяется выражением

где вектор весов оптимизируется с помощью подходящего алгоритма, такого как градиентный спуск . Аналогично, дополнительная вероятность обнаружения результата просто определяется выражением

Настроив наши обозначения и , мы можем использовать перекрестную энтропию, чтобы получить меру несходства между и :

На графике показаны различные функции потерь, которые можно использовать для обучения двоичного классификатора. Показан только случай, когда целевой выход равен 1. Замечено, что потери равны нулю, когда целевое значение равно выходному значению, и увеличиваются по мере того, как выходные данные становятся все более неверными.

Логистическая регрессия обычно оптимизирует потери журнала для всех наблюдений, на которых она обучается, что аналогично оптимизации средней перекрестной энтропии в выборке. Для обучения также можно использовать другие функции потерь, которые по-разному наказывают за ошибки, в результате чего получаются модели с различной точностью окончательного теста. [7] Например, предположим, что у нас есть образцы, каждый из которых индексируется . Среднее значение функции потерь тогда определяется следующим образом:

где , с логистической функцией, как и раньше.

Логистические потери иногда называют кросс-энтропийными потерями. Это также известно как потеря журнала. [ дублирование? ] (В этом случае двоичная метка часто обозначается {−1,+1}. [8] )

Примечание. Градиент потери перекрестной энтропии для логистической регрессии такой же, как градиент потери квадрата ошибки для линейной регрессии . То есть определить

Тогда у нас есть результат

Доказательство состоит в следующем. Для любого у нас есть

Подобным образом мы в конечном итоге получаем желаемый результат.

Смотрите также

Рекомендации

  1. ^ Томас М. Ковер, Джой А. Томас, Элементы теории информации, 2-е издание, Wiley, с. 80
  2. ^ И. Дж. Гуд, Максимальная энтропия для формулирования гипотез, особенно для многомерных таблиц непредвиденных обстоятельств, Ann. математики. Статистика, 1963 г.
  3. ^ Аньци Мао, Мехриар Мори, Ютао Чжун. Функции перекрестных энтропийных потерь: теоретический анализ и приложения. ICML 2023. https://arxiv.org/pdf/2304.07288.pdf.
  4. ^ Математика кодирования, извлечения и распространения информации , Джордж Цибенко, Дайанна П. О'Лири, Йорма Риссанен, 1999, с. 82
  5. ^ Вероятность для машинного обучения: узнайте, как использовать неопределенность с помощью Python , Джейсон Браунли, 2019, стр. 220: «Логистические потери относятся к функции потерь, обычно используемой для оптимизации модели логистической регрессии. Ее также можно называть логарифмическими потерями (что сбивает с толку) или просто логарифмическими потерями».
  6. ^ sklearn.metrics.log_loss
  7. ^ Ноэль, Мэтью; Банерджи, Ариндам; Д, Джеральдин Бесси Амали; Мутиа-Накараджан, Венкатараман (17 марта 2023 г.). «Альтернативные функции потерь для классификации и устойчивой регрессии могут повысить точность искусственных нейронных сетей». arXiv : 2303.09935 . {{cite journal}}: Требуется цитировать журнал |journal=( помощь )
  8. ^ Мерфи, Кевин (2012). Машинное обучение: вероятностный взгляд . Массачусетский технологический институт. ISBN 978-0262018029.

дальнейшее чтение