stringtranslate.com

Мультиномиальная логистическая регрессия

В статистике полиномиальная логистическая регрессия — это метод классификации , который обобщает логистическую регрессию на многоклассовые задачи , т. е. с более чем двумя возможными дискретными исходами. [1] То есть, это модель, которая используется для прогнозирования вероятностей различных возможных исходов категориально распределенной зависимой переменной , учитывая набор независимых переменных (которые могут иметь действительные значения, двоичные значения, категориальные значения и т. д.).

Мультиномиальная логистическая регрессия известна под множеством других названий, включая политомическую LR , [2] [3] мультиклассовую LR , softmax -регрессию , мультиномиальную логит-регрессию ( mlogit ), классификатор с максимальной энтропией ( MaxEnt ) и условную модель с максимальной энтропией . [4]

Фон

Мультиномиальная логистическая регрессия используется, когда рассматриваемая зависимая переменная является номинальной (эквивалентно категориальной , что означает, что она попадает в любую из категорий, которые не могут быть упорядочены каким-либо осмысленным образом) и для которой существует более двух категорий. Вот несколько примеров:

Все это проблемы статистической классификации . Все они имеют общую зависимую переменную , которую нужно предсказать, которая исходит из одного из ограниченного набора элементов, которые не могут быть осмысленно упорядочены, а также набор независимых переменных (также известных как признаки, пояснители и т. д.), которые используются для предсказания зависимой переменной. Мультиномиальная логистическая регрессия является частным решением проблем классификации, которые используют линейную комбинацию наблюдаемых признаков и некоторые специфичные для проблемы параметры для оценки вероятности каждого конкретного значения зависимой переменной. Наилучшие значения параметров для данной проблемы обычно определяются из некоторых обучающих данных (например, некоторые люди, для которых известны как результаты диагностических тестов, так и группы крови, или некоторые примеры известных произносимых слов).

Предположения

Мультиномиальная логистическая модель предполагает, что данные являются специфичными для каждого случая; то есть каждая независимая переменная имеет единственное значение для каждого случая. Как и в случае с другими типами регрессии, нет необходимости в том, чтобы независимые переменные были статистически независимы друг от друга (в отличие, например, от наивного байесовского классификатора ); однако предполагается, что коллинеарность относительно низкая, поскольку становится трудно дифференцировать влияние нескольких переменных, если это не так. [5]

Если мультиномиальный логит используется для моделирования выбора, он опирается на предположение о независимости нерелевантных альтернатив (IIA), что не всегда желательно. Это предположение утверждает, что шансы предпочесть один класс другому не зависят от наличия или отсутствия других «нерелевантных» альтернатив. Например, относительные вероятности поездки на работу на машине или автобусе не меняются, если в качестве дополнительной возможности добавляется велосипед. Это позволяет моделировать выбор K альтернатив как набор из K  − 1 независимых бинарных выборов, в котором одна альтернатива выбирается в качестве «осевой», а другая K  − 1 сравнивается с ней по одному за раз. Гипотеза IIA является основной гипотезой в теории рационального выбора; однако многочисленные исследования в области психологии показывают, что люди часто нарушают это предположение при принятии решений. Пример проблемного случая возникает, если выбор включает машину и синий автобус. Предположим, что отношение шансов между ними составляет 1 : 1. Теперь, если вводится вариант красного автобуса, человек может быть безразличен между красным и синим автобусом, и, следовательно, может продемонстрировать отношение шансов автомобиль : синий автобус : красный автобус 1 : 0,5 : 0,5, таким образом сохраняя соотношение 1 : 1 автомобиль : любой автобус, принимая измененное соотношение автомобиль : синий автобус 1 : 0,5. Здесь вариант красного автобуса на самом деле не был нерелевантным, потому что красный автобус был идеальной заменой синего автобуса.

Если мультиномиальный логит используется для моделирования выборов, в некоторых ситуациях он может накладывать слишком много ограничений на относительные предпочтения между различными альтернативами. Это особенно важно учитывать, если анализ направлен на прогнозирование того, как изменится выбор, если одна альтернатива исчезнет (например, если один политический кандидат снимается с гонки из трех кандидатов). В таких случаях могут использоваться другие модели, такие как вложенный логит или мультиномиальный пробит , поскольку они допускают нарушение ИИС. [6]

Модель

Введение

Существует несколько эквивалентных способов описания математической модели, лежащей в основе полиномиальной логистической регрессии. Это может затруднить сравнение различных трактовок предмета в разных текстах. Статья о логистической регрессии представляет ряд эквивалентных формулировок простой логистической регрессии, и многие из них имеют аналоги в полиномиальной логит-модели.

Идея, лежащая в основе всех этих методов, как и во многих других статистических методах классификации, заключается в построении линейной предикторной функции , которая выстраивает оценку на основе набора весов, линейно объединенных с объясняющими переменными (признаками) данного наблюдения с использованием скалярного произведения :

где X i — вектор объясняющих переменных, описывающих наблюдение i , β k — вектор весов (или коэффициентов регрессии ), соответствующих результату k , а score( X i , k ) — это оценка, связанная с отнесением наблюдения i к категории k . В теории дискретного выбора , где наблюдения представляют людей, а результаты представляют выборы, оценка считается полезностью , связанной с выбором человеком i результата k . Прогнозируемый результат — это результат с наивысшей оценкой.

Разница между моделью мультиномиального логита и многочисленными другими методами, моделями, алгоритмами и т. д. с той же базовой настройкой ( алгоритм персептрона , машины опорных векторов , линейный дискриминантный анализ и т. д.) заключается в процедуре определения (обучения) оптимальных весов/коэффициентов и способе интерпретации оценки. В частности, в модели мультиномиального логита оценка может быть напрямую преобразована в значение вероятности, указывающее вероятность выбора наблюдения i результата k с учетом измеренных характеристик наблюдения. Это обеспечивает принципиальный способ включения прогноза конкретной модели мультиномиального логита в более крупную процедуру, которая может включать несколько таких прогнозов, каждый из которых может содержать ошибку. Без таких средств объединения прогнозов ошибки имеют тенденцию множиться. Например, представьте себе большую предсказательную модель , разбитую на ряд подмоделей, где прогноз данной подмодели используется в качестве входных данных другой подмодели, а этот прогноз, в свою очередь, используется в качестве входных данных третьей подмодели и т. д. Если каждая подмодель имеет 90% точности в своих прогнозах, и есть пять подмоделей в серии, то общая модель имеет только 0,9 5 = 59% точности. Если каждая подмодель имеет 80% точности, то общая точность падает до 0,8 5 = 33% точности. Эта проблема известна как распространение ошибок и является серьезной проблемой в реальных предсказательных моделях, которые обычно состоят из множества частей. Прогнозирование вероятностей каждого возможного результата, а не просто создание одного оптимального прогноза, является одним из способов решения этой проблемы. [ необходима цитата ]

Настраивать

Базовая установка та же, что и в логистической регрессии , единственное отличие в том, что зависимые переменные категориальные , а не бинарные , т.е. существует K возможных результатов, а не только два. Следующее описание несколько сокращено; для получения более подробной информации обратитесь к статье о логистической регрессии .

Точки данных

В частности, предполагается, что у нас есть ряд из N наблюдаемых точек данных. Каждая точка данных i (в диапазоне от 1 до N ) состоит из набора M объясняющих переменных x 1, i ... x M,i (также известных как независимые переменные , предикторные переменные , признаки и т. д.) и связанного категориального результата Y i (также известного как зависимая переменная , переменная отклика), который может принимать одно из K возможных значений. Эти возможные значения представляют логически отдельные категории (например, разные политические партии, группы крови и т. д.) и часто описываются математически путем произвольного присвоения каждой числа от 1 до K . Объясняющие переменные и результат представляют наблюдаемые свойства точек данных и часто рассматриваются как возникающие в наблюдениях N «экспериментов» — хотя «эксперимент» может состоять не более чем из сбора данных. Целью мультиномиальной логистической регрессии является построение модели, которая объясняет связь между объясняющими переменными и результатом, так что результат нового «эксперимента» может быть правильно предсказан для новой точки данных, для которой доступны объясняющие переменные, но не результат. В процессе модель пытается объяснить относительное влияние различных объясняющих переменных на результат.

Вот несколько примеров:

Линейный предиктор

Как и в других формах линейной регрессии, полиномиальная логистическая регрессия использует линейную предикторную функцию для прогнозирования вероятности того, что наблюдение i имеет результат k , в следующей форме:

где — коэффициент регрессии, связанный с m -й объясняющей переменной и k -м результатом. Как поясняется в статье о логистической регрессии , коэффициенты регрессии и объясняющие переменные обычно группируются в векторы размера M  + 1, так что функцию-предиктор можно записать более компактно:

где — набор коэффициентов регрессии, связанных с результатом k , а (вектор-строка) — набор объясняющих переменных, связанных с наблюдением i , с добавленной к записи 1 в начале 0.

Как набор независимых бинарных регрессий

Чтобы прийти к мультиномиальной логит-модели, можно представить, для K возможных результатов, запуск K независимых бинарных логистических регрессионных моделей, в которых один результат выбирается в качестве «осевого», а затем другие K  − 1 результатов отдельно регрессируются против опорного результата. Если результат K (последний результат) выбирается в качестве опорного, уравнения регрессии K  − 1 будут следующими:

.

Эта формулировка также известна как преобразование аддитивного логарифмического отношения , обычно используемое в композиционном анализе данных. В других приложениях она называется «относительным риском». [7]

Если мы возведем обе части в степень и решим для вероятностей, то получим:

Используя тот факт, что все K вероятностей должны в сумме давать единицу, находим:

Мы можем использовать это для нахождения других вероятностей:

.

Тот факт, что мы проводим множественные регрессии, показывает, почему модель основана на предположении о независимости нерелевантных альтернатив, описанном выше.

Оценка коэффициентов

Неизвестные параметры в каждом векторе β k обычно совместно оцениваются с помощью оценки максимального апостериорного (MAP) значения, которая является расширением максимального правдоподобия с использованием регуляризации весов для предотвращения патологических решений (обычно квадратичной регуляризирующей функции, которая эквивалентна размещению гауссовского априорного распределения с нулевым средним на весах, но возможны и другие распределения). Решение обычно находится с помощью итеративной процедуры, такой как обобщенное итеративное масштабирование , [8] итеративно перевзвешенные наименьшие квадраты (IRLS), [9] с помощью алгоритмов оптимизации на основе градиента, таких как L-BFGS , [4] или специализированных алгоритмов спуска по координатам . [10]

Как лог-линейная модель

Формулировка бинарной логистической регрессии как логлинейной модели может быть напрямую расширена до многофакторной регрессии. То есть, мы моделируем логарифм вероятности увидеть заданный выход, используя линейный предиктор, а также дополнительный фактор нормализации , логарифм функции разделения :

Как и в двоичном случае, нам нужен дополнительный член, чтобы гарантировать, что весь набор вероятностей образует распределение вероятностей , т.е. чтобы все они в сумме давали единицу:

Причина, по которой нам нужно добавить член для обеспечения нормализации, а не умножать, как обычно, заключается в том, что мы взяли логарифм вероятностей. Возведение в степень обеих сторон превращает аддитивный член в мультипликативный множитель, так что вероятность — это просто мера Гиббса :

Величина Z называется функцией распределения . Мы можем вычислить значение функции распределения, применив указанное выше ограничение, которое требует, чтобы все вероятности в сумме давали 1:

Поэтому

Обратите внимание, что этот фактор является «константным» в том смысле, что он не является функцией Y i , которая является переменной, по которой определяется распределение вероятностей. Однако он определенно не является константой по отношению к объясняющим переменным или, что особенно важно, по отношению к неизвестным коэффициентам регрессии β k , которые нам нужно будет определить с помощью некоторой процедуры оптимизации .

Полученные уравнения для вероятностей следующие:

Или в общем:

Следующая функция:

называется функцией softmax . Причина в том, что эффект возведения значений в степень заключается в преувеличении различий между ними. В результате будет возвращать значение, близкое к 0, когда значительно меньше максимального из всех значений, и будет возвращать значение, близкое к 1, когда применяется к максимальному значению, если только оно не очень близко к следующему по величине значению. Таким образом, функцию softmax можно использовать для построения взвешенного среднего , которое ведет себя как гладкая функция (которую можно удобно дифференцировать и т. д.) и которое аппроксимирует функцию индикатора

Таким образом, мы можем записать уравнения вероятности как

Таким образом, функция softmax служит эквивалентом логистической функции в бинарной логистической регрессии.

Обратите внимание, что не все векторы коэффициентов однозначно идентифицируемы . Это связано с тем, что все вероятности должны быть в сумме равны 1, что делает одну из них полностью определенной после того, как все остальные известны. В результате существуют только отдельно определяемые вероятности, и, следовательно, отдельно идентифицируемые векторы коэффициентов. Один из способов увидеть это — заметить, что если мы добавим постоянный вектор ко всем векторам коэффициентов, то уравнения будут идентичны:

В результате принято устанавливать (или, в качестве альтернативы, один из других векторов коэффициентов). По сути, мы устанавливаем константу так, чтобы один из векторов стал равен 0, а все остальные векторы трансформировались в разницу между этими векторами и выбранным нами вектором. Это эквивалентно «повороту» вокруг одного из вариантов K и изучению того, насколько лучше или хуже все остальные варианты K  − 1 относительно выбора, вокруг которого мы делаем поворот. Математически мы преобразуем коэффициенты следующим образом:

Это приводит к следующим уравнениям:

За исключением штрихов у коэффициентов регрессии, это в точности то же самое, что и форма модели, описанная выше, в терминах K  − 1 независимых двусторонних регрессий.

Как модель скрытых переменных

Также возможно сформулировать многочленную логистическую регрессию как модель скрытой переменной, следуя двухфакторной модели скрытой переменной, описанной для бинарной логистической регрессии. Эта формулировка распространена в теории моделей дискретного выбора и упрощает сравнение многочленной логистической регрессии с соответствующей многочленной пробит- моделью, а также ее распространение на более сложные модели.

Представьте себе, что для каждой точки данных i и возможного результата k  = 1,2,..., K существует непрерывная скрытая переменная Y i,k * (т.е. ненаблюдаемая случайная величина ), которая распределена следующим образом:

где т.е. стандартное распределение экстремальных значений типа 1 .

Эту скрытую переменную можно рассматривать как полезность, связанную с точкой данных i, выбирающей результат k , где есть некоторая случайность в фактическом количестве полученной полезности, которая учитывает другие немоделированные факторы, которые входят в выбор. Значение фактической переменной затем определяется неслучайным образом из этих скрытых переменных (т. е. случайность была перемещена из наблюдаемых результатов в скрытые переменные), где результат k выбирается тогда и только тогда, когда связанная полезность (значение ) больше полезностей всех других выборов, т. е. если полезность, связанная с результатом k, является максимальной из всех полезностей. Поскольку скрытые переменные непрерывны , вероятность того, что две имеют точно такое же значение, равна 0, поэтому мы игнорируем сценарий. То есть:

Или эквивалентно:

Давайте более подробно рассмотрим первое уравнение, которое можно записать следующим образом:

Здесь нужно осознать несколько вещей:

  1. В общем, если и то То есть, разность двух независимых одинаково распределенных экстремально-значимых переменных следует логистическому распределению , где первый параметр не важен. Это понятно, поскольку первый параметр является параметром местоположения , т.е. он сдвигает среднее значение на фиксированную величину, и если два значения оба сдвигаются на одинаковую величину, их разность остается прежней. Это означает, что все реляционные утверждения, лежащие в основе вероятности данного выбора, включают логистическое распределение, что делает первоначальный выбор распределения экстремальных значений, который казался довольно произвольным, несколько более понятным.
  2. Вторым параметром в распределении экстремальных значений или логистическом распределении является параметр масштаба , такой что если то Это означает, что эффект использования переменной ошибки с произвольным параметром масштаба вместо масштаба 1 можно компенсировать просто путем умножения всех векторов регрессии на тот же масштаб. Вместе с предыдущим пунктом это показывает, что использование стандартного распределения экстремальных значений (местоположение 0, масштаб 1) для переменных ошибки не влечет за собой потери общности по сравнению с использованием произвольного распределения экстремальных значений. Фактически, модель неидентифицируема ( нет единого набора оптимальных коэффициентов), если используется более общее распределение.
  3. Поскольку используются только разности векторов коэффициентов регрессии, добавление произвольной константы ко всем векторам коэффициентов не оказывает никакого влияния на модель. Это означает, что, как и в логлинейной модели, только K  − 1 векторов коэффициентов идентифицируемы, а последний может быть установлен в произвольное значение (например, 0).

На самом деле, нахождение значений вышеприведенных вероятностей является довольно сложным и представляет собой проблему вычисления статистики определенного порядка (первого, т.е. максимального) набора значений. Однако можно показать, что результирующие выражения такие же, как в приведенных выше формулировках, т.е. они эквивалентны.

Оценка перехвата

При использовании мультиномиальной логистической регрессии одна категория зависимой переменной выбирается в качестве референтной категории. Отдельные коэффициенты шансов определяются для всех независимых переменных для каждой категории зависимой переменной, за исключением референтной категории, которая исключается из анализа. Экспоненциальный бета-коэффициент представляет собой изменение шансов нахождения зависимой переменной в определенной категории по сравнению с референтной категорией, связанное с изменением на одну единицу соответствующей независимой переменной.

Функция правдоподобия

Наблюдаемые значения объясняемых переменных рассматриваются как реализации стохастически независимых, категориально распределенных случайных величин .

Функция правдоподобия для этой модели определяется как

где индекс обозначает наблюдения от 1 до n , а индекс обозначает классы от 1 до K. — дельта Кронекера .

Таким образом, отрицательная логарифмическая функция правдоподобия представляет собой хорошо известную перекрестную энтропию:

Применение в обработке естественного языка

При обработке естественного языка мультиномиальные LR-классификаторы обычно используются в качестве альтернативы наивным байесовским классификаторам , поскольку они не предполагают статистической независимости случайных величин (обычно называемых признаками ), которые служат предикторами. Однако обучение в такой модели происходит медленнее, чем для наивного байесовского классификатора, и, таким образом, может быть нецелесообразным при очень большом количестве классов для обучения. В частности, обучение в наивном байесовском классификаторе сводится к простому подсчету количества совместных появлений признаков и классов, в то время как в классификаторе с максимальной энтропией веса, которые обычно максимизируются с использованием оценки максимума апостериорного (MAP), должны быть обучены с использованием итеративной процедуры; см. #Оценка коэффициентов.

Смотрите также

Ссылки

  1. ^ Грин, Уильям Х. (2012). Эконометрический анализ (седьмое изд.). Бостон: Pearson Education. стр. 803–806. ISBN 978-0-273-75356-8.
  2. ^ Энгель, Дж. (1988). «Политомическая логистическая регрессия». Statistica Neerlandica . 42 (4): 233–252. doi :10.1111/j.1467-9574.1988.tb01238.x.
  3. ^ Менард, Скотт (2002). Прикладной логистический регрессионный анализ . SAGE. стр. 91. ISBN 9780761922087.
  4. ^ ab Малуф, Роберт (2002). Сравнение алгоритмов оценки параметра максимальной энтропии (PDF) . Шестая конференция по изучению естественного языка (CoNLL). стр. 49–55.
  5. ^ Белсли, Дэвид (1991). Диагностика обусловленности: коллинеарность и слабые данные в регрессии . Нью-Йорк: Wiley. ISBN 9780471528890.
  6. ^ Балтас, Г.; Дойл, П. (2001). «Случайные полезные модели в маркетинговых исследованиях: обзор». Журнал бизнес-исследований . 51 (2): 115–125. doi :10.1016/S0148-2963(99)00058-2.
  7. ^ Stata Manual «mlogit — Мультиномиальная (политомическая) логистическая регрессия»
  8. ^ Даррох, Дж. Н. и Рэтклифф, Д. (1972). «Обобщенное итеративное масштабирование для логарифмически линейных моделей». Анналы математической статистики . 43 (5): 1470–1480. doi : 10.1214/aoms/1177692379 .
  9. ^ Бишоп, Кристофер М. (2006). Распознавание образов и машинное обучение . Springer. С. 206–209.
  10. ^ Юй, Сян-Фу; Хуан, Фан-Лань; Линь, Чи-Джен (2011). «Методы спуска по двум координатам для моделей логистической регрессии и максимальной энтропии» (PDF) . Машинное обучение . 85 (1–2): 41–75. doi : 10.1007/s10994-010-5221-8 .