stringtranslate.com

Полиномиальная логистическая регрессия

В статистике полиномиальная логистическая регрессия — это метод классификации , который обобщает логистическую регрессию на многоклассовые задачи , то есть с более чем двумя возможными дискретными результатами. [1] То есть это модель, которая используется для прогнозирования вероятностей различных возможных результатов категориально распределенной зависимой переменной с учетом набора независимых переменных (которые могут быть вещественными, двоичными, категориальными). , и т. д.).

Полиномиальная логистическая регрессия известна под множеством других названий, включая политомический LR , [2] [3] мультиклассовый LR , регрессию softmax , полиномиальный логит ( mlogit ), классификатор максимальной энтропии ( MaxEnt ) и модель условной максимальной энтропии . [4]

Фон

Полиномиальная логистическая регрессия используется, когда рассматриваемая зависимая переменная является номинальной (эквивалентно категориальной , что означает, что она попадает в любую из множества категорий, которые не могут быть упорядочены каким-либо значимым образом) и для которой существует более двух категорий. Вот некоторые примеры:

Это все проблемы статистической классификации . Все они имеют общую зависимую переменную , которую нужно предсказать, которая происходит от одного из ограниченного набора элементов, которые не могут быть осмысленно упорядочены, а также набор независимых переменных (также известных как функции, объяснители и т. д.), которые используются прогнозировать зависимую переменную. Полиномиальная логистическая регрессия — это частное решение задач классификации, в котором используется линейная комбинация наблюдаемых признаков и некоторых параметров, специфичных для задачи, для оценки вероятности каждого конкретного значения зависимой переменной. Наилучшие значения параметров для конкретной задачи обычно определяются на основе некоторых данных обучения (например, некоторых людей, для которых известны как результаты диагностических тестов, так и группы крови, или некоторых примеров произнесения известных слов).

Предположения

Полиномиальная логистическая модель предполагает, что данные зависят от конкретного случая; то есть каждая независимая переменная имеет одно значение для каждого случая. Как и в случае с другими типами регрессии, нет необходимости, чтобы независимые переменные были статистически независимы друг от друга (в отличие, например, от наивного классификатора Байеса ); однако предполагается, что коллинеарность относительно низкая, поскольку в противном случае становится трудно различить влияние нескольких переменных. [5]

Если для моделирования выбора используется полиномиальный логит, он опирается на предположение о независимости нерелевантных альтернатив (IIA), что не всегда желательно. Это предположение утверждает, что вероятность предпочтения одного класса другому не зависит от наличия или отсутствия других «нерелевантных» альтернатив. Например, относительная вероятность поехать на работу на машине или автобусе не изменится, если в качестве дополнительной возможности добавить велосипед. Это позволяет моделировать выбор K альтернатив как набор K -1 независимых бинарных выборов, в которых одна альтернатива выбирается как «ось», а другая K -1 сравнивается с ней по одной. Гипотеза IIA является основной гипотезой теории рационального выбора; однако многочисленные исследования в области психологии показывают, что люди часто нарушают это предположение, делая выбор. Пример проблемного случая: выбор включает в себя автомобиль и синий автобус. Предположим, что отношение шансов между ними составляет 1:1. Теперь, если введен вариант красного автобуса, человек может быть безразличен между красным и синим автобусом и, следовательно, может показать соотношение шансов «автомобиль: синий автобус: красный автобус». 1 : 0,5 : 0,5, таким образом сохраняя соотношение автомобиль : любой автобус 1 : 1, в то время как измененное соотношение автомобиль : синий автобус составляет 1 : 0,5. Здесь вариант с красным автобусом на самом деле не имел значения, поскольку красный автобус был идеальной заменой синему автобусу.

Если для моделирования выбора используется полиномиальный логит, в некоторых ситуациях он может налагать слишком большие ограничения на относительные предпочтения между различными альтернативами. Это особенно важно принимать во внимание, если анализ направлен на то, чтобы предсказать, как изменится выбор, если одна альтернатива исчезнет (например, если один политический кандидат выйдет из гонки из трех кандидатов). Другие модели, такие как вложенный логит или полиномиальный пробит, могут использоваться в таких случаях, поскольку они допускают нарушение IIA. [6]

Модель

Введение

Существует несколько эквивалентных способов описания математической модели, лежащей в основе полиномиальной логистической регрессии. Это может затруднить сравнение различных трактовок предмета в разных текстах. В статье о логистической регрессии представлен ряд эквивалентных формулировок простой логистической регрессии, многие из которых имеют аналоги в полиномиальной логит-модели.

Идея всех них, как и многих других методов статистической классификации , заключается в построении линейной предикторной функции , которая строит оценку из набора весов, которые линейно комбинируются с объясняющими переменными (признаками) данного наблюдения с использованием скалярного произведения. :

где X i — вектор объясняющих переменных, описывающих наблюдение i , β k — вектор весов (или коэффициентов регрессии ), соответствующий результату k , а Score( X i , k ) — это оценка, связанная с отнесением наблюдения i к категории k . В теории дискретного выбора , где наблюдения представляют людей, а результаты представляют выбор, оценка считается полезностью , связанной с тем, что человек i выбирает результат k . Прогнозируемый результат – тот, который наберет наибольшее количество баллов.

Отличием полиномиальной логит-модели от множества других методов, моделей, алгоритмов и т. д. с той же базовой установкой ( алгоритм перцептрона , машины опорных векторов , линейный дискриминантный анализ и т. д.) является процедура определения (обучения) оптимальных весов. /коэффициенты и способ интерпретации оценки. В частности, в полиномиальной логит-модели оценка может быть напрямую преобразована в значение вероятности, указывающее вероятность того, что наблюдение i выберет результат k с учетом измеренных характеристик наблюдения. Это обеспечивает принципиальный способ включения прогноза конкретной полиномиальной логит-модели в более крупную процедуру, которая может включать в себя несколько таких прогнозов, каждый из которых имеет возможность ошибки. Без таких средств объединения прогнозов ошибки имеют тенденцию умножаться. Например, представьте себе большую прогностическую модель , разбитую на ряд подмоделей, где прогноз данной подмодели используется в качестве входных данных для другой подмодели, а этот прогноз, в свою очередь, используется в качестве входных данных для третьей подмодели и т. д. Если точность прогнозов каждой подмодели составляет 90 %, и имеется пять подмоделей последовательно, то общая модель имеет точность только 0,9 5 = 59 %. Если каждая подмодель имеет точность 80 %, то общая точность падает до точности 0,8 5 = 33 %. Эта проблема известна как распространение ошибок и является серьезной проблемой в реальных моделях прогнозирования, которые обычно состоят из множества частей. Прогнозирование вероятностей каждого возможного результата, а не просто создание единственного оптимального прогноза, является одним из способов решения этой проблемы. [ нужна цитата ]

Настраивать

Базовая настройка такая же, как и в логистической регрессии , с той лишь разницей, что зависимые переменные являются категориальными , а не бинарными , т. е. существует K возможных результатов, а не только два. Следующее описание несколько сокращено; Для получения более подробной информации обратитесь к статье о логистической регрессии .

Точки данных

В частности, предполагается, что у нас есть серия из N наблюдаемых точек данных. Каждая точка данных i (в диапазоне от 1 до N ) состоит из набора M объясняющих переменных x 1,i ... x M,i (также известных как независимые переменные , переменные-предикторы, признаки и т. д.) и связанной с ними категориальной переменной. результат Y i (также известный как зависимая переменная , переменная отклика), который может принимать одно из K возможных значений. Эти возможные значения представляют собой логически отдельные категории (например , различные политические партии, группы крови и т. д.) и часто описываются математически путем произвольного присвоения каждому числа от 1 до K. Объясняющие переменные и результат представляют собой наблюдаемые свойства точек данных и часто считаются возникающими в результате наблюдений N «экспериментов», хотя «эксперимент» может состоять не более чем в сборе данных. Целью полиномиальной логистической регрессии является построение модели, объясняющей взаимосвязь между объясняющими переменными и результатом, чтобы результат нового «эксперимента» мог быть правильно предсказан для новой точки данных, для которой объясняющие переменные, но не результат доступен. При этом модель пытается объяснить относительное влияние различных объясняющих переменных на результат.

Некоторые примеры:

Линейный предиктор

Как и в других формах линейной регрессии, полиномиальная логистическая регрессия использует линейную предикторную функцию для прогнозирования вероятности того, что наблюдение i имеет результат k следующей формы:

где – коэффициент регрессии , связанный с m -й объясняющей переменной и k -м результатом. Как поясняется в статье о логистической регрессии , коэффициенты регрессии и объясняющие переменные обычно группируются в векторы размера M+1 , так что предикторную функцию можно записать более компактно:

где — набор коэффициентов регрессии, связанных с результатом k , а (вектор-строка) — набор объясняющих переменных, связанных с наблюдением i .

Как набор независимых бинарных регрессий.

Чтобы прийти к полиномиальной логит-модели, можно представить для K возможных результатов запуск K независимых моделей бинарной логистической регрессии, в которых один результат выбирается в качестве «опорной точки», а затем другие K -1 исходы отдельно регрессируются относительно опорной точки. исход. Если результат K (последний результат) выбран в качестве опорного, уравнения регрессии K -1 будут следующими:

.

Эта формулировка также известна как аддитивное логарифмическое преобразование, обычно используемое при композиционном анализе данных. В других приложениях это называется «относительным риском». [7]

Если возвести в степень обе стороны и найти вероятности, мы получим:

Используя тот факт, что сумма всех K вероятностей должна равняться единице, мы находим:

.

Мы можем использовать это, чтобы найти другие вероятности:

.

Тот факт, что мы проводим множественные регрессии, показывает, почему модель опирается на предположение о независимости нерелевантных альтернатив, описанных выше.

Оценка коэффициентов

Неизвестные параметры в каждом векторе β k обычно оцениваются совместно с помощью максимальной апостериорной оценки (MAP), которая является расширением метода максимального правдоподобия с использованием регуляризации весов для предотвращения патологических решений (обычно это квадрат регуляризирующей функции, что эквивалентно помещению априорное распределение Гаусса с нулевым средним по весам, но возможны и другие распределения). Решение обычно находится с использованием итеративной процедуры, такой как обобщенное итеративное масштабирование , [8] итеративно перевзвешенный метод наименьших квадратов (IRLS), [9] с помощью алгоритмов оптимизации на основе градиента, таких как L-BFGS , [4] или с помощью специализированных координат . алгоритмы спуска . [10]

В виде лог-линейной модели

Формулировку бинарной логистической регрессии как лог-линейной модели можно напрямую распространить на многофакторную регрессию. То есть мы моделируем логарифм вероятности увидеть данный результат, используя линейный предиктор, а также дополнительный коэффициент нормализации , логарифм статистической суммы :

.

Как и в двоичном случае, нам нужен дополнительный член, чтобы гарантировать, что весь набор вероятностей образует распределение вероятностей , то есть чтобы все они в сумме давали единицу:

Причина, по которой нам нужно добавить член для обеспечения нормализации, а не умножать, как обычно, заключается в том, что мы взяли логарифм вероятностей. Возведение в степень обеих частей превращает аддитивный член в мультипликативный множитель, так что вероятность является просто мерой Гиббса :

.

Величина Z называется статистической суммой распределения. Мы можем вычислить значение статистической суммы, применив приведенное выше ограничение, которое требует, чтобы сумма всех вероятностей была равна 1:

Поэтому:

Обратите внимание, что этот фактор является «постоянным» в том смысле, что он не является функцией Y i , которая является переменной, по которой определяется распределение вероятностей. Однако он определенно не является постоянным по отношению к объясняющим переменным или, что особенно важно, по отношению к неизвестным коэффициентам регрессии β k , которые нам нужно будет определить с помощью какой-либо процедуры оптимизации .

Полученные уравнения для вероятностей имеют вид

.

Или вообще:

Следующая функция:

называется функцией softmax . Причина в том, что возведение значений в степень приводит к преувеличению различий между ними. В результате будет возвращено значение, близкое к 0, если оно значительно меньше максимального из всех значений, и будет возвращено значение, близкое к 1, если оно применено к максимальному значению, если только оно не очень близко к следующему по величине значению. Таким образом, функцию softmax можно использовать для построения взвешенного среднего , которое ведет себя как гладкая функция (которую удобно дифференцировать и т. д.) и которая аппроксимирует индикаторную функцию

Таким образом, мы можем записать уравнения вероятности в виде

Таким образом, функция softmax служит эквивалентом логистической функции в бинарной логистической регрессии.

Обратите внимание, что не все векторы коэффициентов однозначно идентифицируемы . Это связано с тем, что сумма всех вероятностей должна быть равна 1, что делает одну из них полностью определенной, как только известны все остальные. В результате существуют только отдельно определяемые вероятности и, следовательно, отдельно идентифицируемые векторы коэффициентов. Один из способов убедиться в этом — отметить, что если мы добавим постоянный вектор ко всем векторам коэффициентов, уравнения станут идентичными:

В результате обычно задается (или, альтернативно, один из других векторов коэффициентов). По сути, мы устанавливаем константу так, чтобы один из векторов стал равным 0, а все остальные векторы преобразуются в разность между этими векторами и вектором, который мы выбрали. Это эквивалентно «повороту» вокруг одного из вариантов K и изучению того, насколько лучше или хуже все остальные варианты K -1 по сравнению с выбором, вокруг которого мы вращаемся. Математически преобразуем коэффициенты следующим образом:

Это приводит к следующим уравнениям:

За исключением простых символов на коэффициентах регрессии, это точно такое же, как форма модели, описанной выше, с точки зрения независимых двусторонних регрессий K -1.

Как модель со скрытыми переменными

Также возможно сформулировать полиномиальную логистическую регрессию как модель скрытой переменной, следуя модели двусторонней скрытой переменной, описанной для бинарной логистической регрессии. Эта формулировка распространена в теории моделей дискретного выбора и упрощает сравнение полиномиальной логистической регрессии с соответствующей полиномиальной пробит- моделью, а также расширяет ее на более сложные модели.

Представьте, что для каждой точки данных i и возможного результата k=1,2,...,K существует непрерывная скрытая переменная Y i,k * (т. е. ненаблюдаемая случайная величина ), которая распределяется следующим образом:

где т.е. стандартное распределение экстремальных значений типа 1 .

Эту скрытую переменную можно рассматривать как полезность , связанную с точкой данных i , выбирающей результат k , где существует некоторая случайность в фактической величине полученной полезности, которая учитывает другие немоделированные факторы, влияющие на выбор. Затем значение фактической переменной определяется неслучайным образом на основе этих скрытых переменных (т. е. случайность переносится из наблюдаемых результатов в скрытые переменные), где результат k выбирается тогда и только тогда, когда соответствующая полезность ( значение ) больше, чем полезности всех других вариантов выбора, т. е. если полезность, связанная с результатом k, является максимальной из всех полезностей. Поскольку скрытые переменные непрерывны , вероятность того, что две из них будут иметь одно и то же значение, равна 0, поэтому мы игнорируем этот сценарий. То есть:

Или эквивалентно:

Давайте более подробно рассмотрим первое уравнение, которое можно записать следующим образом:

Здесь нужно осознать несколько вещей:

  1. В общем, если и то То есть разница двух независимых одинаково распределенных переменных с распределением экстремальных значений следует логистическому распределению , где первый параметр неважен. Это понятно, поскольку первый параметр является параметром местоположения , т. е. он сдвигает среднее значение на фиксированную величину, и если оба значения смещаются на одну и ту же величину, их разница остается той же самой. Это означает, что все реляционные утверждения, лежащие в основе вероятности данного выбора, включают логистическое распределение, что делает первоначальный выбор распределения экстремальных значений, который казался довольно произвольным, несколько более понятным.
  2. Вторым параметром в распределении экстремальных значений или логистическом распределении является параметр масштаба , такой, что если то Это означает, что эффект использования переменной ошибки с произвольным параметром масштаба вместо масштаба 1 можно компенсировать простым умножением всех векторов регрессии на тот же масштаб. Вместе с предыдущим пунктом это показывает, что использование стандартного распределения экстремальных значений (местоположение 0, масштаб 1) для переменных ошибки не влечет за собой потери общности по сравнению с использованием произвольного распределения экстремальных значений. Фактически, модель неидентифицируема ( нет единого набора оптимальных коэффициентов), если используется более общее распределение.
  3. Поскольку используются только разности векторов коэффициентов регрессии, добавление произвольной константы ко всем векторам коэффициентов не влияет на модель. Это означает, что, как и в лог-линейной модели, идентифицируемы только K -1 векторов коэффициентов, а последнему можно присвоить произвольное значение (например, 0).

На самом деле нахождение значений вышеупомянутых вероятностей довольно сложно и представляет собой проблему вычисления статистики определенного порядка (первого, т.е. максимального) набора значений. Однако можно показать, что полученные выражения такие же, как и в приведенных выше формулировках, т.е. они эквивалентны.

Оценка перехвата

При использовании полиномиальной логистической регрессии одна категория зависимой переменной выбирается в качестве эталонной категории. Отдельные отношения шансов определяются для всех независимых переменных для каждой категории зависимой переменной, за исключением эталонной категории, которая исключается из анализа. Экспоненциальный коэффициент бета представляет собой изменение шансов нахождения зависимой переменной в определенной категории по сравнению с эталонной категорией, связанное с изменением на одну единицу соответствующей независимой переменной.


Функция правдоподобия

Наблюдаемые значения объясняемых переменных рассматриваются как реализации стохастически независимых, категориально распределенных случайных величин .

Функция правдоподобия для этой модели определяется следующим образом:

где индекс обозначает наблюдения от 1 до n, а индекс обозначает классы от 1 до K. Это дельта Кронекера.

Таким образом, отрицательная логарифмическая функция правдоподобия представляет собой хорошо известную перекрестную энтропию:

Применение в обработке естественного языка

При обработке естественного языка полиномиальные LR-классификаторы обычно используются в качестве альтернативы наивным классификаторам Байеса, поскольку они не предполагают статистическую независимость случайных величин (обычно называемых признаками ), которые служат предикторами. Однако обучение в такой модели происходит медленнее, чем в простом классификаторе Байеса, и поэтому может оказаться неприемлемым, если необходимо изучить очень большое количество классов. В частности, обучение в классификаторе Наивного Байеса представляет собой простой вопрос подсчета количества совместных совпадений признаков и классов, в то время как в классификаторе с максимальной энтропией веса, которые обычно максимизируются с использованием максимальной апостериорной оценки (MAP), должны обучаться с помощью итеративной процедуры; см. #Оценка коэффициентов.

Смотрите также

Рекомендации

  1. ^ Грин, Уильям Х. (2012). Эконометрический анализ (Седьмое изд.). Бостон: Pearson Education. стр. 803–806. ISBN 978-0-273-75356-8.
  2. ^ Энгель, Дж. (1988). «Политомическая логистическая регрессия». Статистика Неерландики . 42 (4): 233–252. doi :10.1111/j.1467-9574.1988.tb01238.x.
  3. ^ Менар, Скотт (2002). Прикладной логистический регрессионный анализ . МУДРЕЦ. п. 91. ИСБН 9780761922087.
  4. ^ Аб Малуф, Роберт (2002). Сравнение алгоритмов оценки параметров максимальной энтропии (PDF) . Шестая Конф. по изучению естественного языка (CoNLL). стр. 49–55.
  5. ^ Белсли, Дэвид (1991). Диагностика обусловленности: коллинеарность и слабые данные в регрессии . Нью-Йорк: Уайли. ISBN 9780471528890.
  6. ^ Балтас, Г.; Дойл, П. (2001). «Случайные полезные модели в маркетинговых исследованиях: опрос». Журнал бизнес-исследований . 51 (2): 115–125. дои : 10.1016/S0148-2963(99)00058-2.
  7. ^ Руководство по статистике «mlogit — Полиномиальная (политомная) логистическая регрессия»
  8. ^ Дэррок, Дж. Н. и Рэтклифф, Д. (1972). «Обобщенное итеративное масштабирование для лог-линейных моделей». Анналы математической статистики . 43 (5): 1470–1480. дои : 10.1214/aoms/1177692379 .
  9. ^ Бишоп, Кристофер М. (2006). Распознавание образов и машинное обучение . Спрингер. стр. 206–209.
  10. ^ Ю, Сян-Фу; Хуан, Фан-Лань; Линь, Чи-Джен (2011). «Методы спуска по двойным координатам для моделей логистической регрессии и максимальной энтропии» (PDF) . Машинное обучение . 85 (1–2): 41–75. дои : 10.1007/s10994-010-5221-8 .