В статистике логистическая модель (или логит-модель ) — это статистическая модель , которая моделирует логарифмические шансы события как линейную комбинацию одной или нескольких независимых переменных . В регрессионном анализе логистическая регрессия [1] (или логит-регрессия ) оценивает параметры логистической модели (коэффициенты в линейных или нелинейных комбинациях). В бинарной логистической регрессии есть одна бинарная зависимая переменная , кодируемая индикаторной переменной , где два значения помечены как «0» и «1», в то время как независимые переменные могут быть как бинарными переменными (два класса, кодируемые индикаторной переменной), так и непрерывными переменными (любое действительное значение). Соответствующая вероятность значения, помеченного как «1», может варьироваться от 0 (конечно, значение «0») до 1 (конечно, значение «1»), отсюда и маркировка; [2] функция, которая преобразует логарифмические шансы в вероятность, — это логистическая функция , отсюда и название. Единица измерения для шкалы логарифмических шансов называется логит , от log istic un it , отсюда и альтернативные названия. См. § Предыстория и § Определение для формальной математики, и § Пример для рабочего примера.
Бинарные переменные широко используются в статистике для моделирования вероятности наступления определенного класса или события, например, вероятности победы команды, здоровья пациента и т. д. (см. § Приложения), а логистическая модель является наиболее часто используемой моделью для бинарной регрессии примерно с 1970 года. [3] Бинарные переменные могут быть обобщены до категориальных переменных , когда существует более двух возможных значений (например, является ли изображение кошкой, собакой, львом и т. д.), а бинарная логистическая регрессия может быть обобщена до полиномиальной логистической регрессии . Если упорядочены множественные категории , можно использовать порядковую логистическую регрессию (например, порядковую логистическую модель пропорциональных шансов [4] ). См. § Расширения для получения дополнительных расширений. Сама по себе модель логистической регрессии просто моделирует вероятность выходных данных с точки зрения входных данных и не выполняет статистическую классификацию (она не является классификатором), хотя ее можно использовать для создания классификатора, например, выбрав пороговое значение и классифицируя входные данные с вероятностью, большей порогового значения, как один класс, а с вероятностью меньше порогового значения — как другой; это распространенный способ создания бинарного классификатора .
Аналогичные линейные модели для бинарных переменных с другой сигмоидальной функцией вместо логистической функции (для преобразования линейной комбинации в вероятность) также могут быть использованы, в частности, пробит-модель ; см. § Альтернативы. Определяющей характеристикой логистической модели является то, что увеличение одной из независимых переменных мультипликативно масштабирует шансы данного результата с постоянной скоростью, причем каждая независимая переменная имеет свой собственный параметр; для бинарной зависимой переменной это обобщает отношение шансов . Более абстрактно, логистическая функция является естественным параметром для распределения Бернулли , и в этом смысле является «самым простым» способом преобразования действительного числа в вероятность. В частности, она максимизирует энтропию (минимизирует добавленную информацию) и в этом смысле делает наименьшее количество предположений о моделируемых данных; см. § Максимальная энтропия.
Параметры логистической регрессии чаще всего оцениваются с помощью оценки максимального правдоподобия (MLE). Это не имеет замкнутой формы выражения, в отличие от линейных наименьших квадратов ; см. § Подгонка модели. Логистическая регрессия с помощью MLE играет такую же основную роль для бинарных или категориальных ответов, как линейная регрессия с помощью обычных наименьших квадратов (OLS) для скалярных ответов: это простая, хорошо проанализированная базовая модель; см. § Сравнение с линейной регрессией для обсуждения. Логистическая регрессия как общая статистическая модель была первоначально разработана и популяризирована в первую очередь Джозефом Берксоном [5] , начиная с Берксона (1944), где он придумал «логит»; см. § История.
Логистическая регрессия используется в различных областях, включая машинное обучение, большинство областей медицины и социальные науки. Например, шкала тяжести травм и повреждений ( TRISS ), которая широко используется для прогнозирования смертности у травмированных пациентов, была первоначально разработана Бойдом и др. с использованием логистической регрессии. [6] Многие другие медицинские шкалы, используемые для оценки тяжести состояния пациента, были разработаны с использованием логистической регрессии. [7] [8] [9] [10] Логистическая регрессия может использоваться для прогнозирования риска развития определенного заболевания (например, диабета ; ишемической болезни сердца ) на основе наблюдаемых характеристик пациента (возраст, пол, индекс массы тела , результаты различных анализов крови и т. д.). [11] [12] Другим примером может быть предсказание того, проголосует ли непальский избиратель за Непальский конгресс или Коммунистическую партию Непала или любую другую партию, на основе возраста, дохода, пола, расы, штата проживания, голосов на предыдущих выборах и т. д. [13] Этот метод также может использоваться в инженерии , особенно для прогнозирования вероятности сбоя данного процесса, системы или продукта. [14] [15] Он также используется в маркетинговых приложениях, таких как прогнозирование склонности клиента к покупке продукта или прекращению подписки и т. д. [16] В экономике его можно использовать для прогнозирования вероятности того, что человек окажется в рабочей силе, а бизнес-приложением будет прогнозирование вероятности дефолта домовладельца по ипотеке . Условные случайные поля , расширение логистической регрессии для последовательных данных, используются в обработке естественного языка . Специалисты по планированию действий в случае стихийных бедствий и инженеры полагаются на эти модели для прогнозирования решений, принимаемых домовладельцами или жильцами зданий при эвакуациях малого и большого масштаба, таких как пожары в зданиях, лесные пожары, ураганы и т. д. [17] [18] [19] Эти модели помогают в разработке надежных планов управления стихийными бедствиями и более безопасного проектирования для застроенной среды .
Логистическая регрессия — это контролируемый алгоритм машинного обучения , широко используемый для задач бинарной классификации , таких как определение того, является ли электронное письмо спамом или нет, и диагностика заболеваний путем оценки наличия или отсутствия определенных состояний на основе результатов тестов пациентов. Этот подход использует логистическую (или сигмоидальную) функцию для преобразования линейной комбинации входных признаков в значение вероятности в диапазоне от 0 до 1. Эта вероятность указывает на вероятность того, что заданный вход соответствует одной из двух предопределенных категорий. Основной механизм логистической регрессии основан на способности логистической функции точно моделировать вероятность бинарных результатов. Благодаря своей отличительной S-образной кривой логистическая функция эффективно сопоставляет любое действительное число со значением в интервале от 0 до 1. Эта функция делает ее особенно подходящей для задач бинарной классификации, таких как сортировка электронных писем на «спам» или «не спам». Вычисляя вероятность того, что зависимая переменная будет отнесена к определенной группе, логистическая регрессия обеспечивает вероятностную структуру, которая поддерживает принятие обоснованных решений. [20]
В качестве простого примера мы можем использовать логистическую регрессию с одной объясняющей переменной и двумя категориями, чтобы ответить на следующий вопрос:
Группа из 20 студентов тратит от 0 до 6 часов на подготовку к экзамену. Как количество часов, потраченных на подготовку, влияет на вероятность успешной сдачи экзамена студентом?
Причина использования логистической регрессии для этой задачи заключается в том, что значения зависимой переменной, pass и fail, хотя и представлены как «1» и «0», не являются кардинальными числами . Если бы задача была изменена таким образом, что pass/fail были заменены на оценку 0–100 (кардинальные числа), то можно было бы использовать простой регрессионный анализ .
В таблице указано количество часов, потраченных каждым студентом на учебу, а также сдали ли они экзамен (1) или не сдали (0).
Мы хотим подогнать логистическую функцию к данным, состоящим из изученных часов ( x k ) и результата теста ( y k =1 для сдачи, 0 для не сдачи). Точки данных индексируются индексом k , который идет от до . Переменная x называется « объясняющей переменной », а переменная y называется « категориальной переменной », состоящей из двух категорий: «сдать» или «не сдать», соответствующих категориальным значениям 1 и 0 соответственно.
Логистическая функция имеет вид:
где μ — параметр местоположения (средняя точка кривой, где ), а s — параметр масштаба . Это выражение можно переписать как:
где и известно как отсекаемый элемент (это отсекаемый элемент по вертикали или y -отсекаемый элемент линии ), и (обратный параметр масштаба или параметр скорости ): это отсекаемый элемент по оси y и наклон логарифмических коэффициентов как функции x . Наоборот, и .
Примечание: Эта модель на самом деле является упрощением, поскольку она предполагает, что все сдадут, если будут учиться достаточно долго (предел = 1). Предельное значение также должно быть переменным параметром, если вы хотите сделать его более реалистичным.
Обычная мера качества соответствия для логистической регрессии использует логистические потери (или логарифмические потери ), отрицательное логарифмическое правдоподобие . Для заданных x k и y k запишите . — это вероятности того, что соответствующие будут равны единице, а — это вероятности того, что они будут равны нулю (см. распределение Бернулли ). Мы хотим найти значения и , которые дают «наилучшее соответствие» данным. В случае линейной регрессии сумма квадратов отклонений соответствия от точек данных ( y k ), квадрат ошибки потерь , принимается в качестве меры качества соответствия, и наилучшее соответствие получается, когда эта функция минимизируется .
Логарифм потерь для k -й точки равен:
Логарифм потерь можно интерпретировать как « неожиданность » фактического результата относительно прогноза , и он является мерой информационного содержания . Логарифм потерь всегда больше или равен 0, равен 0 только в случае идеального прогноза (т. е. когда и , или и ) и стремится к бесконечности, когда прогноз ухудшается (т. е. когда и или и ), что означает, что фактический результат «более удивителен». Поскольку значение логистической функции всегда строго между нулем и единицей, логарифм потерь всегда больше нуля и меньше бесконечности. В отличие от линейной регрессии, где модель может иметь нулевые потери в точке, проходя через точку данных (и нулевые потери в целом, если все точки находятся на одной линии), в логистической регрессии невозможно иметь нулевые потери в любой точке, поскольку равно либо 0, либо 1, но .
Их можно объединить в одно выражение:
Это выражение более формально известно как кросс-энтропия предсказанного распределения из фактического распределения , как распределения вероятностей на двухэлементном пространстве (пройдено, не пройдено).
Сумма этих потерь, общие потери, представляет собой общую отрицательную логарифмическую вероятность , и наилучшее соответствие получается для тех вариантов и , для которых минимизируется .
В качестве альтернативы, вместо минимизации потерь, можно максимизировать их обратную величину, (положительную) логарифмическую вероятность:
или, что эквивалентно, максимизировать саму функцию правдоподобия , которая представляет собой вероятность того, что данный набор данных получен с помощью определенной логистической функции:
Этот метод известен как оценка максимального правдоподобия .
Поскольку ℓ нелинейно по и , определение их оптимальных значений потребует численных методов. Один из методов максимизации ℓ состоит в требовании, чтобы производные ℓ по и были равны нулю:
и процедура максимизации может быть выполнена путем решения двух приведенных выше уравнений для и , что, опять же, обычно требует использования численных методов.
Значения и , которые максимизируют ℓ и L, используя приведенные выше данные, определяются следующим образом:
что дает значение для μ и s :
Коэффициенты и можно ввести в уравнение логистической регрессии для оценки вероятности успешной сдачи экзамена.
Например, для студента, который учится 2 часа, ввод значения в уравнение дает расчетную вероятность сдачи экзамена 0,25:
Аналогично, для студента, который учится 4 часа, расчетная вероятность сдачи экзамена составляет 0,87:
В данной таблице показана предполагаемая вероятность успешной сдачи экзамена для нескольких значений часов обучения.
Логистический регрессионный анализ дает следующий результат.
По тесту Вальда выходные данные указывают на то, что часы обучения значительно связаны с вероятностью сдачи экзамена ( ). Вместо метода Вальда рекомендуемым методом [21] для расчета p -значения для логистической регрессии является тест отношения правдоподобия (LRT), который для этих данных дает (см. § Тесты отклонения и отношения правдоподобия ниже).
Эта простая модель является примером бинарной логистической регрессии и имеет одну объясняющую переменную и бинарную категориальную переменную, которая может принимать одно из двух категориальных значений. Мультиномиальная логистическая регрессия является обобщением бинарной логистической регрессии для включения любого количества объясняющих переменных и любого количества категорий.
Объяснение логистической регрессии можно начать с объяснения стандартной логистической функции . Логистическая функция — это сигмоидальная функция , которая принимает любые действительные входные данные и выводит значение от нуля до единицы. [2] Для логита это интерпретируется как принятие входных логарифмических шансов и получение выходной вероятности . Стандартная логистическая функция определяется следующим образом:
График логистической функции на интервале t (−6,6) представлен на рисунке 1.
Предположим, что является линейной функцией одной объясняющей переменной (случай, когда является линейной комбинацией нескольких объясняющих переменных, рассматривается аналогично). Тогда мы можем выразить это следующим образом:
И общую логистическую функцию теперь можно записать как:
В логистической модели интерпретируется как вероятность того, что зависимая переменная равна успеху/случай, а не неудаче/неслучайности. Очевидно, что переменные отклика распределены не одинаково: отличаются от одной точки данных к другой, хотя они независимы, учитывая матрицу дизайна и общие параметры . [11]
Теперь мы можем определить функцию логарифма (логарифм шансов) как обратную стандартной логистической функции. Легко видеть, что она удовлетворяет:
и, что эквивалентно, после возведения в степень обеих сторон мы имеем коэффициенты:
В приведенных выше уравнениях члены имеют следующий вид:
Шансы зависимой переменной, равной случаю (при некоторой линейной комбинации предикторов), эквивалентны экспоненциальной функции выражения линейной регрессии. Это иллюстрирует, как логит служит связующей функцией между вероятностью и выражением линейной регрессии. Учитывая, что логит колеблется между отрицательной и положительной бесконечностью, он обеспечивает адекватный критерий, на основании которого можно проводить линейную регрессию, и логит легко преобразуется обратно в шансы. [2]
Итак, мы определяем шансы того, что зависимая переменная будет равна случаю (при некоторой линейной комбинации предикторов), следующим образом:
Для непрерывной независимой переменной отношение шансов можно определить как:
Эта экспоненциальная зависимость дает интерпретацию для : шансы умножаются на для каждого увеличения x на 1 единицу. [22]
Для двоичной независимой переменной отношение шансов определяется как, где a , b , c и d — ячейки в таблице сопряженности 2×2 . [23]
Если имеется несколько объясняющих переменных, приведенное выше выражение можно пересмотреть до . Затем, когда это используется в уравнении, связывающем логарифм шансов успеха со значениями предикторов, линейная регрессия будет множественной регрессией с m объясняющими переменными; все параметры для всех оцениваются.
Опять же, более традиционные уравнения таковы:
и
где обычно .
Набор данных содержит N точек. Каждая точка i состоит из набора m входных переменных x 1, i ... x m,i (также называемых независимыми переменными , объясняющими переменными, предикторными переменными, признаками или атрибутами) и двоичной выходной переменной Y i (также известной как зависимая переменная , переменная отклика, выходная переменная или класс), т. е. она может принимать только два возможных значения 0 (часто означающего «нет» или «неудача») или 1 (часто означающего «да» или «успех»). Цель логистической регрессии — использовать набор данных для создания прогностической модели выходной переменной.
Как и в линейной регрессии, предполагается, что выходные переменные Y i зависят от объясняющих переменных x 1, i ... x m,i .
Объясняющие переменные могут быть любого типа : действительные , бинарные , категориальные и т. д. Основное различие проводится между непрерывными переменными и дискретными переменными .
(Дискретные переменные, ссылающиеся на более чем два возможных варианта, обычно кодируются с помощью фиктивных переменных (или индикаторных переменных ), то есть для каждого возможного значения дискретной переменной создаются отдельные объясняющие переменные, принимающие значение 0 или 1, где 1 означает «переменная имеет заданное значение», а 0 означает «переменная не имеет этого значения».)
Формально результаты Y i описываются как распределенные по Бернулли данные, где каждый результат определяется ненаблюдаемой вероятностью p i , которая специфична для данного результата, но связана с объясняющими переменными. Это может быть выражено в любой из следующих эквивалентных форм:
Значения этих четырех строк таковы:
Основная идея логистической регрессии заключается в использовании механизма, уже разработанного для линейной регрессии , путем моделирования вероятности p i с использованием линейной предикторной функции , т. е. линейной комбинации объясняющих переменных и набора коэффициентов регрессии , которые являются специфическими для данной модели, но одинаковыми для всех испытаний. Линейная предикторная функция для конкретной точки данных i записывается как:
где — коэффициенты регрессии, указывающие относительное влияние конкретной объясняющей переменной на результат.
Модель обычно представляется в более компактной форме следующим образом:
Это позволяет записать функцию линейного предиктора следующим образом:
используя обозначение скалярного произведения двух векторов.
Приведенный выше пример бинарной логистической регрессии с одной объясняющей переменной можно обобщить до бинарной логистической регрессии с любым количеством объясняющих переменных x 1 , x 2 ,... и любым количеством категориальных значений .
Для начала мы можем рассмотреть логистическую модель с M объясняющими переменными, x 1 , x 2 ... x M и, как в примере выше, двумя категориальными значениями ( y = 0 и 1). Для простой бинарной модели логистической регрессии мы предположили линейную связь между предикторной переменной и логарифмическими шансами (также называемыми логит ) события, что . Эту линейную связь можно распространить на случай M объясняющих переменных:
где t — это логарифм-шансы, а — параметры модели. Было введено дополнительное обобщение, в котором основание модели ( b ) не ограничивается числом Эйлера e . В большинстве приложений основанием логарифма обычно считается e . Однако в некоторых случаях может быть проще сообщать результаты, работая в системе счисления с основанием 2 или 10.
Для более компактной записи мы зададим объясняющие переменные и коэффициенты β как -мерные векторы:
с добавленной объясняющей переменной x 0 = 1. Логит теперь можно записать как:
Решая уравнение для вероятности p, получаем :
где - сигмоидальная функция с основанием . Вышеприведенная формула показывает, что как только фиксируются, мы можем легко вычислить либо логарифмические шансы того, что для данного наблюдения, либо вероятность того, что для данного наблюдения. Основной вариант использования логистической модели - получить наблюдение и оценить вероятность того, что . Оптимальные бета-коэффициенты снова могут быть найдены путем максимизации логарифмического правдоподобия. Для измерений K , определяемых как объясняющий вектор k -го измерения и как категориальный результат этого измерения, логарифмическое правдоподобие может быть записано в форме, очень похожей на простой случай выше:
Как и в простом примере выше, нахождение оптимальных параметров β потребует численных методов. Один полезный метод заключается в том, чтобы приравнять производные логарифмического правдоподобия относительно каждого из параметров β к нулю, что даст набор уравнений, которые будут выполняться при максимуме логарифмического правдоподобия:
где x mk — значение объясняющей переменной x m из k-го измерения.
Рассмотрим пример с объясняющими переменными, , и коэффициентами , , и , которые были определены вышеуказанным методом. Если говорить конкретно, то модель такова:
где p — вероятность события, что . Это можно интерпретировать следующим образом:
В приведенных выше случаях двух категорий (биномиальная логистическая регрессия) категории были проиндексированы как «0» и «1», и у нас было две вероятности: вероятность того, что результат был в категории 1, была задана как , а вероятность того, что результат был в категории 0, была задана как . Сумма этих вероятностей равна 1, что должно быть верно, поскольку «0» и «1» являются единственно возможными категориями в этой настройке.
В общем, если у нас есть объясняющие переменные (включая x 0 ) и категории, нам понадобятся отдельные вероятности, по одной для каждой категории, проиндексированные n , которые описывают вероятность того, что категориальный результат y будет в категории y=n , обусловленной вектором ковариатов x . Сумма этих вероятностей по всем категориям должна быть равна 1. Используя математически удобную базу e , эти вероятности равны:
Каждая из вероятностей, за исключением будет иметь свой собственный набор коэффициентов регрессии . Можно видеть, что, как и требуется, сумма всех категорий n равна 1. Выбор для определения в терминах других вероятностей является искусственным. Любая из вероятностей могла быть выбрана для определения таким образом. Это особое значение n называется «индексом опоры», а логарифмические шансы ( t n ) выражаются в терминах вероятности опоры и снова выражаются как линейная комбинация объясняющих переменных:
Также следует отметить, что для простого случая восстанавливается случай с двумя категориями, при этом и .
Логарифмическое правдоподобие того, что определенный набор из K измерений или точек данных будет сгенерирован вышеуказанными вероятностями, теперь может быть вычислено. Индексируя каждое измерение по k , обозначим k -й набор измеренных объясняющих переменных как , а их категориальные результаты как , которые могут быть равны любому целому числу в [0,N]. Логарифмическое правдоподобие тогда равно:
где — индикаторная функция , равная 1, если y k = n , и нулю в противном случае. В случае двух объясняющих переменных эта индикаторная функция была определена как y k, когда n = 1, и 1-y k, когда n = 0. Это было удобно, но не обязательно. [24] Опять же, оптимальные бета-коэффициенты могут быть найдены путем максимизации логарифмической функции правдоподобия, как правило, с использованием численных методов. Возможный метод решения — установить производные логарифмической функции правдоподобия по каждому бета-коэффициенту равными нулю и решить для бета-коэффициентов:
где - m -й коэффициент вектора , а - m -я объясняющая переменная k -го измерения. После того, как бета-коэффициенты были оценены на основе данных, мы сможем оценить вероятность того, что любой последующий набор объясняющих переменных приведет к любой из возможных категорий результатов.
Существуют различные эквивалентные спецификации и интерпретации логистической регрессии, которые вписываются в различные типы более общих моделей и допускают различные обобщения.
Конкретная модель, используемая в логистической регрессии, которая отличает ее от стандартной линейной регрессии и от других типов регрессионного анализа, используемых для двоичных результатов, заключается в том, как вероятность конкретного результата связана с линейной предикторной функцией:
Записанное с использованием более компактной записи, описанной выше, это выглядит так:
Эта формулировка выражает логистическую регрессию как тип обобщенной линейной модели , которая предсказывает переменные с различными типами распределений вероятностей путем подгонки линейной предикторной функции вышеуказанной формы к некоторому произвольному преобразованию ожидаемого значения переменной.
Интуиция преобразования с использованием функции логита (натуральный логарифм шансов) была объяснена выше [ необходимо разъяснение ] . Она также имеет практический эффект преобразования вероятности (которая ограничена диапазоном от 0 до 1) в переменную, которая варьируется — тем самым сопоставляя потенциальный диапазон функции линейного прогнозирования в правой части уравнения.
Как вероятности p i , так и коэффициенты регрессии не наблюдаются, и средства их определения не являются частью самой модели. Обычно они определяются с помощью некоторой процедуры оптимизации, например, оценки максимального правдоподобия , которая находит значения, которые наилучшим образом соответствуют наблюдаемым данным (т. е. которые дают наиболее точные прогнозы для уже наблюдаемых данных), обычно с учетом условий регуляризации , которые стремятся исключить маловероятные значения, например, чрезвычайно большие значения для любого из коэффициентов регрессии. Использование условия регуляризации эквивалентно выполнению оценки максимума апостериори (MAP), расширения максимального правдоподобия. (Регуляризация чаще всего выполняется с использованием квадратичной регуляризирующей функции , что эквивалентно размещению гауссова априорного распределения с нулевым средним на коэффициентах, но возможны и другие регуляризаторы.) Независимо от того, используется регуляризация или нет, обычно невозможно найти решение в замкнутой форме; Вместо этого необходимо использовать итерационный численный метод, такой как итеративно перевзвешенный метод наименьших квадратов (IRLS) или, что более распространено в наши дни, квазиньютоновский метод , такой как метод L-BFGS . [25]
Интерпретация оценок параметра β j заключается в том, что это аддитивный эффект на логарифм шансов для единичного изменения объясняющей переменной j . В случае дихотомической объясняющей переменной, например, пол является оценкой шансов получить результат, скажем, для мужчин по сравнению с женщинами.
Эквивалентная формула использует обратную функцию логит, которая является логистической функцией , то есть:
Формулу можно также записать в виде распределения вероятностей (в частности, с использованием функции массы вероятности ):
Логистическая модель имеет эквивалентную формулировку как модель с латентной переменной . Эта формулировка распространена в теории моделей дискретного выбора и облегчает ее распространение на некоторые более сложные модели с множественными коррелированными выборами, а также сравнение логистической регрессии с тесно связанной пробит-моделью .
Представьте себе, что для каждого испытания i существует непрерывная скрытая переменная Y i * (т.е. ненаблюдаемая случайная величина ), которая распределена следующим образом:
где
т.е. скрытая переменная может быть записана непосредственно через линейную предикторную функцию и аддитивную случайную величину ошибки , которая распределена в соответствии со стандартным логистическим распределением .
Тогда Y i можно рассматривать как индикатор того, является ли эта скрытая переменная положительной:
Выбор моделирования переменной ошибки конкретно со стандартным логистическим распределением, а не общим логистическим распределением с произвольными значениями местоположения и масштаба, кажется ограничительным, но на самом деле это не так. Следует иметь в виду, что мы можем сами выбирать коэффициенты регрессии и очень часто можем использовать их для компенсации изменений параметров распределения переменной ошибки. Например, логистическое распределение переменной ошибки с ненулевым параметром местоположения μ (который задает среднее значение) эквивалентно распределению с нулевым параметром местоположения, где μ был добавлен к коэффициенту отсекателя. Обе ситуации дают одно и то же значение для Y i * независимо от настроек объясняющих переменных. Аналогично, произвольный параметр масштаба s эквивалентен установке параметра масштаба на 1 и последующему делению всех коэффициентов регрессии на s . В последнем случае результирующее значение Y i * будет меньше в s раз , чем в первом случае, для всех наборов объясняющих переменных, но, что важно, оно всегда будет оставаться по одну и ту же сторону от 0 и, следовательно, приводить к одному и тому же выбору Y i .
(Это позволяет предположить, что нерелевантность параметра масштаба может не проявиться в более сложных моделях, где доступно более двух вариантов.)
Оказывается, эта формулировка в точности эквивалентна предыдущей, сформулированной в терминах обобщенной линейной модели и без каких-либо скрытых переменных . Это можно показать следующим образом, используя тот факт, что кумулятивная функция распределения (CDF) стандартного логистического распределения является логистической функцией , которая является обратной функцией логит-функции , т.е.
Затем:
Эта формулировка, которая является стандартной в моделях дискретного выбора , проясняет связь между логистической регрессией («логит-моделью») и пробит-моделью , которая использует переменную ошибки, распределенную в соответствии со стандартным нормальным распределением вместо стандартного логистического распределения. Как логистическое, так и нормальное распределение симметричны с базовой унимодальной формой «колоколообразной кривой». Единственное отличие состоит в том, что логистическое распределение имеет несколько более тяжелые хвосты , что означает, что оно менее чувствительно к выпадающим данным (и, следовательно, несколько более устойчиво к неверным спецификациям модели или ошибочным данным).
Еще одна формула использует две отдельные скрытые переменные:
где
где EV 1 (0,1) — это стандартное распределение экстремальных значений типа 1 : т.е.
Затем
Эта модель имеет отдельную скрытую переменную и отдельный набор коэффициентов регрессии для каждого возможного результата зависимой переменной. Причина такого разделения заключается в том, что это позволяет легко расширить логистическую регрессию до многорезультатных категориальных переменных, как в многочленной логит- модели. В такой модели естественно моделировать каждый возможный результат, используя другой набор коэффициентов регрессии. Также возможно мотивировать каждую из отдельных скрытых переменных как теоретическую полезность , связанную с принятием соответствующего выбора, и таким образом мотивировать логистическую регрессию в терминах теории полезности . (В терминах теории полезности рациональный субъект всегда выбирает выбор с наибольшей связанной полезностью.) Это подход, используемый экономистами при формулировании моделей дискретного выбора , поскольку он и обеспечивает теоретически прочную основу, и облегчает интуицию относительно модели, что, в свою очередь, позволяет легко рассматривать различные виды расширений. (См. пример ниже.)
Выбор распределения экстремальных значений типа 1 кажется довольно произвольным, но он оправдывает математику, и его использование можно оправдать с помощью теории рационального выбора .
Оказывается, эта модель эквивалентна предыдущей модели, хотя это кажется неочевидным, поскольку теперь есть два набора коэффициентов регрессии и переменных ошибок, а переменные ошибок имеют разное распределение. Фактически, эта модель напрямую сводится к предыдущей с помощью следующих подстановок:
Интуиция для этого исходит из того факта, что, поскольку мы выбираем на основе максимального из двух значений, имеет значение только их разность, а не точные значения — и это фактически удаляет одну степень свободы . Другим критическим фактом является то, что разность двух распределенных по экстремальным значениям переменных типа 1 является логистическим распределением, т. е. Мы можем продемонстрировать эквивалент следующим образом:
В качестве примера рассмотрим выборы на уровне провинции, где выбор делается между правоцентристской партией, левоцентристской партией и сепаратистской партией (например, Parti Québécois , которая хочет, чтобы Квебек отделился от Канады ). Затем мы бы использовали три скрытые переменные, по одной для каждого выбора. Затем, в соответствии с теорией полезности , мы можем интерпретировать скрытые переменные как выражение полезности , которая является результатом принятия каждого из выборов. Мы также можем интерпретировать коэффициенты регрессии как указание силы, которую связанный фактор (т. е. объясняющая переменная) имеет в содействии полезности — или, точнее, величину, на которую единичное изменение объясняющей переменной изменяет полезность данного выбора. Избиратель может ожидать, что правоцентристская партия снизит налоги, особенно для богатых людей. Это не принесет людям с низким доходом никакой выгоды, т. е. никакого изменения полезности (поскольку они обычно не платят налоги); принесет умеренную выгоду (т. е. несколько больше денег или умеренное увеличение полезности) для людей со средним доходом; принесет значительную выгоду для людей с высоким доходом. С другой стороны, можно было бы ожидать, что левоцентристская партия повысит налоги и компенсирует это увеличением благосостояния и другой помощью для низших и средних классов. Это принесет значительную положительную выгоду людям с низким доходом, возможно, слабую выгоду людям со средним доходом и значительную отрицательную выгоду людям с высоким доходом. Наконец, сепаратистская партия не предпримет никаких прямых действий в экономике, а просто отделится. Избиратель с низким или средним доходом может ожидать в основном неясного выигрыша или потери полезности от этого, но избиратель с высоким доходом может ожидать отрицательной полезности, поскольку он/она, вероятно, будет владеть компаниями, которым будет сложнее вести бизнес в такой среде и, вероятно, потеряет деньги.
Эти интуиции можно выразить следующим образом:
Это ясно показывает, что
Еще одна формулировка объединяет двухфакторную формулировку скрытых переменных, представленную выше, с исходной формулой выше без скрытых переменных и в процессе обеспечивает ссылку на одну из стандартных формулировок полиномиального логита .
Здесь вместо того, чтобы записывать логарифм вероятностей p i как линейный предиктор, мы разделяем линейный предиктор на два, по одному для каждого из двух результатов:
Были введены два отдельных набора коэффициентов регрессии, как и в двухфакторной модели скрытых переменных, и два уравнения представляют собой форму, которая записывает логарифм связанной вероятности как линейный предиктор с дополнительным членом в конце. Этот член, как оказалось, служит нормализующим фактором, гарантируя, что результат является распределением. Это можно увидеть, возведя обе стороны в степень:
В этой форме ясно, что цель Z — гарантировать, что результирующее распределение по Y i на самом деле является распределением вероятностей , т.е. его сумма равна 1. Это означает, что Z — это просто сумма всех ненормализованных вероятностей, и при делении каждой вероятности на Z вероятности становятся « нормализованными ». То есть:
и полученные уравнения:
Или в общем:
Это наглядно показывает, как обобщить эту формулировку для более чем двух результатов, как в мультиномиальном логите . Эта общая формулировка — это в точности функция softmax, как в
Чтобы доказать, что это эквивалентно предыдущей модели, указанная выше модель переопределена, в том смысле, что она не может быть независимо определена: скорее , знание одного автоматически определяет другое. В результате модель неидентифицируема , в том смысле, что множественные комбинации β 0 и β 1 дадут одинаковые вероятности для всех возможных объясняющих переменных. Фактически, можно увидеть, что добавление любого постоянного вектора к ним обоим даст одинаковые вероятности:
В результате мы можем упростить дело и восстановить идентифицируемость, выбрав произвольное значение для одного из двух векторов. Мы выбираем установить Тогда,
и так
что показывает, что эта формулировка действительно эквивалентна предыдущей формулировке. (Как и в формулировке с двухфакторной скрытой переменной, любые настройки, где дадут эквивалентные результаты.)
Большинство обработок модели мультиномиального логита начинаются либо с расширения "логарифмически линейной" формулировки, представленной здесь, либо с двухфакторной латентной переменной формулировки, представленной выше, поскольку обе ясно показывают, как модель может быть расширена для многофакторных результатов. В целом, представление со скрытыми переменными более распространено в эконометрике и политологии , где царят модели дискретного выбора и теория полезности , в то время как "логарифмически линейная" формулировка здесь более распространена в компьютерной науке , например, машинном обучении и обработке естественного языка .
Модель имеет эквивалентную формулировку
Эту функциональную форму обычно называют однослойным персептроном или однослойной искусственной нейронной сетью . Однослойная нейронная сеть вычисляет непрерывный выход вместо ступенчатой функции . Производная p i по X = ( x 1 , ..., x k ) вычисляется из общей формы:
где f ( X ) — аналитическая функция в X . При таком выборе однослойная нейронная сеть идентична модели логистической регрессии. Эта функция имеет непрерывную производную, что позволяет использовать ее в обратном распространении . Эта функция также предпочтительна, поскольку ее производная легко вычисляется:
Тесно связанная модель предполагает, что каждое i связано не с одним испытанием Бернулли, а с n i независимыми одинаково распределенными испытаниями, где наблюдение Y i представляет собой число наблюдаемых успехов (сумма отдельных распределенных по Бернулли случайных величин), и, следовательно, следует биномиальному распределению :
Примером такого распределения является доля семян ( p i ), которые прорастают после посадки n i .
С точки зрения ожидаемых значений эта модель выражается следующим образом:
так что
Или эквивалентно:
Эту модель можно подогнать, используя те же методы, что и приведенную выше более простую модель.
Коэффициенты регрессии обычно оцениваются с использованием оценки максимального правдоподобия . [26] [27] В отличие от линейной регрессии с нормально распределенными остатками, невозможно найти выражение в замкнутой форме для значений коэффициентов, которые максимизируют функцию правдоподобия, поэтому вместо этого необходимо использовать итерационный процесс; например, метод Ньютона . Этот процесс начинается с предварительного решения, немного пересматривает его, чтобы посмотреть, можно ли его улучшить, и повторяет этот пересмотр до тех пор, пока не будет сделано больше улучшений, в этот момент говорят, что процесс сошёлся. [26]
В некоторых случаях модель может не достичь сходимости. Несходимость модели указывает на то, что коэффициенты не имеют смысла, поскольку итерационный процесс не смог найти подходящие решения. Неспособность сходимости может возникнуть по ряду причин: большое отношение предикторов к случаям, мультиколлинеарность , разреженность или полное разделение .
Бинарная логистическая регрессия ( или ) может, например, быть рассчитана с использованием итеративно перевзвешенных наименьших квадратов (IRLS), что эквивалентно максимизации логарифмического правдоподобия распределенного процесса Бернулли с использованием метода Ньютона . Если задача записана в векторно-матричной форме с параметрами , объясняющими переменными и ожидаемым значением распределения Бернулли , параметры можно найти с помощью следующего итерационного алгоритма:
где — диагональная весовая матрица, вектор ожидаемых значений,
Матрица регрессора и вектор переменных отклика. Более подробную информацию можно найти в литературе. [29]
В контексте байесовской статистики априорные распределения обычно размещаются на коэффициентах регрессии, например, в форме гауссовых распределений . В логистической регрессии нет сопряженного априорного распределения функции правдоподобия . Когда байесовский вывод выполнялся аналитически, это затрудняло вычисление апостериорного распределения, за исключением очень низких размерностей. Теперь, однако, автоматическое программное обеспечение, такое как OpenBUGS , JAGS , PyMC , Stan или Turing.jl, позволяет вычислять эти апостериорные распределения с помощью моделирования, поэтому отсутствие сопряженности не является проблемой. Однако, когда размер выборки или количество параметров велики, полное байесовское моделирование может быть медленным, и люди часто используют приближенные методы, такие как вариационные байесовские методы и распространение ожидания .
Широко используемое « правило одного из десяти » гласит, что модели логистической регрессии дают стабильные значения для объясняющих переменных, если они основаны как минимум на 10 событиях на объясняющую переменную (EPV); где событие обозначает случаи, относящиеся к менее частой категории в зависимой переменной. Таким образом, исследование, разработанное для использования объясняющих переменных для события (например, инфаркта миокарда ), которое, как ожидается, произойдет у части участников исследования, потребует общего числа участников. Однако существуют значительные споры о надежности этого правила, которое основано на имитационных исследованиях и не имеет надежной теоретической основы. [30] По мнению некоторых авторов [31], правило является чрезмерно консервативным в некоторых обстоятельствах, при этом авторы заявляют: «Если мы (несколько субъективно) считаем, что покрытие доверительного интервала менее 93 процентов, ошибка первого типа более 7 процентов или относительное смещение более 15 процентов являются проблематичными, наши результаты показывают, что проблемы довольно часты при 2–4 EPV, нечасты при 5–9 EPV и все еще наблюдаются при 10–16 EPV. Наихудшие случаи каждой проблемы не были серьезными при 5–9 EPV и обычно сопоставимы с таковыми при 10–16 EPV». [32]
Другие обнаружили результаты, которые не согласуются с вышеизложенным, используя другие критерии. Полезным критерием является то, будет ли подобранная модель, как ожидается, достигать той же предиктивной дискриминации в новой выборке, которую она, как оказалось, достигла в выборке разработки модели. Для этого критерия может потребоваться 20 событий на одну кандидатную переменную. [33] Также можно утверждать, что 96 наблюдений необходимы только для оценки пересечения модели достаточно точно, чтобы погрешность в предсказанных вероятностях составляла ±0,1 с уровнем достоверности 0,95. [13]
В любой процедуре подгонки добавление другого параметра подгонки к модели (например, бета-параметров в модели логистической регрессии) почти всегда улучшит способность модели предсказывать измеренные результаты. Это будет верно даже в том случае, если дополнительный член не имеет предсказательной ценности, поскольку модель будет просто « переобучать » шум в данных. Возникает вопрос, является ли улучшение, полученное при добавлении другого параметра подгонки, достаточно значительным, чтобы рекомендовать включение дополнительного члена, или же это просто то улучшение, которого можно ожидать от переобучения.
Короче говоря, для логистической регрессии определяется статистика, известная как отклонение , которая является мерой ошибки между соответствием логистической модели и выходными данными. В пределе большого количества точек данных отклонение распределено по закону хи-квадрат , что позволяет реализовать тест хи-квадрат для определения значимости объясняющих переменных.
Линейная регрессия и логистическая регрессия имеют много общего. Например, в простой линейной регрессии набор из K точек данных ( x k , y k ) подгоняется под предлагаемую модельную функцию формы . Подгонка достигается путем выбора параметров b , которые минимизируют сумму квадратов остатков (квадрат ошибки) для каждой точки данных:
Минимальное значение, которое составляет соответствие, будет обозначено как
Можно ввести идею нулевой модели , в которой предполагается, что переменная x бесполезна для прогнозирования результатов y k : Точки данных подгоняются под функцию нулевой модели вида y = b 0 с квадратом ошибки:
Процесс подгонки состоит из выбора значения b 0 , которое минимизирует подгонку к нулевой модели, обозначенной как , где нижний индекс обозначает нулевую модель. Видно, что нулевая модель оптимизирована с помощью , где — среднее значение значений y k , а оптимизированное значение равно:
который пропорционален квадрату (нескорректированного) выборочного стандартного отклонения точек данных yk .
Мы можем представить себе случай, когда точки данных y k случайным образом назначаются различным x k , а затем подгоняются с использованием предлагаемой модели. В частности, мы можем рассмотреть подгонки предлагаемой модели к каждой перестановке результатов y k . Можно показать, что оптимизированная ошибка любой из этих подгонок никогда не будет меньше оптимальной ошибки нулевой модели, и что разница между этими минимальными ошибками будет следовать распределению хи-квадрат со степенями свободы, равными таковым у предлагаемой модели за вычетом степеней свободы нулевой модели, которая в этом случае будет . Используя тест хи-квадрат , мы можем затем оценить, сколько из этих переставленных наборов y k дадут минимальную ошибку, меньшую или равную минимальной ошибке с использованием исходного y k , и поэтому мы можем оценить, насколько значительное улучшение дает включение переменной x в предлагаемую модель.
Для логистической регрессии мерой соответствия является функция правдоподобия L или ее логарифм, логарифм правдоподобия ℓ . Функция правдоподобия L аналогична в случае линейной регрессии, за исключением того, что правдоподобие максимизируется, а не минимизируется. Обозначим максимизированный логарифм правдоподобия предлагаемой модели как .
В случае простой бинарной логистической регрессии набор из K точек данных в вероятностном смысле подгоняется под функцию вида:
где — вероятность того, что . Логарифм шансов определяется как:
а логарифм правдоподобия равен:
Для нулевой модели вероятность определяется по формуле:
Логарифмические шансы для нулевой модели определяются по формуле:
а логарифм правдоподобия равен:
Поскольку мы имеем максимум L , максимальное логарифмическое правдоподобие для нулевой модели равно
Оптимальным является:
где снова среднее значение y k . Опять же, мы можем концептуально рассмотреть соответствие предлагаемой модели каждой перестановке y k и можно показать, что максимальное логарифмическое правдоподобие этих перестановочных подгонок никогда не будет меньше, чем у нулевой модели:
Также, как аналог ошибки линейной регрессии, мы можем определить отклонение подгонки логистической регрессии как:
который всегда будет положительным или нулевым. Причина такого выбора заключается в том, что отклонение не только является хорошей мерой качества подгонки, но и приблизительно распределено по закону хи-квадрат, причем приближение улучшается по мере увеличения числа точек данных ( K ), становясь точно распределенным по закону хи-квадрат в пределе бесконечного числа точек данных. Как и в случае линейной регрессии, мы можем использовать этот факт для оценки вероятности того, что случайный набор точек данных даст лучшее подгонку, чем подгонка, полученная предлагаемой моделью, и, таким образом, оценить, насколько значительно модель улучшается при включении x k точек данных в предлагаемую модель.
Для простой модели результатов тестов студентов, описанной выше, максимальное значение логарифмического правдоподобия нулевой модели равно Максимальное значение логарифмического правдоподобия для простой модели равно так, что отклонение равно
Используя критерий значимости хи-квадрат , интеграл распределения хи-квадрат с одной степенью свободы от 11,6661... до бесконечности равен 0,00063649...
Это фактически означает, что около 6 из 10 000 подгонок под случайный y k могут иметь лучшее соответствие (меньшее отклонение), чем заданный y k , и поэтому мы можем заключить, что включение переменной x и данных в предлагаемую модель является очень значительным улучшением по сравнению с нулевой моделью. Другими словами, мы с уверенностью отвергаем нулевую гипотезу .
Качество соответствия в моделях линейной регрессии обычно измеряется с помощью R 2. Поскольку это не имеет прямого аналога в логистической регрессии, вместо этого можно использовать различные методы [34] : гл.21, включая следующие.
В линейном регрессионном анализе речь идет о разделении дисперсии с помощью вычислений суммы квадратов — дисперсия в критерии по существу делится на дисперсию, учитываемую предикторами, и остаточную дисперсию. В логистическом регрессионном анализе отклонение используется вместо вычислений суммы квадратов. [35] Отклонение аналогично вычислениям суммы квадратов в линейной регрессии [2] и является мерой отсутствия соответствия данным в модели логистической регрессии. [35] Когда доступна «насыщенная» модель (модель с теоретически идеальным соответствием), отклонение вычисляется путем сравнения заданной модели с насыщенной моделью. [2] Это вычисление дает тест отношения правдоподобия : [2]
В приведенном выше уравнении D представляет отклонение, а ln представляет натуральный логарифм. Логарифм этого отношения правдоподобия (отношение подобранной модели к насыщенной модели) даст отрицательное значение, отсюда и необходимость отрицательного знака. Можно показать, что D следует приблизительному распределению хи-квадрат . [2] Меньшие значения указывают на лучшее соответствие, поскольку подобранная модель меньше отклоняется от насыщенной модели. При оценке по распределению хи-квадрат незначимые значения хи-квадрат указывают на очень малую необъяснимую дисперсию и, таким образом, на хорошее соответствие модели. И наоборот, значимое значение хи-квадрат указывает на то, что значительная часть дисперсии необъяснима.
Если насыщенная модель недоступна (обычный случай), отклонение рассчитывается просто как −2·(логарифм правдоподобия подобранной модели), а ссылка на логарифм правдоподобия насыщенной модели может быть удалена из всего последующего без вреда.
В логистической регрессии особенно важны две меры отклонения: нулевое отклонение и отклонение модели. Нулевое отклонение представляет собой разницу между моделью только с отсекателем (что означает «нет предикторов») и насыщенной моделью. Отклонение модели представляет собой разницу между моделью по крайней мере с одним предиктором и насыщенной моделью. [35] В этом отношении нулевая модель обеспечивает базовую линию, на которой можно сравнивать модели предикторов. Учитывая, что отклонение является мерой разницы между заданной моделью и насыщенной моделью, меньшие значения указывают на лучшее соответствие. Таким образом, чтобы оценить вклад предиктора или набора предикторов, можно вычесть отклонение модели из нулевого отклонения и оценить разницу по распределению хи-квадрат со степенями свободы [2], равными разнице в количестве оцененных параметров.
Позволять
Тогда разница между ними будет:
Если отклонение модели значительно меньше нулевого отклонения, то можно сделать вывод, что предиктор или набор предикторов значительно улучшают соответствие модели. Это аналогично F -тесту, используемому в линейном регрессионном анализе для оценки значимости прогноза. [35]
В линейной регрессии квадрат множественной корреляции R 2 используется для оценки качества соответствия, поскольку он представляет собой долю дисперсии в критерии, которая объясняется предикторами. [35] В логистическом регрессионном анализе не существует согласованной аналогичной меры, но есть несколько конкурирующих мер, каждая из которых имеет свои ограничения. [35] [36]
На этой странице рассматриваются четыре наиболее часто используемых индекса и один менее часто используемый:
Тест Хосмера –Лемешоу использует статистику теста, которая асимптотически следует распределению , чтобы оценить, соответствуют ли наблюдаемые частоты событий ожидаемым частотам событий в подгруппах модельной популяции. Некоторые статистики считают этот тест устаревшим из-за его зависимости от произвольного биннинга предсказанных вероятностей и относительно низкой мощности. [37]
После подгонки модели исследователи, вероятно, захотят изучить вклад отдельных предикторов. Для этого им нужно изучить коэффициенты регрессии. В линейной регрессии коэффициенты регрессии представляют собой изменение критерия для каждого изменения единицы в предикторе. [35] Однако в логистической регрессии коэффициенты регрессии представляют собой изменение логита для каждого изменения единицы в предикторе. Учитывая, что логит не является интуитивно понятным, исследователи, скорее всего, сосредоточатся на влиянии предиктора на экспоненциальную функцию коэффициента регрессии — отношение шансов (см. определение). В линейной регрессии значимость коэффициента регрессии оценивается путем вычисления t- теста. В логистической регрессии существует несколько различных тестов, предназначенных для оценки значимости отдельного предиктора, в частности, тест отношения правдоподобия и статистика Вальда.
Тест отношения правдоподобия, обсуждавшийся выше для оценки соответствия модели, также является рекомендуемой процедурой для оценки вклада отдельных «предикторов» в данную модель. [2] [26] [35] В случае модели с одним предиктором просто сравнивается отклонение модели предиктора с отклонением нулевой модели на распределении хи-квадрат с одной степенью свободы. Если модель предиктора имеет значительно меньшее отклонение (ср. хи-квадрат, использующий разницу в степенях свободы двух моделей), то можно сделать вывод, что между «предиктором» и результатом существует значимая связь. Хотя некоторые распространенные статистические пакеты (например, SPSS) предоставляют статистику теста отношения правдоподобия, без этого вычислительно интенсивного теста было бы сложнее оценить вклад отдельных предикторов в случае множественной логистической регрессии. [ необходима цитата ] Чтобы оценить вклад отдельных предикторов, можно ввести предикторы иерархически, сравнивая каждую новую модель с предыдущей, чтобы определить вклад каждого предиктора. [35] Среди статистиков ведутся споры о целесообразности так называемых «пошаговых» процедур. [ обтекаемые слова ] Существует опасение, что они могут не сохранить номинальные статистические свойства и могут стать вводящими в заблуждение. [38]
В качестве альтернативы, при оценке вклада отдельных предикторов в заданной модели, можно изучить значимость статистики Вальда . Статистика Вальда, аналогичная t -тесту в линейной регрессии, используется для оценки значимости коэффициентов. Статистика Вальда представляет собой отношение квадрата коэффициента регрессии к квадрату стандартной ошибки коэффициента и асимптотически распределена как распределение хи-квадрат. [26]
Хотя несколько статистических пакетов (например, SPSS, SAS) сообщают статистику Вальда для оценки вклада отдельных предикторов, статистика Вальда имеет ограничения. Когда коэффициент регрессии большой, стандартная ошибка коэффициента регрессии также имеет тенденцию быть больше, увеличивая вероятность ошибки типа II . Статистика Вальда также имеет тенденцию быть смещенной, когда данные разрежены. [35]
Предположим, что случаи редки. Тогда мы можем захотеть делать выборку чаще, чем их распространенность в популяции. Например, предположим, что есть болезнь, которая поражает 1 человека из 10 000, и для сбора наших данных нам нужно провести полное физическое обследование. Может быть слишком дорого проводить тысячи физических обследований здоровых людей, чтобы получить данные только для нескольких больных людей. Таким образом, мы можем оценить большее количество больных людей, возможно, все редкие исходы. Это также ретроспективная выборка, или, что то же самое, это называется несбалансированными данными. Как правило, выборка контролей со скоростью, в пять раз превышающей количество случаев, даст достаточные контрольные данные. [39]
Логистическая регрессия уникальна тем, что ее можно оценить на несбалансированных данных, а не на случайно выбранных данных, и при этом получить правильные оценки коэффициентов влияния каждой независимой переменной на результат. То есть, если мы формируем логистическую модель из таких данных, если модель верна в генеральной совокупности, все параметры верны, за исключением . Мы можем внести исправления , если знаем истинную распространенность, следующим образом: [39]
где — истинная распространенность, — распространенность в выборке.
Как и другие формы регрессионного анализа , логистическая регрессия использует одну или несколько переменных-предикторов, которые могут быть как непрерывными, так и категориальными. Однако, в отличие от обычной линейной регрессии, логистическая регрессия используется для прогнозирования зависимых переменных, которые принимают членство в одной из ограниченного числа категорий (рассматривая зависимую переменную в биномиальном случае как результат испытания Бернулли ), а не непрерывный результат. Учитывая это различие, предположения линейной регрессии нарушаются. В частности, остатки не могут быть нормально распределены. Кроме того, линейная регрессия может делать бессмысленные прогнозы для бинарной зависимой переменной. Нужен способ преобразовать бинарную переменную в непрерывную, которая может принимать любое действительное значение (отрицательное или положительное). Для этого биномиальная логистическая регрессия сначала вычисляет шансы события , происходящего для различных уровней каждой независимой переменной, а затем берет ее логарифм , чтобы создать непрерывный критерий как преобразованную версию зависимой переменной. Логарифм шансов — это логит вероятности, логит определяется следующим образом:
Хотя зависимой переменной в логистической регрессии является Бернулли, логит-функция имеет неограниченную шкалу. [2] Логит-функция является связующей функцией в этом виде обобщенной линейной модели, т.е.
Y — это распределенная по закону Бернулли переменная отклика, а x — предикторная переменная; значения β являются линейными параметрами.
Затем логит вероятности успеха подгоняется под предикторы. Предсказанное значение логита преобразуется обратно в предсказанные шансы с помощью обратной функции натурального логарифма – экспоненциальной функции . Таким образом, хотя наблюдаемая зависимая переменная в бинарной логистической регрессии является переменной 0 или 1, логистическая регрессия оценивает шансы, как непрерывную переменную, того, что зависимая переменная является «успехом». В некоторых приложениях шансы – это все, что нужно. В других случаях требуется конкретное предсказание «да» или «нет» для того, является ли зависимая переменная «успехом» или нет; это категориальное предсказание может быть основано на вычисленных шансах успеха, при этом предсказанные шансы выше некоторого выбранного порогового значения преобразуются в предсказание успеха.
Из всех функциональных форм, используемых для оценки вероятностей конкретного категориального результата, которые оптимизируют соответствие путем максимизации функции правдоподобия (например, пробит-регрессия , регрессия Пуассона и т. д.), решение логистической регрессии уникально тем, что является решением с максимальной энтропией . [40] Это случай общего свойства: экспоненциальное семейство распределений максимизирует энтропию, учитывая ожидаемое значение. В случае логистической модели логистическая функция является естественным параметром распределения Бернулли (она находится в « канонической форме », а логистическая функция является канонической функцией связи), в то время как другие сигмоидальные функции являются неканоническими функциями связи; это лежит в основе ее математической элегантности и простоты оптимизации. Подробности см. в разделе Экспоненциальное семейство § Вывод максимальной энтропии .
Чтобы показать это, мы используем метод множителей Лагранжа . Лагранжиан равен энтропии плюс сумма произведений множителей Лагранжа на различные выражения ограничений. Будет рассмотрен общий многочленный случай, поскольку доказательство не сильно упрощается при рассмотрении более простых случаев. Приравнивание производной лагранжиана по различным вероятностям к нулю дает функциональную форму для этих вероятностей, которая соответствует тем, которые используются в логистической регрессии. [40]
Как и в предыдущем разделе о мультиномиальной логистической регрессии, мы рассмотрим объясняющие переменные, обозначенные и , которые включают . Всего будет K точек данных, проиндексированных , а точки данных будут заданы как и . X mk также будет представлен как -мерный вектор . Будут возможные значения категориальной переменной y в диапазоне от 0 до N.
Пусть p n ( x ) будет вероятностью, заданной объясняющей переменной вектора x , что результат будет . Определите вероятность того, что для k -го измерения категориальный результат будет n .
Лагранжиан будет выражен как функция вероятностей p nk и будет минимизирован путем приравнивания производных лагранжиана относительно этих вероятностей к нулю. Важным моментом является то, что вероятности рассматриваются одинаково, и тот факт, что они в сумме дают 1, является частью формулировки лагранжиана, а не предполагается с самого начала.
Первым вкладом в лагранжиан является энтропия :
Логарифм правдоподобия равен:
Предполагая полиномиальную логистическую функцию, производная логарифмического правдоподобия относительно бета-коэффициентов была найдена равной:
Очень важным моментом здесь является то, что это выражение (что примечательно) не является явной функцией бета-коэффициентов. Это только функция вероятностей p nk и данных. Вместо того, чтобы быть специфичным для предполагаемого случая мультиномиальной логистики, оно рассматривается как общее утверждение условия, при котором логарифмическое правдоподобие максимизируется, и не ссылается на функциональную форму p nk . Тогда есть ( M +1) ( N +1) ограничений подгонки, и член ограничения подгонки в лагранжиане тогда равен:
где λ nm — соответствующие множители Лагранжа. Существуют K ограничений нормализации, которые можно записать:
так что нормировочный член в лагранжиане равен:
где α k — соответствующие множители Лагранжа. Тогда Лагранжиан — это сумма трех вышеуказанных членов:
Приравнивая производную лагранжиана по одной из вероятностей к нулю, получаем:
Используя более сжатую векторную запись:
и отбрасывая простые числа в индексах n и k , а затем решая для получаем:
где:
Налагая нормировочное ограничение, мы можем решить относительно Z k и записать вероятности как:
Не все независимы. Мы можем добавить любой постоянный -мерный вектор к каждому из , не меняя значения вероятностей , так что останется только N , а не независимых . В разделе о полиномиальной логистической регрессии выше вычиталось из каждого , что устанавливало экспоненциальный член, включающий , равным 1, а бета-коэффициенты были заданы как .
В приложениях машинного обучения, где логистическая регрессия используется для бинарной классификации, MLE минимизирует функцию потерь кросс-энтропии .
Логистическая регрессия — важный алгоритм машинного обучения . Цель — смоделировать вероятность того, что случайная величина будет равна 0 или 1, учитывая экспериментальные данные. [41]
Рассмотрим обобщенную линейную модельную функцию, параметризованную с помощью ,
Поэтому,
и поскольку , мы видим, что дается выражением Теперь мы вычисляем функцию правдоподобия , предполагая, что все наблюдения в выборке распределены независимо Бернулли,
Обычно логарифмическое правдоподобие максимизируется,
который максимизируется с помощью методов оптимизации, таких как градиентный спуск .
Если предположить, что пары выбираются равномерно из базового распределения, то в пределе большого N ,
где — условная энтропия , а — расхождение Кульбака–Лейблера . Это приводит к интуитивному пониманию того, что, максимизируя логарифмическое правдоподобие модели, вы минимизируете расхождение KL вашей модели от максимального распределения энтропии. Интуитивный поиск модели, которая делает наименьшее количество предположений в своих параметрах.
Логистическую регрессию можно рассматривать как частный случай обобщенной линейной модели и, таким образом, аналогичную линейной регрессии . Однако модель логистической регрессии основана на совершенно иных предположениях (о связи между зависимыми и независимыми переменными) по сравнению с предположениями линейной регрессии. В частности, ключевые различия между этими двумя моделями можно увидеть в следующих двух особенностях логистической регрессии. Во-первых, условное распределение является распределением Бернулли, а не гауссовым , поскольку зависимая переменная является двоичной. Во-вторых, прогнозируемые значения являются вероятностями и, следовательно, ограничены (0,1) посредством функции логистического распределения , поскольку логистическая регрессия предсказывает вероятность конкретных результатов, а не сами результаты.
Распространенной альтернативой логистической модели (логит-модели) является пробит-модель , как следует из связанных названий. С точки зрения обобщенных линейных моделей они отличаются выбором функции связи : логистическая модель использует логит-функцию (обратную логистическую функцию), в то время как пробит-модель использует пробит-функцию (обратную функцию ошибок ). Эквивалентно, в интерпретациях скрытых переменных этих двух методов первый предполагает стандартное логистическое распределение ошибок, а второй — стандартное нормальное распределение ошибок. [42] Вместо этого могут использоваться другие сигмоидные функции или распределения ошибок.
Логистическая регрессия является альтернативой методу Фишера 1936 года, линейному дискриминантному анализу . [43] Если предположения линейного дискриминантного анализа верны, то обусловливание может быть изменено на противоположное для получения логистической регрессии. Обратное, однако, неверно, поскольку логистическая регрессия не требует многомерного нормального предположения дискриминантного анализа. [44]
Предположение о наличии линейных предикторных эффектов можно легко ослабить, используя такие методы, как сплайн-функции . [13]
Подробная история логистической регрессии приведена в Cramer (2002). Логистическая функция была разработана как модель роста населения и названа «логистической» Пьером Франсуа Ферхюльстом в 1830-х и 1840-х годах под руководством Адольфа Кетле ; см. Логистическая функция § История для получения подробной информации. [45] В своей самой ранней статье (1838) Ферхюльст не указал, как он подгонял кривые к данным. [46] [47] В своей более подробной статье (1845) Ферхюльст определил три параметра модели, заставив кривую проходить через три наблюдаемые точки, что дало плохие прогнозы. [48] [49]
Логистическая функция была независимо разработана в химии как модель автокатализа ( Вильгельм Оствальд , 1883). [50] Автокаталитическая реакция — это реакция, в которой один из продуктов сам по себе является катализатором для той же реакции, в то время как поставка одного из реагентов фиксирована. Это естественным образом приводит к логистическому уравнению по той же причине, что и рост популяции: реакция является самоусиливающейся, но ограниченной.
Логистическая функция была независимо переоткрыта как модель роста населения в 1920 году Рэймондом Перлом и Лоуэллом Ридом , опубликована как Pearl & Reed (1920), что привело к ее использованию в современной статистике. Первоначально они не знали о работе Ферхюльста и, предположительно, узнали о ней от Л. Гюстава дю Паскье , но они не придали ему большого значения и не переняли его терминологию. [51] Приоритет Ферхюльста был признан, и термин «логистический» был возрожден Удни Юлом в 1925 году и с тех пор используется. [52] Перл и Рид впервые применили модель к населению Соединенных Штатов, а также первоначально подогнали кривую, заставив ее проходить через три точки; как и в случае с Ферхюльстом, это снова дало плохие результаты. [53]
В 1930-х годах модель пробит была разработана и систематизирована Честером Иттнером Блиссом , который ввел термин «пробит» в Bliss (1934), и Джоном Гэддумом в Gaddum (1933), а модель, подобранная по оценке максимального правдоподобия, Рональдом А. Фишером в Fisher (1935), как дополнение к работе Блисса. Модель пробит в основном использовалась в биоанализе , и ей предшествовали более ранние работы, датируемые 1860 годом; см. Модель пробит § История . Модель пробит повлияла на последующее развитие модели логита, и эти модели конкурировали друг с другом. [54]
Логистическая модель, вероятно, была впервые использована в качестве альтернативы пробит-модели в биоанализе Эдвином Бидвеллом Уилсоном и его студенткой Джейн Вустер в Wilson & Worcester (1943). [55] Однако развитие логистической модели как общей альтернативы пробит-модели было в основном обусловлено работой Джозефа Берксона на протяжении многих десятилетий, начиная с Берксона (1944), где он придумал «логит», по аналогии с «пробит», и продолжая Берксоном (1951) и последующими годами. [56] Логит-модель изначально была отклонена как уступающая пробит-модели, но «постепенно достигла равноправия с пробит-моделью», [57], особенно между 1960 и 1970 годами. К 1970 году логит-модель достигла паритета с пробит-моделью, используемой в статистических журналах, а затем превзошла ее. Эта относительная популярность была обусловлена принятием логита за пределами биоанализа, а не вытеснением пробита в биоанализе, и его неформальным использованием на практике; популярность логита объясняется вычислительной простотой логит-модели, математическими свойствами и универсальностью, что позволяет использовать ее в различных областях. [3]
В это время были внесены различные усовершенствования, в частности, Дэвидом Коксом , как в работе Кокса (1958). [4]
Модель мультиномиального логита была введена независимо Коксом (1966) и Тейлом (1969), что значительно увеличило сферу применения и популярность модели логита. [58] В 1973 году Дэниел Макфадден связал мультиномиальный логит с теорией дискретного выбора , в частности с аксиомой выбора Люса , показав, что мультиномиальный логит следует из предположения о независимости нерелевантных альтернатив и интерпретации шансов альтернатив как относительных предпочтений; [59] это дало теоретическую основу для логистической регрессии. [58]
Существует большое количество расширений:
Эти произвольные единицы вероятности были названы «пробитами».