stringtranslate.com

Логистическая регрессия

Пример графика логистической регрессионной кривой, подобранной к данным. Кривая показывает предполагаемую вероятность сдачи экзамена (бинарная зависимая переменная) в зависимости от часов обучения (скалярная независимая переменная). См. § Пример для проработанных деталей.

В статистике логистическая модель (или логит-модель ) — это статистическая модель , которая моделирует логарифмические шансы события как линейную комбинацию одной или нескольких независимых переменных . В регрессионном анализе логистическая регрессия [1] (или логит-регрессия ) оценивает параметры логистической модели (коэффициенты в линейных или нелинейных комбинациях). В бинарной логистической регрессии есть одна бинарная зависимая переменная , кодируемая индикаторной переменной , где два значения помечены как «0» и «1», в то время как независимые переменные могут быть как бинарными переменными (два класса, кодируемые индикаторной переменной), так и непрерывными переменными (любое действительное значение). Соответствующая вероятность значения, помеченного как «1», может варьироваться от 0 (конечно, значение «0») до 1 (конечно, значение «1»), отсюда и маркировка; [2] функция, которая преобразует логарифмические шансы в вероятность, — это логистическая функция , отсюда и название. Единица измерения для шкалы логарифмических шансов называется логит , от log istic un it , отсюда и альтернативные названия. См. § Предыстория и § Определение для формальной математики, и § Пример для рабочего примера.

Бинарные переменные широко используются в статистике для моделирования вероятности наступления определенного класса или события, например, вероятности победы команды, здоровья пациента и т. д. (см. § Приложения), а логистическая модель является наиболее часто используемой моделью для бинарной регрессии примерно с 1970 года. [3] Бинарные переменные могут быть обобщены до категориальных переменных , когда существует более двух возможных значений (например, является ли изображение кошкой, собакой, львом и т. д.), а бинарная логистическая регрессия может быть обобщена до полиномиальной логистической регрессии . Если упорядочены множественные категории , можно использовать порядковую логистическую регрессию (например, порядковую логистическую модель пропорциональных шансов [4] ). См. § Расширения для получения дополнительных расширений. Сама по себе модель логистической регрессии просто моделирует вероятность выходных данных с точки зрения входных данных и не выполняет статистическую классификацию (она не является классификатором), хотя ее можно использовать для создания классификатора, например, выбрав пороговое значение и классифицируя входные данные с вероятностью, большей порогового значения, как один класс, а с вероятностью меньше порогового значения — как другой; это распространенный способ создания бинарного классификатора .

Аналогичные линейные модели для бинарных переменных с другой сигмоидальной функцией вместо логистической функции (для преобразования линейной комбинации в вероятность) также могут быть использованы, в частности, пробит-модель ; см. § Альтернативы. Определяющей характеристикой логистической модели является то, что увеличение одной из независимых переменных мультипликативно масштабирует шансы данного результата с постоянной скоростью, причем каждая независимая переменная имеет свой собственный параметр; для бинарной зависимой переменной это обобщает отношение шансов . Более абстрактно, логистическая функция является естественным параметром для распределения Бернулли , и в этом смысле является «самым простым» способом преобразования действительного числа в вероятность. В частности, она максимизирует энтропию (минимизирует добавленную информацию) и в этом смысле делает наименьшее количество предположений о моделируемых данных; см. § Максимальная энтропия.

Параметры логистической регрессии чаще всего оцениваются с помощью оценки максимального правдоподобия (MLE). Это не имеет замкнутой формы выражения, в отличие от линейных наименьших квадратов ; см. § Подгонка модели. Логистическая регрессия с помощью MLE играет такую ​​же основную роль для бинарных или категориальных ответов, как линейная регрессия с помощью обычных наименьших квадратов (OLS) для скалярных ответов: это простая, хорошо проанализированная базовая модель; см. § Сравнение с линейной регрессией для обсуждения. Логистическая регрессия как общая статистическая модель была первоначально разработана и популяризирована в первую очередь Джозефом Берксоном [5] , начиная с Берксона (1944), где он придумал «логит»; см. § История.

Приложения

Общий

Логистическая регрессия используется в различных областях, включая машинное обучение, большинство областей медицины и социальные науки. Например, шкала тяжести травм и повреждений ( TRISS ), которая широко используется для прогнозирования смертности у травмированных пациентов, была первоначально разработана Бойдом и др. с использованием логистической регрессии. [6] Многие другие медицинские шкалы, используемые для оценки тяжести состояния пациента, были разработаны с использованием логистической регрессии. [7] [8] [9] [10] Логистическая регрессия может использоваться для прогнозирования риска развития определенного заболевания (например, диабета ; ишемической болезни сердца ) на основе наблюдаемых характеристик пациента (возраст, пол, индекс массы тела , результаты различных анализов крови и т. д.). [11] [12] Другим примером может быть предсказание того, проголосует ли непальский избиратель за Непальский конгресс или Коммунистическую партию Непала или любую другую партию, на основе возраста, дохода, пола, расы, штата проживания, голосов на предыдущих выборах и т. д. [13] Этот метод также может использоваться в инженерии , особенно для прогнозирования вероятности сбоя данного процесса, системы или продукта. [14] [15] Он также используется в маркетинговых приложениях, таких как прогнозирование склонности клиента к покупке продукта или прекращению подписки и т. д. [16] В экономике его можно использовать для прогнозирования вероятности того, что человек окажется в рабочей силе, а бизнес-приложением будет прогнозирование вероятности дефолта домовладельца по ипотеке . Условные случайные поля , расширение логистической регрессии для последовательных данных, используются в обработке естественного языка . Специалисты по планированию действий в случае стихийных бедствий и инженеры полагаются на эти модели для прогнозирования решений, принимаемых домовладельцами или жильцами зданий при эвакуациях малого и большого масштаба, таких как пожары в зданиях, лесные пожары, ураганы и т. д. [17] [18] [19] Эти модели помогают в разработке надежных планов управления стихийными бедствиями и более безопасного проектирования для застроенной среды .

Контролируемое машинное обучение

Логистическая регрессия — это контролируемый алгоритм машинного обучения , широко используемый для задач бинарной классификации , таких как определение того, является ли электронное письмо спамом или нет, и диагностика заболеваний путем оценки наличия или отсутствия определенных состояний на основе результатов тестов пациентов. Этот подход использует логистическую (или сигмоидальную) функцию для преобразования линейной комбинации входных признаков в значение вероятности в диапазоне от 0 до 1. Эта вероятность указывает на вероятность того, что заданный вход соответствует одной из двух предопределенных категорий. Основной механизм логистической регрессии основан на способности логистической функции точно моделировать вероятность бинарных результатов. Благодаря своей отличительной S-образной кривой логистическая функция эффективно сопоставляет любое действительное число со значением в интервале от 0 до 1. Эта функция делает ее особенно подходящей для задач бинарной классификации, таких как сортировка электронных писем на «спам» или «не спам». Вычисляя вероятность того, что зависимая переменная будет отнесена к определенной группе, логистическая регрессия обеспечивает вероятностную структуру, которая поддерживает принятие обоснованных решений. [20]

Пример

Проблема

В качестве простого примера мы можем использовать логистическую регрессию с одной объясняющей переменной и двумя категориями, чтобы ответить на следующий вопрос:

Группа из 20 студентов тратит от 0 до 6 часов на подготовку к экзамену. Как количество часов, потраченных на подготовку, влияет на вероятность успешной сдачи экзамена студентом?

Причина использования логистической регрессии для этой задачи заключается в том, что значения зависимой переменной, pass и fail, хотя и представлены как «1» и «0», не являются кардинальными числами . Если бы задача была изменена таким образом, что pass/fail были заменены на оценку 0–100 (кардинальные числа), то можно было бы использовать простой регрессионный анализ .

В таблице указано количество часов, потраченных каждым студентом на учебу, а также сдали ли они экзамен (1) или не сдали (0).

Мы хотим подогнать логистическую функцию к данным, состоящим из изученных часов ( x k ) и результата теста ( y k  =1 для сдачи, 0 для не сдачи). Точки данных индексируются индексом k , который идет от до . Переменная x называется « объясняющей переменной », а переменная y называется « категориальной переменной », состоящей из двух категорий: «сдать» или «не сдать», соответствующих категориальным значениям 1 и 0 соответственно.

Модель

График кривой логистической регрессии, подобранной к данным ( x m , y m ). Кривая показывает вероятность сдачи экзамена в зависимости от часов обучения.

Логистическая функция имеет вид:

где μпараметр местоположения (средняя точка кривой, где ), а sпараметр масштаба . Это выражение можно переписать как:

где и известно как отсекаемый элемент (это отсекаемый элемент по вертикали или y -отсекаемый элемент линии ), и (обратный параметр масштаба или параметр скорости ): это отсекаемый элемент по оси y и наклон логарифмических коэффициентов как функции x . Наоборот, и .

Примечание: Эта модель на самом деле является упрощением, поскольку она предполагает, что все сдадут, если будут учиться достаточно долго (предел = 1). Предельное значение также должно быть переменным параметром, если вы хотите сделать его более реалистичным.

Соответствовать

Обычная мера качества соответствия для логистической регрессии использует логистические потери (или логарифмические потери ), отрицательное логарифмическое правдоподобие . Для заданных x k и y k запишите . — это вероятности того, что соответствующие будут равны единице, а — это вероятности того, что они будут равны нулю (см. распределение Бернулли ). Мы хотим найти значения и ⁠, которые дают «наилучшее соответствие» данным. В случае линейной регрессии сумма квадратов отклонений соответствия от точек данных ( y k ), квадрат ошибки потерь , принимается в качестве меры качества соответствия, и наилучшее соответствие получается, когда эта функция минимизируется .

Логарифм потерь для k -й точки ⁠ ⁠ равен:

Логарифм потерь можно интерпретировать как « неожиданность » фактического результата ⁠ ⁠ относительно прогноза ⁠ ⁠ , и он является мерой информационного содержания . Логарифм потерь всегда больше или равен 0, равен 0 только в случае идеального прогноза (т. е. когда и , или и ) и стремится к бесконечности, когда прогноз ухудшается (т. е. когда и или и ), что означает, что фактический результат «более удивителен». Поскольку значение логистической функции всегда строго между нулем и единицей, логарифм потерь всегда больше нуля и меньше бесконечности. В отличие от линейной регрессии, где модель может иметь нулевые потери в точке, проходя через точку данных (и нулевые потери в целом, если все точки находятся на одной линии), в логистической регрессии невозможно иметь нулевые потери в любой точке, поскольку равно либо 0, либо 1, но .

Их можно объединить в одно выражение:

Это выражение более формально известно как кросс-энтропия предсказанного распределения из фактического распределения , как распределения вероятностей на двухэлементном пространстве (пройдено, не пройдено).

Сумма этих потерь, общие потери, представляет собой общую отрицательную логарифмическую вероятность ⁠ ⁠ , и наилучшее соответствие получается для тех вариантов ⁠ ⁠ и ⁠ ⁠ , для которых ⁠ ⁠ минимизируется .

В качестве альтернативы, вместо минимизации потерь, можно максимизировать их обратную величину, (положительную) логарифмическую вероятность:

или, что эквивалентно, максимизировать саму функцию правдоподобия , которая представляет собой вероятность того, что данный набор данных получен с помощью определенной логистической функции:

Этот метод известен как оценка максимального правдоподобия .

Оценка параметров

Поскольку нелинейно по ⁠ ⁠ и ⁠ ⁠ , определение их оптимальных значений потребует численных методов. Один из методов максимизации состоит в требовании, чтобы производные по ⁠ ⁠ и ⁠ ⁠ были равны нулю:

и процедура максимизации может быть выполнена путем решения двух приведенных выше уравнений для ⁠ ⁠ и ⁠ ⁠ , что, опять же, обычно требует использования численных методов.

Значения ⁠ ⁠ и ⁠ ⁠, которые максимизируют и L, используя приведенные выше данные, определяются следующим образом:

что дает значение для μ и s :

Прогнозы

Коэффициенты ⁠ ⁠ и ⁠ ⁠ можно ввести в уравнение логистической регрессии для оценки вероятности успешной сдачи экзамена.

Например, для студента, который учится 2 часа, ввод значения в уравнение дает расчетную вероятность сдачи экзамена 0,25:

Аналогично, для студента, который учится 4 часа, расчетная вероятность сдачи экзамена составляет 0,87:

В данной таблице показана предполагаемая вероятность успешной сдачи экзамена для нескольких значений часов обучения.

Оценка модели

Логистический регрессионный анализ дает следующий результат.

По тесту Вальда выходные данные указывают на то, что часы обучения значительно связаны с вероятностью сдачи экзамена ( ). Вместо метода Вальда рекомендуемым методом [21] для расчета p -значения для логистической регрессии является тест отношения правдоподобия (LRT), который для этих данных дает (см. § Тесты отклонения и отношения правдоподобия ниже).

Обобщения

Эта простая модель является примером бинарной логистической регрессии и имеет одну объясняющую переменную и бинарную категориальную переменную, которая может принимать одно из двух категориальных значений. Мультиномиальная логистическая регрессия является обобщением бинарной логистической регрессии для включения любого количества объясняющих переменных и любого количества категорий.

Фон

Рисунок 1. Стандартная логистическая функция ; для всех .

Определение логистической функции

Объяснение логистической регрессии можно начать с объяснения стандартной логистической функции . Логистическая функция — это сигмоидальная функция , которая принимает любые действительные входные данные и выводит значение от нуля до единицы. [2] Для логита это интерпретируется как принятие входных логарифмических шансов и получение выходной вероятности . Стандартная логистическая функция определяется следующим образом:

График логистической функции на интервале t (−6,6) представлен на рисунке 1.

Предположим, что является линейной функцией одной объясняющей переменной (случай, когда является линейной комбинацией нескольких объясняющих переменных, рассматривается аналогично). Тогда мы можем выразить это следующим образом:

И общую логистическую функцию теперь можно записать как:

В логистической модели интерпретируется как вероятность того, что зависимая переменная равна успеху/случай, а не неудаче/неслучайности. Очевидно, что переменные отклика распределены не одинаково: отличаются от одной точки данных к другой, хотя они независимы, учитывая матрицу дизайна и общие параметры . [11]

Определение обратной логистической функции

Теперь мы можем определить функцию логарифма (логарифм шансов) как обратную стандартной логистической функции. Легко видеть, что она удовлетворяет:

и, что эквивалентно, после возведения в степень обеих сторон мы имеем коэффициенты:

Толкование этих терминов

В приведенных выше уравнениях члены имеют следующий вид:

Определение коэффициентов

Шансы зависимой переменной, равной случаю (при некоторой линейной комбинации предикторов), эквивалентны экспоненциальной функции выражения линейной регрессии. Это иллюстрирует, как логит служит связующей функцией между вероятностью и выражением линейной регрессии. Учитывая, что логит колеблется между отрицательной и положительной бесконечностью, он обеспечивает адекватный критерий, на основании которого можно проводить линейную регрессию, и логит легко преобразуется обратно в шансы. [2]

Итак, мы определяем шансы того, что зависимая переменная будет равна случаю (при некоторой линейной комбинации предикторов), следующим образом:

Отношение шансов

Для непрерывной независимой переменной отношение шансов можно определить как:

Изображение представляет собой схему того, как выглядит отношение шансов в письменной форме, с помощью шаблона в дополнение к примеру оценки теста в разделе «Пример» содержания. Проще говоря, если мы гипотетически получим отношение шансов 2 к 1, мы можем сказать... «Для каждого увеличения часов обучения на одну единицу шансы сдать (группа 1) или провалить (группа 0) составляют (ожидаемо) 2 к 1 (Денис, 2019).

Эта экспоненциальная зависимость дает интерпретацию для : шансы умножаются на для каждого увеличения x на 1 единицу. [22]

Для двоичной независимой переменной отношение шансов определяется как, где a , b , c и d — ячейки в таблице сопряженности 2×2 . [23]

Множественные объясняющие переменные

Если имеется несколько объясняющих переменных, приведенное выше выражение можно пересмотреть до . Затем, когда это используется в уравнении, связывающем логарифм шансов успеха со значениями предикторов, линейная регрессия будет множественной регрессией с m объясняющими переменными; все параметры для всех оцениваются.

Опять же, более традиционные уравнения таковы:

и

где обычно .

Определение

Набор данных содержит N точек. Каждая точка i состоит из набора m входных переменных x 1, i ... x m,i (также называемых независимыми переменными , объясняющими переменными, предикторными переменными, признаками или атрибутами) и двоичной выходной переменной Y i (также известной как зависимая переменная , переменная отклика, выходная переменная или класс), т. е. она может принимать только два возможных значения 0 (часто означающего «нет» или «неудача») или 1 (часто означающего «да» или «успех»). Цель логистической регрессии — использовать набор данных для создания прогностической модели выходной переменной.

Как и в линейной регрессии, предполагается, что выходные переменные Y i зависят от объясняющих переменных x 1, i ... x m,i .

Объяснительные переменные

Объясняющие переменные могут быть любого типа : действительные , бинарные , категориальные и т. д. Основное различие проводится между непрерывными переменными и дискретными переменными .

(Дискретные переменные, ссылающиеся на более чем два возможных варианта, обычно кодируются с помощью фиктивных переменных (или индикаторных переменных ), то есть для каждого возможного значения дискретной переменной создаются отдельные объясняющие переменные, принимающие значение 0 или 1, где 1 означает «переменная имеет заданное значение», а 0 означает «переменная не имеет этого значения».)

Переменные результата

Формально результаты Y i описываются как распределенные по Бернулли данные, где каждый результат определяется ненаблюдаемой вероятностью p i , которая специфична для данного результата, но связана с объясняющими переменными. Это может быть выражено в любой из следующих эквивалентных форм:

Значения этих четырех строк таковы:

  1. Первая строка выражает распределение вероятностей каждого Y i  : обусловленное объясняющими переменными, оно следует распределению Бернулли с параметрами p i , вероятностью результата 1 для испытания i . Как отмечено выше, каждое отдельное испытание имеет свою собственную вероятность успеха, так же как каждое испытание имеет свои собственные объясняющие переменные. Вероятность успеха p i не наблюдается, только результат отдельного испытания Бернулли с использованием этой вероятности.
  2. Вторая строка выражает тот факт, что ожидаемое значение каждого Y i равно вероятности успеха p i , что является общим свойством распределения Бернулли. Другими словами, если мы проведем большое количество испытаний Бернулли, используя ту же вероятность успеха p i , а затем возьмем среднее значение всех результатов 1 и 0, то результат будет близок к p i . Это потому, что усреднение таким образом просто вычисляет долю увиденных успехов, которая, как мы ожидаем, сойдется к базовой вероятности успеха.
  3. В третьей строке записана функция массы вероятности распределения Бернулли, определяющая вероятность увидеть каждый из двух возможных результатов.
  4. Четвертая строка — это другой способ записи функции массы вероятности, который позволяет избежать необходимости писать отдельные случаи и более удобен для определенных типов вычислений. Это основано на том факте, что Y i может принимать только значение 0 или 1. В каждом случае один из показателей будет равен 1, «выбирая» значение под ним, в то время как другой равен 0, «отменяя» значение под ним. Следовательно, результат равен либо p i , либо 1 −  p i , как в предыдущей строке.
Линейная предикторная функция

Основная идея логистической регрессии заключается в использовании механизма, уже разработанного для линейной регрессии , путем моделирования вероятности p i с использованием линейной предикторной функции , т. е. линейной комбинации объясняющих переменных и набора коэффициентов регрессии , которые являются специфическими для данной модели, но одинаковыми для всех испытаний. Линейная предикторная функция для конкретной точки данных i записывается как:

где — коэффициенты регрессии, указывающие относительное влияние конкретной объясняющей переменной на результат.

Модель обычно представляется в более компактной форме следующим образом:

Это позволяет записать функцию линейного предиктора следующим образом:

используя обозначение скалярного произведения двух векторов.

Это пример выходных данных SPSS для модели логистической регрессии с использованием трех объясняющих переменных (употребление кофе в неделю, употребление энергетических напитков в неделю и употребление газированных напитков в неделю) и двух категорий (мужчины и женщины).

Множество объясняющих переменных, две категории

Приведенный выше пример бинарной логистической регрессии с одной объясняющей переменной можно обобщить до бинарной логистической регрессии с любым количеством объясняющих переменных x 1 , x 2 ,... и любым количеством категориальных значений .

Для начала мы можем рассмотреть логистическую модель с M объясняющими переменными, x 1 , x 2 ... x M и, как в примере выше, двумя категориальными значениями ( y = 0 и 1). Для простой бинарной модели логистической регрессии мы предположили линейную связь между предикторной переменной и логарифмическими шансами (также называемыми логит ) события, что . Эту линейную связь можно распространить на случай M объясняющих переменных:

где t — это логарифм-шансы, а — параметры модели. Было введено дополнительное обобщение, в котором основание модели ( b ) не ограничивается числом Эйлера e . В большинстве приложений основанием логарифма обычно считается e . Однако в некоторых случаях может быть проще сообщать результаты, работая в системе счисления с основанием 2 или 10.

Для более компактной записи мы зададим объясняющие переменные и коэффициенты β как ⁠ ⁠ -мерные векторы:

с добавленной объясняющей переменной x 0 = 1. Логит теперь можно записать как:

Решая уравнение для вероятности p, получаем :

,

где - сигмоидальная функция с основанием . Вышеприведенная формула показывает, что как только фиксируются, мы можем легко вычислить либо логарифмические шансы того, что для данного наблюдения, либо вероятность того, что для данного наблюдения. Основной вариант использования логистической модели - получить наблюдение и оценить вероятность того, что . Оптимальные бета-коэффициенты снова могут быть найдены путем максимизации логарифмического правдоподобия. Для измерений K , определяемых как объясняющий вектор k -го измерения и как категориальный результат этого измерения, логарифмическое правдоподобие может быть записано в форме, очень похожей на простой случай выше:

Как и в простом примере выше, нахождение оптимальных параметров β потребует численных методов. Один полезный метод заключается в том, чтобы приравнять производные логарифмического правдоподобия относительно каждого из параметров β к нулю, что даст набор уравнений, которые будут выполняться при максимуме логарифмического правдоподобия:

где x mk — значение объясняющей переменной x m из k-го измерения.

Рассмотрим пример с объясняющими переменными, , и коэффициентами , , и , которые были определены вышеуказанным методом. Если говорить конкретно, то модель такова:

,

где p — вероятность события, что . Это можно интерпретировать следующим образом:

Мультиномиальная логистическая регрессия: множество объясняющих переменных и множество категорий

В приведенных выше случаях двух категорий (биномиальная логистическая регрессия) категории были проиндексированы как «0» и «1», и у нас было две вероятности: вероятность того, что результат был в категории 1, была задана как , а вероятность того, что результат был в категории 0, была задана как . Сумма этих вероятностей равна 1, что должно быть верно, поскольку «0» и «1» являются единственно возможными категориями в этой настройке.

В общем, если у нас есть ⁠ ⁠ объясняющие переменные (включая x 0 ) и ⁠ ⁠ категории, нам понадобятся ⁠ ⁠ отдельные вероятности, по одной для каждой категории, проиндексированные n , которые описывают вероятность того, что категориальный результат y будет в категории y=n , обусловленной вектором ковариатов x . Сумма этих вероятностей по всем категориям должна быть равна 1. Используя математически удобную базу e , эти вероятности равны:

для

Каждая из вероятностей, за исключением будет иметь свой собственный набор коэффициентов регрессии . Можно видеть, что, как и требуется, сумма всех категорий n равна 1. Выбор для определения в терминах других вероятностей является искусственным. Любая из вероятностей могла быть выбрана для определения таким образом. Это особое значение n называется «индексом опоры», а логарифмические шансы ( t n ) выражаются в терминах вероятности опоры и снова выражаются как линейная комбинация объясняющих переменных:

Также следует отметить, что для простого случая восстанавливается случай с двумя категориями, при этом и .

Логарифмическое правдоподобие того, что определенный набор из K измерений или точек данных будет сгенерирован вышеуказанными вероятностями, теперь может быть вычислено. Индексируя каждое измерение по k , обозначим k -й набор измеренных объясняющих переменных как , а их категориальные результаты как , которые могут быть равны любому целому числу в [0,N]. Логарифмическое правдоподобие тогда равно:

где — индикаторная функция , равная 1, если y k = n , и нулю в противном случае. В случае двух объясняющих переменных эта индикаторная функция была определена как y k, когда n = 1, и 1-y k, когда n = 0. Это было удобно, но не обязательно. [24] Опять же, оптимальные бета-коэффициенты могут быть найдены путем максимизации логарифмической функции правдоподобия, как правило, с использованием численных методов. Возможный метод решения — установить производные логарифмической функции правдоподобия по каждому бета-коэффициенту равными нулю и решить для бета-коэффициентов:

где - m -й коэффициент вектора , а - m -я объясняющая переменная k -го измерения. После того, как бета-коэффициенты были оценены на основе данных, мы сможем оценить вероятность того, что любой последующий набор объясняющих переменных приведет к любой из возможных категорий результатов.

Интерпретации

Существуют различные эквивалентные спецификации и интерпретации логистической регрессии, которые вписываются в различные типы более общих моделей и допускают различные обобщения.

Как обобщенная линейная модель

Конкретная модель, используемая в логистической регрессии, которая отличает ее от стандартной линейной регрессии и от других типов регрессионного анализа, используемых для двоичных результатов, заключается в том, как вероятность конкретного результата связана с линейной предикторной функцией:

Записанное с использованием более компактной записи, описанной выше, это выглядит так:

Эта формулировка выражает логистическую регрессию как тип обобщенной линейной модели , которая предсказывает переменные с различными типами распределений вероятностей путем подгонки линейной предикторной функции вышеуказанной формы к некоторому произвольному преобразованию ожидаемого значения переменной.

Интуиция преобразования с использованием функции логита (натуральный логарифм шансов) была объяснена выше [ необходимо разъяснение ] . Она также имеет практический эффект преобразования вероятности (которая ограничена диапазоном от 0 до 1) в переменную, которая варьируется — тем самым сопоставляя потенциальный диапазон функции линейного прогнозирования в правой части уравнения.

Как вероятности p i , так и коэффициенты регрессии не наблюдаются, и средства их определения не являются частью самой модели. Обычно они определяются с помощью некоторой процедуры оптимизации, например, оценки максимального правдоподобия , которая находит значения, которые наилучшим образом соответствуют наблюдаемым данным (т. е. которые дают наиболее точные прогнозы для уже наблюдаемых данных), обычно с учетом условий регуляризации , которые стремятся исключить маловероятные значения, например, чрезвычайно большие значения для любого из коэффициентов регрессии. Использование условия регуляризации эквивалентно выполнению оценки максимума апостериори (MAP), расширения максимального правдоподобия. (Регуляризация чаще всего выполняется с использованием квадратичной регуляризирующей функции , что эквивалентно размещению гауссова априорного распределения с нулевым средним на коэффициентах, но возможны и другие регуляризаторы.) Независимо от того, используется регуляризация или нет, обычно невозможно найти решение в замкнутой форме; Вместо этого необходимо использовать итерационный численный метод, такой как итеративно перевзвешенный метод наименьших квадратов (IRLS) или, что более распространено в наши дни, квазиньютоновский метод , такой как метод L-BFGS . [25]

Интерпретация оценок параметра β j заключается в том, что это аддитивный эффект на логарифм шансов для единичного изменения объясняющей переменной j . В случае дихотомической объясняющей переменной, например, пол является оценкой шансов получить результат, скажем, для мужчин по сравнению с женщинами.

Эквивалентная формула использует обратную функцию логит, которая является логистической функцией , то есть:

Формулу можно также записать в виде распределения вероятностей (в частности, с использованием функции массы вероятности ):

Как модель скрытых переменных

Логистическая модель имеет эквивалентную формулировку как модель с латентной переменной . Эта формулировка распространена в теории моделей дискретного выбора и облегчает ее распространение на некоторые более сложные модели с множественными коррелированными выборами, а также сравнение логистической регрессии с тесно связанной пробит-моделью .

Представьте себе, что для каждого испытания i существует непрерывная скрытая переменная Y i * (т.е. ненаблюдаемая случайная величина ), которая распределена следующим образом:

где

т.е. скрытая переменная может быть записана непосредственно через линейную предикторную функцию и аддитивную случайную величину ошибки , которая распределена в соответствии со стандартным логистическим распределением .

Тогда Y i можно рассматривать как индикатор того, является ли эта скрытая переменная положительной:

Выбор моделирования переменной ошибки конкретно со стандартным логистическим распределением, а не общим логистическим распределением с произвольными значениями местоположения и масштаба, кажется ограничительным, но на самом деле это не так. Следует иметь в виду, что мы можем сами выбирать коэффициенты регрессии и очень часто можем использовать их для компенсации изменений параметров распределения переменной ошибки. Например, логистическое распределение переменной ошибки с ненулевым параметром местоположения μ (который задает среднее значение) эквивалентно распределению с нулевым параметром местоположения, где μ был добавлен к коэффициенту отсекателя. Обе ситуации дают одно и то же значение для Y i * независимо от настроек объясняющих переменных. Аналогично, произвольный параметр масштаба s эквивалентен установке параметра масштаба на 1 и последующему делению всех коэффициентов регрессии на s . В последнем случае результирующее значение Y i * будет меньше в s раз , чем в первом случае, для всех наборов объясняющих переменных, но, что важно, оно всегда будет оставаться по одну и ту же сторону от 0 и, следовательно, приводить к одному и тому же выбору Y i .

(Это позволяет предположить, что нерелевантность параметра масштаба может не проявиться в более сложных моделях, где доступно более двух вариантов.)

Оказывается, эта формулировка в точности эквивалентна предыдущей, сформулированной в терминах обобщенной линейной модели и без каких-либо скрытых переменных . Это можно показать следующим образом, используя тот факт, что кумулятивная функция распределения (CDF) стандартного логистического распределения является логистической функцией , которая является обратной функцией логит-функции , т.е.

Затем:

Эта формулировка, которая является стандартной в моделях дискретного выбора , проясняет связь между логистической регрессией («логит-моделью») и пробит-моделью , которая использует переменную ошибки, распределенную в соответствии со стандартным нормальным распределением вместо стандартного логистического распределения. Как логистическое, так и нормальное распределение симметричны с базовой унимодальной формой «колоколообразной кривой». Единственное отличие состоит в том, что логистическое распределение имеет несколько более тяжелые хвосты , что означает, что оно менее чувствительно к выпадающим данным (и, следовательно, несколько более устойчиво к неверным спецификациям модели или ошибочным данным).

Двусторонняя модель скрытых переменных

Еще одна формула использует две отдельные скрытые переменные:

где

где EV 1 (0,1) — это стандартное распределение экстремальных значений типа 1 : т.е.

Затем

Эта модель имеет отдельную скрытую переменную и отдельный набор коэффициентов регрессии для каждого возможного результата зависимой переменной. Причина такого разделения заключается в том, что это позволяет легко расширить логистическую регрессию до многорезультатных категориальных переменных, как в многочленной логит- модели. В такой модели естественно моделировать каждый возможный результат, используя другой набор коэффициентов регрессии. Также возможно мотивировать каждую из отдельных скрытых переменных как теоретическую полезность , связанную с принятием соответствующего выбора, и таким образом мотивировать логистическую регрессию в терминах теории полезности . (В терминах теории полезности рациональный субъект всегда выбирает выбор с наибольшей связанной полезностью.) Это подход, используемый экономистами при формулировании моделей дискретного выбора , поскольку он и обеспечивает теоретически прочную основу, и облегчает интуицию относительно модели, что, в свою очередь, позволяет легко рассматривать различные виды расширений. (См. пример ниже.)

Выбор распределения экстремальных значений типа 1 кажется довольно произвольным, но он оправдывает математику, и его использование можно оправдать с помощью теории рационального выбора .

Оказывается, эта модель эквивалентна предыдущей модели, хотя это кажется неочевидным, поскольку теперь есть два набора коэффициентов регрессии и переменных ошибок, а переменные ошибок имеют разное распределение. Фактически, эта модель напрямую сводится к предыдущей с помощью следующих подстановок:

Интуиция для этого исходит из того факта, что, поскольку мы выбираем на основе максимального из двух значений, имеет значение только их разность, а не точные значения — и это фактически удаляет одну степень свободы . Другим критическим фактом является то, что разность двух распределенных по экстремальным значениям переменных типа 1 является логистическим распределением, т. е. Мы можем продемонстрировать эквивалент следующим образом:

Пример

В качестве примера рассмотрим выборы на уровне провинции, где выбор делается между правоцентристской партией, левоцентристской партией и сепаратистской партией (например, Parti Québécois , которая хочет, чтобы Квебек отделился от Канады ). Затем мы бы использовали три скрытые переменные, по одной для каждого выбора. Затем, в соответствии с теорией полезности , мы можем интерпретировать скрытые переменные как выражение полезности , которая является результатом принятия каждого из выборов. Мы также можем интерпретировать коэффициенты регрессии как указание силы, которую связанный фактор (т. е. объясняющая переменная) имеет в содействии полезности — или, точнее, величину, на которую единичное изменение объясняющей переменной изменяет полезность данного выбора. Избиратель может ожидать, что правоцентристская партия снизит налоги, особенно для богатых людей. Это не принесет людям с низким доходом никакой выгоды, т. е. никакого изменения полезности (поскольку они обычно не платят налоги); принесет умеренную выгоду (т. е. несколько больше денег или умеренное увеличение полезности) для людей со средним доходом; принесет значительную выгоду для людей с высоким доходом. С другой стороны, можно было бы ожидать, что левоцентристская партия повысит налоги и компенсирует это увеличением благосостояния и другой помощью для низших и средних классов. Это принесет значительную положительную выгоду людям с низким доходом, возможно, слабую выгоду людям со средним доходом и значительную отрицательную выгоду людям с высоким доходом. Наконец, сепаратистская партия не предпримет никаких прямых действий в экономике, а просто отделится. Избиратель с низким или средним доходом может ожидать в основном неясного выигрыша или потери полезности от этого, но избиратель с высоким доходом может ожидать отрицательной полезности, поскольку он/она, вероятно, будет владеть компаниями, которым будет сложнее вести бизнес в такой среде и, вероятно, потеряет деньги.

Эти интуиции можно выразить следующим образом:

Это ясно показывает, что

  1. Для каждого выбора должны существовать отдельные наборы коэффициентов регрессии. Если выразить это в терминах полезности, это можно увидеть очень легко. Различные варианты оказывают разное влияние на чистую полезность; более того, влияние варьируется сложным образом, который зависит от характеристик каждого человека, поэтому должны быть отдельные наборы коэффициентов для каждой характеристики, а не просто одна дополнительная характеристика на выбор.
  2. Хотя доход является непрерывной переменной, его влияние на полезность слишком сложно, чтобы рассматривать его как одну переменную. Либо его нужно напрямую разбить на диапазоны, либо нужно добавить более высокие степени дохода, чтобы полиномиальная регрессия по доходу была эффективно выполнена.

Как «логарифмически-линейная» модель

Еще одна формулировка объединяет двухфакторную формулировку скрытых переменных, представленную выше, с исходной формулой выше без скрытых переменных и в процессе обеспечивает ссылку на одну из стандартных формулировок полиномиального логита .

Здесь вместо того, чтобы записывать логарифм вероятностей p i как линейный предиктор, мы разделяем линейный предиктор на два, по одному для каждого из двух результатов:

Были введены два отдельных набора коэффициентов регрессии, как и в двухфакторной модели скрытых переменных, и два уравнения представляют собой форму, которая записывает логарифм связанной вероятности как линейный предиктор с дополнительным членом в конце. Этот член, как оказалось, служит нормализующим фактором, гарантируя, что результат является распределением. Это можно увидеть, возведя обе стороны в степень:

В этой форме ясно, что цель Z — гарантировать, что результирующее распределение по Y i на самом деле является распределением вероятностей , т.е. его сумма равна 1. Это означает, что Z — это просто сумма всех ненормализованных вероятностей, и при делении каждой вероятности на Z вероятности становятся « нормализованными ». То есть:

и полученные уравнения:

Или в общем:

Это наглядно показывает, как обобщить эту формулировку для более чем двух результатов, как в мультиномиальном логите . Эта общая формулировка — это в точности функция softmax, как в

Чтобы доказать, что это эквивалентно предыдущей модели, указанная выше модель переопределена, в том смысле, что она не может быть независимо определена: скорее , знание одного автоматически определяет другое. В результате модель неидентифицируема , в том смысле, что множественные комбинации β 0 и β 1 дадут одинаковые вероятности для всех возможных объясняющих переменных. Фактически, можно увидеть, что добавление любого постоянного вектора к ним обоим даст одинаковые вероятности:

В результате мы можем упростить дело и восстановить идентифицируемость, выбрав произвольное значение для одного из двух векторов. Мы выбираем установить Тогда,

и так

что показывает, что эта формулировка действительно эквивалентна предыдущей формулировке. (Как и в формулировке с двухфакторной скрытой переменной, любые настройки, где дадут эквивалентные результаты.)

Большинство обработок модели мультиномиального логита начинаются либо с расширения "логарифмически линейной" формулировки, представленной здесь, либо с двухфакторной латентной переменной формулировки, представленной выше, поскольку обе ясно показывают, как модель может быть расширена для многофакторных результатов. В целом, представление со скрытыми переменными более распространено в эконометрике и политологии , где царят модели дискретного выбора и теория полезности , в то время как "логарифмически линейная" формулировка здесь более распространена в компьютерной науке , например, машинном обучении и обработке естественного языка .

Как однослойный персептрон

Модель имеет эквивалентную формулировку

Эту функциональную форму обычно называют однослойным персептроном или однослойной искусственной нейронной сетью . Однослойная нейронная сеть вычисляет непрерывный выход вместо ступенчатой ​​функции . Производная p i по X  = ( x 1 , ..., x k ) вычисляется из общей формы:

где f ( X ) — аналитическая функция в X . При таком выборе однослойная нейронная сеть идентична модели логистической регрессии. Эта функция имеет непрерывную производную, что позволяет использовать ее в обратном распространении . Эта функция также предпочтительна, поскольку ее производная легко вычисляется:

С точки зрения биномиальных данных

Тесно связанная модель предполагает, что каждое i связано не с одним испытанием Бернулли, а с n i независимыми одинаково распределенными испытаниями, где наблюдение Y i представляет собой число наблюдаемых успехов (сумма отдельных распределенных по Бернулли случайных величин), и, следовательно, следует биномиальному распределению :

Примером такого распределения является доля семян ( p i ), которые прорастают после посадки n i .

С точки зрения ожидаемых значений эта модель выражается следующим образом:

так что

Или эквивалентно:

Эту модель можно подогнать, используя те же методы, что и приведенную выше более простую модель.

Подгонка модели

Оценка максимального правдоподобия (MLE)

Коэффициенты регрессии обычно оцениваются с использованием оценки максимального правдоподобия . [26] [27] В отличие от линейной регрессии с нормально распределенными остатками, невозможно найти выражение в замкнутой форме для значений коэффициентов, которые максимизируют функцию правдоподобия, поэтому вместо этого необходимо использовать итерационный процесс; например, метод Ньютона . Этот процесс начинается с предварительного решения, немного пересматривает его, чтобы посмотреть, можно ли его улучшить, и повторяет этот пересмотр до тех пор, пока не будет сделано больше улучшений, в этот момент говорят, что процесс сошёлся. [26]

В некоторых случаях модель может не достичь сходимости. Несходимость модели указывает на то, что коэффициенты не имеют смысла, поскольку итерационный процесс не смог найти подходящие решения. Неспособность сходимости может возникнуть по ряду причин: большое отношение предикторов к случаям, мультиколлинеарность , разреженность или полное разделение .

Итеративно перевзвешенные наименьшие квадраты (IRLS)

Бинарная логистическая регрессия ( или ) может, например, быть рассчитана с использованием итеративно перевзвешенных наименьших квадратов (IRLS), что эквивалентно максимизации логарифмического правдоподобия распределенного процесса Бернулли с использованием метода Ньютона . Если задача записана в векторно-матричной форме с параметрами , объясняющими переменными и ожидаемым значением распределения Бернулли , параметры можно найти с помощью следующего итерационного алгоритма:

где — диагональная весовая матрица, вектор ожидаемых значений,

Матрица регрессора и вектор переменных отклика. Более подробную информацию можно найти в литературе. [29]

байесовский

Сравнение логистической функции с масштабированной обратной пробит-функцией (т.е. CDF нормального распределения ), сравнение с , что делает наклоны одинаковыми в начале координат. Это показывает более тяжелые хвосты логистического распределения.

В контексте байесовской статистики априорные распределения обычно размещаются на коэффициентах регрессии, например, в форме гауссовых распределений . В логистической регрессии нет сопряженного априорного распределения функции правдоподобия . Когда байесовский вывод выполнялся аналитически, это затрудняло вычисление апостериорного распределения, за исключением очень низких размерностей. Теперь, однако, автоматическое программное обеспечение, такое как OpenBUGS , JAGS , PyMC , Stan или Turing.jl, позволяет вычислять эти апостериорные распределения с помощью моделирования, поэтому отсутствие сопряженности не является проблемой. Однако, когда размер выборки или количество параметров велики, полное байесовское моделирование может быть медленным, и люди часто используют приближенные методы, такие как вариационные байесовские методы и распространение ожидания .

«Правило десяти»

Широко используемое « правило одного из десяти » гласит, что модели логистической регрессии дают стабильные значения для объясняющих переменных, если они основаны как минимум на 10 событиях на объясняющую переменную (EPV); где событие обозначает случаи, относящиеся к менее частой категории в зависимой переменной. Таким образом, исследование, разработанное для использования объясняющих переменных для события (например, инфаркта миокарда ), которое, как ожидается, произойдет у части участников исследования, потребует общего числа участников. Однако существуют значительные споры о надежности этого правила, которое основано на имитационных исследованиях и не имеет надежной теоретической основы. [30] По мнению некоторых авторов [31], правило является чрезмерно консервативным в некоторых обстоятельствах, при этом авторы заявляют: «Если мы (несколько субъективно) считаем, что покрытие доверительного интервала менее 93 процентов, ошибка первого типа более 7 процентов или относительное смещение более 15 процентов являются проблематичными, наши результаты показывают, что проблемы довольно часты при 2–4 EPV, нечасты при 5–9 EPV и все еще наблюдаются при 10–16 EPV. Наихудшие случаи каждой проблемы не были серьезными при 5–9 EPV и обычно сопоставимы с таковыми при 10–16 EPV». [32]

Другие обнаружили результаты, которые не согласуются с вышеизложенным, используя другие критерии. Полезным критерием является то, будет ли подобранная модель, как ожидается, достигать той же предиктивной дискриминации в новой выборке, которую она, как оказалось, достигла в выборке разработки модели. Для этого критерия может потребоваться 20 событий на одну кандидатную переменную. [33] Также можно утверждать, что 96 наблюдений необходимы только для оценки пересечения модели достаточно точно, чтобы погрешность в предсказанных вероятностях составляла ±0,1 с уровнем достоверности 0,95. [13]

Ошибка и значимость подгонки

Тест на отклонение и отношение правдоподобия ─ простой случай

В любой процедуре подгонки добавление другого параметра подгонки к модели (например, бета-параметров в модели логистической регрессии) почти всегда улучшит способность модели предсказывать измеренные результаты. Это будет верно даже в том случае, если дополнительный член не имеет предсказательной ценности, поскольку модель будет просто « переобучать » шум в данных. Возникает вопрос, является ли улучшение, полученное при добавлении другого параметра подгонки, достаточно значительным, чтобы рекомендовать включение дополнительного члена, или же это просто то улучшение, которого можно ожидать от переобучения.

Короче говоря, для логистической регрессии определяется статистика, известная как отклонение , которая является мерой ошибки между соответствием логистической модели и выходными данными. В пределе большого количества точек данных отклонение распределено по закону хи-квадрат , что позволяет реализовать тест хи-квадрат для определения значимости объясняющих переменных.

Линейная регрессия и логистическая регрессия имеют много общего. Например, в простой линейной регрессии набор из K точек данных ( x k , y k ) подгоняется под предлагаемую модельную функцию формы . Подгонка достигается путем выбора параметров b , которые минимизируют сумму квадратов остатков (квадрат ошибки) для каждой точки данных:

Минимальное значение, которое составляет соответствие, будет обозначено как

Можно ввести идею нулевой модели , в которой предполагается, что переменная x бесполезна для прогнозирования результатов y k : Точки данных подгоняются под функцию нулевой модели вида y  =  b 0 с квадратом ошибки:

Процесс подгонки состоит из выбора значения b 0 , которое минимизирует подгонку к нулевой модели, обозначенной как , где нижний индекс обозначает нулевую модель. Видно, что нулевая модель оптимизирована с помощью , где — среднее значение значений y k , а оптимизированное значение равно:

который пропорционален квадрату (нескорректированного) выборочного стандартного отклонения точек данных yk .

Мы можем представить себе случай, когда точки данных y k случайным образом назначаются различным x k , а затем подгоняются с использованием предлагаемой модели. В частности, мы можем рассмотреть подгонки предлагаемой модели к каждой перестановке результатов y k . Можно показать, что оптимизированная ошибка любой из этих подгонок никогда не будет меньше оптимальной ошибки нулевой модели, и что разница между этими минимальными ошибками будет следовать распределению хи-квадрат со степенями свободы, равными таковым у предлагаемой модели за вычетом степеней свободы нулевой модели, которая в этом случае будет . Используя тест хи-квадрат , мы можем затем оценить, сколько из этих переставленных наборов y k дадут минимальную ошибку, меньшую или равную минимальной ошибке с использованием исходного y k , и поэтому мы можем оценить, насколько значительное улучшение дает включение переменной x в предлагаемую модель.

Для логистической регрессии мерой соответствия является функция правдоподобия L или ее логарифм, логарифм правдоподобия . Функция правдоподобия L аналогична в случае линейной регрессии, за исключением того, что правдоподобие максимизируется, а не минимизируется. Обозначим максимизированный логарифм правдоподобия предлагаемой модели как .

В случае простой бинарной логистической регрессии набор из K точек данных в вероятностном смысле подгоняется под функцию вида:

где ⁠ ⁠ — вероятность того, что . Логарифм шансов определяется как:

а логарифм правдоподобия равен:

Для нулевой модели вероятность определяется по формуле:

Логарифмические шансы для нулевой модели определяются по формуле:

а логарифм правдоподобия равен:

Поскольку мы имеем максимум L , максимальное логарифмическое правдоподобие для нулевой модели равно

Оптимальным является:

где снова среднее значение y k . Опять же, мы можем концептуально рассмотреть соответствие предлагаемой модели каждой перестановке y k и можно показать, что максимальное логарифмическое правдоподобие этих перестановочных подгонок никогда не будет меньше, чем у нулевой модели:

Также, как аналог ошибки линейной регрессии, мы можем определить отклонение подгонки логистической регрессии как:

который всегда будет положительным или нулевым. Причина такого выбора заключается в том, что отклонение не только является хорошей мерой качества подгонки, но и приблизительно распределено по закону хи-квадрат, причем приближение улучшается по мере увеличения числа точек данных ( K ), становясь точно распределенным по закону хи-квадрат в пределе бесконечного числа точек данных. Как и в случае линейной регрессии, мы можем использовать этот факт для оценки вероятности того, что случайный набор точек данных даст лучшее подгонку, чем подгонка, полученная предлагаемой моделью, и, таким образом, оценить, насколько значительно модель улучшается при включении x k точек данных в предлагаемую модель.

Для простой модели результатов тестов студентов, описанной выше, максимальное значение логарифмического правдоподобия нулевой модели равно Максимальное значение логарифмического правдоподобия для простой модели равно так, что отклонение равно

Используя критерий значимости хи-квадрат , интеграл распределения хи-квадрат с одной степенью свободы от 11,6661... до бесконечности равен 0,00063649...

Это фактически означает, что около 6 из 10 000 подгонок под случайный y k могут иметь лучшее соответствие (меньшее отклонение), чем заданный y k , и поэтому мы можем заключить, что включение переменной x и данных в предлагаемую модель является очень значительным улучшением по сравнению с нулевой моделью. Другими словами, мы с уверенностью отвергаем нулевую гипотезу .

Резюме по качеству соответствия

Качество соответствия в моделях линейной регрессии обычно измеряется с помощью R 2. Поскольку это не имеет прямого аналога в логистической регрессии, вместо этого можно использовать различные методы [34] : гл.21,  включая следующие.

Тесты на отклонение и отношение правдоподобия

В линейном регрессионном анализе речь идет о разделении дисперсии с помощью вычислений суммы квадратов — дисперсия в критерии по существу делится на дисперсию, учитываемую предикторами, и остаточную дисперсию. В логистическом регрессионном анализе отклонение используется вместо вычислений суммы квадратов. [35] Отклонение аналогично вычислениям суммы квадратов в линейной регрессии [2] и является мерой отсутствия соответствия данным в модели логистической регрессии. [35] Когда доступна «насыщенная» модель (модель с теоретически идеальным соответствием), отклонение вычисляется путем сравнения заданной модели с насыщенной моделью. [2] Это вычисление дает тест отношения правдоподобия : [2]

В приведенном выше уравнении D представляет отклонение, а ln представляет натуральный логарифм. Логарифм этого отношения правдоподобия (отношение подобранной модели к насыщенной модели) даст отрицательное значение, отсюда и необходимость отрицательного знака. Можно показать, что D следует приблизительному распределению хи-квадрат . [2] Меньшие значения указывают на лучшее соответствие, поскольку подобранная модель меньше отклоняется от насыщенной модели. При оценке по распределению хи-квадрат незначимые значения хи-квадрат указывают на очень малую необъяснимую дисперсию и, таким образом, на хорошее соответствие модели. И наоборот, значимое значение хи-квадрат указывает на то, что значительная часть дисперсии необъяснима.

Если насыщенная модель недоступна (обычный случай), отклонение рассчитывается просто как −2·(логарифм правдоподобия подобранной модели), а ссылка на логарифм правдоподобия насыщенной модели может быть удалена из всего последующего без вреда.

В логистической регрессии особенно важны две меры отклонения: нулевое отклонение и отклонение модели. Нулевое отклонение представляет собой разницу между моделью только с отсекателем (что означает «нет предикторов») и насыщенной моделью. Отклонение модели представляет собой разницу между моделью по крайней мере с одним предиктором и насыщенной моделью. [35] В этом отношении нулевая модель обеспечивает базовую линию, на которой можно сравнивать модели предикторов. Учитывая, что отклонение является мерой разницы между заданной моделью и насыщенной моделью, меньшие значения указывают на лучшее соответствие. Таким образом, чтобы оценить вклад предиктора или набора предикторов, можно вычесть отклонение модели из нулевого отклонения и оценить разницу по распределению хи-квадрат со степенями свободы [2], равными разнице в количестве оцененных параметров.

Позволять

Тогда разница между ними будет:

Если отклонение модели значительно меньше нулевого отклонения, то можно сделать вывод, что предиктор или набор предикторов значительно улучшают соответствие модели. Это аналогично F -тесту, используемому в линейном регрессионном анализе для оценки значимости прогноза. [35]

Псевдо-R-квадрат

В линейной регрессии квадрат множественной корреляции R 2 используется для оценки качества соответствия, поскольку он представляет собой долю дисперсии в критерии, которая объясняется предикторами. [35] В логистическом регрессионном анализе не существует согласованной аналогичной меры, но есть несколько конкурирующих мер, каждая из которых имеет свои ограничения. [35] [36]

На этой странице рассматриваются четыре наиболее часто используемых индекса и один менее часто используемый:

Тест Хосмера-Лемешова

Тест Хосмера –Лемешоу использует статистику теста, которая асимптотически следует распределению , чтобы оценить, соответствуют ли наблюдаемые частоты событий ожидаемым частотам событий в подгруппах модельной популяции. Некоторые статистики считают этот тест устаревшим из-за его зависимости от произвольного биннинга предсказанных вероятностей и относительно низкой мощности. [37]

Значимость коэффициента

После подгонки модели исследователи, вероятно, захотят изучить вклад отдельных предикторов. Для этого им нужно изучить коэффициенты регрессии. В линейной регрессии коэффициенты регрессии представляют собой изменение критерия для каждого изменения единицы в предикторе. [35] Однако в логистической регрессии коэффициенты регрессии представляют собой изменение логита для каждого изменения единицы в предикторе. Учитывая, что логит не является интуитивно понятным, исследователи, скорее всего, сосредоточатся на влиянии предиктора на экспоненциальную функцию коэффициента регрессии — отношение шансов (см. определение). В линейной регрессии значимость коэффициента регрессии оценивается путем вычисления t- теста. В логистической регрессии существует несколько различных тестов, предназначенных для оценки значимости отдельного предиктора, в частности, тест отношения правдоподобия и статистика Вальда.

Тест отношения правдоподобия

Тест отношения правдоподобия, обсуждавшийся выше для оценки соответствия модели, также является рекомендуемой процедурой для оценки вклада отдельных «предикторов» в данную модель. [2] [26] [35] В случае модели с одним предиктором просто сравнивается отклонение модели предиктора с отклонением нулевой модели на распределении хи-квадрат с одной степенью свободы. Если модель предиктора имеет значительно меньшее отклонение (ср. хи-квадрат, использующий разницу в степенях свободы двух моделей), то можно сделать вывод, что между «предиктором» и результатом существует значимая связь. Хотя некоторые распространенные статистические пакеты (например, SPSS) предоставляют статистику теста отношения правдоподобия, без этого вычислительно интенсивного теста было бы сложнее оценить вклад отдельных предикторов в случае множественной логистической регрессии. [ необходима цитата ] Чтобы оценить вклад отдельных предикторов, можно ввести предикторы иерархически, сравнивая каждую новую модель с предыдущей, чтобы определить вклад каждого предиктора. [35] Среди статистиков ведутся споры о целесообразности так называемых «пошаговых» процедур. [ обтекаемые слова ] Существует опасение, что они могут не сохранить номинальные статистические свойства и могут стать вводящими в заблуждение. [38]

Статистика Вальда

В качестве альтернативы, при оценке вклада отдельных предикторов в заданной модели, можно изучить значимость статистики Вальда . Статистика Вальда, аналогичная t -тесту в линейной регрессии, используется для оценки значимости коэффициентов. Статистика Вальда представляет собой отношение квадрата коэффициента регрессии к квадрату стандартной ошибки коэффициента и асимптотически распределена как распределение хи-квадрат. [26]

Хотя несколько статистических пакетов (например, SPSS, SAS) сообщают статистику Вальда для оценки вклада отдельных предикторов, статистика Вальда имеет ограничения. Когда коэффициент регрессии большой, стандартная ошибка коэффициента регрессии также имеет тенденцию быть больше, увеличивая вероятность ошибки типа II . Статистика Вальда также имеет тенденцию быть смещенной, когда данные разрежены. [35]

Выборка случай-контроль

Предположим, что случаи редки. Тогда мы можем захотеть делать выборку чаще, чем их распространенность в популяции. Например, предположим, что есть болезнь, которая поражает 1 человека из 10 000, и для сбора наших данных нам нужно провести полное физическое обследование. Может быть слишком дорого проводить тысячи физических обследований здоровых людей, чтобы получить данные только для нескольких больных людей. Таким образом, мы можем оценить большее количество больных людей, возможно, все редкие исходы. Это также ретроспективная выборка, или, что то же самое, это называется несбалансированными данными. Как правило, выборка контролей со скоростью, в пять раз превышающей количество случаев, даст достаточные контрольные данные. [39]

Логистическая регрессия уникальна тем, что ее можно оценить на несбалансированных данных, а не на случайно выбранных данных, и при этом получить правильные оценки коэффициентов влияния каждой независимой переменной на результат. То есть, если мы формируем логистическую модель из таких данных, если модель верна в генеральной совокупности, все параметры верны, за исключением . Мы можем внести исправления , если знаем истинную распространенность, следующим образом: [39]

где — истинная распространенность, — распространенность в выборке.

Обсуждение

Как и другие формы регрессионного анализа , логистическая регрессия использует одну или несколько переменных-предикторов, которые могут быть как непрерывными, так и категориальными. Однако, в отличие от обычной линейной регрессии, логистическая регрессия используется для прогнозирования зависимых переменных, которые принимают членство в одной из ограниченного числа категорий (рассматривая зависимую переменную в биномиальном случае как результат испытания Бернулли ), а не непрерывный результат. Учитывая это различие, предположения линейной регрессии нарушаются. В частности, остатки не могут быть нормально распределены. Кроме того, линейная регрессия может делать бессмысленные прогнозы для бинарной зависимой переменной. Нужен способ преобразовать бинарную переменную в непрерывную, которая может принимать любое действительное значение (отрицательное или положительное). Для этого биномиальная логистическая регрессия сначала вычисляет шансы события , происходящего для различных уровней каждой независимой переменной, а затем берет ее логарифм , чтобы создать непрерывный критерий как преобразованную версию зависимой переменной. Логарифм шансов — это логит вероятности, логит определяется следующим образом:

Хотя зависимой переменной в логистической регрессии является Бернулли, логит-функция имеет неограниченную шкалу. [2] Логит-функция является связующей функцией в этом виде обобщенной линейной модели, т.е.

Y — это распределенная по закону Бернулли переменная отклика, а x — предикторная переменная; значения β являются линейными параметрами.

Затем логит вероятности успеха подгоняется под предикторы. Предсказанное значение логита преобразуется обратно в предсказанные шансы с помощью обратной функции натурального логарифма – экспоненциальной функции . Таким образом, хотя наблюдаемая зависимая переменная в бинарной логистической регрессии является переменной 0 или 1, логистическая регрессия оценивает шансы, как непрерывную переменную, того, что зависимая переменная является «успехом». В некоторых приложениях шансы – это все, что нужно. В других случаях требуется конкретное предсказание «да» или «нет» для того, является ли зависимая переменная «успехом» или нет; это категориальное предсказание может быть основано на вычисленных шансах успеха, при этом предсказанные шансы выше некоторого выбранного порогового значения преобразуются в предсказание успеха.

Максимальная энтропия

Из всех функциональных форм, используемых для оценки вероятностей конкретного категориального результата, которые оптимизируют соответствие путем максимизации функции правдоподобия (например, пробит-регрессия , регрессия Пуассона и т. д.), решение логистической регрессии уникально тем, что является решением с максимальной энтропией . [40] Это случай общего свойства: экспоненциальное семейство распределений максимизирует энтропию, учитывая ожидаемое значение. В случае логистической модели логистическая функция является естественным параметром распределения Бернулли (она находится в « канонической форме », а логистическая функция является канонической функцией связи), в то время как другие сигмоидальные функции являются неканоническими функциями связи; это лежит в основе ее математической элегантности и простоты оптимизации. Подробности см. в разделе Экспоненциальное семейство § Вывод максимальной энтропии .

Доказательство

Чтобы показать это, мы используем метод множителей Лагранжа . Лагранжиан равен энтропии плюс сумма произведений множителей Лагранжа на различные выражения ограничений. Будет рассмотрен общий многочленный случай, поскольку доказательство не сильно упрощается при рассмотрении более простых случаев. Приравнивание производной лагранжиана по различным вероятностям к нулю дает функциональную форму для этих вероятностей, которая соответствует тем, которые используются в логистической регрессии. [40]

Как и в предыдущем разделе о мультиномиальной логистической регрессии, мы рассмотрим ⁠ ⁠ объясняющие переменные, обозначенные ⁠ ⁠ и , которые включают . Всего будет K точек данных, проиндексированных , а точки данных будут заданы как и . X mk также будет представлен как -мерный вектор . Будут возможные значения категориальной переменной y в диапазоне от 0 до N.

Пусть p n ( x ) будет вероятностью, заданной объясняющей переменной вектора x , что результат будет . Определите вероятность того, что для k -го измерения категориальный результат будет n .

Лагранжиан будет выражен как функция вероятностей p nk и будет минимизирован путем приравнивания производных лагранжиана относительно этих вероятностей к нулю. Важным моментом является то, что вероятности рассматриваются одинаково, и тот факт, что они в сумме дают 1, является частью формулировки лагранжиана, а не предполагается с самого начала.

Первым вкладом в лагранжиан является энтропия :

Логарифм правдоподобия равен:

Предполагая полиномиальную логистическую функцию, производная логарифмического правдоподобия относительно бета-коэффициентов была найдена равной:

Очень важным моментом здесь является то, что это выражение (что примечательно) не является явной функцией бета-коэффициентов. Это только функция вероятностей p nk и данных. Вместо того, чтобы быть специфичным для предполагаемого случая мультиномиальной логистики, оно рассматривается как общее утверждение условия, при котором логарифмическое правдоподобие максимизируется, и не ссылается на функциональную форму p nk . Тогда есть ( M +1) ( N +1) ограничений подгонки, и член ограничения подгонки в лагранжиане тогда равен:

где λ nm — соответствующие множители Лагранжа. Существуют K ограничений нормализации, которые можно записать:

так что нормировочный член в лагранжиане равен:

где α k — соответствующие множители Лагранжа. Тогда Лагранжиан — это сумма трех вышеуказанных членов:

Приравнивая производную лагранжиана по одной из вероятностей к нулю, получаем:

Используя более сжатую векторную запись:

и отбрасывая простые числа в индексах n и k , а затем решая для получаем:

где:

Налагая нормировочное ограничение, мы можем решить относительно Z k и записать вероятности как:

Не все независимы. Мы можем добавить любой постоянный -мерный вектор к каждому из , не меняя значения вероятностей , так что останется только N , а не независимых . В разделе о полиномиальной логистической регрессии выше вычиталось из каждого , что устанавливало экспоненциальный член, включающий , равным 1, а бета-коэффициенты были заданы как .

Другие подходы

В приложениях машинного обучения, где логистическая регрессия используется для бинарной классификации, MLE минимизирует функцию потерь кросс-энтропии .

Логистическая регрессия — важный алгоритм машинного обучения . Цель — смоделировать вероятность того, что случайная величина будет равна 0 или 1, учитывая экспериментальные данные. [41]

Рассмотрим обобщенную линейную модельную функцию, параметризованную с помощью ,

Поэтому,

и поскольку , мы видим, что дается выражением Теперь мы вычисляем функцию правдоподобия , предполагая, что все наблюдения в выборке распределены независимо Бернулли,

Обычно логарифмическое правдоподобие максимизируется,

который максимизируется с помощью методов оптимизации, таких как градиентный спуск .

Если предположить, что пары выбираются равномерно из базового распределения, то в пределе большого  N ,

где — условная энтропия , а — расхождение Кульбака–Лейблера . Это приводит к интуитивному пониманию того, что, максимизируя логарифмическое правдоподобие модели, вы минимизируете расхождение KL вашей модели от максимального распределения энтропии. Интуитивный поиск модели, которая делает наименьшее количество предположений в своих параметрах.

Сравнение с линейной регрессией

Логистическую регрессию можно рассматривать как частный случай обобщенной линейной модели и, таким образом, аналогичную линейной регрессии . Однако модель логистической регрессии основана на совершенно иных предположениях (о связи между зависимыми и независимыми переменными) по сравнению с предположениями линейной регрессии. В частности, ключевые различия между этими двумя моделями можно увидеть в следующих двух особенностях логистической регрессии. Во-первых, условное распределение является распределением Бернулли, а не гауссовым , поскольку зависимая переменная является двоичной. Во-вторых, прогнозируемые значения являются вероятностями и, следовательно, ограничены (0,1) посредством функции логистического распределения , поскольку логистическая регрессия предсказывает вероятность конкретных результатов, а не сами результаты.

Альтернативы

Распространенной альтернативой логистической модели (логит-модели) является пробит-модель , как следует из связанных названий. С точки зрения обобщенных линейных моделей они отличаются выбором функции связи : логистическая модель использует логит-функцию (обратную логистическую функцию), в то время как пробит-модель использует пробит-функцию (обратную функцию ошибок ). Эквивалентно, в интерпретациях скрытых переменных этих двух методов первый предполагает стандартное логистическое распределение ошибок, а второй — стандартное нормальное распределение ошибок. [42] Вместо этого могут использоваться другие сигмоидные функции или распределения ошибок.

Логистическая регрессия является альтернативой методу Фишера 1936 года, линейному дискриминантному анализу . [43] Если предположения линейного дискриминантного анализа верны, то обусловливание может быть изменено на противоположное для получения логистической регрессии. Обратное, однако, неверно, поскольку логистическая регрессия не требует многомерного нормального предположения дискриминантного анализа. [44]

Предположение о наличии линейных предикторных эффектов можно легко ослабить, используя такие методы, как сплайн-функции . [13]

История

Подробная история логистической регрессии приведена в Cramer (2002). Логистическая функция была разработана как модель роста населения и названа «логистической» Пьером Франсуа Ферхюльстом в 1830-х и 1840-х годах под руководством Адольфа Кетле ; см. Логистическая функция § История для получения подробной информации. [45] В своей самой ранней статье (1838) Ферхюльст не указал, как он подгонял кривые к данным. [46] [47] В своей более подробной статье (1845) Ферхюльст определил три параметра модели, заставив кривую проходить через три наблюдаемые точки, что дало плохие прогнозы. [48] [49]

Логистическая функция была независимо разработана в химии как модель автокатализа ( Вильгельм Оствальд , 1883). [50] Автокаталитическая реакция — это реакция, в которой один из продуктов сам по себе является катализатором для той же реакции, в то время как поставка одного из реагентов фиксирована. Это естественным образом приводит к логистическому уравнению по той же причине, что и рост популяции: реакция является самоусиливающейся, но ограниченной.

Логистическая функция была независимо переоткрыта как модель роста населения в 1920 году Рэймондом Перлом и Лоуэллом Ридом , опубликована как Pearl & Reed (1920), что привело к ее использованию в современной статистике. Первоначально они не знали о работе Ферхюльста и, предположительно, узнали о ней от Л. Гюстава дю Паскье , но они не придали ему большого значения и не переняли его терминологию. [51] Приоритет Ферхюльста был признан, и термин «логистический» был возрожден Удни Юлом в 1925 году и с тех пор используется. [52] Перл и Рид впервые применили модель к населению Соединенных Штатов, а также первоначально подогнали кривую, заставив ее проходить через три точки; как и в случае с Ферхюльстом, это снова дало плохие результаты. [53]

В 1930-х годах модель пробит была разработана и систематизирована Честером Иттнером Блиссом , который ввел термин «пробит» в Bliss (1934), и Джоном Гэддумом в Gaddum (1933), а модель, подобранная по оценке максимального правдоподобия, Рональдом А. Фишером в Fisher (1935), как дополнение к работе Блисса. Модель пробит в основном использовалась в биоанализе , и ей предшествовали более ранние работы, датируемые 1860 годом; см. Модель пробит § История . Модель пробит повлияла на последующее развитие модели логита, и эти модели конкурировали друг с другом. [54]

Логистическая модель, вероятно, была впервые использована в качестве альтернативы пробит-модели в биоанализе Эдвином Бидвеллом Уилсоном и его студенткой Джейн Вустер в Wilson & Worcester (1943). [55] Однако развитие логистической модели как общей альтернативы пробит-модели было в основном обусловлено работой Джозефа Берксона на протяжении многих десятилетий, начиная с Берксона (1944), где он придумал «логит», по аналогии с «пробит», и продолжая Берксоном (1951) и последующими годами. [56] Логит-модель изначально была отклонена как уступающая пробит-модели, но «постепенно достигла равноправия с пробит-моделью», [57], особенно между 1960 и 1970 годами. К 1970 году логит-модель достигла паритета с пробит-моделью, используемой в статистических журналах, а затем превзошла ее. Эта относительная популярность была обусловлена ​​принятием логита за пределами биоанализа, а не вытеснением пробита в биоанализе, и его неформальным использованием на практике; популярность логита объясняется вычислительной простотой логит-модели, математическими свойствами и универсальностью, что позволяет использовать ее в различных областях. [3]

В это время были внесены различные усовершенствования, в частности, Дэвидом Коксом , как в работе Кокса (1958). [4]

Модель мультиномиального логита была введена независимо Коксом (1966) и Тейлом (1969), что значительно увеличило сферу применения и популярность модели логита. [58] В 1973 году Дэниел Макфадден связал мультиномиальный логит с теорией дискретного выбора , в частности с аксиомой выбора Люса , показав, что мультиномиальный логит следует из предположения о независимости нерелевантных альтернатив и интерпретации шансов альтернатив как относительных предпочтений; [59] это дало теоретическую основу для логистической регрессии. [58]

Расширения

Существует большое количество расширений:

Смотрите также

Ссылки

  1. ^ Толлес, Джулиана; Мёрер, Уильям Дж. (2016). «Логистическая регрессия, связывающая характеристики пациента с результатами». JAMA . 316 (5): 533–4. doi :10.1001/jama.2016.7653. ISSN  0098-7484. OCLC  6823603312. PMID  27483067.
  2. ^ abcdefghijk Hosmer, David W.; Lemeshow, Stanley (2000). Прикладная логистическая регрессия (2-е изд.). Wiley. ISBN 978-0-471-35632-5. [ нужна страница ]
  3. ^ ab Cramer 2002, стр. 10–11.
  4. ^ ab Walker, SH; Duncan, DB (1967). «Оценка вероятности события как функции нескольких независимых переменных». Biometrika . 54 (1/2): 167–178. doi :10.2307/2333860. JSTOR  2333860.
  5. Крамер 2002, стр. 8.
  6. ^ Boyd, CR; Tolson, MA; Copes, WS (1987). «Оценка ухода за травматологами: метод TRISS. Оценка травмы и оценка тяжести травмы». Журнал травмы . 27 (4): 370–378. doi : 10.1097/00005373-198704000-00005 . PMID  3106646.
  7. ^ Kologlu, M.; Elker, D.; Altun, H.; Sayek, I. (2001). «Валидация MPI и PIA II в двух различных группах пациентов с вторичным перитонитом». Гепатогастроэнтерология . 48 (37): 147–51. PMID  11268952.
  8. ^ Биондо, С.; Рамос, Э.; Дейрос, М.; Раге, Ж.М.; Де Ока, Дж.; Морено, П.; Фарран, Л.; Джаурриета, Э. (2000). «Прогностические факторы смертности при перитоните левой толстой кишки: новая система оценки». Журнал Американского колледжа хирургов . 191 (6): 635–42. дои : 10.1016/S1072-7515(00)00758-4. ПМИД  11129812.
  9. ^ Маршалл, Дж. К.; Кук, Д. Д.; Христу, Н. В.; Бернард, ГР; Спрунг, КЛ; Сиббалд, В. Дж. (1995). «Оценка множественной органной дисфункции: надежный дескриптор сложного клинического исхода». Critical Care Medicine . 23 (10): 1638–52. doi :10.1097/00003246-199510000-00007. PMID  7587228.
  10. ^ Le Gall, JR; Lemeshow, S.; Saulnier, F. (1993). «Новая упрощенная шкала острой физиологии (SAPS II) на основе многоцентрового исследования в Европе и Северной Америке». JAMA . 270 (24): 2957–63. doi :10.1001/jama.1993.03510240069035. PMID  8254858.
  11. ^ ab Дэвид А. Фридман (2009). Статистические модели: теория и практика . Cambridge University Press . стр. 128.
  12. ^ Truett, J; Cornfield, J; Kannel, W (1967). «Многомерный анализ риска ишемической болезни сердца во Фрамингеме». Журнал хронических заболеваний . 20 (7): 511–24. doi :10.1016/0021-9681(67)90082-3. PMID  6028270.
  13. ^ abc Harrell, Frank E. (2015). Стратегии регрессионного моделирования . Springer Series in Statistics (2-е изд.). Нью-Йорк; Springer. doi :10.1007/978-3-319-19425-7. ISBN 978-3-319-19424-0.
  14. ^ M. Strano; BM Colosimo (2006). «Логистический регрессионный анализ для экспериментального определения предельных диаграмм формования». Международный журнал станков и производства . 46 (6): 673–682. doi :10.1016/j.ijmachtools.2005.07.005.
  15. ^ Палей, СК; Дас, СК (2009). «Модель логистической регрессии для прогнозирования рисков обрушения кровли в выработках бордюров и столбов в угольных шахтах: подход». Safety Science . 47 : 88–96. doi :10.1016/j.ssci.2008.01.002.
  16. ^ Берри, Майкл JA (1997). Методы интеллектуального анализа данных для маркетинга, продаж и поддержки клиентов . Wiley. стр. 10.
  17. ^ Меса-Аранго, Родриго; Хасан, Самиул; Уккусури, Сатиш В.; Мюррей-Туите, Памела (февраль 2013 г.). «Модель на уровне домохозяйств для выбора типа пункта назначения эвакуации при урагане с использованием данных об урагане Иван». Обзор природных опасностей . 14 (1): 11–20. doi :10.1061/(ASCE)NH.1527-6996.0000083. ISSN  1527-6988.
  18. ^ Wibbenmeyer, Matthew J.; Hand, Michael S.; Calkin, David E.; Venn, Tyron J.; Thompson, Matthew P. (июнь 2013 г.). «Предпочтения в отношении риска при принятии стратегических решений по лесным пожарам: эксперимент по выбору с участием менеджеров по лесным пожарам в США». Анализ риска . 33 (6): 1021–1037. Bibcode : 2013RiskA..33.1021W. doi : 10.1111/j.1539-6924.2012.01894.x. ISSN  0272-4332. PMID  23078036. S2CID  45282555.
  19. ^ Lovreglio, Ruggiero; Borri, Dino; dell'Olio, Luigi; Ibeas, Angel (2014-02-01). «Дискретная модель выбора на основе случайных полезностей для выбора выхода при экстренной эвакуации». Safety Science . 62 : 418–426. doi :10.1016/j.ssci.2013.10.004. ISSN  0925-7535.
  20. ^ "Логистическая регрессия". CORP-MIDS1 (MDS) . Получено 2024-03-16 .
  21. ^ Нейман, Дж.; Пирсон , Э.С. (1933), «О проблеме наиболее эффективных проверок статистических гипотез» (PDF) , Philosophical Transactions of the Royal Society of London A , 231 (694–706): 289–337, Bibcode : 1933RSPTA.231..289N, doi : 10.1098/rsta.1933.0009 , JSTOR  91247
  22. ^ «Как интерпретировать отношение шансов в логистической регрессии?». Институт цифровых исследований и образования.
  23. ^ Эверитт, Брайан (1998). Кембриджский словарь статистики . Кембридж, Великобритания, Нью-Йорк: Cambridge University Press. ISBN 978-0-521-59346-5.
  24. ^ Например, индикаторную функцию в этом случае можно определить как
  25. ^ Малуф, Роберт (2002). «Сравнение алгоритмов для оценки параметра максимальной энтропии». Труды Шестой конференции по изучению естественного языка (CoNLL-2002) . стр. 49–55. doi : 10.3115/1118853.1118871 .
  26. ^ abcdefg Менард, Скотт В. (2002). Прикладная логистическая регрессия (2-е изд.). SAGE. ISBN 978-0-7619-2208-7. [ нужна страница ]
  27. ^ Гурьеру, Кристиан; Монфорт, Ален (1981). «Асимптотические свойства оценки максимального правдоподобия в дихотомических логит-моделях». Журнал эконометрики . 17 (1): 83–97. doi :10.1016/0304-4076(81)90060-9.
  28. ^ Пак, Бёнг У.; Симар, Леопольд; Зеленюк, Валентин (2017). «Непараметрическая оценка динамических моделей дискретного выбора для данных временных рядов» (PDF) . Вычислительная статистика и анализ данных . 108 : 97–120. doi :10.1016/j.csda.2016.10.024.
  29. ^ Мерфи, Кевин П. (2012). Машинное обучение – вероятностная перспектива . MIT Press. стр. 245. ISBN 978-0-262-01802-9.
  30. ^ Ван Смеден, М.; Де Гроот, JA; Мунс, KG; Коллинз, GS; Альтман, DG; Эйкеманс, MJ; Рейтсма, JB (2016). «Нет обоснования для критерия 1 переменной на 10 событий для бинарного логистического регрессионного анализа». BMC Medical Research Methodology . 16 (1): 163. doi : 10.1186/s12874-016-0267-3 . PMC 5122171. PMID  27881078 . 
  31. ^ Педуцци, П.; Конкато, Дж.; Кемпер, Э.; Холфорд, ТР.; Файнстайн, АР. (декабрь 1996 г.). «Имитационное исследование числа событий на переменную в логистическом регрессионном анализе». Журнал клинической эпидемиологии . 49 (12): 1373–9. doi : 10.1016/s0895-4356(96)00236-3 . PMID  8970487.
  32. ^ Vittinghoff, E.; McCulloch, CE (12 января 2007 г.). «Ослабление правила десяти событий на переменную в логистической регрессии и регрессии Кокса». American Journal of Epidemiology . 165 (6): 710–718. doi : 10.1093/aje/kwk052 . PMID  17182981.
  33. ^ Ван дер Плёг, Тьерд; Остин, Питер К.; Стейерберг, Эвоут В. (2014). «Современные методы моделирования требуют больших объемов данных: имитационное исследование для прогнозирования дихотомических конечных точек». BMC Medical Research Methodology . 14 : 137. doi : 10.1186/1471-2288-14-137 . PMC 4289553. PMID  25532820 . 
  34. ^ Грин, Уильям Н. (2003). Эконометрический анализ (Пятое издание). Prentice-Hall. ISBN 978-0-13-066189-0.
  35. ^ abcdefghij Коэн, Джейкоб; Коэн, Патрисия; Уэст, Стивен Г.; Эйкен, Леона С. (2002). Прикладной множественный регрессионный/корреляционный анализ для поведенческих наук (3-е изд.). Routledge. ISBN 978-0-8058-2223-6. [ нужна страница ]
  36. ^ Эллисон, Пол Д. «Меры соответствия для логистической регрессии» (PDF) . Statistical Horizons LLC и Университет Пенсильвании.
  37. ^ Hosmer, DW (1997). "Сравнение тестов согласия для модели логистической регрессии". Stat Med . 16 (9): 965–980. doi :10.1002/(sici)1097-0258(19970515)16:9<965::aid-sim509>3.3.co;2-f. PMID  9160492.
  38. ^ Харрелл, Фрэнк Э. (2010). Стратегии регрессионного моделирования: с приложениями к линейным моделям, логистической регрессии и анализу выживаемости . Нью-Йорк: Springer. ISBN 978-1-4419-2918-1.[ нужна страница ]
  39. ^ ab https://class.stanford.edu/c4x/HumanitiesScience/StatLearning/asset/classification.pdf слайд 16
  40. ^ ab Mount, J. (2011). "Эквивалентность моделей логистической регрессии и максимальной энтропии" (PDF) . Получено 23 февраля 2022 г.
  41. ^ Нг, Эндрю (2000). «CS229 Lecture Notes» (PDF) . CS229 Lecture Notes : 16–19.
  42. ^ Родригес, Г. (2007). Заметки лекций по обобщенным линейным моделям. стр. Глава 3, стр. 45.
  43. ^ Гарет Джеймс; Даниэла Виттен; Тревор Хасти; Роберт Тибширани (2013). Введение в статистическое обучение. Springer. стр. 6.
  44. ^ Похар, Майя; Блас, Матея; Терк, Сандра (2004). «Сравнение логистической регрессии и линейного дискриминантного анализа: моделирование». Методолошки Звездки . 1 (1).
  45. Крамер 2002, стр. 3–5.
  46. ^ Ферхюльст, Пьер-Франсуа (1838). «Обратите внимание на то, что население стремится к росту сына» (PDF) . Переписка по математике и физике . 10 : 113–121 . Проверено 3 декабря 2014 г.
  47. Крамер 2002, стр. 4, «Он не сказал, как он подогнал кривые».
  48. ^ Ферхюльст, Пьер-Франсуа (1845). «Математические исследования закона роста населения». Новые мемуары Королевской академии наук и изящной словесности Брюсселя . 18 . Проверено 18 февраля 2013 г.
  49. ^ Крамер 2002, стр. 4.
  50. ^ Крамер 2002, стр. 7.
  51. ^ Крамер 2002, стр. 6.
  52. Крамер 2002, стр. 6–7.
  53. ^ Крамер 2002, стр. 5.
  54. Крамер 2002, стр. 7–9.
  55. ^ Крамер 2002, стр. 9.
  56. ^ Крамер 2002, стр. 8, «Насколько я могу судить, введение логистики в качестве альтернативы нормальной функции вероятности является работой одного человека, Джозефа Берксона (1899–1982), ...»
  57. ^ Крамер 2002, стр. 11.
  58. ^ ab Cramer 2002, стр. 13.
  59. ^ Макфадден, Дэниел (1973). «Условный логит-анализ качественного поведения выбора» (PDF) . В P. Zarembka (ред.). Frontiers in Econometrics . New York: Academic Press. стр. 105–142. Архивировано из оригинала (PDF) 27.11.2018 . Получено 20.04.2019 .

Источники

Внешние ссылки