stringtranslate.com

Обобщенная линейная модель

В статистике обобщенная линейная модель ( GLM ) является гибким обобщением обычной линейной регрессии . GLM обобщает линейную регрессию, позволяя связать линейную модель с переменной отклика через функцию связи и позволяя величине дисперсии каждого измерения быть функцией его прогнозируемого значения.

Обобщенные линейные модели были сформулированы Джоном Нелдером и Робертом Веддерберном как способ объединения различных других статистических моделей, включая линейную регрессию , логистическую регрессию и регрессию Пуассона . [1] Они предложили итеративно перевзвешенный метод наименьших квадратов для оценки максимального правдоподобия (MLE) параметров модели. MLE остается популярным и является методом по умолчанию во многих пакетах статистических вычислений. Были разработаны и другие подходы, включая байесовскую регрессию и метод наименьших квадратов, соответствующий ответам , стабилизированным дисперсией.

Интуиция

Обычная линейная регрессия предсказывает ожидаемое значение данной неизвестной величины ( переменной отклика , случайной величины ) как линейную комбинацию набора наблюдаемых значений ( предикторов ). Это означает, что постоянное изменение предиктора приводит к постоянному изменению переменной отклика (т. е. модель линейного отклика ). Это целесообразно, когда переменная отклика может изменяться, с хорошим приближением, бесконечно в любом направлении или, в более общем смысле, для любой величины, которая изменяется лишь на относительно небольшую величину по сравнению с изменением прогнозируемых переменных, например, роста человека.

Однако эти предположения неприемлемы для некоторых типов переменных отклика. Например, в тех случаях, когда ожидается, что переменная отклика всегда будет положительной и будет изменяться в широком диапазоне, постоянные изменения входных данных приводят к геометрическим (т.е. экспоненциальным) изменениям, а не к постоянно меняющимся изменениям выходных данных. В качестве примера предположим, что модель линейного прогнозирования на основе некоторых данных (возможно, в основном полученных с больших пляжей) узнает, что снижение температуры на 10 градусов приведет к тому, что пляж будет посещать на 1000 человек меньше. Эта модель вряд ли будет хорошо обобщаться для пляжей разного размера. Более конкретно, проблема заключается в том, что если вы используете модель для прогнозирования новой посещаемости при падении температуры на 10 для пляжа, который регулярно принимает 50 посетителей, вы спрогнозируете невозможное значение посещаемости, равное -950. Логично, что более реалистичная модель вместо этого предсказывала бы постоянную скорость увеличения посещаемости пляжей (например, увеличение на 10 градусов приводит к удвоению посещаемости пляжей, а падение на 10 градусов приводит к уменьшению посещаемости вдвое). Такая модель называется моделью экспоненциального отклика (или логарифмически-линейной моделью , поскольку прогнозируется, что логарифм отклика будет изменяться линейно).

Точно так же модель, которая предсказывает вероятность выбора «да/нет» ( переменная Бернулли ), еще менее подходит в качестве модели линейного отклика, поскольку вероятности ограничены с обеих сторон (они должны находиться в диапазоне от 0 до 1). Представьте себе, например, модель, которая предсказывает вероятность того, что данный человек пойдет на пляж, в зависимости от температуры. Разумная модель могла бы, например, предсказать, что при изменении температуры на 10 градусов вероятность того, что человек пойдет на пляж, в два раза увеличится или уменьшится. Но что означает «вдвое более вероятно» с точки зрения вероятности? Это не может буквально означать удвоение значения вероятности (например, 50% становится 100%, 75% становится 150% и т. д.). Скорее, удваиваются шансы : с коэффициентов 2:1 до коэффициентов 4:1, до коэффициентов 8:1 и т. д. Такая модель представляет собой логарифмическую или логистическую модель .

Обобщенные линейные модели охватывают все эти ситуации, допуская, что переменные отклика имеют произвольные распределения (а не просто нормальное распределение ), а произвольная функция переменной отклика ( функция связи ) изменяется линейно в зависимости от предикторов (вместо того, чтобы предполагать, что сам ответ должен изменяться линейно). Например, приведенный выше случай прогнозируемого количества посетителей пляжа обычно моделируется с помощью распределения Пуассона и логарифмической связи, тогда как случай прогнозируемой вероятности посещения пляжа обычно моделируется с помощью распределения Бернулли (или биномиального распределения , в зависимости от точного количества посетителей). как сформулирована проблема) и функция связи log-odds (или logit ).

Обзор

В обобщенной линейной модели (GLM) предполагается, что каждый результат Y зависимых переменных генерируется из определенного распределения в экспоненциальном семействе , большом классе вероятностных распределений , который включает, среди прочего, нормальное , биномиальное , пуассоновское и гамма- распределения. . Условное среднее значение распределения зависит от независимых переменных X посредством:

где E( Y  |  X ) — ожидаемое значение Y при условии X ; X βлинейный предиктор , линейная комбинация неизвестных параметров β ; g — функция связи.

В этой схеме дисперсия обычно является функцией V от среднего значения:

Удобно, если V следует из экспоненциального семейства распределений, но может быть просто, что дисперсия является функцией прогнозируемого значения.

Неизвестные параметры β обычно оцениваются с помощью методов максимального правдоподобия , максимального квазиправдоподобия или байесовских методов.

Компоненты модели

GLM состоит из трех элементов:

1. Особое распределение для моделирования из числа тех, которые считаются экспоненциальными семействами вероятностных распределений,
2. Линейный предиктор и
3. Функция связи такая, что .

Распределение вероятностей

Сверхдисперсионное экспоненциальное семейство распределений является обобщением экспоненциального семейства и модели экспоненциальной дисперсии распределений и включает в себя те семейства вероятностных распределений, параметризованные и , функции плотности которых f (или функция массы вероятности , для случая дискретного распределения ) может быть выражено в форме

Параметр дисперсии обычно известен и обычно связан с дисперсией распределения. Функции , , , , и известны. В это семейство входят многие распространенные распределения, включая нормальное, экспоненциальное, гамма-распределение, распределение Пуассона, распределение Бернулли и (для фиксированного количества испытаний) биномиальное, полиномиальное и отрицательное биномиальное.

Для скаляра и (в данном случае обозначенного и ) это сводится к

связано со средним значением распределения. Если – тождественная функция, то говорят, что распределение имеет каноническую форму (или естественную форму ). Обратите внимание, что любое распределение можно преобразовать к канонической форме, переписав его как и затем применив преобразование . Всегда можно выполнить преобразование с использованием новой параметризации, даже если это не однозначно-однозначная функция ; см. комментарии на странице экспоненциальных семейств . Если, кроме того, тождественно и известно, то он называется каноническим параметром (или натуральным параметром ) и связан со средним через

Для скаляра и это сводится к

В этом сценарии можно показать, что дисперсия распределения равна [2]

Для скаляра и это сводится к

Линейный предиктор

Линейный предиктор — это величина, которая включает в модель информацию о независимых переменных. Символ η ( греч. « эта ») обозначает линейный предиктор. Это связано с ожидаемым значением данных через функцию связи.

η выражается как линейные комбинации (таким образом, «линейные») неизвестных параметров β . Коэффициенты линейной комбинации представляются в виде матрицы независимых переменных X. Таким образом, η можно выразить как

Функция связи

Функция связи обеспечивает связь между линейным предиктором и средним значением функции распределения. Существует множество часто используемых функций ссылок, и их выбор определяется несколькими соображениями. Всегда существует четко определенная каноническая функция связи, которая получается из экспоненты функции плотности ответа . Однако в некоторых случаях имеет смысл попытаться сопоставить область определения функции связи с диапазоном среднего значения функции распределения или использовать неканоническую функцию связи для алгоритмических целей, например, байесовскую пробит-регрессию .

При использовании функции распределения с каноническим параметром функция канонической связи — это функция, которая выражается в терминах, т. е . для наиболее распространенных распределений среднее значение является одним из параметров в стандартной форме функции плотности распределения , а затем является функцией как определено выше, что отображает функцию плотности в ее каноническую форму. При использовании функции канонической ссылки, которая позволяет получить достаточную статистику для .

Ниже приводится таблица нескольких широко используемых распределений экспоненциального семейства и данных, для которых они обычно используются, а также канонические функции связи и их обратные функции (иногда называемые средней функцией, как это сделано здесь).

В случае экспоненциального и гамма-распределений область канонической функции связи не совпадает с разрешенным диапазоном среднего значения. В частности, линейный предиктор может быть положительным, что дало бы невозможное отрицательное среднее значение. При максимизации вероятности необходимо принять меры предосторожности, чтобы избежать этого. Альтернативой является использование неканонической функции ссылки.

В случае распределений Бернулли, биномиального, категориального и полиномиального распределения поддержка распределений не является тем же типом данных, что и прогнозируемый параметр. Во всех этих случаях прогнозируемый параметр представляет собой одну или несколько вероятностей, то есть действительные числа в диапазоне . Полученная модель известна как логистическая регрессия (или полиномиальная логистическая регрессия в случае, когда прогнозируются K -образные, а не двоичные значения).

Для распределений Бернулли и биномиального распределения параметром является одна вероятность, указывающая вероятность возникновения одного события. Модель Бернулли по-прежнему удовлетворяет основному условию обобщенной линейной модели, заключающемуся в том, что даже если единственный результат всегда будет либо 0, либо 1, ожидаемое значение , тем не менее, будет действительной вероятностью, то есть вероятностью появления ответа «да». (или 1) результат. Аналогично, в биномиальном распределении ожидаемое значение равно Np , т.е. ожидаемая доля результатов «да» будет вероятностью, которую следует предсказать.

Для категориальных и полиномиальных распределений прогнозируемый параметр представляет собой K -вектор вероятностей с дополнительным ограничением, согласно которому сумма всех вероятностей должна составлять 1. Каждая вероятность указывает вероятность появления одного из K возможных значений. Для полиномиального распределения и векторной формы категориального распределения ожидаемые значения элементов вектора могут быть связаны с предсказанными вероятностями аналогично биномиальному распределению и распределению Бернулли.

Примерка

Максимальная вероятность

Оценки максимального правдоподобия можно найти с помощью итеративно перевзвешенного алгоритма наименьших квадратов или метода Ньютона с обновлениями формы:

где – наблюдаемая информационная матрица (отрицательная сторона матрицы Гессе ) и – оценочная функция ; или метод оценки Фишера :

где – информационная матрица Фишера. Обратите внимание, что если используется функция канонической ссылки, то они одинаковы. [3]

Байесовские методы

В общем, апостериорное распределение не может быть найдено в замкнутой форме , поэтому его необходимо аппроксимировать, обычно с использованием аппроксимации Лапласа или какого-либо типа метода Монте-Карло цепи Маркова , такого как выборка Гиббса .

Примеры

Общие линейные модели

Возможная путаница связана с различием между обобщенными линейными моделями и общими линейными моделями , двумя широкими статистическими моделями. Соавтор Джон Нелдер выразил сожаление по поводу этой терминологии. [4]

Общую линейную модель можно рассматривать как частный случай обобщенной линейной модели с тождественной связью и нормально распределенными откликами. Поскольку наиболее точные интересующие нас результаты получены только для общей линейной модели, общая линейная модель претерпела несколько более длительное историческое развитие. Результаты для обобщенной линейной модели с нетождественной связью являются асимптотическими (имеют тенденцию хорошо работать с большими выборками).

Линейная регрессия

Простой и очень важный пример обобщенной линейной модели (также пример общей линейной модели) — линейная регрессия . В линейной регрессии использование метода наименьших квадратов оправдано теоремой Гаусса–Маркова , которая не предполагает, что распределение нормальное.

Однако с точки зрения обобщенных линейных моделей полезно предположить, что функция распределения — это нормальное распределение с постоянной дисперсией, а функция связи — это тождество, которое является канонической связью, если дисперсия известна. При этих предположениях оценка методом наименьших квадратов получается как оценка параметра максимального правдоподобия.

Для нормального распределения обобщенная линейная модель имеет выражение в замкнутом виде для оценок максимального правдоподобия, что удобно. В большинстве других GLM отсутствуют оценки в закрытой форме .

Двоичные данные

Когда данные ответа Y являются двоичными (принимают только значения 0 и 1), функция распределения обычно выбирается как распределение Бернулли , и интерпретация µ i тогда является вероятностью p , того, что Y i принимает значение один.

Существует несколько популярных функций связи для биномиальных функций.

Функция логической связи

Наиболее типичной функцией ссылки является каноническая логит -ссылка:

GLM с такой настройкой представляют собой модели логистической регрессии (или логит-модели ).

Функция пробит-связи как популярный выбор обратной кумулятивной функции распределения

В качестве альтернативы для связи можно использовать обратную функцию любой непрерывной кумулятивной функции распределения (CDF), поскольку диапазон CDF равен диапазону биномиального среднего значения. Обычный CDF является популярным выбором и дает пробит-модель . Его ссылка

Причина использования пробит-модели заключается в том, что постоянное масштабирование входной переменной до нормального CDF (которое можно получить за счет эквивалентного масштабирования всех параметров) дает функцию, практически идентичную логит-функции, но пробит-функцию. в некоторых ситуациях модели более удобны, чем логит-модели. (В байесовской настройке, в которой нормально распределенные априорные распределения помещаются в параметры, связь между нормальными априорными значениями и нормальной функцией связи CDF означает, что пробит -модель может быть вычислена с использованием выборки Гиббса , тогда как логит-модель обычно не может быть вычислена.)

Дополнительный журнал (cloglog)

Также может использоваться дополнительная функция log-log:

Эта функция связи асимметрична и часто дает результаты, отличные от функций связи логит и пробит. [5] Модель засора соответствует приложениям, в которых мы наблюдаем либо ноль событий (например, дефекты), либо одно или несколько событий, где предполагается, что количество событий соответствует распределению Пуассона . [6] Предположение Пуассона означает, что

где μ — положительное число, обозначающее ожидаемое количество событий. Если p представляет долю наблюдений хотя бы с одним событием, его дополнение

а потом

Линейная модель требует, чтобы переменная ответа принимала значения по всей реальной линии. Поскольку µ должно быть положительным, мы можем обеспечить это, взяв логарифм и позволив log( µ ) быть линейной моделью. Это приводит к преобразованию «засор».

Идентификационная ссылка

Тождественная связь g(p) = p также иногда используется для биномиальных данных, чтобы получить линейную вероятностную модель . Однако идентификационная связь может предсказывать бессмысленные «вероятности» меньше нуля или больше единицы. Этого можно избежать, используя такие преобразования, как cloglog, probit или logit (или любую обратную кумулятивную функцию распределения). Основное достоинство тождественной связи заключается в том, что ее можно оценить с помощью линейной математики, а другие стандартные функции связи приблизительно линейны, соответствуя тождественной ссылке вблизи p = 0,5.

Функция дисперсии

Функция дисперсии для "квазибиномиальные данные:

где параметр дисперсии τ равен ровно 1 для биномиального распределения. Действительно, стандартная биномиальная вероятность опускает τ . Когда оно присутствует, модель называется «квазибиномиальной», а модифицированное правдоподобие называется квазиправдоподобием , поскольку обычно оно не является правдоподобием, соответствующим какому-либо реальному семейству вероятностных распределений. Если τ превышает 1, говорят, что модель демонстрирует сверхдисперсию .

Полиномиальная регрессия

Биномиальный случай можно легко расширить, чтобы учесть полиномиальное распределение в качестве ответа (также обобщенную линейную модель для подсчетов с ограниченным итогом). Обычно это делается двумя способами:

Заказной ответ

Если переменная ответа порядковая , то можно использовать модельную функцию вида:

для m > 2. Различные связи g приводят к моделям порядковой регрессии , таким как модели пропорциональных шансов или модели упорядоченной пробита .

Неупорядоченный ответ

Если переменная ответа является номинальным измерением или данные не удовлетворяют предположениям упорядоченной модели, можно использовать модель следующей формы:

для m > 2. Различные связи g приводят к полиномиальным логит- или полиномиальным пробит -моделям. Они более общие, чем модели упорядоченного ответа, и оцениваются больше параметров.

Данные подсчета

Другой пример обобщенных линейных моделей включает регрессию Пуассона , которая моделирует подсчет данных с использованием распределения Пуассона . Ссылка обычно представляет собой логарифм, каноническую ссылку.

Функция дисперсии пропорциональна среднему значению

где параметр дисперсии τ обычно равен единице. Если это не так, результирующую модель квазиправдоподобия часто называют пуассоновской со сверхдисперсией или квазипуассоновской .

Расширения

Коррелированные или кластеризованные данные

Стандарт GLM предполагает, что наблюдения некоррелированы . Были разработаны расширения, позволяющие коррелировать между наблюдениями, как это происходит, например, в продольных исследованиях и кластерных планах:

Обобщенные аддитивные модели

Обобщенные аддитивные модели (GAM) являются еще одним расширением GLM, в котором линейный предиктор η не ограничен линейностью по ковариатам X , но представляет собой сумму функций сглаживания, применяемых к x i s:

Функции сглаживания f i оцениваются по данным. Как правило, это требует большого количества точек данных и требует больших вычислительных ресурсов. [9] [10]

Смотрите также

Рекомендации

Цитаты

  1. ^ Нелдер, Джон ; Веддерберн, Роберт (1972). «Обобщенные линейные модели». Журнал Королевского статистического общества. Серия А (Общая) . Издательство Блэквелл. 135 (3): 370–384. дои : 10.2307/2344614. JSTOR  2344614. S2CID  14154576.
  2. ^ МакКаллах и Нелдер 1989, Глава 2.
  3. ^ МакКаллах и Нелдер 1989, стр. 43.
  4. ^ Сенн, Стивен (2003). «Разговор с Джоном Нелдером». Статистическая наука . 18 (1): 118–131. дои : 10.1214/ss/1056397489 . Я подозреваю, что нам следовало бы найти для нее какое-нибудь более причудливое название, которое прижилось бы и не путалось бы с общей линейной моделью, хотя «генеральное» и «обобщенное» — не совсем одно и то же. Я понимаю, почему, возможно, было бы лучше подумать о чем-то другом.
  5. ^ «Дополнительная логарифмическая модель» (PDF) .
  6. ^ «Какая функция ссылки — Logit, Probit или Cloglog?». Байесиум Аналитика . 14 августа 2015 г. Проверено 17 марта 2019 г.
  7. ^ Зегер, Скотт Л.; Лян, Кунг-Йи; Альберт, Пол С. (1988). «Модели для продольных данных: подход с использованием обобщенного уравнения оценки». Биометрия . Международное биометрическое общество. 44 (4): 1049–1060. дои : 10.2307/2531734. JSTOR  2531734. PMID  3233245.
  8. ^ Хардин, Джеймс; Хильбе, Джозеф (2003). Обобщенные оценочные уравнения . Лондон, Англия: Чепмен и Холл/CRC. ISBN 1-58488-307-3.
  9. ^ Хасти и Тибширани 1990.
  10. ^ Вуд 2006.

Библиография

дальнейшее чтение

Внешние ссылки