В статистике обобщенная линейная модель ( GLM ) является гибким обобщением обычной линейной регрессии . GLM обобщает линейную регрессию, позволяя линейной модели быть связанной с переменной отклика через функцию связи и позволяя величине дисперсии каждого измерения быть функцией его прогнозируемого значения.
Обобщенные линейные модели были сформулированы Джоном Нелдером и Робертом Веддерберном как способ объединения различных других статистических моделей, включая линейную регрессию , логистическую регрессию и регрессию Пуассона . [1] Они предложили итеративно перевзвешенный метод наименьших квадратов для оценки максимального правдоподобия (MLE) параметров модели. MLE остается популярным и является методом по умолчанию во многих статистических вычислительных пакетах. Были разработаны другие подходы, включая байесовскую регрессию и подгонку наименьших квадратов к ответам со стабилизированной дисперсией .
Обычная линейная регрессия предсказывает ожидаемое значение заданной неизвестной величины ( переменной отклика , случайной величины ) как линейную комбинацию набора наблюдаемых значений ( предикторов ). Это подразумевает, что постоянное изменение предиктора приводит к постоянному изменению переменной отклика (т. е. модель линейного отклика ). Это подходит, когда переменная отклика может изменяться, с хорошим приближением, неограниченно в любом направлении, или, в более общем смысле, для любой величины, которая изменяется только на относительно небольшую величину по сравнению с изменением предсказывающих переменных, например, роста человека.
Однако эти предположения не подходят для некоторых типов переменных отклика. Например, в случаях, когда переменная отклика, как ожидается, всегда будет положительной и будет изменяться в широком диапазоне, постоянные изменения на входе приводят к геометрически (т. е. экспоненциально) изменяющимся, а не постоянно изменяющимся изменениям на выходе. В качестве примера предположим, что линейная модель прогнозирования узнает из некоторых данных (возможно, в первую очередь взятых с больших пляжей), что снижение температуры на 10 градусов приведет к тому, что пляж будут посещать на 1000 человек меньше. Эта модель вряд ли будет хорошо обобщаться на пляжи разного размера. Более конкретно, проблема в том, что если вы используете модель для прогнозирования новой посещаемости при падении температуры на 10 для пляжа, который регулярно принимает 50 посетителей, вы бы предсказали невозможное значение посещаемости -950. Логично, что более реалистичная модель вместо этого предсказала бы постоянную скорость увеличения посещаемости пляжа (например, повышение на 10 градусов приводит к удвоению посещаемости пляжа, а падение на 10 градусов приводит к сокращению посещаемости вдвое). Такая модель называется моделью экспоненциального отклика (или логлинейной моделью , поскольку предполагается, что логарифм отклика будет изменяться линейно).
Аналогично, модель, которая предсказывает вероятность выбора «да/нет» ( переменная Бернулли ), еще менее подходит в качестве модели с линейным откликом, поскольку вероятности ограничены с обоих концов (они должны быть между 0 и 1). Представьте себе, например, модель, которая предсказывает вероятность того, что данный человек пойдет на пляж, как функцию температуры. Разумная модель могла бы предсказать, например, что изменение на 10 градусов делает человека в два раза более или менее вероятным пойти на пляж. Но что означает «вдвое больше вероятности» с точки зрения вероятности? Это не может буквально означать удвоение значения вероятности (например, 50% становится 100%, 75% становится 150% и т. д.). Скорее, удваиваются шансы : от шансов 2:1 до шансов 4:1, до шансов 8:1 и т. д. Такая модель является логарифмической или логистической моделью .
Обобщенные линейные модели охватывают все эти ситуации, допуская, что переменные отклика имеют произвольные распределения (а не просто нормальные распределения ), и для произвольной функции переменной отклика ( функции связи ) линейно изменяться с предикторами (а не предполагая, что сам отклик должен изменяться линейно). Например, приведенный выше случай прогнозируемого числа посетителей пляжа обычно моделируется с помощью распределения Пуассона и логарифмической связи, в то время как случай прогнозируемой вероятности посещения пляжа обычно моделируется с помощью распределения Бернулли (или биномиального распределения , в зависимости от того, как именно сформулирована задача) и логарифмической (или логит ) функции связи.
В обобщенной линейной модели (GLM) предполагается, что каждый результат Y зависимых переменных генерируется из определенного распределения в экспоненциальном семействе , большом классе распределений вероятностей , который включает в себя нормальное , биномиальное , пуассоновское и гамма- распределение, среди прочих. Условное среднее μ распределения зависит от независимых переменных X через:
где E( Y | X ) — ожидаемое значение Y , зависящее от X ; X β — линейный предиктор , линейная комбинация неизвестных параметров β ; g — функция связи.
В этой структуре дисперсия обычно является функцией V среднего значения:
Удобно, если V следует из экспоненциального семейства распределений, но может оказаться, что дисперсия просто является функцией прогнозируемого значения.
Неизвестные параметры β обычно оцениваются с помощью методов максимального правдоподобия , максимального квазиправдоподобия или байесовских методов.
GLM состоит из трех элементов:
Сверхдисперсное экспоненциальное семейство распределений является обобщением экспоненциального семейства и модели экспоненциальной дисперсии распределений и включает в себя те семейства распределений вероятностей, параметризованные с помощью и , функции плотности распределения f (или функция массы вероятности , для случая дискретного распределения ) которых могут быть выражены в виде
Параметр дисперсии , , обычно известен и обычно связан с дисперсией распределения. Функции , , , , и известны. Многие распространенные распределения входят в это семейство, включая нормальное, экспоненциальное, гамма, Пуассона, Бернулли и (для фиксированного числа испытаний) биномиальное, полиномиальное и отрицательное биномиальное.
Для скаляра и (обозначаемого в данном случае как и ) это сводится к
связано со средним значением распределения. Если — функция тождества, то говорят, что распределение находится в канонической форме (или натуральной форме ). Обратите внимание, что любое распределение можно преобразовать в каноническую форму, переписав как и затем применив преобразование . Всегда возможно преобразовать в терминах новой параметризации, даже если — не является функцией один к одному ; см. комментарии на странице об экспоненциальных семействах . Если, кроме того, — тождество и известно, то называется каноническим параметром (или натуральным параметром ) и связано со средним значением через
Для скаляра и это сводится к
При таком сценарии можно показать, что дисперсия распределения равна [2]
Для скаляра и это сводится к
Линейный предиктор — это величина, которая включает информацию о независимых переменных в модель. Символ η ( греч. « эта ») обозначает линейный предиктор. Он связан с ожидаемым значением данных через функцию связи.
η выражается как линейная комбинация (следовательно, «линейная») неизвестных параметров β . Коэффициенты линейной комбинации представлены в виде матрицы независимых переменных X. Таким образом, η можно выразить как
Функция связи обеспечивает связь между линейным предиктором и средним значением функции распределения. Существует много часто используемых функций связи, и их выбор обусловлен несколькими соображениями. Всегда существует четко определенная каноническая функция связи, которая выводится из экспоненты функции плотности отклика . Однако в некоторых случаях имеет смысл попытаться сопоставить область функции связи с диапазоном среднего значения функции распределения или использовать неканоническую функцию связи для алгоритмических целей, например, байесовская пробит-регрессия .
При использовании функции распределения с каноническим параметром каноническая функция связи — это функция, которая выражается через то есть Для наиболее распространенных распределений среднее значение является одним из параметров в стандартной форме функции плотности распределения , а затем — это функция, определенная выше, которая отображает функцию плотности в ее каноническую форму. При использовании канонической функции связи, которая позволяет быть достаточной статистикой для .
Ниже приведена таблица нескольких часто используемых экспоненциальных распределений и данных, для которых они обычно применяются, а также канонических функций связи и их обратных функций (иногда называемых функцией среднего, как в данном случае).
В случаях экспоненциального и гамма-распределения область канонической функции связи не совпадает с допустимым диапазоном среднего значения. В частности, линейный предиктор может быть положительным, что даст невозможное отрицательное среднее значение. При максимизации правдоподобия необходимо принять меры предосторожности, чтобы избежать этого. Альтернативой является использование неканонической функции связи.
В случае распределений Бернулли, биномиального, категориального и полиномиального, поддержка распределений не является тем же типом данных, что и предсказываемый параметр. Во всех этих случаях предсказываемый параметр представляет собой одну или несколько вероятностей, т. е. действительных чисел в диапазоне . Полученная модель известна как логистическая регрессия (или полиномиальная логистическая регрессия в случае, когда предсказываются K -пути, а не двоичные значения).
Для распределений Бернулли и биномиального распределения параметром является единичная вероятность, указывающая вероятность наступления единичного события. Бернулли по-прежнему удовлетворяет основному условию обобщенной линейной модели в том, что, даже если единичный результат всегда будет либо 0, либо 1, ожидаемое значение , тем не менее, будет реальной вероятностью, т. е. вероятностью наступления результата «да» (или 1). Аналогично, в биномиальном распределении ожидаемое значение равно Np , т. е. ожидаемая доля результатов «да» будет вероятностью, которую нужно предсказать.
Для категориальных и полиномиальных распределений параметром, который необходимо предсказать, является вектор вероятностей K с дополнительным ограничением, что все вероятности должны в сумме давать 1. Каждая вероятность указывает на вероятность появления одного из возможных значений K. Для полиномиального распределения и для векторной формы категориального распределения ожидаемые значения элементов вектора могут быть связаны с предсказанными вероятностями аналогично биномиальному распределению и распределению Бернулли.
Оценки максимального правдоподобия можно найти с помощью итеративно перевзвешенного алгоритма наименьших квадратов или метода Ньютона с обновлениями в форме:
где — наблюдаемая информационная матрица (отрицательная матрица Гессе ), а — функция подсчета ; или метод подсчета Фишера :
где — информационная матрица Фишера . Обратите внимание, что если используется каноническая функция связи, то они совпадают. [3]
В общем случае апостериорное распределение не может быть найдено в замкнутом виде и поэтому должно быть приближено, обычно с использованием приближений Лапласа или какого-либо типа метода Монте-Карло цепи Маркова, такого как выборка Гиббса .
Возможный момент путаницы связан с различием между обобщенными линейными моделями и общими линейными моделями , двумя широкими статистическими моделями. Соавтор Джон Нелдер выразил сожаление по поводу этой терминологии. [4]
Общую линейную модель можно рассматривать как частный случай обобщенной линейной модели с тождественной связью и нормально распределенными ответами. Поскольку наиболее точные результаты, представляющие интерес, получены только для общей линейной модели, общая линейная модель прошла несколько более длительную историческую разработку. Результаты для обобщенной линейной модели с нетождественной связью являются асимптотическими (имеют тенденцию хорошо работать с большими выборками).
Простым, но очень важным примером обобщенной линейной модели (также примером общей линейной модели) является линейная регрессия . В линейной регрессии использование оценки наименьших квадратов оправдано теоремой Гаусса–Маркова , которая не предполагает, что распределение является нормальным.
Однако с точки зрения обобщенных линейных моделей полезно предположить, что функция распределения является нормальным распределением с постоянной дисперсией, а функция связи является тождеством, которое является канонической связью, если дисперсия известна. При этих предположениях оценка наименьших квадратов получается как оценка параметра максимального правдоподобия.
Для нормального распределения обобщенная линейная модель имеет замкнутую форму выражения для оценок максимального правдоподобия, что удобно. Большинство других GLM не имеют замкнутой формы оценок.
Когда данные ответа Y являются бинарными (принимающими только значения 0 и 1), функция распределения обычно выбирается как распределение Бернулли , а интерпретация μ i представляет собой вероятность p того, что Y i примет значение единица.
Существует несколько популярных функций связи для биномиальных функций.
Наиболее типичной функцией связи является каноническая логит- связь:
GLM с такой настройкой представляют собой модели логистической регрессии (или логит-модели ).
В качестве альтернативы, обратная функция любого непрерывного кумулятивного распределения (CDF) может быть использована для связи, поскольку диапазон CDF равен , диапазон биномиального среднего. Нормальная CDF является популярным выбором и дает пробит-модель . Ее связь равна
Причина использования пробит-модели заключается в том, что постоянное масштабирование входной переменной до нормальной функции распределения распределения (которая может быть поглощена посредством эквивалентного масштабирования всех параметров) дает функцию, которая практически идентична логит-функции, но пробит-модели в некоторых ситуациях более поддаются обработке, чем логит-модели. (В байесовской установке, в которой нормально распределенные априорные распределения накладываются на параметры, связь между нормальными априорными распределениями и нормальной функцией связи CDF означает, что пробит-модель можно вычислить с использованием выборки Гиббса , в то время как логит-модель, как правило, не может.)
Также может использоваться дополнительная функция логарифм-логарифм:
Эта функция связи асимметрична и часто будет давать результаты, отличные от функций связи логита и пробита. [5] Модель cloglog соответствует приложениям, в которых мы наблюдаем либо ноль событий (например, дефекты), либо одно или несколько, где предполагается, что число событий следует распределению Пуассона . [6] Предположение Пуассона означает, что
где μ — положительное число, обозначающее ожидаемое количество событий. Если p представляет собой долю наблюдений с хотя бы одним событием, его дополнение
а потом
Линейная модель требует, чтобы переменная отклика принимала значения по всей действительной линии. Поскольку μ должно быть положительным, мы можем обеспечить это, взяв логарифм и позволив log( μ ) быть линейной моделью. Это создает преобразование "cloglog"
Связь тождества g(p) = p также иногда используется для биномиальных данных, чтобы получить линейную вероятностную модель . Однако связь тождества может предсказывать бессмысленные «вероятности» меньше нуля или больше единицы. Этого можно избежать, используя преобразование типа cloglog, probit или logit (или любую обратную кумулятивную функцию распределения). Основное достоинство связи тождества заключается в том, что ее можно оценить с помощью линейной математики, а другие стандартные функции связи приблизительно линейны, совпадая с связью тождества вблизи p = 0,5.
Функция дисперсии для "квазибиномиальные "данные:
где параметр дисперсии τ равен точно 1 для биномиального распределения. Действительно, стандартное биномиальное правдоподобие не учитывает τ . Когда оно присутствует, модель называется «квазибиномиальной», а модифицированное правдоподобие называется квазиправдоподобием , поскольку оно, как правило, не является правдоподобием, соответствующим какому-либо реальному семейству распределений вероятностей. Если τ превышает 1, говорят, что модель демонстрирует сверхдисперсию .
Биномиальный случай можно легко расширить, чтобы разрешить мультиномиальное распределение в качестве ответа (а также обобщенную линейную модель для подсчетов с ограниченным итогом). Обычно это делается двумя способами:
Если переменная отклика является порядковой , то можно подобрать модельную функцию вида:
для m > 2. Различные связи g приводят к порядковым регрессионным моделям, таким как модели пропорциональных шансов или упорядоченные пробит- модели.
Если ответная переменная представляет собой номинальное измерение или данные не удовлетворяют предположениям упорядоченной модели, можно подобрать модель следующего вида:
для m > 2. Различные связи g приводят к многочленным логит- или многочленным пробит- моделям. Они более общие, чем модели упорядоченного отклика, и оцениваются больше параметров.
Другой пример обобщенных линейных моделей включает регрессию Пуассона , которая моделирует подсчет данных с использованием распределения Пуассона . Связь обычно является логарифмом, канонической связью.
Функция дисперсии пропорциональна среднему значению
где параметр дисперсии τ обычно фиксирован и равен точно единице. Когда это не так, полученная модель квазиправдоподобия часто описывается как модель Пуассона с избыточной дисперсией или квазипуассона .
Стандартная GLM предполагает, что наблюдения некоррелированы . Были разработаны расширения, позволяющие учитывать корреляцию между наблюдениями, как это происходит, например, в продольных исследованиях и кластерных планах:
Обобщенные аддитивные модели (GAM) представляют собой еще одно расширение GLM, в котором линейный предиктор η не ограничен линейным отношением к ковариатам X , а представляет собой сумму сглаживающих функций, примененных к x i s:
Сглаживающие функции f i оцениваются по данным. В общем случае это требует большого количества точек данных и является вычислительно интенсивным. [9] [10]
Я подозреваю, что нам следовало бы найти для него более причудливое название, которое бы закрепилось и не путалось с общей линейной моделью, хотя общая и обобщенная — это не совсем одно и то же. Я понимаю, почему, возможно, было бы лучше придумать что-то другое.