В настройке регрессионной модели цель состоит в том, чтобы установить, существует ли связь между переменной отклика и набором переменных-предикторов. Кроме того, если связь существует, цель состоит в том, чтобы иметь возможность описать эту связь как можно лучше. Основным предположением в линейной регрессии является постоянная дисперсия или (гомоскедастичность), что означает, что разные переменные отклика имеют одинаковую дисперсию своих ошибок на каждом уровне предиктора. Это предположение хорошо работает, когда переменная отклика и переменная-предиктор совместно нормальны . Как мы увидим позже, функция дисперсии в нормальной настройке постоянна; однако мы должны найти способ количественно оценить гетероскедастичность (непостоянную дисперсию) при отсутствии совместной нормальности.
Когда есть вероятность, что отклик следует распределению, которое является членом экспоненциального семейства, обобщенная линейная модель может быть более подходящей для использования, и, более того, когда мы не хотим навязывать параметрическую модель нашим данным, непараметрический регрессионный подход может быть полезным. Важность возможности моделировать дисперсию как функцию среднего заключается в улучшенном выводе (в параметрической настройке) и оценке функции регрессии в целом для любой настройки.
Функции дисперсии играют очень важную роль в оценке параметров и выводе. В общем, оценка максимального правдоподобия требует определения функции правдоподобия. Это требование затем подразумевает, что сначала необходимо указать распределение наблюдаемых переменных отклика. Однако, чтобы определить квазиправдоподобие, нужно только указать связь между средним значением и дисперсией наблюдений, чтобы затем иметь возможность использовать функцию квазиправдоподобия для оценки. [3] Оценка квазиправдоподобия особенно полезна, когда есть избыточная дисперсия . Избыточная дисперсия возникает, когда в данных больше изменчивости, чем следовало бы ожидать в соответствии с предполагаемым распределением данных.
Подводя итог, можно сказать, что для обеспечения эффективного вывода параметров регрессии и функции регрессии необходимо учитывать гетероскедастичность. Функции дисперсии количественно определяют связь между дисперсией и средним значением наблюдаемых данных и, следовательно, играют важную роль в оценке и выводе регрессии.
Когда указан член экспоненциального семейства , функция дисперсии может быть легко выведена. [4] : 29 Общая форма функции дисперсии представлена в контексте экспоненциального семейства, а также конкретные формы для нормального, бернуллиевского, пуассоновского и гамма-распределения. Кроме того, мы описываем приложения и использование функций дисперсии в оценке максимального правдоподобия и оценке квазиправдоподобия.
Вывод
Обобщенная линейная модель (GLM) — это обобщение обычного регрессионного анализа, которое распространяется на любого члена экспоненциального семейства . Это особенно полезно, когда переменная отклика является категориальной, бинарной или подчиняется ограничению (например, только положительные ответы имеют смысл). Краткое изложение компонентов GLM приведено на этой странице, но для получения более подробной информации см. страницу об обобщенных линейных моделях .
GLM состоит из трех основных ингредиентов :
1. Случайная компонента: распределение y из экспоненциального семейства,
2. Линейный предиктор:
3. Функция связи:
Сначала важно вывести несколько ключевых свойств экспоненциального семейства.
Любая случайная величина в экспоненциальном семействе имеет функцию плотности вероятности вида:
с логарифмической вероятностью,
Здесь — канонический параметр и интересующий параметр, а — мешающий параметр, который играет роль в дисперсии. Мы используем тождества Бартлетта , чтобы вывести общее выражение для функции дисперсии . Первый и второй результаты Бартлетта гарантируют, что при подходящих условиях (см. интегральное правило Лейбница ), для функции плотности, зависящей от ,
Эти тождества приводят к простым вычислениям ожидаемого значения и дисперсии любой случайной величины в экспоненциальном семействе .
Ожидаемое значение Y :
Взяв первую производную по логарифму плотности в форме экспоненциального семейства, описанной выше, имеем
Тогда, взяв ожидаемое значение и приравняв его к нулю, получаем,
Дисперсия Y:
Для вычисления дисперсии мы используем второе тождество Бартлетта,
Теперь у нас есть связь между и , а именно
и , что позволяет установить связь между и дисперсией,
Обратите внимание, что поскольку , то обратимо. Мы выводим функцию дисперсии для нескольких распространенных распределений.
Пример – нормальный
Нормальное распределение является частным случаем, где функция дисперсии является константой. Пусть тогда мы представим функцию плотности y в виде экспоненциального семейства, описанного выше:
где
Для вычисления функции дисперсии сначала выразим как функцию от . Затем преобразуем в функцию от
Следовательно, функция дисперсии постоянна.
Пример – Бернулли
Пусть , тогда выразим плотность распределения Бернулли в форме экспоненциального семейства,
Пусть , тогда выразим плотность распределения Пуассона в форме экспоненциального семейства,
что дает нам
и
Это дает нам
Здесь мы видим центральное свойство данных Пуассона: дисперсия равна среднему значению.
Пример – Гамма
Гамма -распределение и функция плотности могут быть выражены при различных параметризациях. Мы будем использовать форму гаммы с параметрами
Тогда в экспоненциальной форме семейства мы имеем
И у нас есть
Применение – взвешенный метод наименьших квадратов
Очень важным применением функции дисперсии является ее использование в оценке параметров и выводе, когда переменная отклика имеет требуемую форму экспоненциального семейства, а также в некоторых случаях, когда это не так (что мы обсудим в разделе « Квазиправдоподобие »). Взвешенные наименьшие квадраты (WLS) являются частным случаем обобщенных наименьших квадратов. Каждый член в критерии WLS включает вес, который определяет влияние каждого наблюдения на окончательные оценки параметров. Как и в обычном методе наименьших квадратов, цель состоит в том, чтобы оценить неизвестные параметры в функции регрессии путем нахождения значений для оценок параметров, которые минимизируют сумму квадратов отклонений между наблюдаемыми откликами и функциональной частью модели.
Хотя WLS предполагает независимость наблюдений, он не предполагает равную дисперсию и, следовательно, является решением для оценки параметров при наличии гетероскедастичности. Теорема Гаусса–Маркова и Эйткен показывают, что наилучшая линейная несмещенная оценка (BLUE), несмещенная оценка с минимальной дисперсией, имеет каждый вес, равный обратной величине дисперсии измерения.
В рамках GLM наша цель — оценить параметры , где . Поэтому мы хотели бы минимизировать и если мы определим весовую матрицу W как
Также важно отметить, что когда матрица весов имеет форму, описанную здесь, минимизация выражения также минимизирует расстояние Пирсона. Подробнее см. Корреляция расстояний .
Матрица W выпадает прямо из оценочных уравнений для оценки . Оценка максимального правдоподобия для каждого параметра требует
, где — логарифм правдоподобия.
Рассматривая одно наблюдение, которое мы имеем,
Это дает нам
, и отметив, что
у нас есть это
Матрица Гессе определяется аналогичным образом и может быть показана как:
Отмечая, что Fisher Information (FI),
, допускает асимптотическую аппроксимацию
, и, следовательно, можно сделать вывод.
Применение – квазивероятность
Поскольку большинство характеристик GLM зависят только от первых двух моментов распределения, а не от всего распределения, квазиправдоподобие можно развить, просто указав функцию связи и функцию дисперсии. То есть, нам нужно указать
функция связи,
функция дисперсии, , где
С указанной функцией дисперсии и функцией связи мы можем разработать, как альтернативы функции логарифмического правдоподобия , функции оценки и информации Фишера , квазиправдоподобие , квазиоценку и квазиинформацию . Это позволяет сделать полный вывод о .
Квазиправдоподобие (QL)
Хотя это называется квази-правдоподобием , на самом деле это квази- логарифмическое правдоподобие. QL для одного наблюдения
И поэтому QL для всех n наблюдений равен
Из QL мы имеем квазиоценку
Квази-оценка (QS)
Напомним , что функция оценки U для данных с логарифмическим правдоподобием имеет вид
Аналогичным образом получаем квазисчет,
Отмечая, что для одного наблюдения оценка составляет
Первые два уравнения Бартлетта удовлетворяются для квазисчета, а именно:
и
Кроме того, квазиоценка линейна по y .
В конечном итоге цель состоит в том, чтобы найти информацию об интересующих параметрах . И QS, и QL на самом деле являются функциями . Напомним, , и , следовательно,
QL, QS и QI предоставляют строительные блоки для вывода об интересующих параметрах, и поэтому важно выразить QL, QS и QI как функции .
Вновь вспоминая, что , выводим выражения для QL, QS и QI, параметризованные относительно .
Квази-правдоподобие в ,
Следовательно, QS как функция равна
Где,
Квазиинформационная матрица имеет вид :
Получение функции оценки и информации позволяет проводить оценку параметров и делать выводы аналогично тому, как описано в разделе «Применение – взвешенные наименьшие квадраты».
Непараметрический регрессионный анализ
Непараметрическая оценка функции дисперсии и ее важность широко обсуждались в литературе [5] [6] [7]
В непараметрическом регрессионном анализе цель состоит в том, чтобы выразить ожидаемое значение вашей переменной отклика ( y ) как функцию ваших предикторов ( X ). То есть мы пытаемся оценить среднюю функцию, не предполагая параметрическую форму. Существует много форм непараметрических методов сглаживания , которые помогают оценить функцию . Интересный подход заключается в том, чтобы также рассмотреть непараметрическую функцию дисперсии , . Непараметрическая функция дисперсии позволяет рассмотреть среднюю функцию, поскольку она связана с функцией дисперсии, и заметить закономерности в данных.
Пример подробно представлен на рисунках справа. Целью проекта было определить (помимо прочего), повлиял ли предиктор, количество лет в высшей лиге (бейсбол), на отклик, зарплату , сделанную игроком. Первоначальный график рассеяния данных показывает, что в данных присутствует гетероскедастичность, поскольку дисперсия не является постоянной на каждом уровне предиктора. Поскольку мы можем визуально обнаружить непостоянную дисперсию, теперь полезно построить график и посмотреть, указывает ли форма на какое-либо известное распределение. Можно оценить и с помощью общего метода сглаживания . График непараметрической сглаженной функции дисперсии может дать исследователю представление о связи между дисперсией и средним значением. Рисунок справа показывает квадратичную связь между средним значением и дисперсией. Как мы видели выше, функция гамма-дисперсии является квадратичной по среднему значению.
Примечания
^ ab Muller и Zhao (1995). «О полупараметрической модели дисперсионной функции и тесте на гетероскедастичность». Анналы статистики . 23 (3): 946–967. doi : 10.1214/aos/1176324630 . JSTOR 2242430.
^ Мюллер, Штадтмюллер и Яо (2006). «Процессы функциональной дисперсии». Журнал Американской статистической ассоциации . 101 (475): 1007–1018. doi :10.1198/016214506000000186. JSTOR 27590778. S2CID 13712496.
^ Wedderburn, RWM (1974). «Функции квазиправдоподобия, обобщенные линейные модели и метод Гаусса–Ньютона». Biometrika . 61 (3): 439–447. doi :10.1093/biomet/61.3.439. JSTOR 2334725.
^ МакКаллах, Питер; Нелдер, Джон (1989). Обобщенные линейные модели (второе изд.). Лондон: Chapman and Hall. ISBN0-412-31760-5.
^ Мюллер и ШтадтМюллер (1987). «Оценка гетероскедастичности в регрессионном анализе». Анналы статистики . 15 (2): 610–625. doi : 10.1214/aos/1176350364 . JSTOR 2241329.
^ Cai и Wang, T.; Wang, Lie (2008). «Адаптивная оценка функции дисперсии в гетероскедастической непараметрической регрессии». Анналы статистики . 36 (5): 2025–2054. arXiv : 0810.4780 . Bibcode : 2008arXiv0810.4780C. doi : 10.1214/07-AOS509. JSTOR 2546470. S2CID 9184727.
^ Райс и Сильверман (1991). «Непараметрическая оценка структуры среднего и ковариации, когда данные представляют собой кривые». Журнал Королевского статистического общества . 53 (1): 233–243. JSTOR 2345738.