stringtranslate.com

Функция дисперсии

В статистике функция дисперсии представляет собой гладкую функцию , которая отображает дисперсию случайной величины как функцию ее среднего значения . Функция дисперсии является мерой гетероскедастичности и играет большую роль во многих условиях статистического моделирования. Это основной компонент структуры обобщенной линейной модели и инструмент, используемый в непараметрической регрессии , [1] полупараметрической регрессии [1] и функциональном анализе данных . [2] При параметрическом моделировании функции дисперсии принимают параметрическую форму и явно описывают связь между дисперсией и средним значением случайной величины. В непараметрической настройке предполагается, что функция дисперсии является гладкой функцией .

Интуиция

В настройке регрессионной модели цель состоит в том, чтобы установить, существует ли связь между переменной ответа и набором переменных-предикторов. Кроме того, если связь действительно существует, цель состоит в том, чтобы описать ее как можно лучше. Основным допущением линейной регрессии является постоянная дисперсия или (гомоскедастичность), что означает, что разные переменные ответа имеют одинаковую дисперсию своих ошибок на каждом уровне предикторов. Это предположение хорошо работает, когда переменная ответа и переменная-предиктор вместе являются нормальными . Как мы увидим позже, функция отклонения в настройке «Нормальный» является постоянной; однако мы должны найти способ количественной оценки гетероскедастичности (непостоянной дисперсии) при отсутствии совместной нормальности.

Когда вполне вероятно, что ответ следует за распределением, которое является членом экспоненциального семейства, может быть более уместным использовать обобщенную линейную модель , и, более того, когда мы не хотим навязывать нашим данным параметрическую модель, непараметрическую модель регрессионный подход может быть полезен. Важность возможности моделирования дисперсии как функции среднего значения заключается в улучшении вывода (в параметрической настройке) и оценке функции регрессии в целом для любых настроек.

Функции дисперсии играют очень важную роль в оценке параметров и выводах. В общем, оценка максимального правдоподобия требует определения функции правдоподобия. Это требование означает, что сначала необходимо указать распределение наблюдаемых переменных отклика. Однако, чтобы определить квазиправдоподобие, нужно только указать связь между средним значением и дисперсией наблюдений, чтобы затем иметь возможность использовать функцию квазиправдоподобия для оценки. [3] Оценка квазиправдоподобия особенно полезна при наличии чрезмерной дисперсии . Чрезмерная дисперсия возникает, когда изменчивость данных выше, чем можно было бы ожидать в соответствии с предполагаемым распределением данных.

Таким образом, чтобы обеспечить эффективный вывод параметров регрессии и функции регрессии, необходимо учитывать гетероскедастичность. Функции дисперсии количественно определяют взаимосвязь между дисперсией и средним значением наблюдаемых данных и, следовательно, играют значительную роль в оценке регрессии и выводах.

Типы

Функция дисперсии и ее приложения встречаются во многих областях статистического анализа. Очень важное использование этой функции находится в рамках обобщенных линейных моделей и непараметрической регрессии .

Обобщенная линейная модель

Если указан член экспоненциального семейства , можно легко вывести функцию дисперсии. [4] : 29  Общая форма функции дисперсии представлена ​​в контексте экспоненциального семейства, а также конкретные формы для нормальной функции, функции Бернулли, Пуассона и гаммы. Кроме того, мы описываем приложения и использование функций дисперсии при оценке максимального правдоподобия и оценке квазиправдоподобия.

Вывод

Обобщенная линейная модель (GLM) — это обобщение обычного регрессионного анализа, которое распространяется на любого члена экспоненциального семейства . Это особенно полезно, когда переменная ответа является категориальной, двоичной или подчиняется ограничению (например, имеют смысл только положительные ответы). На этой странице представлен краткий обзор компонентов GLM, но более подробную информацию и информацию см. на странице обобщенных линейных моделей .

GLM состоит из трех основных компонентов:

1. Случайная компонента: распределение y из экспоненциального семейства,
2. Линейный предиктор:
3. Функция ссылки:

Сначала важно вывести пару ключевых свойств экспоненциального семейства.

Любая случайная величина в экспоненциальном семействе имеет функцию плотности вероятности вида:

с логарифмическим правдоподобием,

Здесь – канонический параметр и интересующий параметр, а – мешающий параметр, который играет роль в дисперсии. Мы используем тождества Бартлетта , чтобы вывести общее выражение для функции дисперсии . Первый и второй результаты Бартлетта гарантируют, что при подходящих условиях (см. интегральное правило Лейбница ) для функции плотности, зависящей от ,

Эти тождества приводят к простым расчетам ожидаемого значения и дисперсии любой случайной величины в экспоненциальном семействе .

Ожидаемое значение Y : взяв первую производную по логарифму плотности в экспоненциальной форме семейства, описанной выше, мы имеем

Затем взятие ожидаемого значения и установка его равным нулю приводит к:

Дисперсия Y: для вычисления дисперсии мы используем второе тождество Бартлетта:

Теперь у нас есть связь между и , а именно

и , что позволяет установить связь между и дисперсией,

Обратите внимание, что поскольку , то обратимо. Мы выводим функцию дисперсии для нескольких распространенных распределений.

Пример – нормальный

Нормальное распределение — это частный случай, когда функция дисперсии является константой. Пусть тогда мы представим функцию плотности y в виде экспоненциального семейства, описанного выше:

где

Чтобы вычислить функцию дисперсии , мы сначала выражаем ее как функцию от . Затем преобразуем в функцию

Следовательно, функция дисперсии постоянна.

Пример – Бернулли

Пусть , тогда мы выражаем плотность распределения Бернулли в экспоненциальной форме семейства:

logit (p), что дает нам выход
и
выход

Это дает нам

Пример – Пуассон

Пусть , тогда мы выражаем плотность распределения Пуассона в экспоненциальной форме семейства:

что дает нам
и

Это дает нам

Здесь мы видим главное свойство данных Пуассона: дисперсия равна среднему значению.

Пример — Гамма

Гамма -распределение и функция плотности могут быть выражены при различных параметризациях. Мы будем использовать форму гаммы с параметрами

Тогда в экспоненциальной форме семейства мы имеем

И у нас есть

Приложение – взвешенный метод наименьших квадратов

Очень важным применением функции дисперсии является ее использование при оценке параметров и выводе, когда переменная отклика имеет требуемую форму экспоненциального семейства, а также в некоторых случаях, когда это не так (что мы обсудим в разделе квазиправдоподобия ). Взвешенный метод наименьших квадратов (WLS) является частным случаем обобщенного метода наименьших квадратов. Каждый член критерия WLS включает вес, который определяет влияние каждого наблюдения на окончательные оценки параметров. Как и в обычном методе наименьших квадратов, цель состоит в том, чтобы оценить неизвестные параметры в функции регрессии путем нахождения значений для оценок параметров, которые минимизируют сумму квадратов отклонений между наблюдаемыми откликами и функциональной частью модели.

Хотя WLS предполагает независимость наблюдений, он не предполагает равную дисперсию и, следовательно, является решением для оценки параметров при наличии гетероскедастичности. Теорема Гаусса -Маркова и Эйткен демонстрируют, что лучшая линейная несмещенная оценка (СИНИЙ), несмещенная оценка с минимальной дисперсией, имеет каждый вес, равный обратной величине дисперсии измерения.

В рамках GLM наша цель — оценить параметры , где . Поэтому мы хотели бы минимизировать , и если мы определим весовую матрицу W как

где определены в предыдущем разделе, это позволяет итеративно перевзвешенную оценку параметров методом наименьших квадратов (IRLS). Дополнительную информацию и вывод см. в разделе об итеративном повторном взвешивании наименьших квадратов .

Также важно отметить, что когда весовая матрица имеет описанную здесь форму, минимизация выражения также минимизирует расстояние Пирсона. Дополнительную информацию см. в разделе Корреляция расстояний .

Матрица W выпадает из оценочных уравнений для оценки . Оценка максимального правдоподобия для каждого параметра требует

, где логарифмическое правдоподобие.

Глядя на одно наблюдение, которое мы имеем,

Это дает нам

, и отмечая, что
у нас есть это

Матрица Гессе определяется аналогичным образом, и можно показать, что она равна:

Отмечая, что информация Фишера (FI),

, позволяет провести асимптотическую аппроксимацию
, и, следовательно, можно сделать вывод.

Применение – квазиправдоподобие

Поскольку большинство характеристик GLM зависят только от первых двух моментов распределения, а не от всего распределения, квазиправдоподобие можно получить, просто указав функцию связи и функцию дисперсии. То есть нам нужно указать

Имея заданную функцию дисперсии и функцию связи, мы можем разработать в качестве альтернативы логарифмической функции правдоподобия , функции оценки и информации Фишера квазиправдоподобие , квазиоценку и квазиинформацию . Это позволяет сделать полный вывод .

Квазиправдоподобие (QL)

Хотя это и называется квазиправдоподобием , на самом деле это квазилогарифмическое правдоподобие . QL для одного наблюдения составляет

И поэтому QL для всех n наблюдений равен

Из QL мы получаем квазиоценку

Квази-оценка (QS)

Напомним, что функция оценки U для данных с логарифмическим правдоподобием равна

Аналогично получаем квазиоценку:

Отмечая, что для одного наблюдения оценка равна

Первые два уравнения Бартлетта удовлетворяются для квазипоказателя, а именно:

и

Кроме того, квазиоценка линейна по y .

В конечном итоге цель состоит в том, чтобы найти информацию об интересующих параметрах . И QS, и QL на самом деле являются функциями . Напомним, , и , следовательно,

Квазиинформация (КИ)

Квазиинформация аналогична информации Фишера .

QL, QS, QI как функции

QL, QS и QI являются строительными блоками для вывода об интересующих параметрах, и поэтому важно выражать QL, QS и QI как функции .

Вспоминая еще раз, что , выведем выражения для QL, QS и QI, параметризованные при .

Квазиправдоподобие в ,

Таким образом, QS как функция

Где,

Квазиинформационная матрица в том,

Получение оценочной функции и информации о ней позволяет оценить параметры и сделать выводы аналогично тому, как описано в разделе «Применение» – взвешенные наименьшие квадраты.

Непараметрический регрессионный анализ

Диаграмма разброса количества лет в высшей лиге в зависимости от зарплаты (x 1000 долларов США). Линия представляет собой тенденцию к среднему значению. График показывает, что дисперсия не является постоянной.
Сглаженная условная дисперсия относительно сглаженного условного среднего значения. Квадратичная форма указывает на гамма-распределение. Функция дисперсии гаммы равна V( ) =

Непараметрическая оценка функции дисперсии и ее важность широко обсуждались в литературе [5] [6] [7] В непараметрическом регрессионном анализе цель состоит в том, чтобы выразить ожидаемое значение вашей переменной ответа ( y ). как функция ваших предикторов ( X ). То есть мы хотим оценить среднюю функцию, не принимая параметрическую форму. Существует множество форм непараметрических методов сглаживания , помогающих оценить функцию . Интересный подход — рассмотреть также непараметрическую функцию дисперсии , . Непараметрическая функция дисперсии позволяет взглянуть на функцию среднего значения с точки зрения функции дисперсии и заметить закономерности в данных.

Пример подробно показан на картинках справа. Цель проекта состояла в том, чтобы определить (среди прочего), повлиял ли предиктор, количество лет в высшей лиге (бейсбол), на реакцию, зарплату , которую зарабатывал игрок. Первоначальная диаграмма рассеяния данных показывает, что в данных существует гетероскедастичность, поскольку дисперсия не является постоянной на каждом уровне предиктора. Поскольку мы можем визуально обнаружить непостоянную дисперсию, теперь полезно построить график и посмотреть, указывает ли форма на какое-либо известное распределение. Оценить можно и с помощью общего метода сглаживания . График непараметрической сглаженной функции дисперсии может дать исследователю представление о взаимосвязи между дисперсией и средним значением. На рисунке справа показано квадратичное соотношение между средним значением и дисперсией. Как мы видели выше, функция дисперсии гаммы в среднем квадратична.

Примечания

  1. ^ Аб Мюллер и Чжао (1995). «О полупараметрической модели функции дисперсии и тесте на гетероскедастичность». Анналы статистики . 23 (3): 946–967. дои : 10.1214/aos/1176324630 . JSTOR  2242430.
  2. ^ Мюллер, Штадтмюллер и Яо (2006). «Процессы функциональной дисперсии». Журнал Американской статистической ассоциации . 101 (475): 1007–1018. дои : 10.1198/016214506000000186. JSTOR  27590778. S2CID  13712496.
  3. ^ Веддерберн, RWM (1974). «Функции квазиправдоподобия, обобщенные линейные модели и метод Гаусса – Ньютона». Биометрика . 61 (3): 439–447. дои : 10.1093/biomet/61.3.439. JSTOR  2334725.
  4. ^ МакКаллах, Питер; Нелдер, Джон (1989). Обобщенные линейные модели (второе изд.). Лондон: Чепмен и Холл. ISBN 0-412-31760-5.
  5. ^ Мюллер и ШтадтМюллер (1987). «Оценка гетероскедастичности в регрессионном анализе». Анналы статистики . 15 (2): 610–625. дои : 10.1214/aos/1176350364 . JSTOR  2241329.
  6. ^ Цай и Ван, Т.; Ван, Ли (2008). «Адаптивная оценка функции дисперсии в гетероскедастической непараметрической регрессии». Анналы статистики . 36 (5): 2025–2054. arXiv : 0810.4780 . Бибкод : 2008arXiv0810.4780C. дои : 10.1214/07-AOS509. JSTOR  2546470. S2CID  9184727.
  7. ^ Райс и Сильверман (1991). «Непараметрическая оценка структуры среднего и ковариации, когда данные представляют собой кривые». Журнал Королевского статистического общества . 53 (1): 233–243. JSTOR  2345738.

Рекомендации

Внешние ссылки