stringtranslate.com

Обобщенный метод наименьших квадратов

В статистике обобщенные наименьшие квадраты (GLS) — это метод, используемый для оценки неизвестных параметров в линейной регрессионной модели . Он используется, когда между остатками в регрессионной модели имеется ненулевая величина корреляции . GLS используется для повышения статистической эффективности и снижения риска получения ошибочных выводов по сравнению с обычными методами наименьших квадратов и взвешенных наименьших квадратов . Впервые он был описан Александром Эйткеном в 1935 году. [1]

Он требует знания ковариационной матрицы для остатков. Если она неизвестна, оценка ковариационной матрицы дает метод возможных обобщенных наименьших квадратов (FGLS). Однако FGLS дает меньше гарантий улучшения.

Метод

В стандартных моделях линейной регрессии наблюдаются данные по n статистическим единицам с k  − 1 предикторными значениями и одним значением отклика каждая.

Значения отклика помещаются в вектор, а значения предикторов помещаются в матрицу дизайна , где каждая строка представляет собой вектор переменных предикторов (включая константу) для -й точки данных.

Модель предполагает, что условное среднее значение задано как линейная функция и что условная дисперсия заданного члена ошибки является известной невырожденной ковариационной матрицей , . То есть, где — вектор неизвестных констант, называемых «коэффициентами регрессии», которые оцениваются на основе данных.

Если является оценкой-кандидатом для , то вектор остатков для равен . Обобщенный метод наименьших квадратов оценивает путем минимизации квадрата длины Махаланобиса этого вектора остатков: что эквивалентно , что является задачей квадратичного программирования . Стационарная точка целевой функции возникает, когда , поэтому оценщик равен Величина известна как матрица точности (или матрица дисперсии ), обобщение диагональной весовой матрицы .

Характеристики

Оценка GLS является несмещенной , последовательной , эффективной и асимптотически нормальной с GLS эквивалентна применению обычного метода наименьших квадратов (OLS) к линейно преобразованной версии данных. Это можно увидеть с помощью факторизации с использованием такого метода, как разложение Холецкого . Умножение слева обеих сторон на дает эквивалентную линейную модель: В этой модели , где — единичная матрица . Затем можно эффективно оценить, применив OLS к преобразованным данным, что требует минимизации цели, Это преобразование эффективно стандартизирует масштаб и декоррелирует ошибки. Когда OLS используется для данных с гомоскедастическими ошибками, применяется теорема Гаусса–Маркова , поэтому оценка GLS является лучшей линейной несмещенной оценкой для .

Взвешенные наименьшие квадраты

Особый случай GLS, называемый взвешенными наименьшими квадратами (WLS), возникает, когда все недиагональные элементы Ω равны 0. Такая ситуация возникает, когда дисперсии наблюдаемых значений неравны или когда присутствует гетероскедастичность , но между наблюдаемыми дисперсиями не существует корреляций. Вес для единицы i пропорционален обратной величине дисперсии отклика для единицы i . [2]

Вывод методом максимального правдоподобия

Обычный метод наименьших квадратов можно интерпретировать как оценку максимального правдоподобия с априорным значением , что ошибки независимы и нормально распределены с нулевым средним значением и общей дисперсией. В GLS априорное значение обобщается на случай, когда ошибки могут не быть независимыми и иметь разные дисперсии . Для заданных параметров подгонки предполагается, что условная функция плотности вероятности ошибок равна: По теореме Байеса , В GLS равномерная (несобственная) априорная вероятность берется для , и поскольку является маргинальным распределением, она не зависит от . Поэтому логарифмическая вероятность — это где скрытые члены — это те, которые не зависят от , и — логарифмическое правдоподобие . Максимальная апостериорная оценка (MAP) тогда является оценкой максимального правдоподобия (MLE), которая эквивалентна задаче оптимизации, приведенной выше,

где задача оптимизации была переписана с использованием того факта, что логарифм является строго возрастающей функцией , и свойства, что аргумент, решающий задачу оптимизации, не зависит от членов целевой функции, которые не включают эти члены. Подставляя вместо ,

Допустимые обобщенные наименьшие квадраты

Если ковариация ошибок неизвестна, можно получить согласованную оценку , скажем , [3], используя реализуемую версию GLS, известную как оценка методом допустимых обобщенных наименьших квадратов ( FGLS ).

В FGLS моделирование происходит в два этапа:

  1. Модель оценивается с помощью МНК или другого последовательного (но неэффективного) оценщика, а остатки используются для построения последовательной оценки матрицы ковариации ошибок (чтобы сделать это, часто требуется исследовать модель, добавляя дополнительные ограничения; например, если ошибки следуют процессу временного ряда, статистику обычно требуются некоторые теоретические предположения относительно этого процесса, чтобы гарантировать доступность последовательной оценки).
  2. Затем, используя согласованную оценку ковариационной матрицы ошибок, можно реализовать идеи GLS.

В то время как GLS более эффективен, чем OLS при гетероскедастичности (также пишется heteroskedasticity) или автокорреляции , это не относится к FGLS. Допустимая оценка асимптотически более эффективна (при условии, что матрица ковариации ошибок оценивается последовательно), но для выборки малого и среднего размера она может быть фактически менее эффективной, чем OLS. Вот почему некоторые авторы предпочитают использовать OLS и переформулируют свои выводы, просто рассматривая альтернативную оценку для дисперсии оценки, устойчивой к гетероскедастичности или последовательной автокорреляции. Однако для больших выборок FGLS предпочтительнее, чем OLS при гетероскедастичности или последовательной корреляции. [3] [4] Предупреждающее замечание заключается в том, что оценка FGLS не всегда последовательна. Один случай, в котором FGLS может быть непоследовательной, — это если есть индивидуальные фиксированные эффекты. [5]

В общем, этот оценщик имеет свойства, отличные от GLS. Для больших выборок (т. е. асимптотически) все свойства (при соответствующих условиях) общие по отношению к GLS, но для конечных выборок свойства оценщиков FGLS неизвестны: они сильно различаются в зависимости от каждой конкретной модели, и, как правило, их точные распределения не могут быть выведены аналитически. Для конечных выборок FGLS может быть менее эффективным, чем OLS в некоторых случаях. Таким образом, хотя GLS можно сделать осуществимым, не всегда разумно применять этот метод, когда выборка мала. Метод, используемый для повышения точности оценщиков в конечных выборках, заключается в итерации; то есть взятии остатков из FGLS для обновления оценки ковариации ошибок, а затем обновлении оценки FGLS, применяя ту же идею итеративно до тех пор, пока оценки не будут изменяться меньше некоторого допуска. Однако этот метод не обязательно значительно повышает эффективность оценщика, если исходная выборка была мала.

Разумным вариантом, когда выборки не слишком велики, является применение МНК, но отказ от классической оценки дисперсии.

(что несовместимо в этой структуре) и вместо этого использовать оценку HAC (Heteroskedasticity and Autocorrelation Consistent). В контексте автокорреляции можно использовать оценку Ньюи–Уэста , а в гетероскедастических контекстах вместо нее можно использовать оценку Эйкера–Уайта . Этот подход гораздо безопаснее, и это подходящий путь, если только выборка не большая, где «большая» иногда является скользким вопросом (например, если распределение ошибок асимметрично, требуемая выборка будет намного больше).

Оценка методом наименьших квадратов (МНК) рассчитывается следующим образом:

и строятся оценки остатков .

Для простоты рассмотрим модель для гетероскедастичных и неавтокоррелированных ошибок. Предположим, что матрица дисперсии-ковариации вектора ошибок диагональна, или, что эквивалентно, что ошибки из отдельных наблюдений некоррелированы. Тогда каждый диагональный элемент может быть оценен с помощью подобранных остатков, поэтому может быть построен следующим образом:

Важно отметить, что квадраты остатков не могут быть использованы в предыдущем выражении; необходима оценка дисперсий ошибок. Для этого можно использовать параметрическую модель гетероскедастичности или непараметрическую оценку.

Оцените с помощью [ 4] взвешенных наименьших квадратов :

Процедуру можно повторять. Первая итерация имеет вид:

Эту оценку можно повторить до сходимости.

В условиях регулярности оценка FGLS (или оценка ее итераций, если проводится конечное число итераций) асимптотически распределена следующим образом:

где размер выборки, и

где означает предел вероятности .

Смотрите также

Ссылки

  1. ^ Эйткен, AC (1935). «О наименьших квадратах и ​​линейных комбинациях наблюдений». Труды Королевского общества Эдинбурга . 55 : 42–48. doi :10.1017/s0370164600014346.
  2. ^ Strutz, T. (2016). Подгонка данных и неопределенность (практическое введение в метод взвешенных наименьших квадратов и далее) . Springer Vieweg. ISBN 978-3-658-11455-8., глава 3
  3. ^ ab Baltagi, BH (2008). Эконометрика (4-е изд.). Нью-Йорк: Springer.
  4. ^ ab Greene, WH (2003). Эконометрический анализ (5-е изд.). Upper Saddle River, NJ: Prentice Hall.
  5. ^ Хансен, Кристиан Б. (2007). «Обобщенный вывод наименьших квадратов в панельных и многоуровневых моделях с последовательной корреляцией и фиксированными эффектами». Журнал эконометрики . 140 (2): 670–694. doi :10.1016/j.jeconom.2006.07.011.

Дальнейшее чтение