Статистическое количество
В статистике — объяснимая сумма квадратов ( ESS ), также известная как модельная сумма квадратов или сумма квадратов вследствие регрессии ( SSR — не путать с остаточной суммой квадратов (RSS) или суммой квадратов ошибок). , — это величина, используемая для описания того, насколько хорошо модель, часто регрессионная модель , представляет моделируемые данные. В частности, объясненная сумма квадратов измеряет, насколько сильно варьируются смоделированные значения, и ее сравнивают с общей суммой квадратов (TSS), которая измеряет, насколько сильно варьируются наблюдаемые данные, и с остаточной суммой Squares , который измеряет разницу в ошибке между наблюдаемыми данными и смоделированными значениями.
Определение
Объясненная сумма квадратов (ESS) — это сумма квадратов отклонений прогнозируемых значений от среднего значения переменной отклика в стандартной регрессионной модели — например, y i = a + b 1 x 1 i + b 2 x 2 i + ... + ε i , где y i — i - е наблюдение переменной отклика , x ji — i-е наблюдение j - й объясняющей переменной , a и b j — коэффициенты , i индексирует наблюдения от 1 до n , а ε i — i - е значение ошибки . В общем, чем больше ESS, тем лучше работает предполагаемая модель.
Если и – расчетные коэффициенты , то
— i -е прогнозируемое значение переменной ответа. Тогда ESS:
- где значение, оцененное по линии регрессии. [1]
В некоторых случаях (см. ниже): общая сумма квадратов (TSS) = объясненная сумма квадратов (ESS) + остаточная сумма квадратов (RSS).
Разделение в простой линейной регрессии
Следующее равенство, гласящее, что общая сумма квадратов (TSS) равна остаточной сумме квадратов (=SSE: сумма квадратов ошибок прогнозирования) плюс объясненная сумма квадратов (SSR: сумма квадратов вследствие регрессии или объясненной сумма квадратов), как правило, верно для простой линейной регрессии:
Простой вывод
Возведите в квадрат обе стороны и просуммируйте по всем i :
Вот как последний член выше равен нулю из простой линейной регрессии [2]
Так,
Поэтому,
Разбиение в общей модели наименьших квадратов
Общая модель регрессии с n наблюдениями и k объяснителями, первый из которых представляет собой постоянный единичный вектор, коэффициент которого является точкой пересечения регрессии:
где y — вектор наблюдений зависимой переменной размера n × 1, каждый столбец матрицы X размера n × k представляет собой вектор наблюдений на одном из k объяснителей, является вектором истинных коэффициентов размера k × 1, а e — это вектор n × 1 1 вектор истинных основных ошибок. Обычная оценка методом наименьших квадратов для
Вектор остатков равен , поэтому остаточная сумма квадратов после упрощения равна
Обозначим как постоянный вектор, все элементы которого являются выборочным средним значений зависимой переменной в векторе y . Тогда общая сумма квадратов равна
Объясненная сумма квадратов, определяемая как сумма квадратов отклонений прогнозируемых значений от наблюдаемого среднего значения y , равна
Использование этого и упрощение для получения даёт результат, что TSS = ESS + RSS тогда и только тогда, когда . Левая часть этого выражения равна умноженной на сумму элементов y , а правая часть — умноженной на сумму элементов y , поэтому условие состоит в том, что сумма элементов y равняется сумме элементов y или, что то же самое, что сумма ошибок прогнозирования (остатков) равна нулю. В этом можно убедиться, отметив хорошо известное свойство МНК, согласно которому вектор k × 1 : поскольку первый столбец X представляет собой вектор единиц, первый элемент этого вектора представляет собой сумму остатков и равен нуль. Это доказывает, что условие TSS = ESS + RSS выполняется .
В терминах линейной алгебры имеем , , . Доказательство можно упростить, заметив, что . Доказательство следующее:
Таким образом,
что снова дает результат: TSS = ESS + RSS , поскольку .
Смотрите также
Примечания
- ^ «Сумма квадратов - определение, формулы, регрессионный анализ» . Институт корпоративных финансов . Проверено 11 июня 2020 г.
- ^ Менденхолл, Уильям (2009). Введение в вероятность и статистику (13-е изд.). Бельмонт, Калифорния: Брукс/Коул. п. 507. ИСБН 9780495389538.
Рекомендации
- С.Э. Максвелл и HD Делани (1990), «Проектирование экспериментов и анализ данных: перспектива сравнения моделей». Уодсворт. стр. 289–290.
- Г.А. Милликен и Д.Е. Джонсон (1984), «Анализ беспорядочных данных», Vol. Я: Спланированные эксперименты. Ван Ностранд Рейнхольд. стр. 146–151.
- Б.Г. Табачник и Л.С. Фиделл (2007), «Экспериментальный дизайн с использованием ANOVA». Даксбери. п. 220.
- Б.Г. Табачник и Л.С. Фиделл (2007), «Использование многомерной статистики», 5-е изд. Пирсон Образование. стр. 217–218.