stringtranslate.com

Сумма квадратов несоответствия

В статистике сумма квадратов из-за отсутствия соответствия , или, короче, сумма квадратов отсутствия соответствия , является одним из компонентов разбиения суммы квадратов остатков в дисперсионном анализе , используемом в числителе в F-тесте нулевой гипотезы , которая говорит, что предложенная модель хорошо соответствует. Другим компонентом является сумма квадратов чистой ошибки .

Сумма квадратов чистой ошибки — это сумма квадратов отклонений каждого значения зависимой переменной от среднего значения по всем наблюдениям, разделяющим ее значение(я) независимой переменной . Это ошибки, которых никогда не удалось бы избежать с помощью любого предсказательного уравнения, которое назначало бы предсказываемое значение для зависимой переменной как функцию значения(й) независимой переменной(ых). Оставшаяся часть остаточной суммы квадратов объясняется отсутствием соответствия модели, поскольку математически было бы возможно полностью устранить эти ошибки.

Принцип

Для того, чтобы сумма квадратов несоответствия отличалась от суммы квадратов остатков , должно быть более одного значения переменной отклика для хотя бы одного из значений набора переменных-предикторов. Например, рассмотрим подгонку линии

методом наименьших квадратов . В качестве оценок α и β берутся значения, которые минимизируют сумму квадратов остатков, т. е. сумму квадратов разностей между наблюдаемым значением y и подобранным значением y . Чтобы получить сумму квадратов несоответствия, которая отличается от остаточной суммы квадратов, необходимо наблюдать более одного значения y для каждого из одного или нескольких значений x . Затем разбивают «сумму квадратов из-за ошибки», т. е. сумму квадратов остатков, на два компонента:

сумма квадратов из-за ошибки = (сумма квадратов из-за «чистой» ошибки) + (сумма квадратов из-за отсутствия соответствия).

Сумма квадратов вследствие «чистой» ошибки — это сумма квадратов разностей между каждым наблюдаемым значением y и средним значением всех значений y , соответствующих одному и тому же значению x .

Сумма квадратов из-за несоответствия представляет собой взвешенную сумму квадратов разностей между каждым средним значением y , соответствующим тому же значению x , и соответствующим подобранным значением y , причем вес в каждом случае представляет собой просто число наблюдаемых значений y для этого значения x . [1] [2] Поскольку свойство регрессии наименьших квадратов заключается в том, что вектор, компоненты которого являются «чистыми ошибками», и вектор компонентов несоответствия ортогональны друг другу, выполняется следующее равенство:

Таким образом, остаточная сумма квадратов полностью разложена на две составляющие.

Математические детали

Рассмотрим подгонку линии с одной предикторной переменной. Определим i как индекс каждого из n отдельных значений x , j как индекс наблюдений переменной отклика для данного значения x , а n i как количество значений y , связанных с i- м значением x . Значение каждого наблюдения переменной отклика можно представить как

Позволять

будут оценками наименьших квадратов ненаблюдаемых параметров α и β на основе наблюдаемых значений x i и Y i j .  

Позволять

быть подобранными значениями переменной отклика. Тогда

являются остатками , которые являются наблюдаемыми оценками ненаблюдаемых значений погрешности  ε ij . Из-за природы метода наименьших квадратов весь вектор остатков, с  

скалярные компоненты, обязательно удовлетворяют двум ограничениям

Таким образом, он ограничен положением в ( N  − 2)-мерном подпространстве R N , т.е. существует N  − 2 « степеней свободы для ошибки». 

Теперь пусть

быть средним значением всех значений Y , связанных с i - м значением x .

Разобьем сумму квадратов ошибок на две составляющие:

Распределение вероятностей

Суммы квадратов

Предположим, что ошибки ε i j независимы и распределены нормально с ожидаемым значением  0 и дисперсией σ 2 . Мы рассматриваем x i как константу , а не как случайную величину. Тогда переменные отклика Y i j случайны только потому, что случайны ошибки ε i j .     

Можно показать, что если линейная модель верна, то сумма квадратов ошибок, деленная на дисперсию ошибок,

имеет распределение хи-квадрат с N  − 2 степенями свободы.

Более того, учитывая общее число наблюдений N , число уровней независимой переменной n и число параметров в модели p :

Статистика теста

Из этого следует, что статистика

имеет F-распределение с соответствующим числом степеней свободы в числителе и знаменателе, при условии, что модель верна. Если модель неверна, то распределение вероятностей знаменателя по-прежнему такое же, как указано выше, а числитель и знаменатель по-прежнему независимы. Но тогда числитель имеет нецентральное распределение хи-квадрат , и, следовательно, частное в целом имеет нецентральное F-распределение .

Эту F-статистику используют для проверки нулевой гипотезы о том, что линейная модель верна. Поскольку нецентральное F-распределение стохастически больше (центрального) F-распределения, нулевая гипотеза отвергается, если F-статистика больше критического значения F. Критическое значение соответствует кумулятивной функции распределения F с x, равным желаемому уровню достоверности , и степенями свободы d 1  = ( n  −  p ) и d 2  = ( N  −  n ).

Можно показать, что предположения о нормальном распределении ошибок и независимости влекут за собой то, что этот тест на несоответствие является тестом отношения правдоподобия этой нулевой гипотезы.

Смотрите также

Примечания

  1. ^ Брук, Ричард Дж.; Арнольд, Грегори К. (1985). Прикладной регрессионный анализ и экспериментальное проектирование. CRC Press . С. 48–49. ISBN 0824772520.
  2. ^ Нетер, Джон; Катнер, Майкл Х.; Нахстхайм, Кристофер Дж.; Вассерман, Уильям (1996). Прикладные линейные статистические модели (четвертое изд.). Чикаго: Irwin. стр. 121–122. ISBN 0256117365.