В статистике и оптимизации ошибки и остатки — это две тесно связанные и легко путаемые меры отклонения наблюдаемого значения элемента статистической выборки от его « истинного значения » (не обязательно наблюдаемого). Ошибка наблюдения — это отклонение наблюдаемого значения от истинного значения интересующей величины (например, среднего значения совокупности ). Остаток — это разница между наблюдаемым значением и оценочным значением интересующей величины (например, среднего значения выборки ). Различие наиболее важно в регрессионном анализе , где эти концепции иногда называют ошибками регрессии и остатками регрессии и где они приводят к концепции стьюдентизированных остатков . В эконометрике «ошибки» также называются возмущениями . [1] [2] [3]
Предположим, что есть ряд наблюдений из одномерного распределения , и мы хотим оценить среднее значение этого распределения (так называемая модель местоположения ). В этом случае ошибки представляют собой отклонения наблюдений от среднего значения популяции, а остатки представляют собой отклонения наблюдений от среднего значения выборки.
Статистическая ошибка (или возмущение ) — это величина, на которую наблюдение отличается от его ожидаемого значения , причем последнее основано на всей популяции, из которой статистическая единица была выбрана случайным образом. Например, если средний рост в популяции 21-летних мужчин составляет 1,75 метра, а один случайно выбранный мужчина имеет рост 1,80 метра, то «ошибка» составляет 0,05 метра; если случайно выбранный мужчина имеет рост 1,70 метра, то «ошибка» составляет −0,05 метра. Ожидаемое значение, являющееся средним значением всей популяции, обычно ненаблюдаемо, и, следовательно, статистическая ошибка также не может быть наблюдаема.
Остаточное (или подходящее) отклонение, с другой стороны, является наблюдаемой оценкой ненаблюдаемой статистической ошибки. Рассмотрим предыдущий пример с ростом мужчин и предположим, что у нас есть случайная выборка из n человек . Выборочное среднее может служить хорошей оценкой среднего значения популяции . Тогда мы имеем:
Обратите внимание, что из-за определения выборочного среднего сумма остатков в случайной выборке обязательно равна нулю, и, таким образом, остатки обязательно не являются независимыми . Статистические ошибки, с другой стороны, независимы, и их сумма в случайной выборке почти наверняка не равна нулю.
Можно стандартизировать статистические ошибки (особенно нормального распределения ) в z-оценке (или «стандартной оценке») и стандартизировать остатки в t -статистике или, в более общем смысле, стьюдентизированные остатки .
Если предположить, что популяция распределена нормально со средним значением μ и стандартным отклонением σ, и выбирать особей независимо, то мы имеем
— случайная величина, распределенная таким образом, что:
Статистические ошибки тогда
с ожидаемыми значениями, равными нулю, [4] тогда как остатки
Сумма квадратов статистических ошибок , деленная на σ2 , имеет распределение хи-квадрат с n степенями свободы :
Однако эта величина не наблюдаема, поскольку среднее значение совокупности неизвестно. Сумма квадратов остатков , с другой стороны, наблюдаема. Частное этой суммы по σ 2 имеет распределение хи-квадрат только с n − 1 степенями свободы:
Эта разница между n и n − 1 степенями свободы приводит к поправке Бесселя для оценки выборочной дисперсии совокупности с неизвестным средним значением и неизвестной дисперсией. Поправка не нужна, если известно среднее значение совокупности.
Примечательно, что можно показать, что сумма квадратов остатков и выборочное среднее не зависят друг от друга, используя, например, теорему Басу . Этот факт, а также нормальное и хи-квадрат распределения, приведенные выше, образуют основу вычислений, включающих t-статистику:
где представляет ошибки, представляет стандартное отклонение выборки для выборки размером n и неизвестного σ , а знаменатель учитывает стандартное отклонение ошибок в соответствии с: [5]
Распределения вероятностей числителя и знаменателя по отдельности зависят от значения ненаблюдаемого стандартного отклонения популяции σ , но σ появляется как в числителе, так и в знаменателе и сокращается. Это удача, потому что это означает, что даже если мы не знаем σ , мы знаем распределение вероятностей этого частного: оно имеет распределение Стьюдента с n − 1 степенями свободы. Поэтому мы можем использовать это частное, чтобы найти доверительный интервал для μ . Эту t-статистику можно интерпретировать как «количество стандартных ошибок вдали от линии регрессии». [6]
В регрессионном анализе различие между ошибками и остатками является тонким и важным и приводит к концепции стьюдентизированных остатков . При наличии ненаблюдаемой функции, которая связывает независимую переменную с зависимой переменной, например, линии, отклонения наблюдений зависимой переменной от этой функции являются ненаблюдаемыми ошибками. Если запустить регрессию на некоторых данных, то отклонения наблюдений зависимой переменной от подобранной функции являются остатками. Если применима линейная модель, диаграмма рассеяния остатков, построенная против независимой переменной, должна быть случайной около нуля без тенденции к остаткам. [5] Если данные демонстрируют тенденцию, регрессионная модель, скорее всего, неверна; например, истинная функция может быть квадратичным или полиномом более высокого порядка. Если они случайны или не имеют тенденции, но «разветвляются» — они демонстрируют явление, называемое гетероскедастичностью . Если все остатки равны или не разветвляются, они демонстрируют гомоскедастичность .
Однако терминологическое различие возникает в выражении средняя квадратичная ошибка (MSE). Средняя квадратичная ошибка регрессии — это число, вычисленное из суммы квадратов вычисленных остатков , а не ненаблюдаемых ошибок . Если эта сумма квадратов делится на n , число наблюдений, результатом является среднее квадратов остатков. Поскольку это смещенная оценка дисперсии ненаблюдаемых ошибок, смещение устраняется путем деления суммы квадратов остатков на df = n − p − 1, вместо n , где df — число степеней свободы ( n минус число оцениваемых параметров (исключая отсекаемый член) p - 1). Это формирует несмещенную оценку дисперсии ненаблюдаемых ошибок и называется средней квадратичной ошибкой. [7]
Другой метод расчета среднего квадрата ошибки при анализе дисперсии линейной регрессии с использованием техники, подобной той, что используется в ANOVA (они одинаковы, поскольку ANOVA — это тип регрессии), сумма квадратов остатков (также известная как сумма квадратов ошибки) делится на степени свободы (где степени свободы равны n − p − 1, где p — это количество параметров, оцененных в модели (по одному для каждой переменной в уравнении регрессии, не включая отсекаемый член)). Затем можно также рассчитать средний квадрат модели, разделив сумму квадратов модели минус степени свободы, что является просто количеством параметров. Затем значение F можно рассчитать, разделив средний квадрат модели на средний квадрат ошибки, и затем мы можем определить значимость (именно поэтому вам нужны средние квадраты для начала.) [8]
Однако из-за поведения процесса регрессии распределения остатков в различных точках данных (входной переменной) могут различаться, даже если сами ошибки распределены одинаково. Конкретно, в линейной регрессии , где ошибки распределены одинаково, изменчивость остатков входов в середине домена будет выше , чем изменчивость остатков на концах домена: [9] линейные регрессии лучше соответствуют конечным точкам, чем середине. Это также отражено в функциях влияния различных точек данных на коэффициенты регрессии : конечные точки имеют большее влияние.
Таким образом, чтобы сравнить остатки на разных входах, необходимо скорректировать остатки на ожидаемую изменчивость остатков, что называется стьюдентизацией . Это особенно важно в случае обнаружения выбросов , когда рассматриваемый случай каким-то образом отличается от других в наборе данных. Например, большой остаток может ожидаться в середине домена, но считаться выбросом в конце домена.
Использование термина «ошибка», как обсуждалось в разделах выше, имеет смысл отклонения значения от гипотетического ненаблюдаемого значения. По крайней мере два других использования также встречаются в статистике, оба относятся к наблюдаемым ошибкам прогнозирования :
Среднеквадратическая ошибка (MSE) относится к величине, на которую значения, предсказанные оценщиком, отличаются от оцениваемых величин (обычно за пределами выборки, на основе которой оценивалась модель). Среднеквадратическая ошибка (RMSE) — это квадратный корень из MSE. Сумма квадратов ошибок (SSE) — это MSE, умноженная на размер выборки.
Сумма квадратов остатков (SSR) — это сумма квадратов отклонений фактических значений от прогнозируемых значений в пределах выборки, используемой для оценки. Это основа для оценки наименьших квадратов , где коэффициенты регрессии выбираются таким образом, чтобы SSR был минимальным (т. е. его производная равна нулю).
Аналогично, сумма абсолютных ошибок (SAE) представляет собой сумму абсолютных значений остатков, которая минимизируется при подходе к регрессии с наименьшими абсолютными отклонениями .
Средняя ошибка (ME) — это смещение. Средний остаток (MR) всегда равен нулю для оценок наименьших квадратов.