В статистике доля необъясненной дисперсии ( FVU ) в контексте задачи регрессии — это доля дисперсии регрессанта ( зависимой переменной) Y , которую невозможно объяснить, т. е . которая неправильно предсказана объясняющими переменными X.
Предположим, что нам дана функция регрессии, дающая для каждого оценку , где — вектор i- х наблюдений по всем объясняющим переменным. [1] : 181 Мы определяем долю необъясненной дисперсии (FVU) как:
где R 2 — коэффициент детерминации , а VAR err и VAR tot — дисперсия остатков и выборочная дисперсия зависимой переменной. SS err (сумма квадратов ошибок предсказаний, эквивалентно остаточной сумме квадратов ), SS tot ( общая сумма квадратов ) и SS reg (сумма квадратов регрессии, эквивалентно объясненной сумме квадратов ) определяются как
В качестве альтернативы долю необъясненной дисперсии можно определить следующим образом:
где MSE( f ) — среднеквадратическая ошибка функции регрессии ƒ .
Полезно рассмотреть второе определение, чтобы понять FVU. При попытке предсказать Y наиболее наивная функция регрессии, которую мы можем придумать, — это постоянная функция, предсказывающая среднее значение Y , т. е . . Из этого следует, что MSE этой функции равна дисперсии Y ; то есть SS err = SS tot , а SS reg = 0. В этом случае никакое изменение Y не может быть учтено, и FVU тогда имеет максимальное значение 1.
В более общем смысле, FVU будет равен 1, если объясняющие переменные X ничего не говорят нам о Y в том смысле, что предсказанные значения Y не ковариируют с Y. Но по мере того, как прогнозирование улучшается и MSE может быть уменьшено, FVU снижается. В случае идеального прогнозирования, когда для всех i , MSE равно 0, SS err = 0, SS reg = SS tot , а FVU равно 0.