В статистике средняя квадратичная ошибка ( MSE ) [1] или среднеквадратичное отклонение ( MSD ) оценщика (процедуры оценки ненаблюдаемой величины) измеряет среднее квадратов ошибок — то есть среднеквадратичную разность между оценочными значениями и фактическим значением. MSE — это функция риска , соответствующая ожидаемому значению квадрата потери ошибки . [2] Тот факт, что MSE почти всегда строго положительна (и не равна нулю), объясняется случайностью или тем, что оценщик не учитывает информацию , которая могла бы дать более точную оценку. [3] В машинном обучении , в частности, минимизации эмпирического риска , MSE может относиться к эмпирическому риску (средним потерям в наблюдаемом наборе данных) как к оценке истинного MSE (истинного риска: средних потерь в фактическом распределении популяции).
MSE является мерой качества оценщика. Поскольку она выводится из квадрата евклидова расстояния , она всегда является положительным значением, которое уменьшается по мере того, как ошибка приближается к нулю.
MSE — это второй момент (относительно источника) ошибки, и, таким образом, включает в себя как дисперсию оценщика (насколько широко разбросаны оценки от одной выборки данных к другой), так и его смещение (насколько далеко среднее оценочное значение от истинного значения). [ требуется ссылка ] Для несмещенного оценщика MSE — это дисперсия оценщика. Как и дисперсия, MSE имеет те же единицы измерения, что и квадрат оцениваемой величины. По аналогии со стандартным отклонением , извлечение квадратного корня из MSE дает среднеквадратичную ошибку или среднеквадратичное отклонение (RMSE или RMSD), которое имеет те же единицы, что и оцениваемая величина; для несмещенного оценщика RMSE — это квадратный корень из дисперсии , известный как стандартная ошибка .
MSE либо оценивает качество предиктора ( т. е. функции, отображающей произвольные входные данные в выборку значений некоторой случайной величины ), либо оценщика ( т. е. математической функции, отображающей выборку данных в оценку параметра совокупности , из которой берутся данные). В контексте прогнозирования понимание интервала прогнозирования также может быть полезным, поскольку оно обеспечивает диапазон, в который с определенной вероятностью попадет будущее наблюдение. Определение MSE различается в зависимости от того, описывается ли предиктор или оценщик.
Если вектор прогнозов генерируется из выборки точек данных по всем переменным и представляет собой вектор наблюдаемых значений прогнозируемой переменной, причем являются прогнозируемыми значениями (например, как в случае подгонки по методу наименьших квадратов ), то среднеквадратическая ошибка предиктора внутри выборки вычисляется как
Другими словами, MSE — это среднее квадратов ошибок . Это легко вычисляемая величина для конкретной выборки (и, следовательно, зависящая от выборки).
В матричной записи,
где — вектор-столбец , а — вектор -столбец.
MSE также может быть вычислена на основе q точек данных, которые не использовались при оценке модели, либо потому, что они были сохранены для этой цели, либо потому, что эти данные были получены заново. В рамках этого процесса, известного как перекрестная проверка , MSE часто называют тестовой MSE, [4] и вычисляется как
Среднеквадратическая ошибка оценки относительно неизвестного параметра определяется как [1]
Это определение зависит от неизвестного параметра, но MSE является априори свойством оценщика. MSE может быть функцией неизвестных параметров, в этом случае любой оценщик MSE, основанный на оценках этих параметров, будет функцией данных (и, следовательно, случайной величиной). Если оценщик выводится как выборочная статистика и используется для оценки некоторого параметра популяции, то ожидание относится к выборочному распределению выборочной статистики.
Среднеквадратичную ошибку можно записать как сумму дисперсии оценщика и квадрата смещения оценщика, что обеспечивает полезный способ вычисления среднеквадратичной ошибки и подразумевает, что в случае несмещенных оценок среднеквадратическая ошибка и дисперсия эквивалентны. [5]
Еще более короткое доказательство можно получить, используя известную формулу, что для случайной величины , . Заменяя на , мы имеем Но в реальном случае моделирования MSE можно было бы описать как сложение дисперсии модели, смещения модели и неснижаемой неопределенности (см. Компромисс смещения и дисперсии ). Согласно соотношению, MSE оценщиков можно было бы просто использовать для сравнения эффективности , которое включает информацию о дисперсии и смещении оценщика. Это называется критерием MSE.
В регрессионном анализе построение графика является более естественным способом просмотра общей тенденции всех данных. Среднее значение расстояния от каждой точки до прогнозируемой модели регрессии может быть вычислено и показано как среднеквадратическая ошибка. Возведение в квадрат имеет решающее значение для уменьшения сложности с отрицательными знаками. Чтобы минимизировать MSE, модель может быть более точной, что будет означать, что модель ближе к фактическим данным. Одним из примеров линейной регрессии с использованием этого метода является метод наименьших квадратов , который оценивает пригодность модели линейной регрессии для моделирования двумерного набора данных [6] , но ограничение которого связано с известным распределением данных.
Термин «среднеквадратичная ошибка» иногда используется для обозначения несмещенной оценки дисперсии ошибки: остаточная сумма квадратов, деленная на число степеней свободы . Это определение для известной вычисленной величины отличается от приведенного выше определения для вычисленной MSE предиктора тем, что используется другой знаменатель. Знаменатель — это размер выборки, уменьшенный на количество параметров модели, оцененных по тем же данным, ( n − p ) для p регрессоров или ( n − p −1), если используется отсекаемый член (более подробную информацию см . в разделе «Ошибки и остатки в статистике» ). [7] Хотя MSE (как определено в этой статье) не является несмещенной оценкой дисперсии ошибки, она является последовательной , учитывая последовательность предиктора.
В регрессионном анализе "среднеквадратическая ошибка", часто называемая среднеквадратической ошибкой предсказания или "среднеквадратической ошибкой вне выборки", может также относиться к среднему значению квадратичных отклонений предсказаний от истинных значений в тестовом пространстве вне выборки , сгенерированному моделью, оцененной в конкретном пространстве выборки . Это также известная, вычисляемая величина, и она меняется в зависимости от выборки и тестового пространства вне выборки.
В контексте алгоритмов градиентного спуска принято вводить фактор MSE для простоты вычислений после взятия производной. Таким образом, значение, которое технически равно половине среднего квадрата ошибок, можно назвать MSE.
Предположим, что у нас есть случайная выборка размера из популяции, . Предположим, что единицы выборки были выбраны с заменой . То есть единицы выбираются по одной за раз, и ранее выбранные единицы по-прежнему имеют право на выборку для всех розыгрышей. Обычная оценка для является выборочным средним
который имеет ожидаемое значение, равное истинному среднему (поэтому он является несмещенным) и среднеквадратичную ошибку
где - дисперсия популяции .
Для гауссовского распределения это наилучшая несмещенная оценка (т. е. оценка с наименьшим значением MSE среди всех несмещенных оценок), но, скажем, не для равномерного распределения .
Обычной оценкой дисперсии является скорректированная выборочная дисперсия :
Это несмещено (его ожидаемое значение равно ), поэтому его также называют несмещенной выборочной дисперсией, а его среднеквадратическая ошибка равна [8]
где — четвертый центральный момент распределения или совокупности, а — избыточный эксцесс .
Однако можно использовать другие оценки, для которых пропорциональны , и соответствующий выбор всегда может дать более низкую среднеквадратичную ошибку. Если мы определим
затем вычисляем:
Это сводится к минимуму, когда
Для гауссовского распределения , где , это означает, что MSE минимизируется при делении суммы на . Минимальный избыточный эксцесс равен , [a] что достигается распределением Бернулли с p = 1/2 (подбрасывание монеты), а MSE минимизируется для Следовательно, независимо от эксцесса, мы получаем «лучшую» оценку (в смысле наличия более низкого MSE), немного уменьшая несмещенную оценку; это простой пример оценки сжатия : мы «сжимаем» оценку до нуля (уменьшаем несмещенную оценку).
Кроме того, хотя скорректированная выборочная дисперсия является наилучшей несмещенной оценкой (минимальная средняя квадратическая ошибка среди несмещенных оценок) дисперсии для гауссовых распределений, если распределение не является гауссовым, то даже среди несмещенных оценок наилучшая несмещенная оценка дисперсии может не быть
В следующей таблице приведены несколько оценок истинных параметров популяции, μ и σ 2 , для гауссовского случая. [9]
Идеальным значением является среднеквадратическая ошибка (СКО), равная нулю, что означает, что оценщик предсказывает наблюдения параметра с идеальной точностью (но обычно это невозможно).
Значения MSE могут использоваться для сравнительных целей. Две или более статистических моделей можно сравнивать, используя их MSE — как меру того, насколько хорошо они объясняют заданный набор наблюдений: Несмещенная оценка (оцененная с помощью статистической модели) с наименьшей дисперсией среди всех несмещенных оценок является лучшей несмещенной оценкой или MVUE ( несмещенная оценка с минимальной дисперсией ).
Оба метода анализа дисперсии и линейной регрессии оценивают MSE как часть анализа и используют оцененную MSE для определения статистической значимости изучаемых факторов или предикторов. Целью экспериментального дизайна является построение экспериментов таким образом, чтобы при анализе наблюдений MSE была близка к нулю относительно величины хотя бы одного из оцененных эффектов лечения.
В однофакторном дисперсионном анализе MSE может быть рассчитана путем деления суммы квадратов ошибок на степень свободы. Также f-значение является отношением среднего квадрата обработки и MSE.
MSE также используется в нескольких методах пошаговой регрессии как часть определения того, сколько предикторов из набора кандидатов следует включить в модель для заданного набора наблюдений.
Квадратичная ошибка потерь является одной из наиболее широко используемых функций потерь в статистике, хотя ее широкое использование обусловлено скорее математическим удобством, чем соображениями фактических потерь в приложениях. Карл Фридрих Гаусс , который ввел использование средней квадратичной ошибки, знал о ее произвольности и был согласен с возражениями против нее на этом основании. [3] Математические преимущества средней квадратичной ошибки особенно очевидны при ее использовании при анализе производительности линейной регрессии , поскольку она позволяет разделить вариацию в наборе данных на вариацию, объясняемую моделью, и вариацию, объясняемую случайностью.
Использование среднеквадратической ошибки без вопросов подверглось критике со стороны теоретика принятия решений Джеймса Бергера . Среднеквадратическая ошибка — это отрицательное ожидаемое значение одной конкретной функции полезности , квадратичной функции полезности, которая может не быть подходящей функцией полезности для использования при заданном наборе обстоятельств. Однако существуют некоторые сценарии, в которых среднеквадратическая ошибка может служить хорошим приближением к функции потерь, естественным образом возникающей в приложении. [10]
Подобно дисперсии , среднеквадратическая ошибка имеет недостаток, заключающийся в сильном взвешивании выбросов . [11] Это является результатом возведения в квадрат каждого члена, что фактически взвешивает большие ошибки сильнее, чем маленькие. Это свойство, нежелательное во многих приложениях, привело исследователей к использованию альтернатив, таких как средняя абсолютная ошибка или те, которые основаны на медиане .
Если мы используем квадратичные потери, наша функция риска называется
средней квадратичной ошибкой
(MSE) ...
{{cite book}}
: CS1 maint: others (link)