stringtranslate.com

Среднеквадратическая ошибка

В статистике среднеквадратическая ошибка ( MSE ) [1] или среднеквадратичное отклонение ( MSD ) оценщика (процедуры оценки ненаблюдаемой величины) измеряет среднее значение квадратов ошибок , то есть среднюю квадратичную разность . между расчетной стоимостью и фактической стоимостью. MSE – это функция риска , соответствующая ожидаемому значению квадрата потерь из-за ошибки . [2] Тот факт, что MSE почти всегда строго положителен (а не равен нулю), объясняется случайностью или тем, что оценщик не учитывает информацию , которая могла бы дать более точную оценку. [3] В машинном обучении , в частности, в минимизации эмпирического риска , MSE может относиться к эмпирическому риску (средняя потеря в наблюдаемом наборе данных) как к оценке истинной MSE (истинный риск: средняя потеря при фактическом распределении населения). ).

MSE является мерой качества оценщика. Поскольку оно получается из квадрата евклидова расстояния , оно всегда является положительным значением, которое уменьшается по мере приближения ошибки к нулю.

MSE является вторым моментом (о происхождении) ошибки и, таким образом, включает в себя как дисперсию оценщика (насколько широко разброс оценок от одной выборки данных к другой), так и его смещение (насколько далеко от среднего оценочного значения от истинного значения). [ нужна цитация ] Для несмещенной оценки MSE является дисперсией оценки. Как и дисперсия, MSE имеет те же единицы измерения, что и квадрат оцениваемой величины. По аналогии со стандартным отклонением извлечение квадратного корня из MSE дает среднеквадратическую ошибку или среднеквадратичное отклонение (RMSE или RMSD), которое имеет те же единицы, что и оцениваемая величина; для несмещенной оценки RMSE — это квадратный корень дисперсии , известный как стандартная ошибка .

Определение и основные свойства

MSE либо оценивает качество предиктора ( т. е. функции, отображающей произвольные входные данные в выборку значений некоторой случайной величины ), либо оценщика ( т. е. математической функции , отображающей выборку данных в оценку параметра совокупность , из которой взяты данные). В контексте прогнозирования понимание интервала прогнозирования также может быть полезным, поскольку оно обеспечивает диапазон, в который с определенной вероятностью попадет будущее наблюдение. Определение MSE различается в зависимости от того, описывает ли он предиктор или оценщик. .

Предсказатель

Если вектор прогнозов генерируется из выборки точек данных по всем переменным и является вектором наблюдаемых значений прогнозируемой переменной, причем это прогнозируемые значения (например, при подборе методом наименьших квадратов ), то в пределах выборочная MSE предиктора вычисляется как

Другими словами, MSE — это среднее квадратов ошибок . Это легко вычислимая величина для конкретной выборки (и, следовательно, она зависит от выборки).

В матричной записи

где и является вектор -столбцом.

MSE также можно вычислить по q точкам данных, которые не использовались при оценке модели либо потому, что они были сохранены для этой цели, либо потому, что эти данные были получены заново. В рамках этого процесса, известного как перекрестная проверка , MSE часто называют тестовым MSE [4] и вычисляется как

Оценщик

СКО оценки относительно неизвестного параметра определяется как [1]

Это определение зависит от неизвестного параметра, но MSE априори является свойством оценщика. MSE может быть функцией неизвестных параметров, и в этом случае любая оценка MSE, основанная на оценках этих параметров, будет функцией данных (и, следовательно, случайной величиной). Если оценщик получен как выборочная статистика и используется для оценки некоторого параметра совокупности, то ожидание относится к выборочному распределению выборочной статистики.

СКО можно записать как сумму дисперсии оценщика и квадрата смещения оценщика, что обеспечивает полезный способ расчета СКО и подразумевает, что в случае несмещенных оценок СКО и дисперсия эквивалентны. [5]

Доказательство соотношения дисперсии и смещения

Еще более короткое доказательство можно получить, используя известную формулу, согласно которой для случайной величины , . Заменив на , получим

Компромисс между смещением и дисперсиейэффективности

В регрессии

В регрессионном анализе построение графика является более естественным способом просмотра общей тенденции всех данных. Среднее расстояние от каждой точки до прогнозируемой регрессионной модели можно вычислить и отобразить как среднеквадратичную ошибку. Возведение в квадрат имеет решающее значение для уменьшения сложности с отрицательными знаками. Чтобы минимизировать MSE, модель могла бы быть более точной, что означало бы, что она ближе к фактическим данным. Одним из примеров линейной регрессии с использованием этого метода является метод наименьших квадратов , который оценивает пригодность модели линейной регрессии для моделирования двумерного набора данных [6] , но ограничение которого связано с известным распределением данных.

Термин «среднеквадратическая ошибка » иногда используется для обозначения несмещенной оценки дисперсии ошибки: остаточной суммы квадратов , деленной на количество степеней свободы . Это определение известной вычисленной величины отличается от приведенного выше определения вычисленной MSE предиктора тем, что используется другой знаменатель. Знаменатель представляет собой размер выборки, уменьшенный на количество параметров модели, оцененных на основе одних и тех же данных, ( n - p ) для p регрессоров или ( n - p -1), если используется перехват ( более подробную информацию см. в разделе ошибки и остатки в статистике). ). [7] Хотя MSE (как определено в этой статье) не является беспристрастной оценкой дисперсии ошибки, она является последовательной , учитывая согласованность предиктора.

В регрессионном анализе «среднеквадратическая ошибка», часто называемая среднеквадратичной ошибкой прогнозирования или «среднеквадратичной ошибкой вне выборки», также может относиться к среднему значению квадратов отклонений прогнозов от истинных значений, превышающих тестовое пространство вне выборки , созданное с помощью модели, оцененной по определенному выборочному пространству . Это также известная вычисленная величина, которая варьируется в зависимости от выборки и тестового пространства вне выборки.

В контексте алгоритмов градиентного спуска обычно вводят коэффициент MSE для упрощения вычислений после взятия производной. Таким образом, значение, которое технически составляет половину среднего квадрата ошибок, можно назвать MSE.

Примеры

Иметь в виду

Предположим, у нас есть случайная выборка размера генеральной совокупности . Предположим, что единицы выборки были выбраны с заменой . То есть юниты выбираются по одному, и ранее выбранные юниты по-прежнему могут быть выбраны для всех розыгрышей. Обычной оценкой является выборочное среднее

который имеет ожидаемое значение, равное истинному среднему значению (поэтому оно является несмещенным) и среднеквадратическую ошибку

где дисперсия населения .

Для гауссовского распределения это лучшая несмещенная оценка (т. е. оценка с наименьшим СКО среди всех несмещенных оценок), но не, скажем, для равномерного распределения .

Дисперсия

Обычной оценкой дисперсии является скорректированная выборочная дисперсия :

Это несмещенное значение (его ожидаемое значение равно ), поэтому его также называют несмещенной выборочной дисперсией, а его среднеквадратическая ошибка равна [8]

где – четвертый центральный момент распределения или популяции, и – избыточный эксцесс .

Однако можно использовать другие оценки, для которых пропорциональны , и соответствующий выбор всегда может дать меньшую среднеквадратическую ошибку. Если мы определим

то вычисляем:

Это сводится к минимуму, когда

Для распределения Гаусса , где это означает, что СКО минимизируется при делении суммы на . Минимальный избыточный эксцесс равен , [a] который достигается распределением Бернулли с p  = 1/2 (подбрасывание монеты), а СКО минимизируется для Следовательно, независимо от эксцесса, мы получаем «лучшую» оценку (в ощущение более низкой MSE), немного уменьшив несмещенную оценку; это простой пример оценки усадки : оценку «сжимают» до нуля (уменьшают несмещенную оценку).

Кроме того, хотя скорректированная выборочная дисперсия является лучшей несмещенной оценкой (минимальная среднеквадратическая ошибка среди несмещенных оценок) дисперсии для гауссовских распределений, если распределение не является гауссовским, то даже среди несмещенных оценок лучшая несмещенная оценка дисперсии может не быть

Гауссово распределение

В следующей таблице приведены несколько оценок истинных параметров популяции, μ и σ 2 , для гауссовского случая. [9]

Интерпретация

Среднеквадратическая ошибка, равная нулю, означает, что оценщик предсказывает наблюдения параметра с идеальной точностью, что является идеальным (но обычно невозможно).

Значения MSE могут использоваться в целях сравнения. Две или более статистические модели можно сравнивать, используя их средние средние ошибки — как меру того, насколько хорошо они объясняют данный набор наблюдений: несмещенная оценка (оцененная на основе статистической модели) с наименьшей дисперсией среди всех несмещенных оценок является лучшей несмещенной оценкой или MVUE ( несмещенная оценка минимальной дисперсии ).

Методы дисперсионного анализа и линейной регрессии оценивают MSE как часть анализа и используют расчетную MSE для определения статистической значимости изучаемых факторов или предикторов. Целью планирования эксперимента является построение экспериментов таким образом, чтобы при анализе наблюдений среднеквадратическая ошибка была близка к нулю относительно величины хотя бы одного из предполагаемых эффектов лечения.

При одностороннем дисперсионном анализе MSE можно рассчитать путем деления суммы квадратов ошибок и степени свободы. Кроме того, значение f представляет собой соотношение среднеквадратического значения лечения и MSE.

MSE также используется в некоторых методах пошаговой регрессии как часть определения того, сколько предикторов из набора кандидатов включить в модель для данного набора наблюдений.

Приложения

Функция потерь

Потери в квадрате ошибки — одна из наиболее широко используемых функций потерь в статистике, хотя ее широкое использование обусловлено скорее математическим удобством, чем соображениями фактических потерь в приложениях. Карл Фридрих Гаусс , введший использование среднеквадратической ошибки, осознавал ее произвольность и был согласен с возражениями против нее на этом основании. [3] Математические преимущества среднеквадратической ошибки особенно очевидны при ее использовании при анализе эффективности линейной регрессии , поскольку она позволяет разделить вариацию в наборе данных на вариацию, объясняемую моделью, и вариацию, объясняемую случайностью.

Критика

Использование среднеквадратической ошибки безоговорочно подверглось критике со стороны теоретика принятия решений Джеймса Бергера . Среднеквадратическая ошибка — это отрицательное ожидаемое значение одной конкретной функции полезности , квадратичной функции полезности, которая может не подходить для использования в определенных обстоятельствах. Однако существуют сценарии, в которых среднеквадратическая ошибка может служить хорошим приближением к функции потерь, естественно возникающей в приложении. [10]

Как и дисперсия , среднеквадратическая ошибка имеет тот недостаток, что выбросы имеют большой вес . [11] Это результат возведения в квадрат каждого члена, что эффективно взвешивает большие ошибки в большей степени, чем маленькие. Это свойство, нежелательное во многих приложениях, побудило исследователей использовать альтернативы, такие как средняя абсолютная ошибка или те, которые основаны на медиане .

Смотрите также

Примечания

  1. ^ Это можно доказать с помощью неравенства Йенсена следующим образом. Четвертый центральный момент является верхней границей квадрата дисперсии, так что наименьшее значение их отношения равно единице, следовательно, наименьшее значение избыточного эксцесса равно -2, что достигается, например, с помощью Бернулли с p = 1 . /2.

Рекомендации

  1. ^ ab «Среднеквадратическая ошибка (MSE)» . www.probabilitycourse.com . Проверено 12 сентября 2020 г.
  2. ^ Бикель, Питер Дж .; Доксум, Кьелл А. (2015). Математическая статистика: основные идеи и избранные темы . Том. Я (Второе изд.). п. 20. Если мы используем квадратичные потери, наша функция риска называется среднеквадратичной ошибкой (MSE)…
  3. ^ Аб Леманн, Эль; Казелла, Джордж (1998). Теория точечной оценки (2-е изд.). Нью-Йорк: Спрингер. ISBN 978-0-387-98502-2. МР  1639875.
  4. ^ Гарет, Джеймс; Виттен, Даниэла; Хасти, Тревор; Тибширани, Роб (2021). Введение в статистическое обучение: с приложениями в Р. Спрингере. ISBN 978-1071614174.
  5. ^ Вакерли, Деннис; Менденхолл, Уильям; Шеффер, Ричард Л. (2008). Математическая статистика с приложениями (7-е изд.). Белмонт, Калифорния, США: Высшее образование Томсона. ISBN 978-0-495-38508-0.
  6. ^ Современное введение в вероятность и статистику: понимание почему и как . Деккинг, Мишель (1946 г.р.). Лондон: Спрингер. 2005. ISBN 978-1-85233-896-1. ОСЛК  262680588.{{cite book}}: CS1 maint: others (link)
  7. ^ Стил, RGD, и Торри, JH, Принципы и процедуры статистики с особым упором на биологические науки. , МакГроу Хилл , 1960, стр. 288.
  8. ^ Настроение, А.; Грейбилл, Ф.; Боес, Д. (1974). Введение в теорию статистики (3-е изд.). МакГроу-Хилл. п. 229.
  9. ^ ДеГрут, Моррис Х. (1980). Вероятность и статистика (2-е изд.). Аддисон-Уэсли.
  10. ^ Бергер, Джеймс О. (1985). «2.4.2 Некоторые стандартные функции потерь». Статистическая теория принятия решений и байесовский анализ (2-е изд.). Нью-Йорк: Springer-Verlag. п. 60. ИСБН 978-0-387-96098-2. МР  0804611.
  11. ^ Бермехо, Серджио; Кабестани, Джоан (2001). «Ориентированный анализ главных компонентов для классификаторов с большой маржой». Нейронные сети . 14 (10): 1447–1461. doi : 10.1016/S0893-6080(01)00106-X. ПМИД  11771723.