Метод оценки, минимизирующий среднеквадратичную ошибку
В статистике и обработке сигналов оценка минимальной среднеквадратической ошибки ( MMSE ) — это метод оценки, который минимизирует среднеквадратичную ошибку (MSE), которая является общей мерой качества оценки, подобранных значений зависимой переменной . В байесовской настройке термин MMSE более конкретно относится к оценке с квадратичной функцией потерь . В таком случае оценка MMSE задается апостериорным средним оцениваемого параметра. Поскольку апостериорное среднее вычислять сложно, форма оценки MMSE обычно ограничивается определенным классом функций. Линейные оценки MMSE являются популярным выбором, поскольку они просты в использовании, легко вычисляются и очень универсальны. Это привело к появлению многих популярных оценок, таких как фильтр Винера-Колмогорова и фильтр Калмана .
Мотивация
Термин MMSE более конкретно относится к оценке в байесовской обстановке с квадратичной функцией стоимости. Основная идея байесовского подхода к оценке вытекает из практических ситуаций, когда у нас часто есть некоторая предварительная информация о параметре, который нужно оценить. Например, у нас может быть предварительная информация о диапазоне, который может принять параметр; или у нас может быть старая оценка параметра, которую мы хотим изменить, когда становится доступным новое наблюдение; или статистика фактического случайного сигнала, такого как речь. Это контрастирует с небайесовским подходом, таким как несмещенная оценка с минимальной дисперсией (MVUE), где абсолютно ничего не предполагается известным о параметре заранее и который не учитывает такие ситуации. В байесовском подходе такая предварительная информация фиксируется функцией плотности априорной вероятности параметров; и, основываясь непосредственно на теореме Байеса , это позволяет нам делать лучшие апостериорные оценки по мере того, как становится доступно больше наблюдений. Таким образом, в отличие от небайесовского подхода, где интересующие параметры предполагаются детерминированными, но неизвестными константами, байесовский оценщик стремится оценить параметр, который сам по себе является случайной величиной. Кроме того, байесовское оценивание может также иметь дело с ситуациями, когда последовательность наблюдений не обязательно независима. Таким образом, байесовское оценивание предоставляет еще одну альтернативу MVUE. Это полезно, когда MVUE не существует или не может быть найден.
Определение
Пусть будет скрытой случайной векторной переменной, и пусть будет известной случайной векторной переменной (измерение или наблюдение), обе они не обязательно имеют одинаковую размерность. Оценщиком является любая функция измерения . Вектор ошибки оценки задается как , а его среднеквадратическая ошибка (MSE) задается следом матрицы ковариации ошибки
где ожидание берется с учетом . Когда — скалярная переменная, выражение MSE упрощается до . Обратите внимание, что MSE можно эквивалентно определить и другими способами, поскольку
Оценка MMSE затем определяется как оценка, достигающая минимальной MSE:
Характеристики
- Когда средние значения и дисперсии конечны, оценка MMSE определяется однозначно [1] и задается формулой:
- Другими словами, оценка MMSE является условным ожиданием при заданном известном наблюдаемом значении измерений. Кроме того, поскольку является апостериорным средним, матрица ковариации ошибок равна апостериорной матрице ковариации,
- .
- Оценка MMSE является несмещенной (при упомянутых выше предположениях о регулярности):
- где — информация Фишера . Таким образом, оценка MMSE асимптотически эффективна .
- Принцип ортогональности : когда — скаляр, оценка, ограниченная определенной формой, является оптимальной оценкой, т.е. тогда и только тогда, когда
- для всех в замкнутом линейном подпространстве измерений. Для случайных векторов, поскольку MSE для оценки случайного вектора является суммой MSE координат, нахождение оценки MMSE случайного вектора распадается на нахождение оценок MMSE координат X по отдельности:
- для всех i и j . Более кратко, взаимная корреляция между минимальной ошибкой оценки и оценщиком должна быть равна нулю,
- Если и являются совместно гауссовыми , то оценка MMSE линейна, т.е. имеет вид для матрицы и константы . Это можно напрямую показать с помощью теоремы Байеса. Как следствие, для нахождения оценки MMSE достаточно найти линейную оценку MMSE.
Линейная оценка MMSE
Во многих случаях невозможно определить аналитическое выражение оценщика MMSE. Два основных численных подхода к получению оценки MMSE зависят либо от нахождения условного ожидания , либо от нахождения минимумов MSE. Прямая численная оценка условного ожидания является вычислительно затратной, поскольку часто требует многомерной интеграции, обычно выполняемой с помощью методов Монте-Карло . Другой вычислительный подход заключается в прямом поиске минимумов MSE с использованием таких методов, как методы стохастического градиентного спуска ; но этот метод все еще требует оценки ожидания. Хотя эти численные методы оказались плодотворными, выражение в замкнутой форме для оценщика MMSE, тем не менее, возможно, если мы готовы пойти на некоторые компромиссы.
Одна из возможностей — отказаться от требований полной оптимальности и искать метод, минимизирующий MSE в определенном классе оценщиков, например, в классе линейных оценщиков. Таким образом, мы постулируем, что условное ожидание заданного является простой линейной функцией , , где измерение является случайным вектором, является матрицей и является вектором. Это можно рассматривать как приближение Тейлора первого порядка для . Линейная оценка MMSE — это оценка, достигающая минимальной MSE среди всех оценок такой формы. То есть она решает следующую задачу оптимизации:
Одним из преимуществ такой линейной оценки MMSE является то, что нет необходимости явно вычислять апостериорную функцию плотности вероятности . Такая линейная оценка зависит только от первых двух моментов и . Поэтому, хотя может быть удобно предположить, что и являются совместно гауссовыми, нет необходимости делать это предположение, пока предполагаемое распределение имеет хорошо определенные первый и второй моменты. Форма линейной оценки не зависит от типа предполагаемого базового распределения.
Выражение для оптимального и имеет вид:
где , — матрица взаимной ковариации между и , — матрица автоковариации .
Таким образом, выражение для линейной оценки MMSE, ее среднего значения и ее автоковариации задается как
где — матрица взаимной ковариации между и .
Наконец, ковариация ошибок и минимальная среднеквадратичная ошибка, достижимая с помощью такой оценки, равна
Вывод с использованием принципа ортогональности
Пусть у нас есть оптимальная линейная оценка MMSE, заданная как , где нам требуется найти выражение для и . Требуется, чтобы оценка MMSE была несмещенной. Это означает,
Подставляя выражение выше, получаем
где и . Таким образом, мы можем переписать оценку как
и выражение для ошибки оценки становится
Из принципа ортогональности можно получить , где берем . Здесь левосторонний член равен
При приравнивании к нулю получаем искомое выражение для
Это матрица взаимной ковариации между X и Y, а это матрица автоковариации Y. Поскольку , выражение также можно переписать в терминах как
Таким образом, полное выражение для линейной оценки MMSE имеет вид
Поскольку оценка сама по себе является случайной величиной с , мы также можем получить ее автоковариацию как
Подставляя выражение для и , получаем
Наконец, ковариация линейной ошибки оценки MMSE будет тогда определяться выражением
Первый член в третьей строке равен нулю из-за принципа ортогональности. Поскольку , мы можем переписать в терминах ковариационных матриц как
Мы можем признать, что это то же самое, что и Таким образом, минимальная среднеквадратичная ошибка, достижимая с помощью такой линейной оценки, равна
- .
Одномерный случай
Для особого случая, когда и являются скалярами, приведенные выше соотношения упрощаются до
где — коэффициент корреляции Пирсона между и .
Приведенные выше два уравнения позволяют нам интерпретировать коэффициент корреляции либо как нормализованный наклон линейной регрессии
или как квадратный корень из отношения двух дисперсий
- .
Когда , имеем и . В этом случае из измерения не извлекается новая информация, которая могла бы уменьшить неопределенность в . С другой стороны, когда , имеем и . Здесь полностью определяется , как указано в уравнении прямой линии.
Вычисление
Стандартный метод, такой как исключение Гаусса , может быть использован для решения матричного уравнения для . Более численно устойчивый метод обеспечивается методом QR-разложения . Поскольку матрица является симметричной положительно определенной матрицей, ее можно решить в два раза быстрее с помощью разложения Холецкого , в то время как для больших разреженных систем метод сопряженных градиентов более эффективен. Рекурсия Левинсона является быстрым методом, когда также является матрицей Теплица . Это может произойти, когда является стационарным процессом в широком смысле . В таких стационарных случаях эти оценщики также называются фильтрами Винера–Колмогорова .
Линейная оценка MMSE для линейного процесса наблюдения
Давайте далее смоделируем базовый процесс наблюдения как линейный процесс: , где — известная матрица, а — вектор случайного шума со средним значением и взаимной ковариацией . Здесь требуемые матрицы среднего и ковариации будут
Таким образом, выражение для матрицы линейной оценки MMSE дополнительно модифицируется до
Подставляя все в выражение для , получаем
Наконец, ковариация ошибок равна
Существенное различие между рассмотренной выше задачей оценки и задачами наименьших квадратов и оценки Гаусса-Маркова заключается в том, что число наблюдений m (т. е. размерность ) не обязательно должно быть как минимум таким же большим, как число неизвестных n (т. е. размерность ). Оценка для линейного процесса наблюдения существует до тех пор, пока существует матрица m -на- m ; это имеет место для любого m , если, например, является положительно определенной. Физически причина этого свойства заключается в том, что поскольку теперь является случайной величиной, можно сформировать значимую оценку (а именно ее среднее значение) даже без измерений. Каждое новое измерение просто предоставляет дополнительную информацию, которая может изменить нашу первоначальную оценку. Другая особенность этой оценки заключается в том, что при m < n не должно быть ошибки измерения. Таким образом, мы можем иметь , поскольку, пока является положительно определенной, оценка все еще существует. Наконец, этот метод может обрабатывать случаи, когда шум коррелирован.
Альтернативная форма
Альтернативную форму выражения можно получить, используя матричное тождество
которое можно установить путем умножения на и умножения на, чтобы получить
и
Так как теперь можно записать в терминах как , мы получаем упрощенное выражение для как
В этой форме приведенное выше выражение можно легко сравнить с гребневой регрессией , взвешенными наименьшими квадратами и оценкой Гаусса–Маркова . В частности, когда , что соответствует бесконечной дисперсии априорной информации относительно , результат идентичен взвешенной линейной оценке наименьших квадратов с в качестве весовой матрицы. Более того, если компоненты некоррелированы и имеют одинаковую дисперсию, такую что где — единичная матрица, то идентично обычной оценке наименьших квадратов. Когда априорная информация доступна как и некоррелированы и имеют одинаковую дисперсию, мы имеем , что идентично решению гребневой регрессии.
Последовательная линейная оценка MMSE
Во многих приложениях реального времени данные наблюдений не доступны в едином пакете. Вместо этого наблюдения производятся последовательно. Один из возможных подходов — использовать последовательные наблюдения для обновления старой оценки по мере поступления дополнительных данных, что приводит к более точным оценкам. Одно из важнейших различий между пакетной оценкой и последовательной оценкой заключается в том, что последовательная оценка требует дополнительного предположения Маркова.
В байесовском подходе такая рекурсивная оценка легко осуществляется с помощью правила Байеса. Учитывая наблюдения, правило Байеса дает нам апостериорную плотность как
Это называется апостериорной плотностью, называется функцией правдоподобия и является априорной плотностью k -го временного шага. Здесь мы предположили условную независимость от предыдущих наблюдений, заданную как
Это предположение Маркова.
Оценка MMSE, заданная для k -го наблюдения, является тогда средним значением апостериорной плотности . При отсутствии динамической информации о том, как состояние изменяется со временем, мы сделаем дополнительное предположение о стационарности относительно априорной:
Таким образом, априорная плотность для k -го временного шага является апостериорной плотностью ( k -1)-го временного шага. Эта структура позволяет нам сформулировать рекурсивный подход к оценке.
В контексте линейной оценки MMSE формула для оценки будет иметь тот же вид, что и раньше: Однако матрицы среднего и ковариации и необходимо будет заменить на матрицы априорной плотности и правдоподобия соответственно.
Для априорной плотности ее среднее значение определяется предыдущей оценкой MMSE,
- ,
и ее ковариационная матрица задается предыдущей ковариационной матрицей ошибок,
в соответствии со свойствами оценок MMSE и предположением о стационарности.
Аналогично, для линейного процесса наблюдения среднее значение правдоподобия определяется как , а ковариационная матрица имеет вид:
- .
Разница между предсказанным значением , как указано , и его наблюдаемым значением дает ошибку предсказания , которая также называется инновацией или остатком. Более удобно представлять линейную MMSE в терминах ошибки предсказания, чье среднее значение и ковариация равны и .
Следовательно, в формуле обновления оценки мы должны заменить и на и , соответственно. Также мы должны заменить и на и . Наконец, мы заменяем на
Таким образом, мы получаем новую оценку по мере поступления новых наблюдений:
и новая ошибка ковариации как
С точки зрения линейной алгебры, для последовательной оценки, если у нас есть оценка, основанная на измерениях, генерирующих пространство , то после получения другого набора измерений мы должны вычесть из этих измерений ту часть, которую можно было бы ожидать из результата первых измерений. Другими словами, обновление должно быть основано на той части новых данных, которая ортогональна старым данным.
Повторное использование двух приведенных выше уравнений по мере того, как становится доступно больше наблюдений, приводит к рекурсивным методам оценки. Выражения можно записать более компактно как
Матрицу часто называют коэффициентом усиления Калмана. Альтернативная формулировка вышеприведенного алгоритма даст
Повторение этих трех шагов по мере поступления новых данных приводит к итеративному алгоритму оценки. Обобщение этой идеи на нестационарные случаи приводит к появлению фильтра Калмана . Три шага обновления, описанные выше, действительно образуют шаг обновления фильтра Калмана.
Особый случай: скалярные наблюдения
В качестве важного особого случая можно вывести простое в использовании рекурсивное выражение, когда в каждый k -й момент времени базовый линейный процесс наблюдения выдает скаляр такой, что , где — известный вектор-столбец размером n на 1, значения которого могут меняться со временем, — случайный вектор-столбец размером n на 1, подлежащий оценке, а — скалярный шумовой член с дисперсией . После ( k +1)-го наблюдения прямое использование приведенных выше рекурсивных уравнений дает выражение для оценки в виде:
где — новое скалярное наблюдение, а коэффициент усиления — вектор-столбец размером n на 1, заданный формулой
Матрица ковариации ошибок n -на- n определяется как
Здесь не требуется инверсия матрицы. Кроме того, коэффициент усиления, , зависит от нашей уверенности в новой выборке данных, измеренной дисперсией шума, по сравнению с предыдущими данными. Начальные значения и принимаются как среднее значение и ковариация априорной функции плотности вероятности .
Альтернативные подходы: Этот важный особый случай также породил множество других итерационных методов (или адаптивных фильтров ), таких как фильтр наименьших квадратов и рекурсивный фильтр наименьших квадратов , который напрямую решает исходную задачу оптимизации MSE с использованием стохастических градиентных спусков . Однако, поскольку ошибка оценки не может наблюдаться напрямую, эти методы пытаются минимизировать среднеквадратичную ошибку прогнозирования . Например, в случае скалярных наблюдений мы имеем градиент Таким образом, уравнение обновления для фильтра наименьших квадратов задается как
где — скалярный размер шага, а ожидание аппроксимируется мгновенным значением . Как мы видим, эти методы обходят необходимость в ковариационных матрицах.
Особый случай: векторное наблюдение с некоррелированным шумом
Во многих практических приложениях шум наблюдения некоррелирован. То есть является диагональной матрицей. В таких случаях выгодно рассматривать компоненты как независимые скалярные измерения, а не векторные измерения. Это позволяет сократить время вычислений, обрабатывая вектор измерения как скалярные измерения. Использование формулы скалярного обновления позволяет избежать инверсии матрицы при реализации уравнений обновления ковариации, тем самым повышая численную устойчивость к ошибкам округления. Обновление может быть реализовано итеративно как:
где , используя начальные значения и . Промежуточные переменные - это -й диагональный элемент диагональной матрицы ; в то время как - -я строка матрицы . Конечные значения - это и .
Примеры
Пример 1
Возьмем в качестве примера задачу линейного прогнозирования . Пусть линейная комбинация наблюдаемых скалярных случайных величин и будет использована для оценки другой будущей скалярной случайной величины, такой что . Если случайные величины являются действительными гауссовыми случайными величинами с нулевым средним значением и ее ковариационной матрицей, заданной как
то наша задача — найти такие коэффициенты , которые дадут оптимальную линейную оценку .
В терминах терминологии, разработанной в предыдущих разделах, для этой задачи у нас есть вектор наблюдения , матрица оценки как вектор-строка и оцениваемая переменная как скалярная величина. Матрица автокорреляции определяется как
Матрица взаимной корреляции определяется как
Теперь решим уравнение , инвертируя и умножая предварительно, чтобы получить
Итак, мы имеем и
как оптимальные коэффициенты для . Вычисление минимальной среднеквадратической ошибки дает . [2] Обратите внимание, что нет необходимости получать явную обратную матрицу для вычисления значения . Матричное уравнение можно решить хорошо известными методами, такими как метод исключения Гаусса. Более короткий, нечисловой пример можно найти в принципе ортогональности .
Пример 2
Рассмотрим вектор, сформированный путем взятия наблюдений фиксированного, но неизвестного скалярного параметра, возмущенного белым гауссовым шумом. Мы можем описать процесс линейным уравнением , где . В зависимости от контекста будет ясно, представляет ли скаляр или вектор. Предположим, что мы знаем, что это диапазон, в который попадет значение . Мы можем смоделировать нашу неопределенность с помощью априорного равномерного распределения на интервале , и, таким образом, получим дисперсию . Пусть вектор шума распределен нормально как , где — единичная матрица. Также и независимы и . Легко видеть, что
Таким образом, линейная оценка MMSE определяется выражением
Мы можем упростить выражение, используя альтернативную форму для
где для нас есть
Аналогично, дисперсия оценки равна
Таким образом, MMSE этой линейной оценки равна
Для очень больших мы видим, что оценка MMSE скаляра с равномерным априорным распределением может быть аппроксимирована средним арифметическим всех наблюдаемых данных
в то время как дисперсия не будет зависеть от данных , а LMMSE оценки будет стремиться к нулю.
Однако оценка неоптимальна, поскольку она ограничена линейностью. Если бы случайная величина также была гауссовой, то оценка была бы оптимальной. Обратите внимание, что форма оценки останется неизменной, независимо от априорного распределения , пока среднее значение и дисперсия этих распределений одинаковы.
Пример 3
Рассмотрим вариант приведенного выше примера: Два кандидата баллотируются на выборах. Пусть доля голосов, которую кандидат получит в день выборов, будет Таким образом, доля голосов, которую получит другой кандидат, будет Мы возьмем в качестве случайной величины с равномерным априорным распределением по так, чтобы ее среднее значение было , а дисперсия была За несколько недель до выборов два разных опроса общественного мнения провели два независимых опроса общественного мнения. Первый опрос показал, что кандидат, скорее всего, получит часть голосов. Поскольку некоторая ошибка всегда присутствует из-за конечной выборки и конкретной принятой методологии опроса, первый опрос заявляет, что его оценка имеет ошибку с нулевым средним значением и дисперсией Аналогично, второй опрос заявляет, что его оценка имеет ошибку с нулевым средним значением и дисперсией Обратите внимание, что за исключением среднего значения и дисперсии ошибки распределение ошибок не указано. Как следует объединить два опроса, чтобы получить прогноз голосования для данного кандидата?
Как и в предыдущем примере, у нас есть
Здесь оба . Таким образом, мы можем получить оценку LMMSE как линейную комбинацию и как
где веса задаются как
Здесь, поскольку знаменатель является постоянным, опрос с меньшей ошибкой получает больший вес для прогнозирования результатов выборов. Наконец, дисперсия определяется как
что делает меньше, чем Таким образом, LMMSE определяется как
В общем случае, если у нас есть опросчики, то вес для i- го опросчика определяется как , а LMMSE определяется как
Пример 4
Предположим, что музыкант играет на инструменте и звук принимается двумя микрофонами, каждый из которых расположен в двух разных местах. Пусть затухание звука из-за расстояния у каждого микрофона будет и , которые считаются известными константами. Аналогично, пусть шум у каждого микрофона будет и , каждый с нулевым средним значением и дисперсией и соответственно. Пусть обозначает звук, производимый музыкантом, который является случайной величиной с нулевым средним значением и дисперсией Как следует объединить записанную музыку с этих двух микрофонов после синхронизации друг с другом?
Мы можем смоделировать звук, принимаемый каждым микрофоном, как
Здесь оба . Таким образом, мы можем объединить два звука как
где i -й вес задается как
Смотрите также
Примечания
- ^ "Среднеквадратическая ошибка (MSE)". www.probabilitycourse.com . Получено 9 мая 2017 г. .
- ^ Мун и Стерлинг.
Дальнейшее чтение
- Джонсон, Д. "Оценки минимальной средней квадратичной ошибки". Connexions. Архивировано из Minimum Mean Squared Error Estimators оригинал 25 июля 2008 г. Получено 8 января 2013 г.
- Джейнс, ET (2003). Теория вероятностей: логика науки . Cambridge University Press. ISBN 978-0521592710.
- Бибби, Дж.; Тоутенбург, Х. (1977). Прогнозирование и улучшенная оценка в линейных моделях . Wiley. ISBN 9780471016564.
- Lehmann, EL; Casella, G. (1998). "Глава 4". Теория точечной оценки (2-е изд.). Springer. ISBN 0-387-98502-6.
- Кей, СМ (1993). Основы статистической обработки сигналов: теория оценки . Prentice Hall. стр. 344–350. ISBN 0-13-042268-1.
- Luenberger, DG (1969). "Глава 4, Оценка наименьших квадратов". Оптимизация методами векторного пространства (1-е изд.). Wiley. ISBN 978-0471181170.
- Moon, TK; Stirling, WC (2000). Математические методы и алгоритмы обработки сигналов (1-е изд.). Prentice Hall. ISBN 978-0201361865.
- Van Trees, HL (1968). Теория обнаружения, оценки и модуляции, часть I. Нью-Йорк: Wiley. ISBN 0-471-09517-6.
- Хайкин, С.О. (2013). Теория адаптивного фильтра (5-е изд.). Prentice Hall. ISBN 978-0132671453.