Теория оценки

Теория оценивания — раздел статистики , занимающийся оценкой значений параметров на основе измеренных эмпирических данных, имеющих случайную составляющую. Параметры описывают основные физические условия таким образом, что их значение влияет на распределение измеренных данных. Оценщик пытается аппроксимировать неизвестные параметры , используя измерения. В теории оценивания обычно рассматриваются два подхода: ^[1]

Вероятностный подход (описанный в этой статье) предполагает, что измеренные данные случайны, а распределение вероятностей зависит от интересующих параметров.
Подход на основе членства в наборе предполагает, что вектор измеренных данных принадлежит набору, который зависит от вектора параметров.

Примеры

Например, желательно оценить долю избирателей, которые проголосуют за конкретного кандидата. Эта пропорция и является искомым параметром; оценка основана на небольшой случайной выборке избирателей. Альтернативно, желательно оценить вероятность того, что избиратель проголосует за конкретного кандидата, на основе некоторых демографических характеристик, таких как возраст.

Или, например, в радаре цель состоит в том, чтобы определить дальность действия объектов (самолетов, лодок и т. д.) путем анализа времени двустороннего прохождения полученных эхо-сигналов переданных импульсов. Поскольку отраженные импульсы неизбежно включаются в электрический шум, их измеренные значения распределяются случайным образом, поэтому необходимо оценить время прохождения.

Другой пример: в теории электрической связи измерения, содержащие информацию об интересующих параметрах, часто связаны с зашумленным сигналом .

Основы

Для данной модели необходимо несколько статистических «ингредиентов», чтобы можно было реализовать оценщик. Первый — это статистическая выборка — набор точек данных, взятых из случайного вектора (RV) размера N. Поместите в вектор ,

\mathbf {x} = {\begin{bmatrix}x[0]\\x[1]\\\vdots \\x[N-1]\end{bmatrix}}.

Во-вторых, есть M параметров

{\boldsymbol {\theta }}={\begin{bmatrix}\theta _{1} \\\theta _{2} \\\vdots \\\theta _{M}\end{bmatrix}} ,

значения которых подлежат оценке. В-третьих, непрерывная функция плотности вероятности (pdf) или ее дискретный аналог, функция массы вероятности (pmf), основного распределения, которое сгенерировало данные, должны быть указаны при условии, что значения параметров:

p(\mathbf {x} |{\boldsymbol {\theta }}).\,

Также возможно, что сами параметры имеют распределение вероятностей (например, байесовская статистика ). Затем необходимо определить байесовскую вероятность

\pi ({\boldsymbol {\theta }}).\,

После формирования модели цель состоит в том, чтобы оценить параметры, при этом оценки обычно обозначаются , где «шляпа» указывает на оценку. ${\hat {\boldsymbol {\theta }}}$

Одним из распространенных средств оценки является оценка минимальной среднеквадратической ошибки (MMSE), которая использует ошибку между оцененными параметрами и фактическим значением параметров.

\mathbf {e} = {\hat {\boldsymbol {\theta }}} - {\boldsymbol {\theta }}

как основа оптимальности. Затем этот член ошибки возводится в квадрат, и ожидаемое значение этого квадрата значения минимизируется для средства оценки MMSE.

Оценщики

Обычно используемые оценщики (методы оценки) и связанные с ними темы включают:

Оценщики максимального правдоподобия
Оценщики Байеса
Метод оценок моментов
Граница Крамера-Рао
Наименьших квадратов
Минимальная среднеквадратическая ошибка (MMSE), также известная как наименьшая квадратичная ошибка Байеса (BLSE).
Максимум апостериорный (MAP)
Несмещенная оценка минимальной дисперсии (MVUE)
Идентификация нелинейной системы
Лучшая линейная несмещенная оценка (СИНИЙ)
Несмещенные оценки — см. смещение оценки .
Фильтр твердых частиц
Марковская цепь Монте-Карло (MCMC)
Фильтр Калмана и его различные производные
фильтр Винера

Примеры

Неизвестная константа в аддитивном белом гауссовском шуме

Рассмотрим полученный дискретный сигнал независимых выборок , который состоит из неизвестной константы с аддитивным белым гауссовским шумом (AWGN) с нулевым средним значением и известной дисперсией ( т.е. , ) . Поскольку дисперсия известна, единственным неизвестным параметром является . $x[n]$ $N$ $А$ $w[n]$ $\sigma ^{2}$ ${\mathcal {N}}(0,\sigma ^{2})$ $А$

Тогда модель сигнала будет

x[n]=A+w[n]\quad n=0,1,\dots,N-1

Две возможные (из многих) оценки параметра : $А$

${\hat {A}}_{1}=x[0]$
${\hat {A}}_{2}={\frac {1}{N}}\sum _{n=0}^{N-1}x[n]$ какое среднее значение выборки

Обе эти оценки имеют среднее значение , которое можно показать, взяв ожидаемое значение каждой оценки. $А$

\mathrm {E} \left[{\hat {A}}_{1} \right]=\mathrm {E} \left[x[0]\right]=A

\mathrm {E} \left[{\hat {A}}_{2} \right]=\mathrm {E} \left[{\frac {1}{N}}\sum _{n= 0}^{N-1}x[n]\right]={\frac {1}{N}}\left[\sum _{n=0}^{N-1}\mathrm {E} \left [x[n]\right]\right]={\frac {1}{N}}\left[NA\right]=A

На этом этапе эти две оценки будут работать одинаково. Однако разница между ними становится очевидной при сравнении дисперсий.

\mathrm {var} \left({\hat {A}}_{1} \right)=\mathrm {var} \left(x[0]\right)=\sigma ^{2}

\mathrm {var} \left({\hat {A}}_{2} \right)=\mathrm {var} \left({\frac {1}{N}}\sum _{n= 0}^{N-1}x[n]\right){\overset {\text{independentence}}{=}}{\frac {1}{N^{2}}}\left[\sum _{ n=0}^{N-1}\mathrm {var} (x[n])\right]={\frac {1}{N^{2}}}\left[N\sigma ^{2}\ right]={\frac {\sigma ^{2}}{N}}

Казалось бы, выборочное среднее является лучшим средством оценки, поскольку его дисперсия ниже для каждого N > 1.

Максимальная вероятность

Продолжая пример с использованием средства оценки максимального правдоподобия , функция плотности вероятности (pdf) шума для одной выборки равна $w[n]$

p(w[n])={\frac {1}{\sigma {\sqrt {2\pi }}}}\exp \left(-{\frac {1}{2\sigma ^{2}}}w[n]^{2}\right)

и вероятность становится ( можно подумать о ) $x[n]$ $x[n]$ ${\mathcal {N}}(A,\sigma ^{2})$

p(x[n];A)={\frac {1}{\sigma {\sqrt {2\pi }}}}\exp \left(-{\frac {1}{2\sigma ^{2}}}(x[n]-A)^{2}\right)

В силу независимости вероятность становится $\mathbf {x}$

p(\mathbf {x} ;A)=\prod _{n=0}^{N-1}p(x[n];A)={\frac {1}{\left(\sigma {\sqrt {2\pi }}\right)^{N}}}\exp \left(-{\frac {1}{2\sigma ^{2}}}\sum _{n=0}^{N-1}(x[n]-A)^{2}\right)

Берём натуральный логарифм PDF-файла

\ln p(\mathbf {x} ;A)=-N\ln \left(\sigma {\sqrt {2\pi }}\right)-{\frac {1}{2\sigma ^{2}}}\sum _{n=0}^{N-1}(x[n]-A)^{2}

и оценка максимального правдоподобия равна

{\hat {A}}=\arg \max \ln p(\mathbf {x} ;A)

Взяв первую производную функции логарифмического правдоподобия

{\frac {\partial }{\partial A}}\ln p(\mathbf {x} ;A)={\frac {1}{\sigma ^{2}}}\left[\sum _{n=0}^{N-1}(x[n]-A)\right]={\frac {1}{\sigma ^{2}}}\left[\sum _{n=0}^{N-1}x[n]-NA\right]

и установим его на ноль

0={\frac {1}{\sigma ^{2}}}\left[\sum _{n=0}^{N-1}x[n]-NA\right]=\sum _{n=0}^{N-1}x[n]-NA

Это приводит к оценке максимального правдоподобия

{\hat {A}}={\frac {1}{N}}\sum _{n=0}^{N-1}x[n]

что является просто выборочным средним значением. Из этого примера было обнаружено, что выборочное среднее является оценкой максимального правдоподобия для выборок фиксированного неизвестного параметра, искаженного AWGN. $N$

Нижняя граница Крамера – Рао

Чтобы найти нижнюю границу Крамера – Рао (CRLB) выборочной оценки среднего, сначала необходимо найти информационное число Фишера.

{\mathcal {I}}(A)=\mathrm {E} \left(\left[{\frac {\partial }{\partial A}}\ln p(\mathbf {x} ;A)\right]^{2}\right)=-\mathrm {E} \left[{\frac {\partial ^{2}}{\partial A^{2}}}\ln p(\mathbf {x} ;A)\right]

и копирую сверху

{\frac {\partial }{\partial A}}\ln p(\mathbf {x} ;A)={\frac {1}{\sigma ^{2}}}\left[\sum _{n=0}^{N-1}x[n]-NA\right]

Взяв вторую производную

{\frac {\partial ^{2}}{\partial A^{2}}}\ln p(\mathbf {x} ;A)={\frac {1}{\sigma ^{2}}}(-N)={\frac {-N}{\sigma ^{2}}}

и найти отрицательное ожидаемое значение тривиально, поскольку теперь оно является детерминированной константой. $-\mathrm {E} \left[{\frac {\partial ^{2}}{\partial A^{2}}}\ln p(\mathbf {x} ;A)\right]={\frac {N}{\sigma ^{2}}}$

Наконец, поместив информацию Фишера в

\mathrm {var} \left({\hat {A}}\right)\geq {\frac {1}{\mathcal {I}}}

приводит к

\mathrm {var} \left({\hat {A}}\right)\geq {\frac {\sigma ^{2}}{N}}

Сравнение этого значения с дисперсией выборочного среднего значения (определенной ранее) показывает, что выборочное среднее равно нижней границе Крамера-Рао для всех значений и . Другими словами, выборочное среднее является (обязательно уникальным) эффективным оценщиком и, следовательно, также несмещенным оценщиком минимальной дисперсии (MVUE), а также оценщиком максимального правдоподобия . $N$ $A$

Максимум равномерного распределения

Одним из простейших нетривиальных примеров оценки является оценка максимума равномерного распределения. Он используется в качестве практического упражнения в классе и для иллюстрации основных принципов теории оценки. Кроме того, в случае оценки, основанной на одной выборке, это демонстрирует философские проблемы и возможные недопонимания в использовании оценок максимального правдоподобия и функций правдоподобия .

Учитывая дискретное равномерное распределение с неизвестным максимумом, оценка UMVU для максимума определяется выражением $1,2,\dots ,N$

{\frac {k+1}{k}}m-1=m+{\frac {m}{k}}-1

где m — максимум выборки , а k — размер выборки , выборка без замены. ^[2]^[3] Эта проблема широко известна как проблема немецких танков из-за применения максимальной оценки к оценкам производства немецких танков во время Второй мировой войны .

Формулу можно понимать интуитивно как;

«Выборочный максимум плюс средний разрыв между наблюдениями в выборке»,

разрыв добавляется для компенсации отрицательного смещения максимума выборки в качестве оценки максимума совокупности. ^{[примечание 1]}

Это имеет дисперсию ^[2]

{\frac {1}{k}}{\frac {(N-k)(N+1)}{(k+2)}}\approx {\frac {N^{2}}{k^{2}}}{\text{ for small samples }}k\ll N

таким образом, стандартное отклонение составляет приблизительно средний (популяционный) размер разрыва между выборками; сравни выше. Это можно рассматривать как очень простой случай оценки максимального расстояния . $N/k$ ${\frac {m}{k}}$

Максимум выборки является оценкой максимального правдоподобия для максимума генеральной совокупности, но, как обсуждалось выше, он смещен.

Приложения

Многие области требуют использования теории оценивания. Некоторые из этих полей включают в себя:

Измеренные данные, вероятно, будут подвержены шуму или неопределенности, и именно с помощью статистической вероятности ищутся оптимальные решения для извлечения как можно большего количества информации из данных.

Смотрите также

Примечания

^ Максимум выборки никогда не превышает максимум совокупности, но может быть меньше, следовательно, это смещенная оценка : она имеет тенденцию недооценивать максимум совокупности.

Внешние ссылки

СМИ, связанные с теорией оценки, на Викискладе?

Теория оценки

Примеры

Основы

Оценщики

Примеры

Неизвестная константа в аддитивном белом гауссовском шуме

Максимальная вероятность

Нижняя граница Крамера – Рао

Максимум равномерного распределения

Приложения

Смотрите также

Примечания

Рекомендации

Цитаты

Источники

Внешние ссылки