Надежная статистика

Надежная статистика — это статистика , которая сохраняет свои свойства, даже если базовые распределительные предположения неверны. Надежные статистические методы были разработаны для многих распространенных проблем, таких как оценка местоположения , масштаба и параметров регрессии . Одной из причин является создание статистических методов , которые не будут чрезмерно затронуты выбросами . Другой причиной является предоставление методов с хорошей производительностью при небольших отклонениях от параметрического распределения . Например, надежные методы хорошо работают для смесей двух нормальных распределений с различными стандартными отклонениями ; в рамках этой модели ненадежные методы, такие как t-тест, работают плохо. ^[1]^[2]

Введение

Надежная статистика стремится предоставлять методы, которые имитируют популярные статистические методы, но не подвергаются чрезмерному влиянию выбросов или других небольших отклонений от предположений модели . В статистике классические методы оценки в значительной степени опираются на предположения, которые часто не выполняются на практике. В частности, часто предполагается, что ошибки данных распределены нормально, по крайней мере приблизительно, или что центральная предельная теорема может быть использована для получения нормально распределенных оценок. К сожалению, когда в данных есть выбросы, классические оценщики часто показывают очень плохую производительность, если судить с использованием точки разбивки и функции влияния, описанных ниже.

Практический эффект проблем, наблюдаемых в функции влияния, можно изучить эмпирически, изучив распределение выборки предлагаемых оценщиков в рамках модели смеси , где смешивается небольшое количество (часто достаточно 1–5%) загрязнения. Например, можно использовать смесь 95% нормального распределения и 5% нормального распределения с тем же средним значением, но значительно более высоким стандартным отклонением (представляющим выбросы).

Надежная параметрическая статистика может осуществляться двумя способами:

путем проектирования оценщиков таким образом, чтобы достигалось заранее выбранное поведение функции влияния
путем замены оценок, которые являются оптимальными при предположении нормального распределения, оценками, которые являются оптимальными или, по крайней мере, выведены для других распределений; например, с использованием t -распределения с низкими степенями свободы (высокий эксцесс) или со смесью двух или более распределений.

Надежные оценки были изучены для следующих задач:

оценка параметров местоположения
оценка параметров шкалы
оценка коэффициентов регрессии ^[3]
оценка состояний модели в моделях, выраженных в форме пространства состояний , для которых стандартный метод эквивалентен фильтру Калмана .

Определение

Существуют различные определения «робастной статистики ». Строго говоря, робастная статистика устойчива к ошибкам в результатах, вызванным отклонениями от предположений ^[4] (например, нормальности). Это означает, что если предположения выполняются лишь приблизительно, робастная оценка все равно будет иметь разумную эффективность и разумно малое смещение , а также будет асимптотически несмещенной , то есть иметь смещение, стремящееся к 0, когда размер выборки стремится к бесконечности.

Обычно наиболее важным случаем является распределительная устойчивость — устойчивость к нарушению предположений о базовом распределении данных. ^[4] Классические статистические процедуры, как правило, чувствительны к «длиннохвостой» (например, когда распределение данных имеет более длинные хвосты, чем предполагаемое нормальное распределение). Это означает, что на них будет сильно влиять наличие выбросов в данных, и оценки, которые они производят, могут быть сильно искажены, если в данных есть экстремальные выбросы, по сравнению с тем, какими они были бы, если бы выбросы не были включены в данные.

Напротив, более надежные оценщики, которые не так чувствительны к дистрибутивным искажениям, таким как длиннохвостость, также устойчивы к присутствию выбросов. Таким образом, в контексте надежной статистики, дистрибутивно надежный и устойчивый к выбросам фактически являются синонимами. ^[4] Для одного из взглядов на исследования в области надежной статистики до 2000 года см. Portnoy & He (2000).

Некоторые эксперты предпочитают термин «устойчивая статистика » для распределительной устойчивости и резервируют «устойчивость» для нераспределительной устойчивости, например, устойчивости к нарушению предположений о вероятностной модели или оценщике, но это использование меньшинства. Обычное использование просто «устойчивости» в значении «распределительной устойчивости».

При рассмотрении того, насколько устойчива оценка к наличию выбросов, полезно проверить, что произойдет, если в набор данных будет добавлен экстремальный выброс, а также проверить, что произойдет, если экстремальный выброс заменяет одну из существующих точек данных, а затем рассмотреть эффект множественных добавлений или замен.

Примеры

Среднее значение не является надежной мерой центральной тенденции . Если набор данных, например, содержит значения {2,3,5,6,9}, то если мы добавим к данным еще одну точку данных со значением -1000 или +1000, то полученное среднее значение будет сильно отличаться от среднего значения исходных данных. Аналогично, если мы заменим одно из значений точкой данных со значением -1000 или +1000, то полученное среднее значение будет сильно отличаться от среднего значения исходных данных.

Медиана — это надежная мера центральной тенденции . Если взять тот же набор данных {2,3,5,6,9}, то если мы добавим еще одну точку данных со значением -1000 или +1000, то медиана немного изменится, но она все равно будет похожа на медиану исходных данных. Если мы заменим одно из значений точкой данных со значением -1000 или +1000, то полученная медиана все равно будет похожа на медиану исходных данных.

Если описывать медиану с точки зрения точек разбиения, то медиана имеет точку разбиения 50%, то есть половина точек должна быть выбросами, прежде чем медиану можно будет вывести за пределы диапазона невыбросов, в то время как среднее значение имеет точку разбиения 0, поскольку одно большое наблюдение может ее сбить.

Медианное абсолютное отклонение и межквартильный размах являются надежными мерами статистической дисперсии , тогда как стандартное отклонение и размах таковыми не являются.

Усеченные оценки и оценки Winsorised являются общими методами, позволяющими сделать статистику более надежной. L-оценки представляют собой общий класс простых статистик, часто надежных, в то время как M-оценки представляют собой общий класс надежных статистик и в настоящее время являются предпочтительным решением, хотя их расчет может быть довольно сложным.

Данные о скорости света

Гельман и др. в Байесовском анализе данных (2004) рассматривают набор данных, относящихся к измерениям скорости света, выполненным Саймоном Ньюкомбом . Наборы данных для этой книги можно найти на странице Классические наборы данных , а веб-сайт книги содержит дополнительную информацию о данных.

Хотя основная часть данных выглядит более или менее нормально распределенной, есть два очевидных выброса. Эти выбросы оказывают большое влияние на среднее значение, подтягивая его к себе и отдаляя от центра основной части данных. Таким образом, если среднее значение предназначено как мера местоположения центра данных, оно, в некотором смысле, смещено, когда присутствуют выбросы.

Также известно, что распределение среднего значения асимптотически нормально из-за центральной предельной теоремы. Однако выбросы могут сделать распределение среднего значения ненормальным даже для довольно больших наборов данных. Помимо этой ненормальности, среднее значение также неэффективно при наличии выбросов, и доступны менее изменчивые меры местоположения.

Оценка местоположения

На графике ниже показан график плотности данных скорости света вместе с графиком ковров (панель (a)). Также показан обычный график Q–Q (панель (b)). На этих графиках видны выбросы.

Панели (c) и (d) графика показывают распределение бутстрепа среднего (c) и 10% усеченного среднего (d). Усеченное среднее — это простая, надежная оценка местоположения, которая удаляет определенный процент наблюдений (здесь 10%) с каждого конца данных, а затем вычисляет среднее обычным способом. Анализ был выполнен в R , и для каждого из необработанных и усеченных средних использовалось 10 000 выборок бутстрепа .

Распределение среднего значения явно намного шире, чем у 10% усеченного среднего (графики в том же масштабе). Кроме того, в то время как распределение усеченного среднего кажется близким к нормальному, распределение необработанного среднего значения довольно сильно смещено влево. Таким образом, в этой выборке из 66 наблюдений только 2 выброса приводят к неприменимости центральной предельной теоремы.

Надежные статистические методы, простым примером которых является усеченное среднее, стремятся превзойти классические статистические методы при наличии выбросов или, в более общем плане, когда базовые параметрические предположения не совсем верны.

Хотя усеченное среднее хорошо работает относительно среднего в этом примере, доступны более надежные оценки. Фактически, среднее, медиана и усеченное среднее являются частными случаями M-оценщиков . Подробности приведены в разделах ниже.

Оценка масштаба

Выбросы в данных о скорости света оказывают не только отрицательное влияние на среднее значение; обычной оценкой масштаба является стандартное отклонение, и эта величина еще сильнее подвержена влиянию выбросов, поскольку в расчеты включаются квадраты отклонений от среднего значения, поэтому влияние выбросов усугубляется.

Графики ниже показывают распределение бутстрапа стандартного отклонения, медианного абсолютного отклонения (MAD) и оценки масштаба Руссеу-Кру (Qn). ^[5] Графики основаны на 10 000 выборках бутстрапа для каждой оценки с некоторым гауссовым шумом, добавленным к повторно выбранным данным ( сглаженный бутстрап ). Панель (a) показывает распределение стандартного отклонения, (b) MAD и (c) Qn.

Распределение стандартного отклонения неустойчиво и широко из-за выбросов. MAD ведет себя лучше, а Qn немного эффективнее MAD. Этот простой пример показывает, что при наличии выбросов стандартное отклонение не может быть рекомендовано в качестве оценки масштаба.

Ручной скрининг на предмет выбросов

Традиционно статистики вручную проверяли данные на наличие выбросов и удаляли их, обычно проверяя источник данных, чтобы увидеть, были ли выбросы ошибочно зарегистрированы. Действительно, в приведенном выше примере со скоростью света легко увидеть и удалить два выброса, прежде чем приступать к дальнейшему анализу. Однако в наше время наборы данных часто состоят из большого количества переменных, измеряемых на большом количестве экспериментальных единиц. Поэтому ручной скрининг на наличие выбросов часто нецелесообразен.

Выбросы часто могут взаимодействовать таким образом, что они маскируют друг друга. В качестве простого примера рассмотрим небольшой одномерный набор данных, содержащий один скромный и один большой выброс. Оценочное стандартное отклонение будет сильно завышено большим выбросом. В результате скромный выброс выглядит относительно нормальным. Как только большой выброс удаляется, оцененное стандартное отклонение уменьшается, и скромный выброс теперь выглядит необычно.

Эта проблема маскировки усугубляется по мере увеличения сложности данных. Например, в задачах регрессии диагностические графики используются для выявления выбросов. Однако часто бывает так, что после удаления нескольких выбросов другие становятся видимыми. Проблема становится еще хуже в более высоких измерениях.

Надежные методы обеспечивают автоматические способы обнаружения, снижения веса (или удаления) и маркировки выбросов, в значительной степени устраняя необходимость в ручном скрининге. Необходимо соблюдать осторожность; первоначальные данные, показывающие, что озоновая дыра впервые появилась над Антарктидой, были отклонены как выбросы нечеловеческим скринингом. ^[6]

Разнообразие применений

Хотя в данной статье рассматриваются общие принципы одномерных статистических методов, существуют также надежные методы для задач регрессии, обобщенных линейных моделей и оценки параметров различных распределений.

Меры надежности

Основными инструментами, используемыми для описания и измерения надежности, являются точка пробоя , функция влияния и кривая чувствительности .

Точка пробоя

Интуитивно, точка сбоя оценщика — это доля неверных наблюдений (например, произвольно больших наблюдений), которую оценщик может обработать, прежде чем выдать неверный (например, произвольно большой) результат. Обычно в качестве точки сбоя указывается асимптотический (бесконечный выборочный) предел, хотя точка сбоя для конечной выборки может быть более полезной. ^[7] Например, при наличии независимых случайных величин и соответствующих реализаций мы можем использовать для оценки среднего значения. Такой оценщик имеет точку сбоя 0 (или точку сбоя для конечной выборки ), поскольку мы можем сделать сколь угодно большим, просто изменив любой из . $n$ $(X_{1},\точки,X_{n})$ $x_{1},\точки ,x_{n}$ ${\overline {X_{n}}}:={\frac {X_{1}+\cdots +X_{n}}{n}}$ $1/n$ ${\overline {x}}$ $x_{1},\точки ,x_{n}$

Чем выше точка сбоя оценки, тем она надежнее. Интуитивно мы можем понять, что точка сбоя не может превышать 50%, потому что если более половины наблюдений загрязнены, невозможно отличить базовое распределение от загрязняющего распределения Rousseeuw & Leroy (1987). Следовательно, максимальная точка сбоя составляет 0,5, и существуют оценки, которые достигают такой точки сбоя. Например, медиана имеет точку сбоя 0,5. X% усеченное среднее имеет точку сбоя X% для выбранного уровня X. Huber (1981) и Maronna et al. (2019) содержат больше подробностей. Уровень и точки сбоя мощности тестов исследуются в He, Simpson & Portnoy (1990).

Статистику с высокими точками разрыва иногда называют резистентной статистикой. ^[8]

Пример: данные о скорости света

В примере со скоростью света удаление двух самых низких наблюдений приводит к изменению среднего значения с 26,2 до 27,75, изменение на 1,55. Оценка масштаба, полученная методом Qn, составляет 6,3. Мы можем разделить это на квадратный корень размера выборки, чтобы получить надежную стандартную ошибку, и мы находим, что эта величина равна 0,78. Таким образом, изменение среднего значения в результате удаления двух выбросов примерно вдвое превышает надежную стандартную ошибку.

10% усеченное среднее для данных скорости света составляет 27,43. Удаление двух самых низких наблюдений и пересчет дает 27,67. Усеченное среднее меньше подвержено влиянию выбросов и имеет более высокую точку разбивки.

Если мы заменим наименьшее наблюдение, −44, на −1000, среднее станет 11,73, тогда как 10% усеченное среднее все еще будет 27,43. Во многих областях прикладной статистики данные обычно логарифмически преобразуются, чтобы сделать их почти симметричными. Очень маленькие значения становятся большими отрицательными при логарифмическом преобразовании, а нули становятся отрицательно бесконечными. Поэтому этот пример представляет практический интерес.

Эмпирическая функция влияния

Эмпирическая функция влияния — это мера зависимости оценщика от значения любой из точек в выборке. Это модельно-свободная мера в том смысле, что она просто полагается на повторное вычисление оценщика с другим образцом. Справа — двухвесовая функция Тьюки, которая, как мы увидим позже, является примером того, как должна выглядеть «хорошая» (в определенном позже смысле) эмпирическая функция влияния.

В математических терминах функция влияния определяется как вектор в пространстве оценщика, который, в свою очередь, определяется для выборки, которая является подмножеством совокупности:

$(\Omega ,{\mathcal {A}},P)$ это вероятностное пространство,
$({\mathcal {X}},\Sigma )$ является измеримым пространством (пространством состояний),
$\Theta$ является параметрическим пространством размерности , $p\in \mathbb {N} ^{*}$
$(\Gamma ,S)$ это измеримое пространство,

Например,

$(\Omega ,{\mathcal {A}},P)$ любое вероятностное пространство,
$({\mathcal {X}},\Sigma )=(\mathbb {R} ,{\mathcal {B}})$ ,
$\Theta =\mathbb {R} \times \mathbb {R} ^{+}$
$(\Gamma ,S)=(\mathbb {R} ,{\mathcal {B}})$ ,

Эмпирическая функция влияния определяется следующим образом.

Пусть и являются iid и — выборка из этих переменных. — оценщик. Пусть . Эмпирическая функция влияния при наблюдении определяется как: $n\in \mathbb {N} ^{*}$ $X_{1},\dots ,X_{n}:(\Omega ,{\mathcal {A}})\rightarrow ({\mathcal {X}},\Sigma )$ $(x_{1},\dots ,x_{n})$ $T_{n}:({\mathcal {X}}^{n},\Sigma ^{n})\rightarrow (\Gamma ,S)$ $i\in \{1,\dots ,n\}$ $EIF_{i}$ $i$

EIF_{i}:x\in {\mathcal {X}}\mapsto n\cdot (T_{n}(x_{1},\dots ,x_{i-1},x,x_{i+1},\dots ,x_{n})-T_{n}(x_{1},\dots ,x_{i-1},x_{i},x_{i+1},\dots ,x_{n}))

Это означает, что мы заменяем i -е значение в выборке произвольным значением и смотрим на выход оценщика. В качестве альтернативы EIF определяется как эффект, масштабированный на n+1 вместо n, на оценщике добавления точки к выборке. ^[^{необходима цитата}^] $x$

Функция влияния и кривая чувствительности

Функция влияния, когда в качестве функции потерь используется двухвесовая функция Тьюки (см. раздел M-оценки ниже). Точки с большим отклонением не оказывают влияния (y=0).

Вместо того, чтобы полагаться исключительно на данные, мы могли бы использовать распределение случайных величин. Этот подход сильно отличается от подхода предыдущего параграфа. Сейчас мы пытаемся увидеть, что происходит с оценщиком, когда мы немного меняем распределение данных: он предполагает распределение и измеряет чувствительность к изменению этого распределения. Напротив, эмпирическое влияние предполагает выборочный набор и измеряет чувствительность к изменению выборок. ^[9]

Пусть будет выпуклым подмножеством множества всех конечных знаковых мер на . Мы хотим оценить параметр распределения в . Пусть функционал будет асимптотическим значением некоторой последовательности оценки . Мы предположим, что этот функционал является согласованным по Фишеру , т.е. . Это означает, что в модели последовательность оценки асимптотически измеряет правильную величину. $A$ $\Sigma$ $\theta \in \Theta$ $F$ $A$ $T:A\rightarrow \Gamma$ $(T_{n})_{n\in \mathbb {N} }$ $\forall \theta \in \Theta ,T(F_{\theta })=\theta$ $F$

Пусть будет некоторое распределение в . Что происходит, когда данные не следуют точно модели, а немного отличаются, «идут в направлении» ? $G$ $A$ $F$ $G$

Мы рассматриваем:

dT_{G-F}(F)=\lim _{t\rightarrow 0^{+}}{\frac {T(tG+(1-t)F)-T(F)}{t}}

которая является односторонней производной Гато от в направлении . $T$ $F$ $G-F$

Пусть . — вероятностная мера, которая дает массу 1 для . Мы выбираем . Тогда функция влияния определяется как: $x\in {\mathcal {X}}$ $\Delta _{x}$ $\{x\}$ $G=\Delta _{x}$

IF(x;T;F):=\lim _{t\rightarrow 0^{+}}{\frac {T(t\Delta _{x}+(1-t)F)-T(F)}{t}}.

Он описывает влияние бесконечно малого загрязнения в точке на искомую нами оценку, стандартизированную по массе загрязнения (асимптотическое смещение, вызванное загрязнением в наблюдениях). Для надежной оценки нам нужна ограниченная функция влияния, то есть такая, которая не стремится к бесконечности, когда x становится произвольно большим. $x$ $t$

Эмпирическая функция влияния использует эмпирическую функцию распределения вместо функции распределения , применяя принцип падения. ${\hat {F}}$ $F$

Желаемые свойства

Свойства функции влияния, которые придают ей желаемую эффективность, следующие:

Конечная точка отбраковки , $\rho ^{*}$
Малая чувствительность к грубым ошибкам , $\gamma ^{*}$
Малая чувствительность к локальному сдвигу . $\lambda ^{*}$

Точка отторжения

\rho ^{*}:=\inf _{r>0}\{r:IF(x;T;F)=0,|x|>r\}

Чувствительность к грубым ошибкам

\gamma ^{*}(T;F):=\sup _{x\in {\mathcal {X}}}|IF(x;T;F)|

Чувствительность к локальному сдвигу

\lambda ^{*}(T;F):=\sup _{(x,y)\in {\mathcal {X}}^{2} \atop x\neq y}\left\|{\frac {IF(y;T;F)-IF(x;T;F)}{y-x}}\right\|

Это значение, которое очень похоже на константу Липшица , представляет собой эффект небольшого смещения наблюдения из в соседнюю точку , т. е. добавления наблюдения в и удаления наблюдения в . $x$ $y$ $y$ $x$

М-оценщики

(Математический контекст этого параграфа приведен в разделе об эмпирических функциях влияния.)

Исторически было предложено несколько подходов к надежной оценке, включая R-оценки и L-оценки . Однако M-оценки сейчас, по-видимому, доминируют в этой области из-за их общности, их потенциала для высоких точек пробоя и сравнительно высокой эффективности. См. Huber (1981).

M-оценщики не являются изначально надежными. Однако их можно спроектировать так, чтобы они достигали благоприятных свойств, включая надежность. M-оценщики являются обобщением оценок максимального правдоподобия (MLE), которые определяются путем максимизации или, что эквивалентно, минимизации . В 1964 году Хубер предложил обобщить это до минимизации , где — некоторая функция. MLE, таким образом, являются особым случаем M-оценщиков (отсюда и название: оценки « типа максимального правдоподобия»). ${\textstyle \prod _{i=1}^{n}f(x_{i})}$ ${\textstyle \sum _{i=1}^{n}-\log f(x_{i})}$ ${\textstyle \sum _{i=1}^{n}\rho (x_{i})}$ $\rho$

Минимизацию часто можно осуществить путем дифференцирования и решения , где (если имеет производную). ${\textstyle \sum _{i=1}^{n}\rho (x_{i})}$ $\rho$ ${\textstyle \sum _{i=1}^{n}\psi (x_{i})=0}$ ${\textstyle \psi (x)={\frac {d\rho (x)}{dx}}}$ $\rho$

Было предложено несколько вариантов и . На двух рисунках ниже показаны четыре функции и соответствующие им функции. $\rho$ $\psi$ $\rho$ $\psi$

Для квадратичных ошибок увеличивается с ускоряющейся скоростью, в то время как для абсолютных ошибок увеличивается с постоянной скоростью. При использовании Winsorizing вводится смесь этих двух эффектов: для малых значений x увеличивается с квадратичной скоростью, но как только достигается выбранный порог (1,5 в этом примере), скорость увеличения становится постоянной. Эта оценка Winsorised также известна как функция потерь Хьюбера . $\rho (x)$ $\rho$

Функция биквадрата Тьюки (также известная как биквадратная) поначалу ведет себя аналогично функции квадратичной ошибки, но при больших ошибках функция сужается.

Свойства M-оценщиков

M-оценщики не обязательно связаны с функцией плотности вероятности. Поэтому готовые подходы к выводу, вытекающие из теории правдоподобия, в общем случае не могут быть использованы.

Можно показать, что М-оценки распределены асимптотически нормально, так что пока можно вычислить их стандартные ошибки, доступен приближенный подход к выводу.

Поскольку M-оценки нормальны только асимптотически, для небольших размеров выборки может быть целесообразно использовать альтернативный подход к выводу, такой как бутстрап. Однако M-оценки не обязательно уникальны (т. е. может быть более одного решения, удовлетворяющего уравнениям). Кроме того, возможно, что любая конкретная выборка бутстрапа может содержать больше выбросов, чем точка разбивки оценщика. Поэтому при проектировании схем бутстрапа требуется некоторая осторожность.

Конечно, как мы видели на примере скорости света, среднее значение распределено только нормально асимптотически, и когда присутствуют выбросы, приближение может быть очень плохим даже для довольно больших выборок. Однако классические статистические тесты, включая те, которые основаны на среднем значении, обычно ограничены сверху номинальным размером теста. Этого нельзя сказать о M-оценщиках, и частота ошибок типа I может быть существенно выше номинального уровня.

Эти соображения никоим образом не «аннулируют» M-оценку. Они просто дают понять, что при их использовании требуется определенная осторожность, как и при использовании любого другого метода оценки.

Функция влияния М-оценщика

Можно показать, что функция влияния М-оценщика пропорциональна , ^[10] что означает, что мы можем вывести свойства такого оценщика (такие как его точка отклонения, чувствительность к грубой ошибке или чувствительность к локальному сдвигу), когда мы знаем его функцию. $T$ $\psi$ $\psi$

IF(x;T,F)=M^{-1}\psi (x,T(F))

с заданным: $p\times p$

M=-\int _{\mathcal {X}}\left({\frac {\partial \psi (x,\theta )}{\partial \theta }}\right)_{T(F)}\,dF(x).

Выборψиρ

Во многих практических ситуациях выбор функции не имеет решающего значения для получения хорошей надежной оценки, и многие варианты дадут схожие результаты, которые обеспечивают значительные улучшения с точки зрения эффективности и смещения по сравнению с классическими оценками при наличии выбросов. ^[11] $\psi$

Теоретически, функции должны быть предпочтительными, ^[^{необходимо разъяснение}^] и функция двухвесового распределения Тьюки (также известная как биквадратная) является популярным выбором. ^[12] рекомендуют функцию двухвесового распределения с эффективностью в нормальном режиме, установленной на уровне 85%. $\psi$

Надежные параметрические подходы

M-оценщики не обязательно связаны с функцией плотности и поэтому не являются полностью параметрическими. Полностью параметрические подходы к надежному моделированию и выводу, как байесовский, так и вероятностный подходы, обычно имеют дело с распределениями с тяжелыми хвостами, такими как t -распределение Стьюдента .

Для t -распределения со степенями свободы можно показать, что $\nu$

\psi (x)={\frac {x}{x^{2}+\nu }}.

Для t - распределение эквивалентно распределению Коши. Степени свободы иногда называют параметром эксцесса . Это параметр, который контролирует, насколько тяжелы хвосты. В принципе, может быть оценен по данным так же, как и любой другой параметр. На практике обычно бывает несколько локальных максимумов, когда допускается варьирование. Таким образом, обычно фиксируют значение около 4 или 6. На рисунке ниже показана -функция для 4 различных значений . $\nu =1$ $\nu$ $\nu$ $\nu$ $\psi$ $\nu$

Пример: данные о скорости света

Для данных о скорости света, допуская изменение параметра эксцесса и максимизируя правдоподобие, получаем

{\hat {\mu }}=27.40,\quad {\hat {\sigma }}=3.81,\quad {\hat {\nu }}=2.13.

Фиксация и максимизация вероятности дает $\nu =4$

{\hat {\mu }}=27.49,\quad {\hat {\sigma }}=4.51.

Связанные концепции

Основная величина — это функция данных, чье базовое распределение популяции является членом параметрического семейства, которое не зависит от значений параметров. Вспомогательная статистика — это такая функция, которая также является статистикой, то есть она вычисляется только на основе данных. Такие функции устойчивы к параметрам в том смысле, что они независимы от значений параметров, но не устойчивы к модели в том смысле, что они предполагают базовую модель (параметрическое семейство), и на самом деле такие функции часто очень чувствительны к нарушениям предположений модели. Таким образом, тестовые статистики , часто построенные в терминах этих, чтобы не быть чувствительными к предположениям о параметрах, все еще очень чувствительны к предположениям модели.

Замена выбросов и пропущенных значений

Замена пропущенных данных называется вменением . Если пропущенных точек относительно немного, есть некоторые модели, которые можно использовать для оценки значений для завершения ряда, например, замена пропущенных значений средним или медианой данных. Простая линейная регрессия также может использоваться для оценки пропущенных значений. ^[13] Кроме того, выбросы иногда могут быть размещены в данных с помощью усеченных средних, других оценщиков шкалы, помимо стандартного отклонения (например, MAD) и винсоризации. ^[14] При расчетах усеченного среднего фиксированный процент данных отбрасывается с каждого конца упорядоченных данных, тем самым устраняя выбросы. Затем среднее значение вычисляется с использованием оставшихся данных. винсоризация подразумевает размещение выброса путем замены его следующим наибольшим или наименьшим значением в зависимости от ситуации. ^[15]

Однако использование этих типов моделей для прогнозирования пропущенных значений или выбросов в длинных временных рядах является сложным и часто ненадежным, особенно если количество значений, которые необходимо заполнить, относительно велико по сравнению с общей длиной записи. Точность оценки зависит от того, насколько хороша и репрезентативна модель и насколько длителен период пропущенных значений. ^[16] Когда в ряду предполагается динамическая эволюция, проблема пропущенных точек данных становится упражнением в многомерном анализе (а не одномерном подходе большинства традиционных методов оценки пропущенных значений и выбросов). В таких случаях многомерная модель будет более репрезентативной, чем одномерная, для прогнозирования пропущенных значений. Самоорганизующаяся карта Кохонена (KSOM) предлагает простую и надежную многомерную модель для анализа данных, тем самым предоставляя хорошие возможности для оценки пропущенных значений, принимая во внимание их связь или корреляцию с другими соответствующими переменными в записи данных. ^[15]

Стандартные фильтры Калмана неустойчивы к выбросам. С этой целью Тинг, Теодору и Шааль (2007) недавно показали, что модификация теоремы Масрелье может справиться с выбросами.

Один из распространенных подходов к обработке выбросов в анализе данных заключается в том, чтобы сначала выполнить обнаружение выбросов, а затем применить эффективный метод оценки (например, наименьшие квадраты). Хотя этот подход часто полезен, следует помнить о двух проблемах. Во-первых, метод обнаружения выбросов, который опирается на ненадежную начальную подгонку, может страдать от эффекта маскировки, то есть группа выбросов может маскировать друг друга и избегать обнаружения. ^[17] Во-вторых, если для обнаружения выбросов используется начальная подгонка с высокой степенью разбивки, последующий анализ может унаследовать некоторые неэффективности начальной оценки. ^[18]

Функция влияния и машинное обучение

Хотя функции влияния имеют долгую историю в статистике, они не получили широкого распространения в машинном обучении из-за ряда проблем. Одним из основных препятствий является то, что традиционные функции влияния опираются на дорогостоящие вычисления производных второго порядка и предполагают дифференцируемость и выпуклость модели. Эти предположения являются ограничивающими, особенно в современном машинном обучении, где модели часто недифференцируемы, невыпуклы и работают в многомерных пространствах.

Кох и Лян (2017) решили эти проблемы, представив методы для эффективной аппроксимации функций влияния с использованием методов оптимизации второго порядка, таких как разработанные Перлмуттером (1994), Мартенсом (2010) и Агарвалом, Буллинзом и Хазаном (2017). Их подход остается эффективным даже при ухудшении предположений о дифференцируемости и выпуклости, что позволяет использовать функции влияния в контексте невыпуклых моделей глубокого обучения. Они продемонстрировали, что функции влияния являются мощным и универсальным инструментом, который можно применять для решения различных задач в машинном обучении, включая:

Понимание поведения модели: функции влияния помогают определить, какие точки обучения наиболее «ответственны» за данный прогноз, предлагая понимание того, как модели обобщают данные обучения.

Отладка моделей: функции влияния могут помочь в выявлении несоответствий доменов — когда распределение обучающих данных не соответствует распределению тестовых данных — что может привести к тому, что модели с высокой точностью обучения будут плохо работать на тестовых данных, как показали Бен-Дэвид и др. (2010). Выявляя, какие обучающие примеры вносят наибольший вклад в ошибки, разработчики могут устранить эти несоответствия.

Обнаружение ошибок набора данных: Шумные или поврежденные метки часто встречаются в реальных данных, особенно при краудсорсинге или атаке со стороны противника. Функции влияния позволяют экспертам-людям расставлять приоритеты, просматривая только самые важные примеры в обучающем наборе, что способствует эффективному обнаружению и исправлению ошибок.

Состязательные атаки: Модели, которые в значительной степени полагаются на небольшое количество влиятельных точек обучения, уязвимы для состязательных возмущений. Эти возмущенные входные данные могут значительно изменить прогнозы и создать риски безопасности в системах машинного обучения, где злоумышленники имеют доступ к данным обучения (см. состязательное машинное обучение ).

Вклад Коха и Ляна открыл двери для использования функций влияния в различных приложениях машинного обучения — от интерпретируемости до безопасности, что является значительным шагом вперед в их применимости.

Смотрите также

Примечания

^ Саркар, Палаш (2014-05-01). «О некоторых связях между статистикой и криптологией». Журнал статистического планирования и вывода . 148 : 20–37. doi :10.1016/j.jspi.2013.05.008. ISSN 0378-3758.
^ Хубер, Питер Дж.; Ронкетти, Эльвезио М. (29.01.2009). Надежная статистика. Серия Wiley по теории вероятностей и статистики (1-е изд.). Wiley. doi :10.1002/9780470434697. ISBN 978-0-470-12990-6.
^ Хубер, Питер Дж.; Ронкетти, Эльвезио М. (29.01.2009). Надежная статистика. Серия Wiley по теории вероятностей и статистики (1-е изд.). Wiley. doi :10.1002/9780470434697. ISBN 978-0-470-12990-6.
^ abc Huber (1981), стр. 1.
^ Руссеу и Кру (1993).
^ Мастерс, Джеффри. "Когда была обнаружена озоновая дыра". Weather Underground . Архивировано из оригинала 2016-09-15.
^ Маронна и др. (2019)
^ Статистика сопротивления, Дэвид Б. Стивенсон
^ фон Мизес (1947).
^ Хубер (1981), стр. 45
^ Хубер (1981).
^ Маронна и др. (2019)
^ Макдональд и Цуккини (1997); Харви и Фернандес (1989).
^ МакБин и Роверс (1998).
^ ab Rustum & Adeloye (2007).
^ Розен и Леннокс (2001).
^ Руссеу и Лерой (1987).
↑ Он и Портной (1992).

Ссылки

Фаркомени, А.; Греко, Л. (2013), Надежные методы обработки данных , Бока-Ратон, Флорида: Chapman & Hall/CRC Press, ISBN 978-1-4665-9062-5.
Hampel, Frank R .; Ronchetti, Elvezio M.; Rousseeuw, Peter J .; Stahel, Werner A. (1986), Надежная статистика , Wiley Series in Probability and Mathematical Statistics: Вероятность и математическая статистика, Нью-Йорк: John Wiley & Sons, Inc., ISBN 0-471-82921-8, МР 0829458. Переиздано в мягкой обложке в 2005 году.
Харви, А.С.; Фернандес, К. (октябрь 1989 г.), «Модели временных рядов для подсчета или качественных наблюдений», Журнал деловой и экономической статистики , 7 (4), Тейлор и Фрэнсис: 407–417, JSTOR 1391639
Он, Сюмин ; Портной, Стивен (1992), «Оценки МНК с повторным взвешиванием сходятся с той же скоростью, что и первоначальная оценка», Annals of Statistics , 20 (4): 2161–2167, doi : 10.1214/aos/1176348910 , MR 1193333.
Он, Сюмин ; Симпсон, Дуглас Г.; Портной, Стивен Л. (1990), «Надежность тестов на срыв», Журнал Американской статистической ассоциации , 85 (410): 446–452, doi :10.2307/2289782, JSTOR 2289782, MR 1141746.
Хеттманспергер, Т. П.; Маккин, Дж. В. (1998), Надежные непараметрические статистические методы , Библиотека статистики Кендалла, т. 5, Нью-Йорк: John Wiley & Sons, Inc., ISBN 0-340-54937-8, МР 1604954. 2-е изд., CRC Press, 2011.
Хубер, Питер Дж. (1981), Надежная статистика , Нью-Йорк: John Wiley & Sons, Inc., ISBN 0-471-41805-6, МР 0606374. Переиздано в мягкой обложке, 2004. 2-е изд., Wiley, 2009.
Макдональд, Иэн Л.; Цуккини, Уолтер (1997), Скрытые марковские и другие модели для дискретно-значных временных рядов , Тейлор и Фрэнсис, ISBN 9780412558504
Маронна, Рикардо А.; Мартин, Р. Дуглас; Йохай, Виктор Дж.; Салибиан-Баррера, Матиас (2019) [2006], Робастная статистика: теория и методы (с R) , Ряды Уайли по вероятности и статистике (2-е изд.), Чичестер: John Wiley & Sons, Ltd., doi : 10.1002/9781119214656 , ISBN 978-1-119-21468-7.
Макбин, Эдвард А.; Роверс, Фрэнк (1998), Статистические процедуры для анализа данных мониторинга окружающей среды и оценки , Prentice-Hall.
Портной, Стивен; Хэ, Сюмин (2000), «Надежное путешествие в новое тысячелетие», Журнал Американской статистической ассоциации , 95 (452): 1331–1335, doi : 10.2307/2669782, JSTOR 2669782, MR 1825288.
Press, William H .; Teukolsky, Saul A .; Vetterling, William T.; Flannery, Brian P. (2007), «Раздел 15.7. Надежная оценка», Numerical Recipes: The Art of Scientific Computing (3-е изд.), Cambridge University Press, ISBN 978-0-521-88068-8, г-н 2371990.
Розен, К.; Леннокс, Дж. А. (октябрь 2001 г.), «Многомерный и многомасштабный мониторинг работы очистных сооружений», Water Research , 35 (14): 3402–3410, doi :10.1016/s0043-1354(01)00069-0, PMID 11547861.
Руссо, Питер Дж.; Кру, Кристоф (1993), «Альтернативы медианному абсолютному отклонению», Журнал Американской статистической ассоциации , 88 (424): 1273–1283, doi :10.2307/2291267, JSTOR 2291267, MR 1245360.
Rousseeuw, Peter J. ; Leroy, Annick M. (1987), Robust Regression and Outlier Detection , Wiley Series in Probability and Mathematical Statistics: Applied Probability and Statistics, Нью-Йорк: John Wiley & Sons, Inc., doi : 10.1002/0471725382, ISBN 0-471-85233-3, МР 0914792. Переиздано в мягкой обложке в 2003 году.
Руссью, Питер Дж .; Хьюберт, Миа (2011), «Надежная статистика для обнаружения выбросов», Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery , 1 (1): 73–79, doi :10.1002/widm.2, S2CID 17448982. Препринт
Rustum, Rabee; Adeloye, Adebayo J. (сентябрь 2007 г.), «Замена выбросов и пропущенных значений из данных по активированному илу с использованием самоорганизующейся карты Кохонена», Журнал по инженерной экологии , 133 (9): 909–916, doi :10.1061/(asce)0733-9372(2007)133:9(909).
Стиглер, Стивен М. (2010), «Изменяющаяся история надежности», The American Statistician , 64 (4): 277–281, doi :10.1198/tast.2010.10159, MR 2758558, S2CID 10728417.
Тинг, Джо-Энн; Теодору, Эвангелос; Шааль, Стефан (2007), «Фильтр Калмана для надежного обнаружения выбросов», Международная конференция по интеллектуальным роботам и системам – IROS , стр. 1514–1519.
фон Мизес, Р. (1947), «Об асимптотическом распределении дифференцируемых статистических функций», Annals of Mathematical Statistics , 18 (3): 309–348, doi : 10.1214/aoms/1177730385 , MR 0022330.
Уилкокс, Рэнд (2012), Введение в надежную оценку и проверку гипотез , Статистическое моделирование и наука принятия решений (3-е изд.), Амстердам: Elsevier/Academic Press, стр. 1–22, doi : 10.1016/B978-0-12-386983-8.00001-9, ISBN 978-0-12-386983-8, МР 3286430.
Кох, Панг Вэй; Лян, Перси (2017). Понимание предсказаний черного ящика с помощью функций влияния . Международная конференция по машинному обучению. PMLR.
Перлмуттер, Барак А. (1994), «Быстрое точное умножение на гессиан», Neural Computation , 6 (1): 147–160, doi :10.1162/neco.1994.6.1.147, ISSN 0899-7667
Мартенс, Джеймс (2010). Глубокое обучение с помощью оптимизации без Гессиана . Международная конференция по машинному обучению. Хайфа, Израиль: PMLR. С. 735–742. ISBN 9781605589077.
Агарвал, Наман; Буллинз, Брайан; Хазан, Элад (2017), «Стохастическая оптимизация второго порядка для машинного обучения за линейное время», Журнал исследований машинного обучения , 18 (116): 1–40
Бен-Дэвид, Шай; Блитцер, Джон; Краммер, Коби; Кулеша, Алекс; Перейра, Фернандо; Воган, Дженнифер Вортман (2010), «Теория обучения из разных областей», Машинное обучение , 79 (1): 151–175, doi :10.1007/s10994-009-5152-4, ISSN 1573-0565

Внешние ссылки

Подробные заметки Брайана Рипли по курсу статистики.
Курсовые заметки Ника Файллера по статистическому моделированию и вычислениям содержат материал по надежной регрессии.
Сайт Дэвида Олива содержит учебные материалы по надежной статистике и некоторым наборам данных.
Онлайн-эксперименты с использованием R и JSXGraph