В статистике выброс — это точка данных , которая существенно отличается от других наблюдений. [1] [2] Выброс может быть следствием изменчивости измерения, указанием на новые данные или результатом экспериментальной ошибки; последние иногда исключаются из набора данных . [3] [4] Выброс может быть указанием на захватывающую возможность, но также может вызвать серьезные проблемы в статистическом анализе.
Выбросы могут возникать случайно в любом распределении, но они могут указывать на новое поведение или структуры в наборе данных, ошибку измерения или на то, что популяция имеет распределение с тяжелым хвостом . В случае ошибки измерения желательно отбросить их или использовать статистику, которая устойчива к выбросам, тогда как в случае распределений с тяжелым хвостом они указывают на то, что распределение имеет высокую асимметрию и что следует быть очень осторожным при использовании инструментов или интуиции, предполагающих нормальное распределение . Частой причиной выбросов является смесь двух распределений, которые могут быть двумя различными подпопуляциями, или могут указывать на «правильное испытание» против «ошибки измерения»; это моделируется смешанной моделью .
В большинстве более крупных выборок данных некоторые точки данных будут дальше от выборочного среднего , чем это считается разумным. Это может быть связано со случайной систематической ошибкой или недостатками в теории , которая сгенерировала предполагаемое семейство распределений вероятностей , или может быть, что некоторые наблюдения находятся далеко от центра данных. Таким образом, точки выбросов могут указывать на неверные данные, ошибочные процедуры или области, где определенная теория может быть недействительной. Однако в больших выборках следует ожидать небольшого количества выбросов (и не из-за какого-либо аномального состояния).
Выбросы, будучи наиболее экстремальными наблюдениями, могут включать выборочный максимум или выборочный минимум , или оба, в зависимости от того, являются ли они чрезвычайно высокими или низкими. Однако выборочный максимум и минимум не всегда являются выбросами, поскольку они могут не быть необычно далекими от других наблюдений.
Наивная интерпретация статистики, полученной из наборов данных, которые включают выбросы, может вводить в заблуждение. Например, если кто-то вычисляет среднюю температуру 10 объектов в комнате, и девять из них имеют температуру от 20 до 25 градусов по Цельсию , но духовка имеет температуру 175 °C, медиана данных будет между 20 и 25 °C, но средняя температура будет между 35,5 и 40 °C. В этом случае медиана лучше отражает температуру случайно выбранного объекта (но не температуру в комнате), чем среднее значение; наивная интерпретация среднего значения как «типичного образца», эквивалентного медиане, неверна. Как показано в этом случае, выбросы могут указывать на точки данных, которые принадлежат другой популяции , чем остальная часть выборки .
Оценки, способные справляться с выбросами, называются надежными: медиана является надежной статистикой центральной тенденции , тогда как среднее значение таковой не является. [5]
В случае нормально распределенных данных правило трех сигм означает, что примерно 1 из 22 наблюдений будет отличаться от среднего значения на удвоенное стандартное отклонение или более, а 1 из 370 будет отклоняться на утроенное стандартное отклонение. [6] В выборке из 1000 наблюдений наличие до пяти наблюдений, отклоняющихся от среднего значения более чем на утроенное стандартное отклонение, находится в пределах ожидаемого диапазона, будучи меньше, чем вдвое больше ожидаемого числа, и, следовательно, в пределах 1 стандартного отклонения от ожидаемого числа — см. распределение Пуассона — и не указывает на аномалию. Однако, если размер выборки составляет всего 100, всего три таких выброса уже являются причиной для беспокойства, будучи более чем в 11 раз больше ожидаемого числа.
В общем, если характер распределения популяции известен априори , можно проверить, значительно ли отклоняется число выбросов от ожидаемого: для заданного порогового значения (таким образом, образцы выходят за пределы порогового значения с вероятностью p ) заданного распределения число выбросов будет следовать биномиальному распределению с параметром p , которое в целом может быть хорошо аппроксимировано распределением Пуассона с λ = pn . Таким образом, если взять нормальное распределение с пороговым значением 3 стандартных отклонения от среднего, p составит приблизительно 0,3%, и, таким образом, для 1000 испытаний можно аппроксимировать число образцов, отклонение которых превышает 3 сигмы, распределением Пуассона с λ = 3.
Выбросы могут иметь множество аномальных причин. Физический аппарат для проведения измерений мог временно выйти из строя. Возможно, произошла ошибка при передаче или транскрипции данных. Выбросы возникают из-за изменений в поведении системы, мошеннического поведения, человеческой ошибки, ошибки прибора или просто из-за естественных отклонений в популяциях. Образец мог быть загрязнен элементами извне исследуемой популяции. С другой стороны, выброс может быть результатом недостатка в предполагаемой теории, что требует дальнейшего изучения исследователем. Кроме того, патологическое появление выбросов определенной формы появляется в различных наборах данных, что указывает на то, что причинный механизм для данных может отличаться в крайнем случае ( эффект Кинга ).
Не существует строгого математического определения того, что представляет собой выброс; определение того, является ли наблюдение выбросом или нет, в конечном счете является субъективным занятием. [7] Существуют различные методы обнаружения выбросов, некоторые из которых рассматриваются как синонимичные обнаружению новизны. [8] [9] [10] [11] [12] Некоторые из них являются графическими, например, графики нормальной вероятности . Другие основаны на моделях. Диаграммы ящиков являются гибридом.
Методы на основе моделей, которые обычно используются для идентификации, предполагают, что данные имеют нормальное распределение, и выявляют наблюдения, которые считаются «маловероятными» на основе среднего значения и стандартного отклонения:
Предлагается определить в серии наблюдений предел погрешности, за которым все наблюдения, включающие такую большую погрешность, могут быть отклонены, при условии, что их столько же, сколько и таких наблюдений. Принцип, на котором предлагается решить эту проблему, заключается в том, что предложенные наблюдения должны быть отклонены, когда вероятность системы ошибок, полученных путем их сохранения, меньше, чем вероятность системы ошибок, полученных путем их отклонения, умноженная на вероятность сделать столько-то, и не больше, аномальных наблюдений. (Цитируется в редакционной заметке на странице 516 Пирсу (издание 1982 года) из A Manual of Astronomy 2:558 Шовена.) [14] [15] [16] [17]
Другие методы помечают наблюдения, основанные на таких мерах, как межквартильный размах . Например, если и являются нижним и верхним квартилями соответственно, то можно определить выброс как любое наблюдение за пределами диапазона:
для некоторой неотрицательной константы . Джон Тьюки предложил этот тест, где указывает на «выброс», а указывает на данные, которые «далеко за пределами». [18]
В различных областях, таких как, но не ограничиваясь ими, статистика , обработка сигналов , финансы , эконометрика , производство , сетевое взаимодействие и интеллектуальный анализ данных , задача обнаружения аномалий может принимать другие подходы. Некоторые из них могут быть основаны на расстоянии [19] [20] и плотности, например, на локальном факторе выброса (LOF). [21] Некоторые подходы могут использовать расстояние до k-ближайших соседей , чтобы маркировать наблюдения как выбросы или не выбросы. [22]
Модифицированный тест Thompson Tau [ требуется ссылка ] — это метод, используемый для определения наличия выброса в наборе данных. Сила этого метода заключается в том, что он учитывает стандартное отклонение набора данных, среднее значение и предоставляет статистически определенную зону отклонения; таким образом, предоставляя объективный метод определения того, является ли точка данных выбросом. [ требуется ссылка ] [23] Как это работает: Сначала определяется среднее значение набора данных. Затем определяется абсолютное отклонение между каждой точкой данных и средним значением. В-третьих, определяется область отклонения с использованием формулы:
где — критическое значение из распределения Стьюдента с n -2 степенями свободы, n — размер выборки, а s — стандартное отклонение выборки. Чтобы определить, является ли значение выбросом: Вычислите . Если δ > Область отклонения, точка данных является выбросом. Если δ ≤ Область отклонения, точка данных не является выбросом.
Модифицированный тест Thompson Tau используется для поиска одного выброса за раз (наибольшее значение δ удаляется, если это выброс). Это означает, что если точка данных оказывается выбросом, она удаляется из набора данных, и тест применяется снова с новым средним значением и областью отклонения. Этот процесс продолжается до тех пор, пока в наборе данных не останется выбросов.
В некоторых работах также изучались выбросы для номинальных (или категориальных) данных. В контексте набора примеров (или экземпляров) в наборе данных твердость экземпляра измеряет вероятность того, что экземпляр будет неправильно классифицирован ( где y — назначенная метка класса, а x представляет входное значение атрибута для экземпляра в обучающем наборе t ). [24] В идеале твердость экземпляра можно было бы вычислить путем суммирования по набору всех возможных гипотез H :
На практике эта формулировка невыполнима, поскольку H потенциально бесконечна, а вычисление неизвестно для многих алгоритмов. Таким образом, твердость экземпляра может быть аппроксимирована с использованием разнообразного подмножества :
где — гипотеза, выведенная обучающим алгоритмом, обученным на обучающем наборе t с гиперпараметрами . Твердость экземпляра обеспечивает непрерывное значение для определения того, является ли экземпляр выбросом.
Выбор того, как обращаться с выбросом, должен зависеть от причины. Некоторые оценщики очень чувствительны к выбросам, особенно оценка ковариационных матриц .
Даже если модель нормального распределения подходит для анализируемых данных, выбросы ожидаются для больших размеров выборки и не должны автоматически отбрасываться, если это так. [25] Вместо этого следует использовать метод, который устойчив к выбросам, для моделирования или анализа данных с естественными выбросами. [25]
При принятии решения об удалении выброса необходимо учитывать причину. Как упоминалось ранее, если происхождение выброса можно отнести к экспериментальной ошибке или если можно иным образом определить, что выпадающая точка данных ошибочна, обычно рекомендуется удалить ее. [25] [26] Однако более желательно исправить ошибочное значение, если это возможно.
С другой стороны, удаление точки данных только потому, что она является выбросом, является спорной практикой, часто не одобряемой многими учеными и преподавателями естественных наук, поскольку это обычно делает статистические результаты недействительными. [25] [26] Хотя математические критерии обеспечивают объективный и количественный метод отклонения данных, они не делают практику более научно или методологически обоснованной, особенно в небольших наборах или там, где нельзя предположить нормальное распределение. Отклонение выбросов более приемлемо в областях практики, где базовая модель измеряемого процесса и обычное распределение погрешности измерения достоверно известны.
Два распространенных подхода к исключению выбросов — это усечение (или обрезка) и Winsorising . Обрезка отбрасывает выбросы, тогда как Winsorising заменяет выбросы ближайшими «неподозреваемыми» данными. [27] Исключение также может быть следствием процесса измерения, например, когда эксперимент не может полностью измерить такие экстремальные значения, что приводит к цензурированным данным. [28]
В задачах регрессии альтернативный подход может заключаться в исключении только тех точек, которые оказывают большое влияние на оценочные коэффициенты, используя такую меру, как расстояние Кука . [29]
Если точка (или точки) данных исключены из анализа данных , это должно быть четко указано в любом последующем отчете.
Следует рассмотреть возможность того, что лежащее в основе распределение данных не является приблизительно нормальным, имея « толстые хвосты ». Например, при выборке из распределения Коши [30] дисперсия выборки увеличивается с размером выборки, среднее значение выборки не сходится с увеличением размера выборки, и выбросы ожидаются с гораздо большими скоростями, чем для нормального распределения. Даже небольшое различие в толщине хвостов может привести к большой разнице в ожидаемом количестве экстремальных значений.
Подход на основе принадлежности к множеству предполагает, что неопределенность, соответствующая i -му измерению неизвестного случайного вектора x, представлена множеством X i (вместо функции плотности вероятности). Если выбросы отсутствуют, x должен принадлежать пересечению всех X i . Когда выбросы возникают, это пересечение может быть пустым, и мы должны ослабить небольшое количество множеств X i (насколько это возможно), чтобы избежать какой-либо несогласованности. [31] Это можно сделать с помощью понятия q - ослабленного пересечения . Как показано на рисунке, q - ослабленное пересечение соответствует множеству всех x , которые принадлежат всем множествам, кроме q из них. Множества X i , которые не пересекают q - ослабленное пересечение, можно считать выбросами.
В случаях, когда причина выбросов известна, можно включить этот эффект в структуру модели, например, используя иерархическую байесовскую модель или смешанную модель . [32] [33]
Выпадающее наблюдение, или «выброс», — это то, которое, по-видимому, заметно отклоняется от других членов выборки, в которой оно встречается.
— это наблюдение, которое сильно отличается от остальных наблюдений.