В статистике выброс — это точка данных , которая значительно отличается от других наблюдений. [1] [2] Выбросы могут быть вызваны изменчивостью измерений, указанием новых данных или результатом экспериментальной ошибки; последние иногда исключаются из набора данных . [3] [4] Выбросы могут указывать на интересные возможности, но также могут вызывать серьезные проблемы при статистическом анализе.
Выбросы могут возникать случайно в любом распределении, но они могут указывать на новое поведение или структуру в наборе данных, на ошибку измерения или на то, что совокупность имеет распределение с тяжелым хвостом . В случае ошибок измерения их желательно отбросить или использовать статистику, устойчивую к выбросам, тогда как в случае распределений с тяжелым хвостом они указывают на то, что распределение имеет высокую асимметрию и что следует быть очень осторожным при использовании инструментов или интуиции, предполагающие нормальное распределение . Частой причиной выбросов является смесь двух распределений, которые могут представлять собой две отдельные подгруппы или могут указывать на «правильное испытание» или «ошибку измерения»; это моделируется смешанной моделью .
В большинстве более крупных выборок данных некоторые точки данных будут находиться дальше от среднего значения выборки , чем это считается разумным. Это может быть связано со случайной систематической ошибкой или недостатками теории , которая создала предполагаемое семейство вероятностных распределений , или это может быть связано с тем, что некоторые наблюдения находятся далеко от центра данных. Таким образом, точки выбросов могут указывать на ошибочные данные, ошибочные процедуры или области, в которых определенная теория может оказаться недействительной. Однако в больших выборках следует ожидать небольшого количества выбросов (и не из-за каких-либо аномальных условий).
Выбросы, являющиеся наиболее экстремальными наблюдениями, могут включать в себя выборочный максимум или выборочный минимум , или и то, и другое, в зависимости от того, являются ли они чрезвычайно высокими или низкими. Однако максимум и минимум выборки не всегда являются выбросами, поскольку они не могут быть необычно далекими от других наблюдений.
Наивная интерпретация статистики, полученной на основе наборов данных, включающих выбросы, может ввести в заблуждение. Например, если вычисляется средняя температура 10 объектов в комнате, и девять из них имеют температуру от 20 до 25 градусов по Цельсию , а духовка имеет температуру 175 °C, среднее значение данных будет между 20 и 25 °C. C, но средняя температура будет между 35,5 и 40 °C. В этом случае медиана лучше отражает температуру случайно выбранного объекта (но не температуру в комнате), чем среднее значение; наивно интерпретировать среднее значение как «типичную выборку», эквивалентную медиане, неверно. Как показано в этом случае, выбросы могут указывать на точки данных, которые принадлежат другой совокупности , чем остальная часть выборки .
Оценщики , способные справляться с выбросами, считаются устойчивыми: медиана — это устойчивая статистика центральной тенденции , а среднее — нет. [5] Однако среднее значение обычно является более точной оценкой. [6]
В случае нормально распределенных данных правило трех сигм означает, что примерно 1 из 22 наблюдений будет отличаться от среднего значения на двойное стандартное отклонение или более, а 1 из 370 будет отклоняться на трехкратное стандартное отклонение. [7] В выборке из 1000 наблюдений наличие до пяти наблюдений, отклоняющихся от среднего значения более чем в три раза на стандартное отклонение, находится в пределах ожидаемого числа, менее чем в два раза превышающего ожидаемое количество и, следовательно, в пределах 1. стандартное отклонение ожидаемого числа – см. распределение Пуассона – и не указывает на аномалию. Однако если размер выборки составляет всего 100 человек, то всего лишь три таких выброса уже являются поводом для беспокойства, поскольку они более чем в 11 раз превышают ожидаемое число.
В общем, если характер распределения совокупности известен априори , можно проверить, значительно ли отклоняется число выбросов от ожидаемого: для заданного порогового значения (поэтому выборки выходят за пределы порогового значения с вероятностью p ) при данном распределении количество выбросов будет следовать биномиальному распределению с параметром p , которое обычно может быть хорошо аппроксимировано распределением Пуассона с λ = pn . Таким образом, если взять нормальное распределение с отсечкой 3 стандартных отклонений от среднего значения, p составит примерно 0,3%, и, таким образом, для 1000 испытаний можно аппроксимировать количество образцов, отклонение которых превышает 3 сигмы, распределением Пуассона с λ = 3.
Выбросы могут иметь множество аномальных причин. Физическое устройство для проведения измерений могло выйти из строя. Возможно, произошла ошибка при передаче или транскрипции данных. Выбросы возникают из-за изменений в поведении системы, мошеннического поведения, человеческой ошибки, ошибки приборов или просто из-за естественных отклонений в популяциях. Образец мог быть загрязнен элементами, не входящими в исследуемую популяцию. Альтернативно, выброс может быть результатом ошибки в предполагаемой теории, требующей дальнейшего исследования со стороны исследователя. Кроме того, патологический внешний вид выбросов определенной формы появляется в различных наборах данных, что указывает на то, что причинный механизм для данных может отличаться в крайних случаях ( эффект Кинга ).
Не существует жесткого математического определения того, что представляет собой выброс; определение того, является ли наблюдение выбросом, в конечном итоге является субъективным занятием. [8] Существуют различные методы обнаружения выбросов, некоторые из которых рассматриваются как синонимы обнаружения новизны. [9] [10] [11] [12] [13] Некоторые из них являются графическими, например графики нормальной вероятности . Другие основаны на моделях. Коробочные диаграммы представляют собой гибрид.
Методы, основанные на моделях, которые обычно используются для идентификации, предполагают, что данные имеют нормальное распределение, и идентифицируют наблюдения, которые считаются «маловероятными» на основе среднего и стандартного отклонения:
Предлагается в серии наблюдений определять предел погрешности, за которым могут быть отвергнуты все наблюдения, содержащие столь большую ошибку, при условии, что таких наблюдений будет столько же . Принцип, по которому предлагается решить эту задачу, состоит в том, что предлагаемые наблюдения следует отбрасывать, когда вероятность системы ошибок, полученной путем их сохранения, меньше, чем вероятность системы ошибок, полученной путем их отклонения, умноженной на вероятность делая так много, и не более, аномальных наблюдений. (Цитируется в редакционной заметке к Пирсу (издание 1982 г.) на стр. 516 из « Руководства по астрономии 2:558» Шовене.) [15] [16] [17] [18]
Другие методы отмечают наблюдения на основе таких показателей, как межквартильный размах . Например, если и являются нижним и верхним квартилем соответственно, то выброс можно определить как любое наблюдение за пределами диапазона:
для некоторой неотрицательной константы . Джон Тьюки предложил этот тест, где указывается «выброс» и указываются «далеко отклоняющиеся» данные. [19]
В различных областях, таких как, помимо прочего, статистика , обработка сигналов , финансы , эконометрика , производство , сетевые технологии и интеллектуальный анализ данных , задача обнаружения аномалий может решаться другими подходами. Некоторые из них могут быть основаны на расстоянии [20] [21] и плотности, например, локальный коэффициент выбросов (LOF). [22] Некоторые подходы могут использовать расстояние до k-ближайших соседей , чтобы пометить наблюдения как выбросы или не выбросы. [23]
Модифицированный тау-тест Томпсона [ нужна ссылка ] — это метод, используемый для определения наличия выброса в наборе данных. Сила этого метода заключается в том, что он учитывает стандартное отклонение набора данных, среднее значение и обеспечивает статистически определенную зону отклонения; тем самым предоставляя объективный метод определения того, является ли точка данных выбросом. [ нужна ссылка ] [24] Как это работает: во-первых, определяется среднее значение набора данных. Затем определяется абсолютное отклонение между каждой точкой данных и средним значением. В-третьих, определяется область отбраковки по формуле:
где — критическое значение распределения Стьюдента с n - 2 степенями свободы, n — размер выборки, а s — стандартное отклонение выборки. Чтобы определить, является ли значение выбросом: Вычислите . Если δ > Область отклонения, точка данных является выбросом. Если δ ≤ Область отклонения, точка данных не является выбросом.
Модифицированный тест Томпсона Тау используется для поиска одного выброса за раз (наибольшее значение δ удаляется, если оно является выбросом). Это означает, что если точка данных оказывается выбросом, она удаляется из набора данных, и тест применяется снова с новым средним значением и областью отклонения. Этот процесс продолжается до тех пор, пока в наборе данных не останется выбросов.
В некоторых работах также изучались выбросы номинальных (или категориальных) данных. В контексте набора примеров (или экземпляров) в наборе данных жесткость экземпляра измеряет вероятность того, что экземпляр будет неправильно классифицирован ( где y — назначенная метка класса, а x — значение входного атрибута для экземпляра в обучающем наборе). т ). [25] В идеале жесткость экземпляра должна рассчитываться путем суммирования набора всех возможных гипотез H :
На практике эта формулировка неосуществима, поскольку H потенциально бесконечна и вычисления неизвестны для многих алгоритмов. Таким образом, твердость экземпляра можно аппроксимировать, используя разнообразное подмножество :
где — гипотеза, вызванная алгоритмом обучения , обученным на обучающем наборе t с гиперпараметрами . Твердость экземпляра предоставляет непрерывное значение для определения того, является ли экземпляр экземпляром-выбросом.
Выбор способа борьбы с выбросом должен зависеть от его причины. Некоторые средства оценки очень чувствительны к выбросам, особенно оценка ковариационных матриц .
Даже если модель нормального распределения подходит для анализируемых данных, для больших размеров выборки ожидаются выбросы, и в этом случае их не следует автоматически отбрасывать. [26] Вместо этого следует использовать метод, устойчивый к выбросам, для моделирования или анализа данных с естественными выбросами. [26]
При принятии решения об удалении выброса необходимо учитывать причину. Как упоминалось ранее, если происхождение выброса можно объяснить экспериментальной ошибкой или если иным образом можно определить, что исходящая точка данных ошибочна, обычно рекомендуется удалить ее. [26] [27] Однако более желательно исправить ошибочное значение, если это возможно.
С другой стороны, удаление точки данных только потому, что она является выбросом, является спорной практикой, часто осуждаемой многими учеными и преподавателями естественных наук, поскольку это обычно делает статистические результаты недействительными. [26] [27] Хотя математические критерии обеспечивают объективный и количественный метод отклонения данных, они не делают эту практику более научно или методологически обоснованной, особенно в небольших наборах или там, где невозможно предположить нормальное распределение. Отклонение выбросов более приемлемо в тех областях практики, где достоверно известны базовая модель измеряемого процесса и обычное распределение ошибок измерения.
Два распространенных подхода к исключению выбросов — это усечение (или обрезка) и Winsorising . Обрезка отбрасывает выбросы, тогда как Winsorising заменяет выбросы ближайшими «неподозрительными» данными. [28] Исключение также может быть следствием процесса измерения, например, когда эксперимент не полностью способен измерить такие экстремальные значения, что приводит к цензуре данных. [29]
В задачах регрессии альтернативным подходом может быть исключение только тех точек, которые оказывают большое влияние на оцененные коэффициенты, с использованием такой меры, как расстояние Кука . [30]
Если точка данных (или точки) исключена из анализа данных , это должно быть четко указано в любом последующем отчете.
Следует учитывать возможность того, что основное распределение данных не является примерно нормальным и имеет « толстые хвосты ». Например, при выборке из распределения Коши [31] дисперсия выборки увеличивается с размером выборки, среднее значение выборки не сходится по мере увеличения размера выборки, и выбросы ожидаются с гораздо большей частотой, чем для нормального распределения . Даже небольшая разница в толщине хвостов может существенно повлиять на ожидаемое количество экстремальных значений.
Подход к набору членства предполагает, что неопределенность, соответствующая i- му измерению неизвестного случайного вектора x , представлена набором X i (вместо функции плотности вероятности). Если выбросов нет, x должен принадлежать пересечению всех X i . При возникновении выбросов это пересечение может быть пустым, и нам следует ослабить небольшое количество наборов X i (как можно меньше), чтобы избежать несогласованности. [32] Это можно сделать, используя понятие q - релаксированного пересечения . Как показано на рисунке, q -релаксированное пересечение соответствует множеству всех x , которые принадлежат всем наборам, кроме q из них. Множества X i , которые не пересекают q -релаксированное пересечение, можно заподозрить как выбросы.
В тех случаях, когда причина выбросов известна, возможно включить этот эффект в структуру модели, например, используя иерархическую модель Байеса или смешанную модель . [33] [34]
Исключительное наблюдение, или «выброс», — это наблюдение, которое заметно отличается от других членов выборки, в которой оно встречается.
Выброс – это наблюдение, которое далеко удалено от остальных наблюдений.