stringtranslate.com

Выброс

Рисунок 1. Диаграмма данных эксперимента Майкельсона–Морли, отображающая четыре выброса в среднем столбце, а также один выброс в первом столбце.

В статистике выброс это точка данных , которая существенно отличается от других наблюдений. [1] [2] Выброс может быть следствием изменчивости измерения, указанием на новые данные или результатом экспериментальной ошибки; последние иногда исключаются из набора данных . [3] [4] Выброс может быть указанием на захватывающую возможность, но также может вызвать серьезные проблемы в статистическом анализе.

Выбросы могут возникать случайно в любом распределении, но они могут указывать на новое поведение или структуры в наборе данных, ошибку измерения или на то, что популяция имеет распределение с тяжелым хвостом . В случае ошибки измерения желательно отбросить их или использовать статистику, которая устойчива к выбросам, тогда как в случае распределений с тяжелым хвостом они указывают на то, что распределение имеет высокую асимметрию и что следует быть очень осторожным при использовании инструментов или интуиции, предполагающих нормальное распределение . Частой причиной выбросов является смесь двух распределений, которые могут быть двумя различными подгруппами или могут указывать на «правильное испытание» против «ошибки измерения»; это моделируется моделью смеси .

В большинстве более крупных выборок данных некоторые точки данных будут дальше от выборочного среднего , чем это считается разумным. Это может быть связано со случайной систематической ошибкой или недостатками в теории , которая сгенерировала предполагаемое семейство распределений вероятностей , или может быть, что некоторые наблюдения находятся далеко от центра данных. Таким образом, точки выбросов могут указывать на неверные данные, ошибочные процедуры или области, где определенная теория может быть недействительной. Однако в больших выборках следует ожидать небольшого количества выбросов (и не из-за какого-либо аномального состояния).

Выбросы, будучи наиболее экстремальными наблюдениями, могут включать выборочный максимум или выборочный минимум , или оба, в зависимости от того, являются ли они чрезвычайно высокими или низкими. Однако выборочный максимум и минимум не всегда являются выбросами, поскольку они могут не быть необычно далекими от других наблюдений.

Наивная интерпретация статистики, полученной из наборов данных, которые включают выбросы, может вводить в заблуждение. Например, если кто-то вычисляет среднюю температуру 10 объектов в комнате, и девять из них имеют температуру от 20 до 25 градусов по Цельсию , но духовка имеет температуру 175 °C, медиана данных будет между 20 и 25 °C, но средняя температура будет между 35,5 и 40 °C. В этом случае медиана лучше отражает температуру случайно выбранного объекта (но не температуру в комнате), чем среднее значение; наивная интерпретация среднего значения как «типичного образца», эквивалентного медиане, неверна. Как показано в этом случае, выбросы могут указывать на точки данных, которые принадлежат другой популяции , чем остальная часть выборки .

Оценки, способные справляться с выбросами, называются надежными: медиана является надежной статистикой центральной тенденции , тогда как среднее значение — нет. [5] Однако среднее значение, как правило, является более точной оценкой. [6]

Возникновение и причины

Относительные вероятности в нормальном распределении

В случае нормально распределенных данных правило трех сигм означает, что примерно 1 из 22 наблюдений будет отличаться от среднего значения на удвоенное стандартное отклонение или более, а 1 из 370 будет отклоняться на утроенное стандартное отклонение. [7] В выборке из 1000 наблюдений наличие до пяти наблюдений, отклоняющихся от среднего значения более чем на утроенное стандартное отклонение, находится в пределах ожидаемого диапазона, будучи меньше, чем вдвое больше ожидаемого числа, и, следовательно, в пределах 1 стандартного отклонения от ожидаемого числа — см. распределение Пуассона — и не указывает на аномалию. Однако, если размер выборки составляет всего 100, всего три таких выброса уже являются причиной для беспокойства, будучи более чем в 11 раз больше ожидаемого числа.

В общем, если характер распределения популяции известен априори , можно проверить, значительно ли отклоняется число выбросов от ожидаемого: для заданного порогового значения (таким образом, образцы выходят за пределы порогового значения с вероятностью p ) заданного распределения число выбросов будет следовать биномиальному распределению с параметром p , которое в общем случае может быть хорошо аппроксимировано распределением Пуассона с λ = pn . Таким образом, если взять нормальное распределение с пороговым значением 3 стандартных отклонения от среднего, p составит приблизительно 0,3%, и, таким образом, для 1000 испытаний можно аппроксимировать число образцов, отклонение которых превышает 3 сигмы, распределением Пуассона с λ = 3.

Причины

Выбросы могут иметь множество аномальных причин. Физический аппарат для проведения измерений мог потерпеть временную неисправность. Возможно, произошла ошибка в передаче или транскрипции данных. Выбросы возникают из-за изменений в поведении системы, мошеннического поведения, человеческой ошибки, ошибки прибора или просто из-за естественных отклонений в популяциях. Образец мог быть загрязнен элементами извне исследуемой популяции. С другой стороны, выброс может быть результатом недостатка в предполагаемой теории, что требует дальнейшего изучения исследователем. Кроме того, патологическое появление выбросов определенной формы появляется в различных наборах данных, что указывает на то, что причинный механизм для данных может отличаться в крайнем случае ( эффект Кинга ).

Определения и обнаружение

Не существует строгого математического определения того, что представляет собой выброс; определение того, является ли наблюдение выбросом или нет, в конечном счете является субъективным занятием. [8] Существуют различные методы обнаружения выбросов, некоторые из которых рассматриваются как синонимичные обнаружению новизны. [9] [10] [11] [12] [13] Некоторые из них являются графическими, например, графики нормальной вероятности . Другие основаны на моделях. Диаграммы ящиков являются гибридом.

Методы на основе моделей, которые обычно используются для идентификации, предполагают, что данные имеют нормальное распределение, и выявляют наблюдения, которые считаются «маловероятными» на основе среднего значения и стандартного отклонения:

Критерий Пирса

Предлагается определить в серии наблюдений предел погрешности, за которым все наблюдения, включающие такую ​​большую погрешность, могут быть отклонены, при условии, что их столько же, сколько и таких наблюдений. Принцип, на котором предлагается решить эту проблему, заключается в том, что предложенные наблюдения должны быть отклонены, когда вероятность системы ошибок, полученных путем их сохранения, меньше, чем вероятность системы ошибок, полученных путем их отклонения, умноженная на вероятность сделать столько-то, и не больше, аномальных наблюдений. (Цитируется в редакционной заметке на странице 516 Пирсу (издание 1982 года) из A Manual of Astronomy 2:558 Шовена.) [15] [16] [17] [18]

Заборы Тьюки

Другие методы помечают наблюдения, основанные на таких мерах, как межквартильный размах . Например, если и являются нижним и верхним квартилями соответственно, то можно определить выброс как любое наблюдение за пределами диапазона:

для некоторой неотрицательной константы . Джон Тьюки предложил этот тест, где указывает на «выброс», а указывает на данные, которые «далеко за пределами». [19]

При обнаружении аномалий

В различных областях, таких как, но не ограничиваясь ими, статистика , обработка сигналов , финансы , эконометрика , производство , сетевое взаимодействие и интеллектуальный анализ данных , задача обнаружения аномалий может принимать другие подходы. Некоторые из них могут быть основаны на расстоянии [20] [21] и плотности, например, на локальном факторе выброса (LOF). [22] Некоторые подходы могут использовать расстояние до k-ближайших соседей , чтобы маркировать наблюдения как выбросы или не выбросы. [23]

Модифицированный тест Тау Томпсона

Модифицированный тест Thompson Tau [ требуется ссылка ] — это метод, используемый для определения наличия выброса в наборе данных. Сила этого метода заключается в том, что он учитывает стандартное отклонение набора данных, среднее значение и предоставляет статистически определенную зону отклонения; таким образом, предоставляя объективный метод определения того, является ли точка данных выбросом. [ требуется ссылка ] [24] Как это работает: Сначала определяется среднее значение набора данных. Затем определяется абсолютное отклонение между каждой точкой данных и средним значением. В-третьих, определяется область отклонения с использованием формулы:

;

где — критическое значение из распределения Стьюдента с n -2 степенями свободы, n — размер выборки, а s — стандартное отклонение выборки. Чтобы определить, является ли значение выбросом: Вычислите . Если δ > Область отклонения, точка данных является выбросом. Если δ ≤ Область отклонения, точка данных не является выбросом.

Модифицированный тест Thompson Tau используется для поиска одного выброса за раз (наибольшее значение δ удаляется, если это выброс). Это означает, что если точка данных оказывается выбросом, она удаляется из набора данных, и тест применяется снова с новым средним значением и областью отклонения. Этот процесс продолжается до тех пор, пока в наборе данных не останется выбросов.

В некоторых работах также изучались выбросы для номинальных (или категориальных) данных. В контексте набора примеров (или экземпляров) в наборе данных твердость экземпляра измеряет вероятность того, что экземпляр будет неправильно классифицирован ( где y — назначенная метка класса, а x представляет входное значение атрибута для экземпляра в обучающем наборе t ). [25] В идеале твердость экземпляра можно было бы вычислить путем суммирования по набору всех возможных гипотез H :

На практике эта формулировка невыполнима, поскольку H потенциально бесконечна, а вычисление неизвестно для многих алгоритмов. Таким образом, твердость экземпляра может быть аппроксимирована с использованием разнообразного подмножества :

где — гипотеза, выведенная обучающим алгоритмом, обученным на обучающем наборе t с гиперпараметрами . Твердость экземпляра обеспечивает непрерывное значение для определения того, является ли экземпляр выбросом.

Работа с выбросами

Выбор того, как обращаться с выбросом, должен зависеть от причины. Некоторые оценщики очень чувствительны к выбросам, особенно оценка ковариационных матриц .

Удержание

Даже если модель нормального распределения подходит для анализируемых данных, выбросы ожидаются для больших размеров выборки и не должны автоматически отбрасываться, если это так. [26] Вместо этого следует использовать метод, который устойчив к выбросам, для моделирования или анализа данных с естественными выбросами. [26]

Исключение

При принятии решения об удалении выброса необходимо учитывать причину. Как упоминалось ранее, если происхождение выброса можно отнести к экспериментальной ошибке или если можно иным образом определить, что выпадающая точка данных ошибочна, обычно рекомендуется удалить ее. [26] [27] Однако более желательно исправить ошибочное значение, если это возможно.

С другой стороны, удаление точки данных только потому, что она является выбросом, является спорной практикой, часто не одобряемой многими учеными и преподавателями естественных наук, поскольку это обычно делает статистические результаты недействительными. [26] [27] Хотя математические критерии обеспечивают объективный и количественный метод отклонения данных, они не делают практику более научно или методологически обоснованной, особенно в небольших наборах или там, где нельзя предположить нормальное распределение. Отклонение выбросов более приемлемо в областях практики, где базовая модель измеряемого процесса и обычное распределение погрешности измерения достоверно известны.

Два распространенных подхода к исключению выбросов — это усечение (или обрезка) и Winsorising . Обрезка отбрасывает выбросы, тогда как Winsorising заменяет выбросы ближайшими «неподозреваемыми» данными. [28] Исключение также может быть следствием процесса измерения, например, когда эксперимент не может полностью измерить такие экстремальные значения, что приводит к цензурированным данным. [29]

В задачах регрессии альтернативный подход может заключаться в исключении только тех точек, которые оказывают большое влияние на оценочные коэффициенты, используя такую ​​меру, как расстояние Кука . [30]

Если точка (или точки) данных исключены из анализа данных , это должно быть четко указано в любом последующем отчете.

Ненормальные распределения

Следует рассмотреть возможность того, что лежащее в основе распределение данных не является приблизительно нормальным, имея « толстые хвосты ». Например, при выборке из распределения Коши [31] дисперсия выборки увеличивается с размером выборки, среднее значение выборки не сходится с увеличением размера выборки, и выбросы ожидаются с гораздо большими скоростями, чем для нормального распределения. Даже небольшое различие в толщине хвостов может привести к большой разнице в ожидаемом количестве экстремальных значений.

Неопределенности членства в множестве

Подход на основе принадлежности к множеству предполагает, что неопределенность, соответствующая i -му измерению неизвестного случайного вектора x, представлена ​​множеством X i (вместо функции плотности вероятности). Если выбросы отсутствуют, x должен принадлежать пересечению всех X i . Когда выбросы возникают, это пересечение может быть пустым, и мы должны ослабить небольшое количество множеств X i (насколько это возможно), чтобы избежать какой-либо несогласованности. [32] Это можно сделать с помощью понятия q - ослабленного пересечения . Как показано на рисунке, q - ослабленное пересечение соответствует множеству всех x , которые принадлежат всем множествам, кроме q из них. Множества X i , которые не пересекают q - ослабленное пересечение, можно считать выбросами.

Рисунок 5. q -смягченное пересечение 6 множеств для q =2 (красный), q =3 (зеленый), q = 4 (синий), q = 5 (желтый).

Альтернативные модели

В случаях, когда причина выбросов известна, можно включить этот эффект в структуру модели, например, используя иерархическую байесовскую модель или смешанную модель . [33] [34]

Смотрите также

Ссылки

  1. ^ Grubbs, FE (февраль 1969). «Процедуры обнаружения выпадающих наблюдений в выборках». Technometrics . 11 (1): 1–21. doi :10.1080/00401706.1969.10490657. Выпадающее наблюдение, или «выброс», — это то, которое, по-видимому, заметно отклоняется от других членов выборки, в которой оно встречается.
  2. ^ Маддала, GS (1992). «Выбросы». Введение в эконометрику (2-е изд.). Нью-Йорк: MacMillan. С. 89. ISBN 978-0-02-374545-4Выброс — это наблюдение, которое сильно отличается от остальных наблюдений.
  3. ^ Пиментел, МА, Клифтон, ДА, Клифтон, Л., и Тарасенко, Л. (2014). Обзор обнаружения новизны. Обработка сигналов, 99, 215-249.
  4. ^ Grubbs 1969, стр. 1, где говорится: «Выходящее за рамки наблюдение может быть просто крайним проявлением случайной изменчивости, присущей данным. ... С другой стороны, выходящее за рамки наблюдение может быть результатом грубого отклонения от предписанной экспериментальной процедуры или ошибки в расчете или регистрации числового значения».
  5. ^ Рипли, Брайан Д. 2004. Надежная статистика. Архивировано 21 октября 2012 г. на Wayback Machine.
  6. ^ Чандан Мукерджи, Говард Уайт, Марк Вуйтс, 1998, «Эконометрика и анализ данных для развивающихся стран. Том 1» [1]
  7. ^ Ruan, Da ; Chen, Guoqing; Kerre, Etienne (2005). Wets, G. (ред.). Интеллектуальный интеллектуальный анализ данных: методы и приложения . Исследования в области вычислительного интеллекта. Том 5. Springer. стр. 318. ISBN 978-3-540-26256-5.
  8. ^ Zimek, Arthur; Filzmoser, Peter (2018). «Туда и обратно: обнаружение выбросов между статистическими рассуждениями и алгоритмами добычи данных» (PDF) . Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery . 8 (6): e1280. doi :10.1002/widm.1280. ISSN  1942-4787. S2CID  53305944. Архивировано из оригинала (PDF) 2021-11-14 . Получено 2019-12-11 .
  9. ^ Пиментел, МА, Клифтон, ДА, Клифтон, Л., и Тарасенко, Л. (2014). Обзор обнаружения новизны. Обработка сигналов, 99, 215-249.
  10. ^ Руссью, П .; Лерой, А. (1996), Надежная регрессия и обнаружение выбросов (3-е изд.), John Wiley & Sons
  11. ^ Ходж, Виктория Дж.; Остин, Джим (2004), «Обзор методологий обнаружения выбросов», Artificial Intelligence Review , 22 (2): 85–126, CiteSeerX 10.1.1.109.1943 , doi :10.1023/B:AIRE.0000045502.10941.a9, S2CID  3330313 
  12. ^ Барнетт, Вик; Льюис, Тоби (1994) [1978], Выбросы в статистических данных (3-е изд.), Wiley, ISBN 978-0-471-93094-5
  13. ^ ab Zimek, A.; Schubert, E.; Kriegel, H.-P. (2012). «Обзор неконтролируемого обнаружения выбросов в многомерных числовых данных». Статистический анализ и интеллектуальный анализ данных . 5 (5): 363–387. doi :10.1002/sam.11161. S2CID  6724536.
  14. ^ E178: Стандартная практика работы с выпадающими наблюдениями
  15. Бенджамин Пирс , «Критерий отклонения сомнительных наблюдений», Astronomical Journal II 45 (1852) и исправления к оригинальной статье.
  16. Пирс, Бенджамин (май 1877 г. – май 1878 г.). «О критерии Пирса». Труды Американской академии искусств и наук . 13 : 348–351. doi :10.2307/25138498. JSTOR  25138498.
  17. ^ Пирс, Чарльз Сандерс (1873) [1870]. «Приложение № 21. О теории ошибок наблюдения». Отчет суперинтенданта Береговой службы США, показывающий ход обследования в течение 1870 года : 200–224.. Электронная распечатка в формате PDF NOAA (переходит к отчету на стр. 200, PDF-файлы на стр. 215).
  18. ^ Пирс, Чарльз Сандерс (1986) [1982]. «О теории ошибок наблюдения». В Kloesel, Christian JW; et al. (ред.). Труды Чарльза С. Пирса: хронологическое издание. Том 3, 1872–1878. Блумингтон, Индиана: Indiana University Press. стр. 140–160. ISBN 978-0-253-37201-7.– Приложение 21, согласно редакционной заметке на стр. 515
  19. ^ Tukey, John W (1977). Исследовательский анализ данных. Addison-Wesley. ISBN 978-0-201-07616-5. OCLC  3058187.
  20. ^ Knorr, EM; Ng, RT; Tucakov, V. (2000). «Выбросы на основе расстояний: алгоритмы и приложения». The VLDB Journal, Международный журнал по очень большим базам данных . 8 (3–4): 237. CiteSeerX 10.1.1.43.1842 . doi :10.1007/s007780050006. S2CID  11707259. 
  21. ^ Рамасвами, С.; Растоги, Р.; Шим, К. (2000). Эффективные алгоритмы для извлечения выбросов из больших наборов данных . Труды международной конференции ACM SIGMOD 2000 года по управлению данными - SIGMOD '00. стр. 427. doi :10.1145/342009.335437. ISBN 1581132174.
  22. ^ Бреуниг, ММ; Кригель, Х.-П .; Нг, РТ; Сандер, Дж. (2000). LOF: Определение локальных выбросов на основе плотности (PDF) . Труды Международной конференции ACM SIGMOD 2000 года по управлению данными . SIGMOD . стр. 93–104. doi :10.1145/335191.335388. ISBN 1-58113-217-4.
  23. ^ Шуберт, Э.; Зимек, А.; Кригель, Х. -П. (2012). «Пересмотренное обнаружение локальных выбросов: обобщенный взгляд на локальность с приложениями к обнаружению пространственных, видео и сетевых выбросов». Data Mining and Knowledge Discovery . 28 : 190–237. doi :10.1007/s10618-012-0300-z. S2CID  19036098.
  24. ^ Томпсон .Р. (1985). "Заметка об ограниченном максимальном правдоподобии оценки с альтернативной моделью выброса". Журнал Королевского статистического общества. Серия B (методическая), том 47, № 1, стр. 53-55
  25. ^ Смит, М. Р.; Мартинес, Т.; Жиро-Кэрриер, К. (2014). «Анализ сложности данных на уровне экземпляра». Машинное обучение, 95(2): 225-256.
  26. ^ abcd Карч, Джулиан Д. (2023). «Выбросы не могут быть автоматически удалены». Журнал экспериментальной психологии: Общие сведения . 152 (6): 1735–1753. doi :10.1037/xge0001357. PMID  37104797. S2CID  258376426.
  27. ^ ab Bakker, Marjan; Wicherts, Jelte M. (2014). «Удаление выбросов, суммарные баллы и инфляция частоты ошибок типа I в независимых выборках t-тестов: сила альтернатив и рекомендаций». Психологические методы . 19 (3): 409–427. doi :10.1037/met0000014. PMID  24773354.
  28. ^ Уайк, Эдвард Л. (2006). Анализ данных: статистический учебник для студентов-психологов . Transaction Publishers. стр. 24–25. ISBN 9780202365350.
  29. ^ Диксон, У. Дж. (июнь 1960 г.). «Упрощенная оценка по цензурированным нормальным выборкам». Анналы математической статистики . 31 (2): 385–391. doi : 10.1214/aoms/1177705900 .
  30. ^ Кук, Р. Деннис (февраль 1977 г.). «Обнаружение влиятельных наблюдений в линейной регрессии». Технометрика (Американская статистическая ассоциация) 19 (1): 15–18.
  31. ^ Weisstein, Eric W. Распределение Коши. Из MathWorld--A Wolfram Web Resource
  32. ^ Жолен, Л. (2010). «Вероятностный подход к членству в множестве для надежной регрессии» (PDF) . Журнал статистической теории и практики . 4 : 155–167. doi :10.1080/15598608.2010.10411978. S2CID  16500768.
  33. ^ Робертс, С. и Тарасенко, Л.: 1995, Вероятностная сеть распределения ресурсов для обнаружения новизны. Neural Computation 6, 270–284.
  34. ^ Бишоп, CM (август 1994 г.). «Обнаружение новизны и проверка нейронной сети». Труды IEE — Зрение, обработка изображений и сигналов . 141 (4): 217–222. doi :10.1049/ip-vis:19941330.

Внешние ссылки