stringtranslate.com

Выброс

Рисунок 1. Ящик с данными эксперимента Майкельсона-Морли, показывающий четыре выброса в среднем столбце, а также один выброс в первом столбце.

В статистике выброс это точка данных , которая значительно отличается от других наблюдений. [1] [2] Выбросы могут быть вызваны изменчивостью измерений, указанием новых данных или результатом экспериментальной ошибки; последние иногда исключаются из набора данных . [3] [4] Выбросы могут указывать на интересные возможности, но также могут вызывать серьезные проблемы при статистическом анализе.

Выбросы могут возникать случайно в любом распределении, но они могут указывать на новое поведение или структуру в наборе данных, на ошибку измерения или на то, что совокупность имеет распределение с тяжелым хвостом . В случае ошибок измерения их желательно отбросить или использовать статистику, устойчивую к выбросам, тогда как в случае распределений с тяжелым хвостом они указывают на то, что распределение имеет высокую асимметрию и что следует быть очень осторожным при использовании инструментов или интуиции, предполагающие нормальное распределение . Частой причиной выбросов является смесь двух распределений, которые могут представлять собой две отдельные подгруппы или могут указывать на «правильное испытание» или «ошибку измерения»; это моделируется смешанной моделью .

В большинстве более крупных выборок данных некоторые точки данных будут находиться дальше от среднего значения выборки , чем это считается разумным. Это может быть связано со случайной систематической ошибкой или недостатками теории , которая создала предполагаемое семейство вероятностных распределений , или это может быть связано с тем, что некоторые наблюдения находятся далеко от центра данных. Таким образом, точки выбросов могут указывать на ошибочные данные, ошибочные процедуры или области, в которых определенная теория может оказаться недействительной. Однако в больших выборках следует ожидать небольшого количества выбросов (и не из-за каких-либо аномальных условий).

Выбросы, являющиеся наиболее экстремальными наблюдениями, могут включать в себя выборочный максимум или выборочный минимум , или и то, и другое, в зависимости от того, являются ли они чрезвычайно высокими или низкими. Однако максимум и минимум выборки не всегда являются выбросами, поскольку они не могут быть необычно далекими от других наблюдений.

Наивная интерпретация статистики, полученной на основе наборов данных, включающих выбросы, может ввести в заблуждение. Например, если вычисляется средняя температура 10 объектов в комнате, и девять из них имеют температуру от 20 до 25 градусов по Цельсию , а духовка имеет температуру 175 °C, среднее значение данных будет между 20 и 25 °C. C, но средняя температура будет между 35,5 и 40 °C. В этом случае медиана лучше отражает температуру случайно выбранного объекта (но не температуру в комнате), чем среднее значение; наивно интерпретировать среднее значение как «типичную выборку», эквивалентную медиане, неверно. Как показано в этом случае, выбросы могут указывать на точки данных, которые принадлежат другой совокупности , чем остальная часть выборки .

Оценщики , способные справляться с выбросами, считаются устойчивыми: медиана — это устойчивая статистика центральной тенденции , а среднее — нет. [5] Однако среднее значение обычно является более точной оценкой. [6]

Возникновение и причины

Относительные вероятности в нормальном распределении

В случае нормально распределенных данных правило трех сигм означает, что примерно 1 из 22 наблюдений будет отличаться от среднего значения на двойное стандартное отклонение или более, а 1 из 370 будет отклоняться на трехкратное стандартное отклонение. [7] В выборке из 1000 наблюдений наличие до пяти наблюдений, отклоняющихся от среднего значения более чем в три раза на стандартное отклонение, находится в пределах ожидаемого числа, менее чем в два раза превышающего ожидаемое количество и, следовательно, в пределах 1. стандартное отклонение ожидаемого числа – см. распределение Пуассона – и не указывает на аномалию. Однако если размер выборки составляет всего 100 человек, то всего лишь три таких выброса уже являются поводом для беспокойства, поскольку они более чем в 11 раз превышают ожидаемое число.

В общем, если характер распределения совокупности известен априори , можно проверить, значительно ли отклоняется число выбросов от ожидаемого: для заданного порогового значения (поэтому выборки выходят за пределы порогового значения с вероятностью p ) при данном распределении количество выбросов будет следовать биномиальному распределению с параметром p , которое обычно может быть хорошо аппроксимировано распределением Пуассона с λ = pn . Таким образом, если взять нормальное распределение с отсечкой 3 стандартных отклонений от среднего значения, p составит примерно 0,3%, и, таким образом, для 1000 испытаний можно аппроксимировать количество образцов, отклонение которых превышает 3 сигмы, распределением Пуассона с λ = 3.

Причины

Выбросы могут иметь множество аномальных причин. Физическое устройство для проведения измерений могло выйти из строя. Возможно, произошла ошибка при передаче или транскрипции данных. Выбросы возникают из-за изменений в поведении системы, мошеннического поведения, человеческой ошибки, ошибки приборов или просто из-за естественных отклонений в популяциях. Образец мог быть загрязнен элементами, не входящими в исследуемую популяцию. Альтернативно, выброс может быть результатом ошибки в предполагаемой теории, требующей дальнейшего исследования со стороны исследователя. Кроме того, патологический вид выбросов определенной формы появляется в различных наборах данных, что указывает на то, что причинный механизм для данных может отличаться в крайних случаях ( эффект Кинга ).

Определения и обнаружение

Не существует жесткого математического определения того, что представляет собой выброс; определение того, является ли наблюдение выбросом, в конечном итоге является субъективным занятием. [8] Существуют различные методы обнаружения выбросов, некоторые из которых рассматриваются как синонимы обнаружения новизны. [9] [10] [11] [12] [13] Некоторые из них являются графическими, например графики нормальной вероятности . Другие основаны на моделях. Коробочные диаграммы представляют собой гибрид.

Методы, основанные на моделях, которые обычно используются для идентификации, предполагают, что данные имеют нормальное распределение, и идентифицируют наблюдения, которые считаются «маловероятными» на основе среднего и стандартного отклонения:

Критерий Пирса

Предлагается в серии наблюдений определять предел погрешности, за которым могут быть отвергнуты все наблюдения, содержащие столь большую ошибку, при условии, что таких наблюдений будет столько же . Принцип, по которому предлагается решить эту задачу, состоит в том, что предлагаемые наблюдения следует отбрасывать, когда вероятность системы ошибок, полученной путем их сохранения, меньше, чем вероятность системы ошибок, полученной путем их отклонения, умноженной на вероятность делая так много, и не более, аномальных наблюдений. (Цитируется в редакционной заметке к Пирсу (издание 1982 г.) на стр. 516 из « Руководства по астрономии 2:558» Шовене.) [15] [16] [17] [18]

Заборы Тьюки

Другие методы отмечают наблюдения на основе таких показателей, как межквартильный размах . Например, если и являются нижним и верхним квартилем соответственно, то выброс можно определить как любое наблюдение за пределами диапазона:

для некоторой неотрицательной константы . Джон Тьюки предложил этот тест, где указывается «выброс» и указываются «далеко отклоняющиеся» данные. [19]

При обнаружении аномалий

В различных областях, таких как, помимо прочего, статистика , обработка сигналов , финансы , эконометрика , производство , сетевые технологии и интеллектуальный анализ данных , задача обнаружения аномалий может решаться другими подходами. Некоторые из них могут быть основаны на расстоянии [20] [21] и плотности, например, локальный коэффициент выбросов (LOF). [22] Некоторые подходы могут использовать расстояние до k-ближайших соседей , чтобы пометить наблюдения как выбросы или не выбросы. [23]

Модифицированный тау-тест Томпсона

Модифицированный тау-тест Томпсона [ нужна ссылка ] — это метод, используемый для определения наличия выброса в наборе данных. Сила этого метода заключается в том, что он учитывает стандартное отклонение набора данных, среднее значение и обеспечивает статистически определенную зону отклонения; тем самым предоставляя объективный метод определения того, является ли точка данных выбросом. [ нужна ссылка ] [24] Как это работает: во-первых, определяется среднее значение набора данных. Затем определяется абсолютное отклонение между каждой точкой данных и средним значением. В-третьих, определяется область отбраковки по формуле:

;

где – критическое значение распределения Стьюдента с n - 2 степенями свободы, n – размер выборки, а s – стандартное отклонение выборки. Чтобы определить, является ли значение выбросом: Вычислите . Если δ > Область отклонения, точка данных является выбросом. Если δ ≤ Область отклонения, точка данных не является выбросом.

Модифицированный тест Томпсона Тау используется для поиска одного выброса за раз (наибольшее значение δ удаляется, если оно является выбросом). Это означает, что если точка данных оказывается выбросом, она удаляется из набора данных, и тест применяется снова с новым средним значением и областью отклонения. Этот процесс продолжается до тех пор, пока в наборе данных не останется выбросов.

В некоторых работах также изучались выбросы номинальных (или категориальных) данных. В контексте набора примеров (или экземпляров) в наборе данных жесткость экземпляра измеряет вероятность того, что экземпляр будет неправильно классифицирован ( где y — назначенная метка класса, а x — значение входного атрибута для экземпляра в обучающем наборе). т ). [25] В идеале жесткость экземпляра должна рассчитываться путем суммирования набора всех возможных гипотез H :

На практике эта формулировка неосуществима, поскольку H потенциально бесконечна и вычисления неизвестны для многих алгоритмов. Таким образом, твердость экземпляра можно аппроксимировать, используя разнообразное подмножество :

где — гипотеза, вызванная алгоритмом обучения , обученным на обучающем наборе t с гиперпараметрами . Твердость экземпляра предоставляет непрерывное значение для определения того, является ли экземпляр экземпляром-выбросом.

Работа с выбросами

Выбор способа борьбы с выбросом должен зависеть от его причины. Некоторые средства оценки очень чувствительны к выбросам, особенно оценка ковариационных матриц .

Удержание

Даже если модель нормального распределения подходит для анализируемых данных, для больших размеров выборки ожидаются выбросы, и в этом случае их не следует автоматически отбрасывать. [26] Вместо этого следует использовать метод, устойчивый к выбросам, для моделирования или анализа данных с естественными выбросами. [26]

Исключение

При принятии решения об удалении выброса необходимо учитывать причину. Как упоминалось ранее, если происхождение выброса можно объяснить экспериментальной ошибкой или если иным образом можно определить, что исходящая точка данных ошибочна, обычно рекомендуется удалить ее. [26] [27] Однако более желательно исправить ошибочное значение, если это возможно.

С другой стороны, удаление точки данных только потому, что она является выбросом, является спорной практикой, часто осуждаемой многими учеными и преподавателями естественных наук, поскольку это обычно делает статистические результаты недействительными. [26] [27] Хотя математические критерии обеспечивают объективный и количественный метод отклонения данных, они не делают эту практику более научно или методологически обоснованной, особенно в небольших наборах или там, где невозможно предположить нормальное распределение. Отклонение выбросов более приемлемо в тех областях практики, где достоверно известны базовая модель измеряемого процесса и обычное распределение ошибок измерения.

Два распространенных подхода к исключению выбросов — это усечение (или обрезка) и Winsorising . Обрезка отбрасывает выбросы, тогда как Winsorising заменяет выбросы ближайшими «неподозрительными» данными. [28] Исключение также может быть следствием процесса измерения, например, когда эксперимент не полностью способен измерить такие экстремальные значения, что приводит к цензуре данных. [29]

В задачах регрессии альтернативным подходом может быть исключение только тех точек, которые оказывают большое влияние на оцененные коэффициенты, с использованием такой меры, как расстояние Кука . [30]

Если точка данных (или точки) исключена из анализа данных , это должно быть четко указано в любом последующем отчете.

Ненормальные распределения

Следует учитывать возможность того, что основное распределение данных не является примерно нормальным и имеет « толстые хвосты ». Например, при выборке из распределения Коши [31] дисперсия выборки увеличивается с размером выборки, среднее значение выборки не сходится по мере увеличения размера выборки, и выбросы ожидаются с гораздо большей частотой, чем для нормального распределения . Даже небольшая разница в толщине хвостов может существенно повлиять на ожидаемое количество экстремальных значений.

Неопределенности членства в множестве

Подход к набору членства предполагает, что неопределенность, соответствующая i- му измерению неизвестного случайного вектора x , представлена ​​набором X i (вместо функции плотности вероятности). Если выбросов нет, x должен принадлежать пересечению всех X i . При возникновении выбросов это пересечение может быть пустым, и нам следует ослабить небольшое количество наборов X i (как можно меньше), чтобы избежать несогласованности. [32] Это можно сделать, используя понятие q - релаксированного пересечения . Как показано на рисунке, q -релаксированное пересечение соответствует множеству всех x , которые принадлежат всем наборам, кроме q из них. Множества X i , которые не пересекают q -релаксированное пересечение, можно заподозрить как выбросы.

Рисунок 5. q -расслабленное пересечение 6 наборов для q =2 (красный), q =3 (зеленый), q =4 (синий), q =5 (желтый).

Альтернативные модели

В тех случаях, когда причина выбросов известна, возможно включить этот эффект в структуру модели, например, используя иерархическую модель Байеса или смешанную модель . [33] [34]

Смотрите также

Рекомендации

  1. ^ Граббс, FE (февраль 1969 г.). «Процедуры обнаружения посторонних наблюдений в выборках». Технометрика . 11 (1): 1–21. дои : 10.1080/00401706.1969.10490657. Исключительное наблюдение, или «выброс», — это наблюдение, которое заметно отличается от других членов выборки, в которой оно встречается.
  2. ^ Маддала, GS (1992). «Выбросы». Введение в эконометрику (2-е изд.). Нью-Йорк: Макмиллан. стр. 89. ISBN 978-0-02-374545-4. Выброс – это наблюдение, которое далеко удалено от остальных наблюдений.
  3. ^ Пиментел, Массачусетс, Клифтон, Д.А., Клифтон, Л., и Тарасенко, Л. (2014). Обзор обнаружения новизны. Обработка сигналов, 99, 215–249.
  4. ^ Граббс 1969, с. 1, в котором говорится: «Отклоняющееся наблюдение может быть просто крайним проявлением случайной изменчивости, присущей данным. ... С другой стороны, отдаленное наблюдение может быть результатом грубого отклонения от предписанной экспериментальной процедуры или ошибки в расчетах или регистрации. числовое значение».
  5. ^ Рипли, Брайан Д. 2004. Надежная статистика. Архивировано 21 октября 2012 г. в Wayback Machine.
  6. ^ Чандан Мукерджи, Ховард Уайт, Марк Вуйтс, 1998, «Эконометрика и анализ данных для развивающихся стран, том 1» [1]
  7. ^ Руан, Да; Чен, Гоцин; Керре, Этьен (2005). Уэтс, Г. (ред.). Интеллектуальный интеллектуальный анализ данных: методы и приложения . Исследования в области вычислительного интеллекта Vol. 5. Спрингер. п. 318. ИСБН 978-3-540-26256-5.
  8. ^ Зимек, Артур; Фильцмозер, Питер (2018). «Туда и обратно: обнаружение выбросов между статистическими рассуждениями и алгоритмами интеллектуального анализа данных» (PDF) . Междисциплинарные обзоры Wiley: интеллектуальный анализ данных и обнаружение знаний . 8 (6): e1280. дои : 10.1002/widm.1280. ISSN  1942-4787. S2CID  53305944. Архивировано из оригинала (PDF) 14 ноября 2021 г. Проверено 11 декабря 2019 г.
  9. ^ Пиментел, Массачусетс, Клифтон, Д.А., Клифтон, Л., и Тарасенко, Л. (2014). Обзор обнаружения новизны. Обработка сигналов, 99, 215–249.
  10. ^ Руссеу, П ; Лерой, А. (1996), Робастная регрессия и обнаружение выбросов (3-е изд.), John Wiley & Sons
  11. ^ Ходж, Виктория Дж.; Остин, Джим (2004), «Обзор методологий обнаружения выбросов», Обзор искусственного интеллекта , 22 (2): 85–126, CiteSeerX 10.1.1.109.1943 , doi :10.1023/B:AIRE.0000045502.10941.a9, S2CID  3330313 
  12. ^ Барнетт, Вик; Льюис, Тоби (1994) [1978], Выбросы в статистических данных (3-е изд.), Wiley, ISBN 978-0-471-93094-5
  13. ^ Аб Зимек, А.; Шуберт, Э.; Кригель, Х.-П. (2012). «Опрос по неконтролируемому обнаружению выбросов в многомерных числовых данных». Статистический анализ и интеллектуальный анализ данных . 5 (5): 363–387. дои : 10.1002/sam.11161. S2CID  6724536.
  14. ^ E178: Стандартная практика работы с отдаленными наблюдениями
  15. ^ Бенджамин Пирс , «Критерий отклонения сомнительных наблюдений», Astronomical Journal II 45 (1852 г.) и исправления к оригинальной статье.
  16. ^ Пирс, Бенджамин (май 1877 – май 1878). «По критерию Пирса». Труды Американской академии искусств и наук . 13 : 348–351. дои : 10.2307/25138498. JSTOR  25138498.
  17. ^ Пирс, Чарльз Сандерс (1873) [1870]. «Приложение № 21. К теории ошибок наблюдения». Отчет суперинтенданта береговой службы США, показывающий ход исследования в течение 1870 года : 200–224.. Электронная версия NOAA PDF (переходит к стр. 200 отчета, стр. 215 PDF-файла).
  18. ^ Пирс, Чарльз Сандерс (1986) [1982]. «К теории ошибок наблюдения». В Клозеле, Кристиан Дж.В.; и другие. (ред.). Сочинения Чарльза С. Пирса: хронологическое издание. Том. 3, 1872–1878. Блумингтон, Индиана: Издательство Университета Индианы. стр. 140–160. ISBN 978-0-253-37201-7.– Приложение 21, согласно примечанию редакции на стр. 515.
  19. ^ Тьюки, Джон В. (1977). Исследовательский анализ данных. Аддисон-Уэсли. ISBN 978-0-201-07616-5. ОСЛК  3058187.
  20. ^ Кнорр, Э.М.; Нг, РТ; Туцаков, В. (2000). «Выбросы на основе расстояния: алгоритмы и приложения». Журнал VLDB — международный журнал по очень большим базам данных . 8 (3–4): 237. CiteSeerX 10.1.1.43.1842 . дои : 10.1007/s007780050006. S2CID  11707259. 
  21. ^ Рамасвами, С.; Растоги, Р.; Шим, К. (2000). Эффективные алгоритмы обнаружения выбросов из больших наборов данных . Материалы международной конференции ACM SIGMOD 2000 г. по управлению данными - SIGMOD '00. п. 427. дои : 10.1145/342009.335437. ISBN 1581132174.
  22. ^ Бройниг, ММ; Кригель, Х.-П. ; Нг, РТ; Сандер, Дж. (2000). LOF: Идентификация локальных выбросов на основе плотности (PDF) . Материалы Международной конференции ACM SIGMOD 2000 года по управлению данными . СИГМОД . стр. 93–104. дои : 10.1145/335191.335388. ISBN 1-58113-217-4.
  23. ^ Шуберт, Э.; Зимек, А.; Кригель, Х.-П. (2012). «Переосмысление обнаружения локальных выбросов: обобщенный взгляд на местность с приложениями для обнаружения пространственных, видео и сетевых выбросов». Интеллектуальный анализ данных и обнаружение знаний . 28 : 190–237. doi : 10.1007/s10618-012-0300-z. S2CID  19036098.
  24. ^ Томпсон .Р. (1985). «Заметка об ограниченной оценке максимального правдоподобия с использованием альтернативной модели выбросов». Журнал Королевского статистического общества. Серия Б (Методическая), Том. 47, № 1, стр. 53-55.
  25. ^ Смит, MR; Мартинес, Т.; Жиро-Кэррье, К. (2014). «Анализ сложности данных на уровне экземпляра». Машинное обучение, 95(2): 225–256.
  26. ^ abcd Карч, Джулиан Д. (2023). «Выбросы не могут быть удалены автоматически». Журнал экспериментальной психологии: Общие сведения . 152 (6): 1735–1753. дои : 10.1037/xge0001357. PMID  37104797. S2CID  258376426.
  27. ^ Аб Баккер, Марджан; Вихертс, Желте М. (2014). «Удаление выбросов, сумма баллов и увеличение частоты ошибок типа I в независимых выборках t-тестов: сила альтернатив и рекомендаций». Психологические методы . 19 (3): 409–427. дои : 10.1037/met0000014. ПМИД  24773354.
  28. ^ Вайк, Эдвард Л. (2006). Анализ данных: статистический учебник для студентов-психологов . Издатели транзакций. стр. 24–25. ISBN 9780202365350.
  29. ^ Диксон, WJ (июнь 1960 г.). «Упрощенная оценка на основе подвергнутых цензуре нормальных образцов». Анналы математической статистики . 31 (2): 385–391. дои : 10.1214/aoms/1177705900 .
  30. ^ Кук, Р. Деннис (февраль 1977 г.). «Обнаружение влиятельных наблюдений в линейной регрессии». Технометрика (Американская статистическая ассоциация) 19 (1): 15–18.
  31. ^ Вайсштейн, Эрик В. Коши. Распределение. Из MathWorld — веб-ресурса Wolfram
  32. ^ Жолен, Л. (2010). «Вероятностный подход к членству в наборе для устойчивой регрессии» (PDF) . Журнал статистической теории и практики . 4 : 155–167. дои : 10.1080/15598608.2010.10411978. S2CID  16500768.
  33. ^ Робертс, С. и Тарасенко, Л.: 1995, Вероятностная сеть распределения ресурсов для обнаружения новизны. Нейронные вычисления 6, 270–284.
  34. ^ Бишоп, CM (август 1994 г.). «Обнаружение новинок и проверка нейронной сети». Слушания IEE - Видение, изображение и обработка сигналов . 141 (4): 217–222. doi : 10.1049/ip-vis: 19941330.

Внешние ссылки