Подход к анализу данных
В анализе данных обнаружение аномалий (также называемое обнаружением выбросов , а иногда и обнаружением новизны ) обычно понимается как идентификация редких элементов, событий или наблюдений, которые значительно отклоняются от большинства данных и не соответствуют четко определенному представлению о нормальном поведении. [1] Такие примеры могут вызывать подозрения, что они были созданы другим механизмом, [2] или кажутся несовместимыми с остальной частью этого набора данных. [3]
Обнаружение аномалий находит применение во многих областях, включая кибербезопасность , медицину , машинное зрение , статистику , нейробиологию , правоохранительные органы и финансовое мошенничество , и это лишь некоторые из них. Аномалии изначально искались на предмет явного отклонения или упущения в данных, чтобы помочь статистическому анализу, например, для вычисления среднего или стандартного отклонения. Они также были удалены для улучшения прогнозов из таких моделей, как линейная регрессия, и в последнее время их удаление помогает производительности алгоритмов машинного обучения. Однако во многих приложениях аномалии сами по себе представляют интерес и являются наблюдениями, наиболее желательными во всем наборе данных, которые необходимо идентифицировать и отделить от шума или нерелевантных выбросов.
Существуют три широкие категории методов обнаружения аномалий. [1] Контролируемые методы обнаружения аномалий требуют набора данных, который был помечен как «нормальный» и «ненормальный», и включают обучение классификатора. Однако этот подход редко используется при обнаружении аномалий из-за общей недоступности помеченных данных и присущей классам несбалансированности. Полуконтролируемые методы обнаружения аномалий предполагают, что некоторая часть данных помечена. Это может быть любая комбинация нормальных или аномальных данных, но чаще всего методы создают модель, представляющую нормальное поведение, из заданного нормального набора обучающих данных, а затем проверяют вероятность того, что модель сгенерирует тестовый экземпляр. Неконтролируемые методы обнаружения аномалий предполагают, что данные не помечены, и являются наиболее часто используемыми из-за их более широкого и релевантного применения.
Определение
В статистических и компьютерных сообществах было предпринято много попыток определить аномалию. Наиболее распространенные из них включают в себя следующее, и их можно разделить на три группы: те, которые неоднозначны, те, которые специфичны для метода с предопределенными пороговыми значениями, обычно выбранными эмпирически, и те, которые определены формально:
Плохо определено
- Выброс — это наблюдение, которое настолько сильно отличается от других наблюдений, что возникает подозрение, что оно было вызвано другим механизмом. [2]
- Аномалии — это экземпляры или совокупности данных, которые встречаются в наборе данных очень редко и характеристики которых существенно отличаются от большинства данных.
- Выброс — это наблюдение (или подмножество наблюдений), которое, по-видимому, не согласуется с остальной частью этого набора данных. [3]
- Аномалия — это точка или совокупность точек, которые относительно удалены от других точек в многомерном пространстве признаков.
- Аномалии — это закономерности в данных, которые не соответствуют четко определенному представлению о нормальном поведении. [1]
Специфический
- Пусть T — наблюдения из одномерного гауссовского распределения, а O — точка из T. Тогда z-оценка для O больше предварительно выбранного порогового значения тогда и только тогда, когда O является выбросом.
История
Обнаружение вторжений
Концепция обнаружения вторжений, критически важный компонент обнаружения аномалий, со временем значительно изменилась. Изначально это был ручной процесс, в ходе которого системные администраторы отслеживали необычные действия, такие как доступ к учетной записи пользователя, находящегося в отпуске, или неожиданную активность принтера. Этот подход не поддавался масштабированию и вскоре был заменен анализом журналов аудита и системных журналов на предмет признаков вредоносного поведения. [4]
К концу 1970-х и началу 1980-х годов анализ этих журналов в основном использовался ретроспективно для расследования инцидентов, поскольку объем данных делал его непрактичным для мониторинга в реальном времени. Доступность цифрового хранения в конечном итоге привела к тому, что журналы аудита анализировались онлайн, и были разработаны специализированные программы для просеивания данных. Однако эти программы обычно запускались в часы непиковой нагрузки из-за их вычислительной интенсивности. [4]
1990-е годы принесли с собой появление систем обнаружения вторжений в реальном времени, способных анализировать данные аудита по мере их генерации, что позволяет немедленно обнаруживать и реагировать на атаки. Это ознаменовало собой значительный сдвиг в сторону проактивного обнаружения вторжений. [4]
По мере дальнейшего развития этой области акцент сместился на создание решений, которые можно эффективно внедрять в больших и сложных сетевых средах, адаптируясь к постоянно растущему разнообразию угроз безопасности и динамическому характеру современных вычислительных инфраструктур. [4]
Приложения
Обнаружение аномалий применимо в очень большом количестве и разнообразии доменов и является важной подобластью неконтролируемого машинного обучения. Как таковое, оно имеет приложения в кибербезопасности, обнаружении вторжений , обнаружении мошенничества , обнаружении неисправностей, мониторинге работоспособности системы, обнаружении событий в сенсорных сетях, обнаружении нарушений экосистемы, обнаружении дефектов в изображениях с использованием машинного зрения , медицинской диагностике и обеспечении соблюдения законов. [5]
Обнаружение вторжений
Обнаружение аномалий было предложено для систем обнаружения вторжений (IDS) Дороти Деннинг в 1986 году. [6] Обнаружение аномалий для IDS обычно выполняется с помощью пороговых значений и статистики, но может также выполняться с помощью мягких вычислений и индуктивного обучения. [7] Типы функций, предложенные в 1999 году, включали профили пользователей, рабочих станций, сетей, удаленных хостов, групп пользователей и программ на основе частот, средних значений, дисперсий, ковариаций и стандартных отклонений. [8] Аналогом обнаружения аномалий в обнаружении вторжений является обнаружение неправомерного использования .
Обнаружение мошенничества в сфере финтеха
Обнаружение аномалий имеет жизненно важное значение в финтехе для предотвращения мошенничества . [9] [10]
Предварительная обработка
Предварительная обработка данных для удаления аномалий может быть важным шагом в анализе данных и выполняется по ряду причин. Такие статистические данные, как среднее значение и стандартное отклонение, становятся более точными после удаления аномалий, а также может быть улучшена визуализация данных. В контролируемом обучении удаление аномальных данных из набора данных часто приводит к статистически значимому повышению точности. [11] [12]
Видеонаблюдение
Обнаружение аномалий становится все более важным в видеонаблюдении для повышения безопасности и сохранности. [13] [14] С появлением технологий глубокого обучения методы, использующие сверточные нейронные сети (CNN) и простые рекуррентные единицы (SRU), показали значительные перспективы в выявлении необычных действий или поведения в видеоданных. [13] Эти модели могут обрабатывать и анализировать обширные видеопотоки в режиме реального времени, распознавая закономерности, которые отклоняются от нормы, что может указывать на потенциальные угрозы безопасности или нарушения безопасности. [13]
ИТ-инфраструктура
В управлении ИТ-инфраструктурой обнаружение аномалий имеет решающее значение для обеспечения бесперебойной работы и надежности услуг. [15] Такие методы, как библиотека ИТ-инфраструктуры (ITIL) и фреймворки мониторинга, используются для отслеживания и управления производительностью системы и пользовательским опытом. [15] Обнаружение аномалий может помочь выявить и предотвратить потенциальное снижение производительности или сбои системы, тем самым поддерживая производительность и эффективность бизнес-процессов. [15]
Системы Интернета вещей
Обнаружение аномалий имеет решающее значение для безопасности и эффективности систем Интернета вещей (IoT). [16] Оно помогает выявлять системные сбои и нарушения безопасности в сложных сетях устройств IoT. [16] Методы должны управлять данными в реальном времени, различными типами устройств и эффективно масштабироваться. Гарб и др. [17] представили многоступенчатую структуру обнаружения аномалий, которая улучшает традиционные методы за счет включения пространственной кластеризации, кластеризации на основе плотности и локально-чувствительного хеширования. Этот индивидуальный подход разработан для лучшей обработки обширной и разнообразной природы данных IoT, тем самым повышая безопасность и эксплуатационную надежность в интеллектуальной инфраструктуре и промышленных системах IoT. [17]
Нефтяная промышленность
Обнаружение аномалий имеет решающее значение в нефтяной промышленности для мониторинга критически важного оборудования. [18] Марти и др. использовали новый алгоритм сегментации для анализа данных датчиков для обнаружения аномалий в реальном времени. [18] Такой подход помогает быстро выявлять и устранять любые нарушения в показаниях датчиков, обеспечивая надежность и безопасность нефтяных операций. [18]
Мониторинг нефте- и газопроводов
В нефтегазовом секторе обнаружение аномалий имеет решающее значение не только для технического обслуживания и безопасности, но и для защиты окружающей среды. [19] Альджамил и др. предлагают усовершенствованную модель на основе машинного обучения для обнаружения небольших утечек в нефте- и газопроводах, что может быть невыполнимо традиционными методами. [19]
Методы
В литературе было предложено множество методов обнаружения аномалий. [1] [20] Производительность методов обычно зависит от наборов данных. Например, некоторые из них могут подходить для обнаружения локальных выбросов, в то время как другие — глобальных, и методы имеют небольшие систематические преимущества по сравнению с другими при сравнении по многим наборам данных. [21] [22] Почти все алгоритмы также требуют установки неинтуитивных параметров, критических для производительности, и обычно неизвестных до применения. Некоторые из популярных методов упомянуты ниже и разбиты на категории:
Статистический
Без параметров
Параметрический
Плотность
Нейронные сети
- Репликаторные нейронные сети , [35] автокодировщики , вариационные автокодировщики, [36] нейронные сети с долговременной кратковременной памятью [37]
- Байесовские сети [35]
- Скрытые марковские модели (СММ) [35]
- Минимальный ковариационный определитель [38] [39]
- Глубокое обучение [13]
- Сверточные нейронные сети (CNN): CNN показали исключительную производительность в области неконтролируемого обучения для обнаружения аномалий, особенно при анализе изображений и видеоданных. [13] Их способность автоматически и иерархически изучать пространственные иерархии признаков от низкоуровневых до высокоуровневых шаблонов делает их особенно подходящими для обнаружения визуальных аномалий. Например, CNN можно обучать на наборах данных изображений для выявления нетипичных шаблонов, указывающих на дефекты или ненормальные условия в сценариях контроля качества в промышленности. [40]
- Простые рекуррентные единицы (SRU): В данных временных рядов SRU, тип рекуррентной нейронной сети, эффективно использовались для обнаружения аномалий путем захвата временных зависимостей и аномалий последовательности. [13] В отличие от традиционных RNN, SRU разработаны так, чтобы быть более быстрыми и более параллелизуемыми, предлагая лучшее соответствие для обнаружения аномалий в реальном времени в сложных системах, таких как динамические финансовые рынки или предиктивное обслуживание в оборудовании, где быстрое выявление временных нарушений имеет решающее значение. [41]
На основе кластера
Ансамбли
Другие
Оценка выбросов на основе гистограмм (HBOS) использует гистограммы значений и предполагает независимость признаков для быстрых прогнозов. [50]
Обнаружение аномалий в динамических сетях
Динамические сети, такие как представляющие финансовые системы, взаимодействия в социальных сетях и транспортную инфраструктуру, подвержены постоянным изменениям, что делает обнаружение аномалий в них сложной задачей. В отличие от статических графов, динамические сети отражают развивающиеся отношения и состояния, требуя адаптивных методов для обнаружения аномалий.
Типы аномалий в динамических сетях
- Аномалии сообщества
- Аномалии сжатия
- Аномалии разложения
- Аномалии расстояний
- Аномалии вероятностной модели
Обнаружение объяснимых аномалий
Многие из рассмотренных выше методов дают только прогноз оценки аномалии, который часто можно объяснить пользователям как точку, находящуюся в области низкой плотности данных (или относительно низкой плотности по сравнению с плотностями соседей). В объяснимом искусственном интеллекте пользователи требуют методы с более высокой объяснимостью. Некоторые методы допускают более подробные объяснения:
- Степень выброса подпространства (SOD) [30] определяет атрибуты, в которых образец является нормальным, и атрибуты, в которых образец отклоняется от ожидаемого.
- Вероятности корреляционных выбросов (COP) [31] вычисляют вектор ошибок того, как точка выборки отклоняется от ожидаемого местоположения, что можно интерпретировать как контрфактуальное объяснение: выборка была бы нормальной, если бы ее переместили в это местоположение.
Программное обеспечение
- ELKI — это набор инструментов для анализа данных на Java с открытым исходным кодом, содержащий несколько алгоритмов обнаружения аномалий, а также ускорение индексации для них.
- PyOD — это библиотека Python с открытым исходным кодом, разработанная специально для обнаружения аномалий. [51]
- scikit-learn — это библиотека Python с открытым исходным кодом, которая содержит несколько алгоритмов для неконтролируемого обнаружения аномалий.
- Wolfram Mathematica предоставляет функциональные возможности для неконтролируемого обнаружения аномалий в различных типах данных [52]
Наборы данных
- Репозиторий данных эталонных тестов обнаружения аномалий с тщательно отобранными наборами данных Мюнхенского университета Людвига-Максимилиана ; Зеркало Архивировано 31.03.2022 в Wayback Machine в Университете Сан-Паулу .
- ODDS – ODDS: большая коллекция общедоступных наборов данных для обнаружения выбросов с достоверными данными в различных областях.
- Тест неконтролируемого обнаружения аномалий в Harvard Dataverse: наборы данных для неконтролируемого обнаружения аномалий с использованием наземных данных.
- Репозиторий данных KMASH в Research Data Australia, содержащий более 12 000 наборов данных по обнаружению аномалий с наземными данными.
Смотрите также
Ссылки
- ^ abcd Чандола, В.; Банерджи, А.; Кумар, В. (2009). «Обнаружение аномалий: обзор». ACM Computing Surveys . 41 (3): 1–58. doi :10.1145/1541880.1541882. S2CID 207172599.
- ^ ab Хокинс, Дуглас М. (1980). Идентификация выбросов . Springer. ISBN 978-0-412-21900-9. OCLC 6912274.
- ^ ab Barnett, Vic; Lewis, Lewis (1978). Выбросы в статистических данных . Wiley. ISBN 978-0-471-99599-9. OCLC 1150938591.
- ^ abcd Kemmerer, RA; Vigna, G. (апрель 2002 г.). «Обнаружение вторжений: краткая история и обзор». Computer . 35 (4): supl27–supl30. doi :10.1109/mc.2002.1012428. ISSN 0018-9162.
- ^ Аггарвал, Чару (2017). Анализ выбросов . Springer Publishing Company, Incorporated. ISBN 978-3319475776.
- ^ Деннинг, Д. Э. (1987). «Модель обнаружения вторжений» (PDF) . Труды IEEE по программной инженерии . SE-13 (2): 222–232. CiteSeerX 10.1.1.102.5127 . doi :10.1109/TSE.1987.232894. S2CID 10028835. Архивировано (PDF) из оригинала 22 июня 2015 г.
- ^ Teng, HS; Chen, K.; Lu, SC (1990). «Адаптивное обнаружение аномалий в реальном времени с использованием индуктивно сгенерированных последовательных шаблонов». Труды. Симпозиум компьютерного общества IEEE 1990 года по исследованиям в области безопасности и конфиденциальности (PDF) . стр. 278–284. doi :10.1109/RISP.1990.63857. ISBN 978-0-8186-2060-7. S2CID 35632142.
- ^ Джонс, Анита К.; Силкен, Роберт С. (2000). «Обнаружение вторжений в компьютерные системы: обзор». Технический отчет по компьютерным наукам . Кафедра компьютерных наук, Университет Вирджинии: 1–25}.
- ^ Стоянович, Бранка; Божич, Йосип; Хофер-Шмитц, Катарина; Нарганг, Кай; Вебер, Андреас; Бади, Атта; Сундарам, Махешкумар; Джордан, Эллиот; Руневич, Джоэл (январь 2021 г.). «Следуйте по следу: машинное обучение для обнаружения мошенничества в финтех-приложениях». Датчики . 21 (5): 1594. Bibcode : 2021Senso..21.1594S. doi : 10.3390/s21051594 . ISSN 1424-8220. PMC 7956727. PMID 33668773 .
- ^ Ахмед, Мохиуддин; Махмуд, Абдун Насер; Ислам, Мд. Рафикул (февраль 2016 г.). «Обзор методов обнаружения аномалий в финансовой сфере». Future Generation Computer Systems . 55 : 278–288. doi :10.1016/j.future.2015.01.001. ISSN 0167-739X. S2CID 204982937.
- ^ Томек, Иван (1976). «Эксперимент с отредактированным правилом ближайшего соседа». Труды IEEE по системам, человеку и кибернетике . 6 (6): 448–452. doi :10.1109/TSMC.1976.4309523.
- ^ Смит, М. Р.; Мартинес, Т. (2011). «Повышение точности классификации путем выявления и удаления случаев, которые следует классифицировать неправильно» (PDF) . Международная объединенная конференция по нейронным сетям 2011 г. . стр. 2690. CiteSeerX 10.1.1.221.1371 . doi :10.1109/IJCNN.2011.6033571. ISBN 978-1-4244-9635-8. S2CID 5809822.
- ^ abcdef Касим, Марьям; Верду, Елена (2023-06-01). "Система обнаружения аномалий видео с использованием глубоких сверточных и рекуррентных моделей". Результаты в инженерии . 18 : 101026. doi : 10.1016/j.rineng.2023.101026 . ISSN 2590-1230. S2CID 257728239.
- ^ Чжан, Тан; Чоудхери, Ааканкша; Бахл, Парамвир (Виктор); Джеймисон, Кайл; Банерджи, Суман (2015-09-07). «Проектирование и реализация беспроводной системы видеонаблюдения». Труды 21-й ежегодной международной конференции по мобильным вычислениям и сетям. MobiCom '15. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 426–438. doi :10.1145/2789168.2790123. ISBN 978-1-4503-3619-2. S2CID 12310150.
- ^ abc Gow, Richard; Rabhi, Fethi A.; Venugopal, Srikumar (2018). «Обнаружение аномалий в сложных системах приложений реального мира». IEEE Transactions on Network and Service Management . 15 : 83–96. doi : 10.1109/TNSM.2017.2771403. hdl : 1959.4/unsworks_73660 . S2CID 3883483. Получено 08.11.2023 .
- ^ ab Chatterjee, Ayan; Ahmed, Bestoun S. (август 2022 г.). «Методы и приложения обнаружения аномалий IoT: обзор». Internet of Things . 19 : 100568. arXiv : 2207.09092 . doi : 10.1016/j.iot.2022.100568 . ISSN 2542-6605. S2CID 250644468.
- ^ ab Garg, Sahil; Kaur, Kuljeet; Batra, Shalini; Kaddoum, Georges; Kumar, Neeraj; Boukerche, Azzedine (2020-03-01). «Многоэтапная схема обнаружения аномалий для повышения безопасности приложений с поддержкой IoT». Future Generation Computer Systems . 104 : 105–118. doi : 10.1016/j.future.2019.09.038. ISSN 0167-739X. S2CID 204077191.
- ^ abc Марти, Луис; Санчес-Пи, Наят; Молина, Хосе Мануэль; Гарсия, Ана Кристина Бичарра (февраль 2015 г.). «Обнаружение аномалий на основе данных датчиков в приложениях нефтяной промышленности». Датчики . 15 (2): 2774–2797. Bibcode : 2015Senso..15.2774M. doi : 10.3390/s150202774 . ISSN 1424-8220. PMC 4367333. PMID 25633599 .
- ^ ab Aljameel, Sumayh S.; Alomari, Dorieh M.; Alismail, Shatha; Khawaher, Fatimah; Alkhudhair, Aljawharah A.; Aljubran, Fatimah; Alzannan, Razan M. (август 2022 г.). "Модель обнаружения аномалий для нефтегазовых трубопроводов с использованием машинного обучения". Computation . 10 (8): 138. doi : 10.3390/computation10080138 . ISSN 2079-3197.
- ^ Zimek, Arthur ; Filzmoser, Peter (2018). «Туда и обратно: обнаружение выбросов между статистическими рассуждениями и алгоритмами добычи данных» (PDF) . Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery . 8 (6): e1280. doi :10.1002/widm.1280. ISSN 1942-4787. S2CID 53305944. Архивировано из оригинала (PDF) 2021-11-14 . Получено 2019-12-09 .
- ^ Кампос, Гильерме О.; Зимек, Артур ; Сандер, Йорг; Кампелло, Рикардо Дж. ГБ.; Миценкова, Барбора; Шуберт, Эрих; Ассен, Ира; Хоул, Майкл Э. (2016). «Об оценке неконтролируемого обнаружения выбросов: меры, наборы данных и эмпирическое исследование». Data Mining and Knowledge Discovery . 30 (4): 891. doi :10.1007/s10618-015-0444-8. ISSN 1384-5810. S2CID 1952214.
- ^ Репозиторий данных эталонных тестов обнаружения аномалий Мюнхенского университета имени Людвига-Максимилиана ; Зеркало. Архивировано 31 марта 2022 г. на Wayback Machine в Университете Сан-Паулу .
- ^ Knorr, EM; Ng, RT; Tucakov, V. (2000). «Выбросы на основе расстояний: алгоритмы и приложения». The VLDB Journal, Международный журнал по очень большим базам данных . 8 (3–4): 237–253. CiteSeerX 10.1.1.43.1842 . doi :10.1007/s007780050006. S2CID 11707259.
- ^ Рамасвами, С.; Растоги, Р.; Шим, К. (2000). Эффективные алгоритмы для извлечения выбросов из больших наборов данных . Труды международной конференции ACM SIGMOD 2000 года по управлению данными – SIGMOD '00. стр. 427. doi :10.1145/342009.335437. ISBN 1-58113-217-4.
- ^ Angiulli, F.; Pizzuti, C. (2002). Быстрое обнаружение выбросов в многомерных пространствах . Принципы добычи данных и обнаружения знаний. Конспект лекций по информатике. Том 2431. стр. 15. doi : 10.1007/3-540-45681-3_2 . ISBN 978-3-540-44037-6.
- ^ Бреуниг, ММ; Кригель, Х.-П .; Нг, РТ; Сандер, Дж. (2000). LOF: Определение локальных выбросов на основе плотности (PDF) . Труды Международной конференции ACM SIGMOD 2000 года по управлению данными . SIGMOD . стр. 93–104. doi :10.1145/335191.335388. ISBN 1-58113-217-4.
- ^ Лю, Фэй Тони; Тин, Кай Мин; Чжоу, Чжи-Хуа (декабрь 2008 г.). «Лес изоляции». Восьмая международная конференция IEEE по интеллектуальному анализу данных 2008 г. стр. 413–422. doi :10.1109/ICDM.2008.17. ISBN 9780769535029. S2CID 6505449.
- ^ Лю, Фэй Тони; Тин, Кай Мин; Чжоу, Чжи-Хуа (март 2012 г.). «Обнаружение аномалий на основе изоляции». Труды ACM по обнаружению знаний из данных . 6 (1): 1–39. doi :10.1145/2133360.2133363. S2CID 207193045.
- ^ Шуберт, Э.; Зимек, А .; Кригель, Х. -П. (2012). «Пересмотренное обнаружение локальных выбросов: обобщенный взгляд на локальность с приложениями к обнаружению пространственных, видео и сетевых выбросов». Data Mining and Knowledge Discovery . 28 : 190–237. doi :10.1007/s10618-012-0300-z. S2CID 19036098.
- ^ ab Кригель, HP ; Крёгер, П.; Шуберт, Э.; Зимек, А. (2009). Обнаружение выбросов в осепараллельных подпространствах высокоразмерных данных . Достижения в области обнаружения знаний и добычи данных. Конспект лекций по информатике. Том 5476. стр. 831. doi :10.1007/978-3-642-01307-2_86. ISBN 978-3-642-01306-5.
- ^ ab Kriegel, HP ; Kroger, P.; Schubert, E.; Zimek, A. (2012). Обнаружение выбросов в произвольно ориентированных подпространствах . 2012 IEEE 12th International Conference on Data Mining. стр. 379. doi :10.1109/ICDM.2012.21. ISBN 978-1-4673-4649-8.
- ^ Fanaee-T, H.; Gama, J. (2016). «Обнаружение аномалий на основе тензоров: междисциплинарный обзор». Системы, основанные на знаниях . 98 : 130–147. doi :10.1016/j.knosys.2016.01.027. S2CID 16368060.
- ^ Zimek, A. ; Schubert, E.; Kriegel, H.-P. (2012). «Обзор неконтролируемого обнаружения выбросов в многомерных числовых данных». Статистический анализ и интеллектуальный анализ данных . 5 (5): 363–387. doi :10.1002/sam.11161. S2CID 6724536.
- ^ Schölkopf, B. ; Platt, JC; Shawe-Taylor, J.; Smola, AJ; Williamson, RC (2001). «Оценка поддержки многомерного распределения». Neural Computation . 13 (7): 1443–71. CiteSeerX 10.1.1.4.4106 . doi :10.1162/089976601750264965. PMID 11440593. S2CID 2110475.
- ^ abc Хокинс, Саймон; Хе, Хунсин; Уильямс, Грэм; Бакстер, Рохан (2002). «Обнаружение выбросов с использованием репликаторных нейронных сетей». Хранилища данных и обнаружение знаний . Конспект лекций по информатике. Том 2454. С. 170–180. CiteSeerX 10.1.1.12.3366 . doi :10.1007/3-540-46145-0_17. ISBN 978-3-540-44123-6. S2CID 6436930.
- ^ An, J.; Cho, S. (2015). "Вариационное автокодирование на основе обнаружения аномалий с использованием вероятности реконструкции" (PDF) . Специальная лекция по IE . 2 (1): 1–18. SNUDM-TR-2015-03.
- ^ Малхотра, Панкадж; Виг, Лавекеш; Шрофф, Гаутман; Агарвал, Пунит (22–24 апреля 2015 г.). Сети краткосрочной памяти для обнаружения аномалий во временных рядах. ESANN 2015: 23-й Европейский симпозиум по искусственным нейронным сетям, вычислительному интеллекту и машинному обучению. стр. 89–94. ISBN 978-2-87587-015-5.
- ^ Хьюберт, Миа ; Дебрюйн, Михиль; Руссью, Питер Дж. (2018). «Определитель минимальной ковариации и расширения». WIREs Computational Statistics . 10 (3). arXiv : 1709.07045 . doi : 10.1002/wics.1421 . ISSN 1939-5108. S2CID 67227041.
- ^ Хьюберт, Миа ; Дебрюйн, Михиль (2010). «Минимальный ковариационный детерминант». WIREs Computational Statistics . 2 (1): 36–43. doi :10.1002/wics.61. ISSN 1939-0068. S2CID 123086172.
- ^ Alzubaidi, Laith; Zhang, Jinglan; Humaidi, Amjad J.; Al-Dujaili, Ayad; Duan, Ye; Al-Shamma, Omran; Santamaría, J.; Fadhel, Mohammed A.; Al-Amidie, Muthana; Farhan, Laith (2021-03-31). «Обзор глубокого обучения: концепции, архитектуры CNN, проблемы, приложения, будущие направления». Журнал больших данных . 8 (1): 53. doi : 10.1186/s40537-021-00444-8 . ISSN 2196-1115. PMC 8010506. PMID 33816053 .
- ^ Belay, Mohammed Ayalew; Blakseth, Sindre Stenen; Rasheed, Adil; Salvo Rossi, Pierluigi (январь 2023 г.). «Неконтролируемое обнаружение аномалий для многомерных временных рядов на основе Интернета вещей: существующие решения, анализ производительности и будущие направления». Датчики . 23 (5): 2844. Bibcode : 2023Senso..23.2844B. doi : 10.3390/s23052844 . ISSN 1424-8220. PMC 10007300. PMID 36905048 .
- ^ He, Z.; Xu, X.; Deng, S. (2003). «Обнаружение локальных выбросов на основе кластеров». Pattern Recognition Letters . 24 (9–10): 1641–1650. Bibcode : 2003PaReL..24.1641H. CiteSeerX 10.1.1.20.4242 . doi : 10.1016/S0167-8655(03)00003-5.
- ^ Кампелло, Р. Дж. Б.; Мулави, Д.; Зимек, А .; Сандер, Дж. (2015). «Оценки иерархической плотности для кластеризации, визуализации и обнаружения выбросов данных». Труды ACM по обнаружению знаний из данных . 10 (1): 5:1–51. doi : 10.1145/2733381. S2CID 2887636.
- ^ Лазаревич, А.; Кумар, В. (2005). «Объединение признаков для обнаружения выбросов». Труды одиннадцатой международной конференции ACM SIGKDD по обнаружению знаний в добыче данных . С. 157–166. CiteSeerX 10.1.1.399.425 . doi :10.1145/1081870.1081891. ISBN 978-1-59593-135-1. S2CID 2054204.
- ^ Нгуен, Х. В.; Анг, Х. Х.; Гопалкришнан, В. (2010). Извлечение выбросов с помощью ансамбля гетерогенных детекторов в случайных подпространствах . Системы баз данных для расширенных приложений. Конспект лекций по информатике. Том 5981. стр. 368. doi :10.1007/978-3-642-12026-8_29. ISBN 978-3-642-12025-1.
- ^ Кригель, HP ; Крёгер, P.; Шуберт, E.; Зимек, A. (2011). Интерпретация и унификация оценок выбросов . Труды Международной конференции SIAM 2011 года по интеллектуальному анализу данных. С. 13–24. CiteSeerX 10.1.1.232.2719 . doi :10.1137/1.9781611972818.2. ISBN 978-0-89871-992-5.
- ^ Шуберт, Э.; Войдановски, Р.; Зимек, А .; Кригель, Х. П. (2012). Об оценке рейтингов и оценок выбросов . Труды Международной конференции SIAM 2012 года по интеллектуальному анализу данных. С. 1047–1058. doi :10.1137/1.9781611972825.90. ISBN 978-1-61197-232-0.
- ^ Zimek, A. ; Campello, RJGB; Sander, JR (2014). «Ансамбли для неконтролируемого обнаружения выбросов». ACM SIGKDD Explorations Newsletter . 15 : 11–22. doi :10.1145/2594473.2594476. S2CID 8065347.
- ^ Zimek, A. ; Campello, RJGB; Sander, JR (2014). Возмущение данных для ансамблей обнаружения выбросов . Труды 26-й Международной конференции по управлению научными и статистическими базами данных – SSDBM '14. стр. 1. doi :10.1145/2618243.2618257. ISBN 978-1-4503-2722-0.
- ^ Голдштейн, Маркус; Денгель, Андреас (2012). "Оценка выбросов на основе гистограммы (HBOS): быстрый алгоритм обнаружения аномалий без учителя" (PDF) . Персональная страница Маркуса Голдштейна .(Только постер на конференции KI 2012, в материалах не указан)
- ^ Чжао, Юэ; Насрулла, Зайн; Ли, Чжэн (2019). «Pyod: набор инструментов Python для масштабируемого обнаружения выбросов» (PDF) . Журнал исследований машинного обучения . 20 . arXiv : 1901.01588 .
- ^ "FindAnomalies". Документация Mathematica .