Локальный выброс

При обнаружении аномалий локальный коэффициент выбросов ( LOF ) — это алгоритм, предложенный Маркусом М. Бройнигом, Хансом-Петером Кригелем , Раймондом Т. Нг и Йоргом Сандером в 2000 году для поиска аномальных точек данных путем измерения локального отклонения заданной точки данных. по отношению к своим соседям. ^[1]

LOF разделяет некоторые концепции с DBSCAN и OPTICS , такие как концепции «основного расстояния» и «расстояния достижимости», которые используются для оценки локальной плотности. ^[2]

Основная идея

Коэффициент локального выброса основан на концепции локальной плотности, где локальность определяется k ближайших соседей, расстояние до которых используется для оценки плотности. Сравнивая локальную плотность объекта с локальными плотностями его соседей, можно идентифицировать области с одинаковой плотностью и точки, которые имеют значительно меньшую плотность, чем их соседи. Они считаются выбросами .

Локальная плотность оценивается типичным расстоянием, на котором точку можно «достичь» от ее соседей. Определение «расстояния достижимости», используемое в LOF, является дополнительной мерой для получения более стабильных результатов в кластерах. «Расстояние достижимости», используемое LOF, имеет некоторые тонкие детали, которые часто оказываются неправильными во вторичных источниках, например, в учебнике Этема Алпайдина. ^[3]

Формальный

Пусть $k -distance(A)$ — расстояние от объекта A до k -го ближайшего соседа. Обратите внимание, что в набор k ближайших соседей входят все объекты на этом расстоянии, которых в случае «связи» может быть более k объектов. Обозначим множество k ближайших соседей как $N k (A)$ .

Иллюстрация расстояния достижимости. Объекты B и C имеют одинаковое расстояние достижимости ( $k=3$ ), а $D$ не является ближайшим соседом k.

Это расстояние используется для определения так называемого расстояния достижимости :

$расстояние достижимости k (A, B) = max {k -distance (B), d (A, B)}$

Другими словами, расстояние достижимости объекта A от B — это истинное расстояние между двумя объектами, но, по крайней мере, k $- расстояние$ до B. Объекты, принадлежащие к k ближайшим соседям B («ядро» B , см. кластерный анализ DBSCAN ), считаются одинаково удаленными. Причина этого заключается в уменьшении статистических флуктуаций между всеми точками A , близкими к B , где увеличение значения k увеличивает эффект сглаживания. ^[1] Обратите внимание, что это не расстояние в математическом определении, поскольку оно не симметрично. (Хотя частой ошибкой ^[4] является всегда использование $k -distance(A)$ , это приводит к немного другому методу, называемому Simplified-LOF ^[4] )

Плотность локальной достижимости объекта A определяется выражением

$lrd k (A):=1 /(.mw-parser-output .sfrac{white-space:nowrap}.mw-parser-output .sfrac.tion,.mw-parser-output .sfrac .tion{display:inline-block;vertical-align:-0.5em;font-size:85%;text-align:center}.mw-parser-output .sfrac .num{display:block;line-height:1em;margin:0.0em 0.1em;border-bottom:1px solid}.mw-parser-output .sfrac .den{display:block;line-height:1em;margin:0.1em 0.1em}.mw-parser-output .sr-only{border:0;clip:rect(0,0,0,0);clip-path:polygon(0px 0px,0px 0px,0px 0px);height:1px;margin:-1px;overflow:hidden;padding:0;position:absolute;width:1px} ⁠Σ B ∈ N k (A) расстояние достижимости k (A, B)/| Н к (А) |⁠ )$

что является обратной величиной среднего расстояния достижимости объекта A от его соседей. Обратите внимание, что это не средняя достижимость соседей из A (которая по определению будет $k -distance(A)$ ), а расстояние, на котором A может быть «достигнуто» от его соседей. При дублировании точек это значение может стать бесконечным.

Затем локальные плотности достижимости сравниваются с плотностью соседей, используя

$LOF k (А):= ⁠ Σ B \in N k (A) ⁠ лрд к (Б) / лрд к (А) ⁠ / | Н к (А) | ⁠ = ⁠ Σ B \in N k (A) lrd k (B) / | Н к (А) | \cdot лрд к (А) ⁠$

которая представляет собой среднюю плотность локальной достижимости соседей, деленную на собственную локальную плотность достижимости объекта. Значение примерно $1$ указывает, что объект сопоставим со своими соседями (и, следовательно, не является выбросом). Значение ниже $1$ указывает на более плотную область (которая будет второстепенной), а значения, значительно превышающие $1,$ указывают на выбросы.

$LOF(k) ~ 1$ означает такую же плотность, как и у соседей,

$LOF(k) <1$ означает более высокую плотность, чем у соседей (Inlier),

$LOF(k) > 1$ означает меньшую плотность, чем у соседей (выброс)

Преимущества

Оценки LOF, визуализированные ELKI . Хотя верхний правый кластер имеет сравнимую плотность с выбросами, близкими к нижнему левому кластеру, они обнаруживаются правильно.

Благодаря локальному подходу LOF способен выявлять выбросы в наборе данных, которые не были бы выбросами в другой области набора данных. Например, точка, находящаяся на «маленьком» расстоянии от очень плотного кластера, является выбросом, тогда как точка внутри разреженного кластера может иметь такие же расстояния до своих соседей.

Хотя геометрическая интуиция LOF применима только к низкоразмерным векторным пространствам, алгоритм можно применять в любом контексте, где может быть определена функция несходства. Экспериментально было показано, что он очень хорошо работает во многих установках, часто превосходя конкурентов, например, при обнаружении сетевых вторжений ^[5] и при обработке контрольных данных классификации. ^[6]

Семейство методов LOF можно легко обобщить и затем применить к различным другим проблемам, таким как обнаружение выбросов в географических данных, видеопотоках или авторских сетях. ^[4]

Недостатки и расширения

Полученные значения являются частными и их трудно интерпретировать. Значение 1 или даже меньше указывает на явный выброс, но не существует четкого правила, когда точка является выбросом. В одном наборе данных значение 1,1 уже может быть выбросом, в другом наборе данных и параметризации (с сильными локальными колебаниями) значение 2 все еще может быть выбросом. Эти различия также могут возникать внутри набора данных из-за локальности метода. Существуют расширения LOF, которые пытаются улучшить LOF в следующих аспектах:

Пакетирование признаков для обнаружения выбросов ^[7] запускает LOF на нескольких проекциях и объединяет результаты для улучшения качества обнаружения в больших измерениях. Это первый подход ансамблевого обучения к обнаружению выбросов, другие варианты см. в ссылке. ^[8]
Вероятность локальных выбросов (LoOP) ^[9] — это метод, основанный на LOF, но использующий недорогую локальную статистику, чтобы стать менее чувствительным к выбору параметра k . Кроме того, полученные значения масштабируются до диапазона значений $[0:1]$ .
«Интерпретация и унификация оценок выбросов» ^[10] предлагает нормализацию оценок выбросов LOF к интервалу $[0:1]$ с использованием статистического масштабирования для повышения удобства использования и может рассматриваться как улучшенная версия идей LoOP.
В книге «Оценка рейтингов выбросов и оценок выбросов» ^[11] предлагаются методы измерения сходства и разнообразия методов построения расширенных ансамблей обнаружения выбросов с использованием вариантов LOF и других алгоритмов, а также улучшения подхода объединения функций, обсуждавшегося выше.
Переосмысление обнаружения локальных выбросов: обобщенный взгляд на локальность с применением к обнаружению пространственных, видео и сетевых выбросов ^[4] обсуждает общую закономерность в различных методах обнаружения локальных выбросов (включая, например, LOF, упрощенную версию LOF и LoOP) и абстрагируется от этого в общую структуру. Затем эта структура применяется, например, для обнаружения выбросов в географических данных, видеопотоках и авторских сетях.

Локальный выброс

Основная идея

Формальный

Преимущества

Недостатки и расширения

Рекомендации