В обнаружении аномалий локальный фактор выброса ( LOF ) — это алгоритм, предложенный Маркусом М. Бройнигом, Хансом-Петером Кригелем , Рэймондом Т. Нгом и Йоргом Сандером в 2000 году для поиска аномальных точек данных путем измерения локального отклонения заданной точки данных относительно ее соседей. [1]
LOF разделяет некоторые концепции с DBSCAN и OPTICS, такие как концепции «расстояния ядра» и «расстояния достижимости», которые используются для оценки локальной плотности. [2]
Фактор локального выброса основан на концепции локальной плотности, где локальность задается k ближайшими соседями, расстояние между которыми используется для оценки плотности. Сравнивая локальную плотность объекта с локальными плотностями его соседей, можно определить области с похожей плотностью и точки, которые имеют существенно более низкую плотность, чем их соседи. Они считаются выбросами .
Локальная плотность оценивается типичным расстоянием, на котором точка может быть «достигнута» от своих соседей. Определение «расстояния достижимости», используемое в LOF, является дополнительной мерой для получения более стабильных результатов в кластерах. «Расстояние достижимости», используемое в LOF, имеет некоторые тонкие детали, которые часто оказываются неверными во вторичных источниках, например, в учебнике Этема Алпайдина. [3]
Пусть k -distance( A ) будет расстоянием объекта A до k -го ближайшего соседа. Обратите внимание, что множество k ближайших соседей включает все объекты на этом расстоянии, которое в случае «ничьи» может быть больше k объектов. Обозначим множество k ближайших соседей как N k (A) .
Это расстояние используется для определения так называемого расстояния достижимости :
достижимость-расстояние k ( A , B )=max{ k -расстояние( B ), d( A , B )}
На словах, расстояние достижимости объекта A от B является истинным расстоянием двух объектов, но по крайней мере k -расстоянием B. Объекты, которые принадлежат k ближайшим соседям B («ядру» B , см. кластерный анализ DBSCAN ), считаются одинаково удаленными. Причина этого в том, чтобы уменьшить статистические колебания между всеми точками A, близкими к B , где увеличение значения k увеличивает эффект сглаживания. [1] Обратите внимание, что это не расстояние в математическом определении, поскольку оно не симметрично. (Хотя распространенной ошибкой [4] является всегда использование k -расстояния(A) , это дает немного другой метод, называемый Simplified-LOF [4] )
Локальная плотность достижимости объекта A определяется как
лрд к (А):=1 /( Σ B ∈ N k (A) достижимость-расстояние k (A, B)/| Н к (А) | )
что является обратной величиной среднего расстояния достижимости объекта A от его соседей. Обратите внимание, что это не средняя достижимость соседей от A (которая по определению была бы k -расстоянием(A) ), а расстояние, на котором A может быть "достигнут" от своих соседей. С дублирующимися точками это значение может стать бесконечным.
Затем локальные плотности достижимости сравниваются с плотностями достижимости соседей с использованием
ЛОФ k (A):= Σ B ∈ N k (A) лрд к (Б)/лрд к (А)/| Н к (А) | = Σ B ∈ N k (A) лрд k (B)/| Н к (А) | · лрд к (А)
что является средней локальной плотностью достижимости соседей, деленной на собственную локальную плотность достижимости объекта. Значение около 1 указывает на то, что объект сопоставим со своими соседями (и, таким образом, не является выбросом). Значение ниже 1 указывает на более плотную область (которая будет инлайером), в то время как значения значительно больше 1 указывают на выбросы.
LOF(k) ~ 1 означает, что плотность такая же, как у соседей,
LOF(k) < 1 означает более высокую плотность, чем у соседей (Inlier),
LOF(k) > 1 означает более низкую плотность, чем у соседей (выброс)
Благодаря локальному подходу LOF способен идентифицировать выбросы в наборе данных, которые не были бы выбросами в другой области набора данных. Например, точка на «малом» расстоянии от очень плотного кластера является выбросом, в то время как точка внутри разреженного кластера может демонстрировать схожие расстояния до своих соседей.
Хотя геометрическая интуиция LOF применима только к низкоразмерным векторным пространствам, алгоритм может быть применен в любом контексте, где может быть определена функция различия. Экспериментально было показано, что он работает очень хорошо в многочисленных настройках, часто превосходя конкурентов, например, в обнаружении вторжений в сеть [5] и на обработанных данных эталонного теста классификации. [6]
Семейство методов LOF можно легко обобщить и затем применить к различным другим проблемам, таким как обнаружение выбросов в географических данных, видеопотоках или сетях авторства. [4]
Полученные значения являются частными и их трудно интерпретировать. Значение 1 или даже меньше указывает на явный инлайер, но нет четкого правила, когда точка является аномалией. В одном наборе данных значение 1,1 уже может быть аномалией, в другом наборе данных и параметризации (с сильными локальными колебаниями) значение 2 все еще может быть инлайером. Эти различия также могут возникать внутри набора данных из-за локальности метода. Существуют расширения LOF, которые пытаются улучшить LOF в следующих аспектах:
{{cite book}}
: CS1 maint: location missing publisher (link)