При обнаружении аномалий локальный коэффициент выбросов ( LOF ) — это алгоритм, предложенный Маркусом М. Бройнигом, Хансом-Петером Кригелем , Раймондом Т. Нг и Йоргом Сандером в 2000 году для поиска аномальных точек данных путем измерения локального отклонения заданной точки данных. по отношению к своим соседям. [1]
LOF разделяет некоторые концепции с DBSCAN и OPTICS , такие как концепции «основного расстояния» и «расстояния достижимости», которые используются для оценки локальной плотности. [2]
Коэффициент локального выброса основан на концепции локальной плотности, где локальность определяется k ближайших соседей, расстояние до которых используется для оценки плотности. Сравнивая локальную плотность объекта с локальными плотностями его соседей, можно идентифицировать области с одинаковой плотностью и точки, которые имеют значительно меньшую плотность, чем их соседи. Они считаются выбросами .
Локальная плотность оценивается типичным расстоянием, на котором точку можно «достичь» от ее соседей. Определение «расстояния достижимости», используемое в LOF, является дополнительной мерой для получения более стабильных результатов в кластерах. «Расстояние достижимости», используемое LOF, имеет некоторые тонкие детали, которые часто оказываются неправильными во вторичных источниках, например, в учебнике Этема Алпайдина. [3]
Пусть k -distance( A ) — расстояние от объекта A до k -го ближайшего соседа. Обратите внимание, что в набор k ближайших соседей входят все объекты на этом расстоянии, которых в случае «связи» может быть более k объектов. Обозначим множество k ближайших соседей как N k (A) .
Это расстояние используется для определения так называемого расстояния достижимости :
расстояние достижимости k ( A , B ) = max { k -distance ( B ), d ( A , B )}
Другими словами, расстояние достижимости объекта A от B — это истинное расстояние между двумя объектами, но, по крайней мере, k - расстояние до B. Объекты, принадлежащие к k ближайшим соседям B («ядро» B , см. кластерный анализ DBSCAN ), считаются одинаково удаленными. Причина этого заключается в уменьшении статистических флуктуаций между всеми точками A , близкими к B , где увеличение значения k увеличивает эффект сглаживания. [1] Обратите внимание, что это не расстояние в математическом определении, поскольку оно не симметрично. (Хотя частой ошибкой [4] является всегда использование k -distance(A) , это приводит к немного другому методу, называемому Simplified-LOF [4] )
Плотность локальной достижимости объекта A определяется выражением
lrd k (A):=1 /( Σ B ∈ N k (A) расстояние достижимости k (A, B)/| Н к (А) | )
что является обратной величиной среднего расстояния достижимости объекта A от его соседей. Обратите внимание, что это не средняя достижимость соседей из A (которая по определению будет k -distance(A) ), а расстояние, на котором A может быть «достигнуто» от его соседей. При дублировании точек это значение может стать бесконечным.
Затем локальные плотности достижимости сравниваются с плотностью соседей, используя
LOF k (А):= Σ B ∈ N k (A) лрд к (Б)/лрд к (А)/| Н к (А) | = Σ B ∈ N k (A) lrd k (B)/| Н к (А) | · лрд к (А)
которая представляет собой среднюю плотность локальной достижимости соседей, деленную на собственную локальную плотность достижимости объекта. Значение примерно 1 указывает, что объект сопоставим со своими соседями (и, следовательно, не является выбросом). Значение ниже 1 указывает на более плотную область (которая будет второстепенной), а значения, значительно превышающие 1, указывают на выбросы.
LOF(k) ~ 1 означает такую же плотность, как и у соседей,
LOF(k) <1 означает более высокую плотность, чем у соседей (Inlier),
LOF(k) > 1 означает меньшую плотность, чем у соседей (выброс)
Благодаря локальному подходу LOF способен выявлять выбросы в наборе данных, которые не были бы выбросами в другой области набора данных. Например, точка, находящаяся на «маленьком» расстоянии от очень плотного кластера, является выбросом, тогда как точка внутри разреженного кластера может иметь такие же расстояния до своих соседей.
Хотя геометрическая интуиция LOF применима только к низкоразмерным векторным пространствам, алгоритм можно применять в любом контексте, где может быть определена функция несходства. Экспериментально было показано, что он очень хорошо работает во многих установках, часто превосходя конкурентов, например, при обнаружении сетевых вторжений [5] и при обработке контрольных данных классификации. [6]
Семейство методов LOF можно легко обобщить и затем применить к различным другим проблемам, таким как обнаружение выбросов в географических данных, видеопотоках или авторских сетях. [4]
Полученные значения являются частными и их трудно интерпретировать. Значение 1 или даже меньше указывает на явный выброс, но не существует четкого правила, когда точка является выбросом. В одном наборе данных значение 1,1 уже может быть выбросом, в другом наборе данных и параметризации (с сильными локальными колебаниями) значение 2 все еще может быть выбросом. Эти различия также могут возникать внутри набора данных из-за локальности метода. Существуют расширения LOF, которые пытаются улучшить LOF в следующих аспектах:
{{cite book}}
: CS1 maint: location missing publisher (link)