Проекция преследования (ПП) — это тип статистического метода, который включает в себя поиск наиболее «интересных» возможных проекций в многомерных данных. Часто проекции, которые больше отклоняются от нормального распределения, считаются более интересными. По мере нахождения каждой проекции данные сокращаются путем удаления компонента вдоль этой проекции, и процесс повторяется для поиска новых проекций; это аспект «преследования», который мотивировал метод, известный как сопоставление преследования . [1] [2]
Идея поиска проекций заключается в том, чтобы найти проекцию или проекции из пространства высокой размерности в пространство низкой размерности, которые раскрывают больше всего деталей о структуре набора данных. После того, как будет найден интересный набор проекций, существующие структуры (кластеры, поверхности и т. д.) могут быть извлечены и проанализированы отдельно.
Проекционное преследование широко использовалось для слепого разделения источников , поэтому оно очень важно в независимом компонентном анализе . Проекционное преследование ищет одну проекцию за раз, так что извлеченный сигнал является настолько негауссовым, насколько это возможно. [3]
Метод проецирования преследования был первоначально предложен и опробован Крускалом. [4] Схожие идеи встречаются в Switzer (1970) «Численная классификация» стр. 31–43 в «Применение компьютеров в науках о Земле: геостатистика» и Switzer и Wright (1971) «Численная классификация эоценовых нуммулитидов», Математическая геология стр. 297–311. Первая успешная реализация принадлежит Джерому Х. Фридману и Джону Тьюки (1974), которые назвали проекционное преследование.
Первоначальной целью проекционного поиска был машинный выбор «интересных» низкоразмерных проекций многомерного облака точек путем численной максимизации определенной целевой функции или проекционного индекса. [5]
Несколько лет спустя Фридман и Штютцле расширили идею, лежащую в основе метода преследования проекций, и добавили регрессию преследования проекций (PPR), классификацию преследования проекций (PPC) и оценку плотности преследования проекций (PPDE).
Самая захватывающая особенность проекционного преследования заключается в том, что это один из немногих многомерных методов, способных обойти «проклятие размерности», вызванное тем фактом, что многомерное пространство в основном пусто. Кроме того, проекционное преследование способно игнорировать нерелевантные (т. е. шумные и бедные информацией) переменные. Это явное преимущество перед методами, основанными на межточечных расстояниях, такими как минимальные остовные деревья, многомерное масштабирование и большинство методов кластеризации.
Многие из методов классического многомерного анализа оказываются частными случаями проекционного преследования. Примерами являются анализ главных компонент и дискриминантный анализ , а также методы квартимакс и облимакс в факторном анализе .
Серьёзным недостатком методов проекционного поиска является их высокая потребность в машинном времени.