Проекция преследования

Проекция преследования (ПП) — это тип статистического метода, который включает в себя поиск наиболее «интересных» возможных проекций в многомерных данных. Часто проекции, которые больше отклоняются от нормального распределения, считаются более интересными. По мере нахождения каждой проекции данные сокращаются путем удаления компонента вдоль этой проекции, и процесс повторяется для поиска новых проекций; это аспект «преследования», который мотивировал метод, известный как сопоставление преследования . ^[1]^[2]

Идея поиска проекций заключается в том, чтобы найти проекцию или проекции из пространства высокой размерности в пространство низкой размерности, которые раскрывают больше всего деталей о структуре набора данных. После того, как будет найден интересный набор проекций, существующие структуры (кластеры, поверхности и т. д.) могут быть извлечены и проанализированы отдельно.

Проекционное преследование широко использовалось для слепого разделения источников , поэтому оно очень важно в независимом компонентном анализе . Проекционное преследование ищет одну проекцию за раз, так что извлеченный сигнал является настолько негауссовым, насколько это возможно. ^[3]

История

Метод проецирования преследования был первоначально предложен и опробован Крускалом. ^[4] Схожие идеи встречаются в Switzer (1970) «Численная классификация» стр. 31–43 в «Применение компьютеров в науках о Земле: геостатистика» и Switzer и Wright (1971) «Численная классификация эоценовых нуммулитидов», Математическая геология стр. 297–311. Первая успешная реализация принадлежит Джерому Х. Фридману и Джону Тьюки (1974), которые назвали проекционное преследование.

Первоначальной целью проекционного поиска был машинный выбор «интересных» низкоразмерных проекций многомерного облака точек путем численной максимизации определенной целевой функции или проекционного индекса. ^[5]

Несколько лет спустя Фридман и Штютцле расширили идею, лежащую в основе метода преследования проекций, и добавили регрессию преследования проекций (PPR), классификацию преследования проекций (PPC) и оценку плотности преследования проекций (PPDE).

Особенность

Самая захватывающая особенность проекционного преследования заключается в том, что это один из немногих многомерных методов, способных обойти «проклятие размерности», вызванное тем фактом, что многомерное пространство в основном пусто. Кроме того, проекционное преследование способно игнорировать нерелевантные (т. е. шумные и бедные информацией) переменные. Это явное преимущество перед методами, основанными на межточечных расстояниях, такими как минимальные остовные деревья, многомерное масштабирование и большинство методов кластеризации.

Многие из методов классического многомерного анализа оказываются частными случаями проекционного преследования. Примерами являются анализ главных компонент и дискриминантный анализ , а также методы квартимакс и облимакс в факторном анализе .

Серьёзным недостатком методов проекционного поиска является их высокая потребность в машинном времени.

Смотрите также

Ссылки

^ JH Friedman и JW Tukey (сентябрь 1974 г.). «Алгоритм поиска проекций для разведочного анализа данных» (PDF) . IEEE Transactions on Computers . C-23 (9): 881–890. doi :10.1109/TC.1974.224051. ISSN 0018-9340.
^ MC Jones и R. Sibson (1987). «Что такое Projection Pursuit?». Журнал Королевского статистического общества, Серия A. 150 ( 1): 1–37. doi :10.2307/2981662. JSTOR 2981662.
^ Джеймс В. Стоун (2004); «Анализ независимых компонентов: введение в учебник», Издательство Массачусетского технологического института, Кембридж, Массачусетс, Лондон, Англия; ISBN 0-262-69315-1
^ Kruskal, JB. 1969; «К практическому методу, который помогает раскрыть структуру набора наблюдений путем нахождения линейного преобразования, которое оптимизирует новый «индекс конденсации»», страницы 427–440 из: Milton, RC, & Nelder, JA (редакторы), Статистические вычисления; Нью-Йорк, Academic Press
^ PJ Huber (июнь 1985 г.). «Проекция преследования». Анналы статистики . 13 (2): 435–475. doi : 10.1214/aos/1176349519 .