Анализ главных компонент

PCA многомерного гауссовского распределения с центром в точке (1,3) со стандартным отклонением 3 в направлении примерно (0,866, 0,5) и 1 в ортогональном направлении. Показанные векторы являются собственными векторами ковариационной матрицы, масштабированными квадратным корнем соответствующего собственного значения и смещенными так, чтобы их хвосты находились на среднем значении.

Анализ главных компонент ( PCA ) — это метод линейного снижения размерности , применяемый в разведочном анализе данных , визуализации и предварительной обработке данных .

Данные линейно преобразуются в новую систему координат таким образом, чтобы можно было легко определить направления (главные компоненты), отражающие наибольшие вариации в данных.

Главные компоненты набора точек в реальном координатном пространстве представляют собой последовательность единичных векторов , где -й вектор представляет собой направление линии, которая наилучшим образом соответствует данным, будучи ортогональной первым векторам. Здесь наилучшая подходящая линия определяется как та, которая минимизирует среднеквадратичное перпендикулярное расстояние от точек до линии . Эти направления (т. е. главные компоненты) составляют ортонормальный базис , в котором различные индивидуальные измерения данных линейно не коррелируют . Во многих исследованиях первые два главных компонента используются для того, чтобы построить данные в двух измерениях и визуально идентифицировать кластеры тесно связанных точек данных. ^[1] $p$ $i$ $i-1$

Анализ главных компонент применяется во многих областях, таких как популяционная генетика , исследования микробиома и атмосферные науки .

Обзор

При выполнении PCA первый главный компонент набора переменных — это производная переменная, сформированная как линейная комбинация исходных переменных, которая объясняет большую часть дисперсии. Второй главный компонент объясняет большую часть дисперсии в том, что осталось после удаления эффекта первого компонента, и мы можем продолжать итерации, пока вся дисперсия не будет объяснена. PCA чаще всего используется, когда многие переменные сильно коррелируют друг с другом и желательно сократить их количество до независимого набора. Первый главный компонент можно эквивалентно определить как направление, которое максимизирует дисперсию прогнозируемых данных. -й главный компонент можно взять как направление, ортогональное первым главным компонентам, которое максимизирует дисперсию прогнозируемых данных. $p$ $p$ $i$ $i-1$

Для любой цели можно показать, что главные компоненты являются собственными векторами ковариационной матрицы данных . Таким образом, главные компоненты часто вычисляются путем разложения на собственные векторы ковариационной матрицы данных или разложения по сингулярным значениям матрицы данных. PCA является простейшим из истинно собственных векторов многомерного анализа и тесно связан с факторным анализом . Факторный анализ обычно включает в себя более специфичные для домена предположения о базовой структуре и решает собственные векторы немного другой матрицы. PCA также связан с каноническим корреляционным анализом (CCA) . CCA определяет системы координат, которые оптимально описывают кросс-ковариацию между двумя наборами данных, в то время как PCA определяет новую ортогональную систему координат , которая оптимально описывает дисперсию в одном наборе данных. ^[2]^[3]^[4]^{[5] Также были предложены} надежные и основанные на L1-норме варианты стандартного PCA. ^[6]^[7]^[8]^[5]

История

PCA был изобретен в 1901 году Карлом Пирсоном [ ^9] как аналог теоремы о главной оси в механике; позднее он был независимо разработан и назван Гарольдом Хотеллингом в 1930-х годах. ^[10] В зависимости от области применения его также называют дискретным преобразованием Карунена–Лоэва (KLT) в обработке сигналов , преобразованием Хотеллинга в многомерном контроле качества, правильным ортогональным разложением (POD) в машиностроении, сингулярным разложением (SVD) X (изобретено в последней четверти 19 века ^[11] ), разложением по собственным значениям (EVD) X ^TX в линейной алгебре, факторным анализом (для обсуждения различий между PCA и факторным анализом см. гл. 7 Анализа главных компонент Джоллиффа ), ^[12] теоремой Эккарта–Янга (Harman, 1960) или эмпирическими ортогональными функциями (EOF) в метеорологической науке (Lorenz, 1956), эмпирическим разложением собственных функций (Sirovich, 1987), квазигармоническими модами (Brooks et al., 1988), спектральным разложением в шуме и вибрации и эмпирическим модальный анализ в структурной динамике.

Интуиция

PCA можно рассматривать как подгонку p -мерного эллипсоида к данным, где каждая ось эллипсоида представляет собой главный компонент. Если какая-то ось эллипсоида мала, то дисперсия вдоль этой оси также мала.

Чтобы найти оси эллипсоида, мы должны сначала центрировать значения каждой переменной в наборе данных на 0, вычитая среднее значение наблюдаемых значений переменной из каждого из этих значений. Эти преобразованные значения используются вместо исходных наблюдаемых значений для каждой из переменных. Затем мы вычисляем ковариационную матрицу данных и вычисляем собственные значения и соответствующие собственные векторы этой ковариационной матрицы. Затем мы должны нормализовать каждый из ортогональных собственных векторов, чтобы превратить их в единичные векторы. После этого каждый из взаимно ортогональных единичных собственных векторов можно интерпретировать как ось эллипсоида, подобранного к данным. Этот выбор базиса преобразует ковариационную матрицу в диагонализованную форму, в которой диагональные элементы представляют дисперсию каждой оси. Доля дисперсии, которую представляет каждый собственный вектор, может быть вычислена путем деления собственного значения, соответствующего этому собственному вектору, на сумму всех собственных значений.

Для интерпретации результатов PCA используются биплоты и графики каменистой осыпи (степень объясненной дисперсии ).

Подробности

PCA определяется как ортогональное линейное преобразование в пространстве действительных внутренних произведений , которое преобразует данные в новую систему координат таким образом, что наибольшая дисперсия некоторой скалярной проекции данных приходится на первую координату (называемую первым главным компонентом), вторая по величине дисперсия — на вторую координату и т. д. ^[12]

Рассмотрим матрицу данных X с нулевым эмпирическим средним значением по столбцам ( выборочное среднее значение каждого столбца смещено к нулю), где каждая из n строк представляет собой различное повторение эксперимента, а каждый из p столбцов дает определенный вид характеристики (например, результаты с определенного датчика). $n\times p$

Математически преобразование определяется набором p - мерных векторов весов или коэффициентов , которые отображают каждый вектор-строку X в новый вектор оценок главных компонент , заданный как $l$ $\mathbf {w} _{(k)}=(w_{1},\dots ,w_{p})_{(k)}$ $\mathbf {x} _{(i)}=(x_{1},\dots ,x_{p})_{(i)}$ $\mathbf {t} _{(i)}=(t_{1},\dots ,t_{l})_{(i)}$

{t_{k}}_{(i)}=\mathbf {x} _{(i)}\cdot \mathbf {w} _{(k)}\qquad \mathrm {for} \qquad i=1,\dots ,n\qquad k=1,\dots ,l

таким образом, что отдельные переменные t , рассматриваемые по набору данных, последовательно наследуют максимально возможную дисперсию от X , при этом каждый вектор коэффициентов w ограничен единичным вектором (где обычно выбирается строго меньше, чем для уменьшения размерности). $t_{1},\dots ,t_{l}$ $l$ $p$

Вышесказанное можно эквивалентно записать в матричной форме как

\mathbf {T} =\mathbf {X} \mathbf {W}

где , , и . ${\mathbf {T} }_{ik}={t_{k}}_{(i)}$ ${\mathbf {X} }_{ij}={x_{j}}_{(i)}$ ${\mathbf {W} }_{jk}={w_{j}}_{(k)}$

Первый компонент

Чтобы максимизировать дисперсию, первый весовой вектор w ₍₁₎ должен удовлетворять условию

\mathbf {w} _{(1)}=\arg \max _{\Vert \mathbf {w} \Vert =1}\,\left\{\sum _{i}(t_{1})_{(i)}^{2}\right\}=\arg \max _{\Vert \mathbf {w} \Vert =1}\,\left\{\sum _{i}\left(\mathbf {x} _{(i)}\cdot \mathbf {w} \right)^{2}\right\}

Эквивалентно, запись этого в матричной форме дает

\mathbf {w} _{(1)}=\arg \max _{\left\|\mathbf {w} \right\|=1}\left\{\left\|\mathbf {Xw} \right\|^{2}\right\}=\arg \max _{\left\|\mathbf {w} \right\|=1}\left\{\mathbf {w} ^{\mathsf {T}}\mathbf {X} ^{\mathsf {T}}\mathbf {Xw} \right\}

Поскольку w ₍₁₎ определен как единичный вектор, он эквивалентно также удовлетворяет условию

\mathbf {w} _{(1)}=\arg \max \left\{{\frac {\mathbf {w} ^{\mathsf {T}}\mathbf {X} ^{\mathsf {T}}\mathbf {Xw} }{\mathbf {w} ^{\mathsf {T}}\mathbf {w} }}\right\}

Максимизируемая величина может быть распознана как отношение Рэлея . Стандартный результат для положительной полуопределенной матрицы, такой как X ^TX, заключается в том, что максимально возможное значение отношения является наибольшим собственным значением матрицы, что происходит, когда w является соответствующим собственным вектором .

После нахождения w ₍₁₎ первый главный компонент вектора данных x _{( i )} может быть представлен как оценка t _{1( i )} = x _{( i )} ⋅ w ₍₁₎ в преобразованных координатах или как соответствующий вектор в исходных переменных, { x _{( i )} ⋅ w ₍₁₎ } w ₍₁₎ .

Дополнительные компоненты

K - й компонент можно найти, вычитая первые k − 1 главных компонентов из X :

\mathbf {\hat {X}} _{k}=\mathbf {X} -\sum _{s=1}^{k-1}\mathbf {X} \mathbf {w} _{(s)}\mathbf {w} _{(s)}^{\mathsf {T}}

и затем нахождение вектора веса, который извлекает максимальную дисперсию из этой новой матрицы данных

\mathbf {w} _{(k)}=\mathop {\operatorname {arg\,max} } _{\left\|\mathbf {w} \right\|=1}\left\{\left\|\mathbf {\hat {X}} _{k}\mathbf {w} \right\|^{2}\right\}=\arg \max \left\{{\tfrac {\mathbf {w} ^{\mathsf {T}}\mathbf {\hat {X}} _{k}^{\mathsf {T}}\mathbf {\hat {X}} _{k}\mathbf {w} }{\mathbf {w} ^{T}\mathbf {w} }}\right\}

Оказывается, это дает оставшиеся собственные векторы X ^TX , причем максимальные значения для величины в скобках даны их соответствующими собственными значениями. Таким образом, весовые векторы являются собственными векторами X ^TX .

Следовательно, k - й главный компонент вектора данных x _{( i )} может быть задан как оценка tk ₍_i₎ = x ₍_i₎ ⋅ w ₍_k₎_в преобразованных координатах или как соответствующий вектор в пространстве исходных переменных, { x ₍_i₎ ⋅ w ₍_k₎ } w ₍_k₎ , где w ₍_k₎ — k ^- й собственный вектор XTX .

Полное разложение главных компонентов X , таким образом, можно представить как

\mathbf {T} =\mathbf {X} \mathbf {W}

где W — это матрица весов размером p на p , столбцы которой являются собственными векторами X ^TX . Транспонирование W иногда называют преобразованием отбеливания или сферизации . Столбцы W , умноженные на квадратный корень соответствующих собственных значений, то есть собственные векторы, масштабированные дисперсиями, называются нагрузками в PCA или в факторном анализе.

Ковариации

X ^TX сам по себе может быть признан пропорциональным эмпирической выборочной ковариационной матрице набора данных X ^T . ^[12]^{: 30–31}

Выборочная ковариация Q между двумя различными главными компонентами в наборе данных определяется по формуле:

{\begin{aligned}Q(\mathrm {PC} _{(j)},\mathrm {PC} _{(k)})&\propto (\mathbf {X} \mathbf {w} _{(j)})^{\mathsf {T}}(\mathbf {X} \mathbf {w} _{(k)})\\&=\mathbf {w} _{(j)}^{\mathsf {T}}\mathbf {X} ^{\mathsf {T}}\mathbf {X} \mathbf {w} _{(k)}\\&=\mathbf {w} _{(j)}^{\mathsf {T}}\lambda _{(k)}\mathbf {w} _{(k)}\\&=\lambda _{(k)}\mathbf {w} _{(j)}^{\mathsf {T}}\mathbf {w} _{(k)}\end{aligned}}

где свойство собственного значения w _{( k )} было использовано для перехода от строки 2 к строке 3. Однако собственные векторы w _{( j )} и w _{( k ),} соответствующие собственным значениям симметричной матрицы, являются ортогональными (если собственные значения различны) или могут быть ортогонализованы (если векторы имеют одинаковое повторяющееся значение). Таким образом, произведение в последней строке равно нулю; между различными главными компонентами в наборе данных нет выборочной ковариации.

Другой способ охарактеризовать преобразование главных компонент — это преобразование в координаты, которые диагонализируют эмпирическую выборочную ковариационную матрицу.

В матричной форме эмпирическую ковариационную матрицу для исходных переменных можно записать

\mathbf {Q} \propto \mathbf {X} ^{\mathsf {T}}\mathbf {X} =\mathbf {W} \mathbf {\Lambda } \mathbf {W} ^{\mathsf {T}}

Эмпирическая ковариационная матрица между главными компонентами становится

\mathbf {W} ^{\mathsf {T}}\mathbf {Q} \mathbf {W} \propto \mathbf {W} ^{\mathsf {T}}\mathbf {W} \,\mathbf {\Lambda } \,\mathbf {W} ^{\mathsf {T}}\mathbf {W} =\mathbf {\Lambda }

где Λ — диагональная матрица собственных значений λ _{( k )} матрицы X ^TX . λ _{( k )} равна сумме квадратов по набору данных, связанному с каждым компонентом k , то есть λ _{( k )} = Σ _i t _k²_{( i )} = Σ _i ( x _{( i )} ⋅ w _{( k )} ) ² .

Уменьшение размерности

Преобразование T = X W отображает вектор данных x _{( i )} из исходного пространства p переменных в новое пространство p переменных, которые не коррелируют по набору данных. Однако не все главные компоненты должны быть сохранены. Сохранение только первых L главных компонентов, полученных с использованием только первых L собственных векторов, дает усеченное преобразование

\mathbf {T} _{L}=\mathbf {X} \mathbf {W} _{L}

где матрица T _L теперь имеет n строк, но только L столбцов. Другими словами, PCA изучает линейное преобразование , где столбцы матрицы $p$ $\times$ $L$ образуют ортогональный базис для L признаков (компонентов представления t ), которые декоррелированы. ^[13] По построению, из всех преобразованных матриц данных только с L столбцами, эта матрица оценок максимизирует дисперсию в исходных данных, которые были сохранены, при этом минимизируя общую квадратичную ошибку реконструкции или . $t=W_{L}^{\mathsf {T}}x,x\in \mathbb {R} ^{p},t\in \mathbb {R} ^{L},$ $W_{L}$ $\|\mathbf {T} \mathbf {W} ^{T}-\mathbf {T} _{L}\mathbf {W} _{L}^{T}\|_{2}^{2}$ $\|\mathbf {X} -\mathbf {X} _{L}\|_{2}^{2}$

Такое уменьшение размерности может быть очень полезным шагом для визуализации и обработки многомерных наборов данных, при этом сохраняя как можно больше дисперсии в наборе данных. Например, выбор L = 2 и сохранение только первых двух главных компонентов находит двумерную плоскость через многомерный набор данных, в которой данные наиболее разбросаны, поэтому, если данные содержат кластеры, они также могут быть наиболее разбросаны и, следовательно, наиболее заметны для отображения на двумерной диаграмме; тогда как, если два направления через данные (или две исходные переменные) выбираются случайным образом, кластеры могут быть гораздо менее разбросаны друг от друга и фактически могут с большей вероятностью существенно перекрывать друг друга, делая их неразличимыми.

Аналогично, в регрессионном анализе , чем больше допустимое количество объясняющих переменных , тем больше вероятность переобучения модели, что приводит к выводам, которые не могут быть обобщены на другие наборы данных. Один из подходов, особенно когда есть сильные корреляции между различными возможными объясняющими переменными, состоит в том, чтобы свести их к нескольким главным компонентам, а затем запустить регрессию против них, метод, называемый регрессией главных компонентов .

Снижение размерности также может быть уместным, когда переменные в наборе данных зашумлены. Если каждый столбец набора данных содержит независимый одинаково распределенный гауссовский шум, то столбцы T также будут содержать аналогично одинаково распределенный гауссовский шум (такое распределение инвариантно относительно эффектов матрицы W , которую можно рассматривать как высокоразмерное вращение осей координат). Однако, при большей концентрации общей дисперсии в первых нескольких главных компонентах по сравнению с той же дисперсией шума, пропорциональный эффект шума меньше — первые несколько компонентов достигают более высокого отношения сигнал/шум . Таким образом, PCA может иметь эффект концентрации большей части сигнала в первых нескольких главных компонентах, которые могут быть полезно уловлены снижением размерности; в то время как более поздние главные компоненты могут быть захвачены шумом и, таким образом, удалены без больших потерь. Если набор данных не слишком большой, значимость главных компонентов можно проверить с помощью параметрического бутстрапа , как помощь в определении того, сколько главных компонентов следует сохранить. ^[14]

Разложение по сингулярным значениям

Преобразование главных компонент может быть также связано с другой матричной факторизацией, сингулярным разложением (SVD) X ,

\mathbf {X} =\mathbf {U} \mathbf {\Sigma } \mathbf {W} ^{T}

Здесь Σ — прямоугольная диагональная матрица размером n на p положительных чисел σ ₍_k₎ , называемых сингулярными значениями X ; U — матрица размером n на n , столбцы которой являются ортогональными единичными векторами длины n, называемыми левыми сингулярными векторами X ; а W — матрица размером p на p , столбцы которой являются ортогональными единичными векторами длины p и называются правыми сингулярными векторами X .

В терминах этой факторизации матрицу X ^TX можно записать

{\begin{aligned}\mathbf {X} ^{T}\mathbf {X} &=\mathbf {W} \mathbf {\Sigma } ^{\mathsf {T}}\mathbf {U} ^{\mathsf {T}}\mathbf {U} \mathbf {\Sigma } \mathbf {W} ^{\mathsf {T}}\\&=\mathbf {W} \mathbf {\Sigma } ^{\mathsf {T}}\mathbf {\Sigma } \mathbf {W} ^{\mathsf {T}}\\&=\mathbf {W} \mathbf {\hat {\Sigma }} ^{2}\mathbf {W} ^{\mathsf {T}}\end{aligned}}

где — квадратная диагональная матрица с сингулярными значениями X и обрезанными лишними нулями, удовлетворяющая . Сравнение с факторизацией собственных векторов X ^TX устанавливает, что правые сингулярные векторы W матрицы X эквивалентны собственным векторам X ^TX , в то время как сингулярные значения σ ₍_k₎ матрицы X T X равны квадратному корню из собственных значений λ ₍_k₎ матрицы X ^TX . $\mathbf {\hat {\Sigma }}$ $\mathbf {{\hat {\Sigma }}^{2}} =\mathbf {\Sigma } ^{\mathsf {T}}\mathbf {\Sigma }$ $\mathbf {X}$

Используя разложение сингулярных значений, матрицу оценок T можно записать в виде

{\begin{aligned}\mathbf {T} &=\mathbf {X} \mathbf {W} \\&=\mathbf {U} \mathbf {\Sigma } \mathbf {W} ^{\mathsf {T}}\mathbf {W} \\&=\mathbf {U} \mathbf {\Sigma } \end{aligned}}

поэтому каждый столбец T задается одним из левых сингулярных векторов X , умноженным на соответствующее сингулярное значение. Эта форма также является полярным разложением T.

Существуют эффективные алгоритмы для расчета SVD для X без необходимости формирования матрицы X ^TX , поэтому вычисление SVD в настоящее время является стандартным способом расчета анализа главных компонентов из матрицы данных ^[15] , если только не требуется только несколько компонентов.

Как и в случае с собственным разложением, усеченную матрицу оценок T _{L размером} $n \times L$ можно получить, рассматривая только первые L наибольших сингулярных значений и их сингулярные векторы:

\mathbf {T} _{L}=\mathbf {U} _{L}\mathbf {\Sigma } _{L}=\mathbf {X} \mathbf {W} _{L}

Усечение матрицы M или T с использованием усеченного сингулярного разложения таким образом дает усеченную матрицу, которая является ближайшей возможной матрицей ранга L к исходной матрице в том смысле, что разница между ними имеет наименьшую возможную норму Фробениуса , результат, известный как теорема Эккарта–Янга [1936].

Дальнейшие соображения

Сингулярные значения (в Σ ) являются квадратными корнями собственных значений матрицы X ^TX . Каждое собственное значение пропорционально части «дисперсии» (точнее, суммы квадратов расстояний точек от их многомерного среднего), которая связана с каждым собственным вектором. Сумма всех собственных значений равна сумме квадратов расстояний точек от их многомерного среднего. PCA по сути вращает набор точек вокруг их среднего значения, чтобы выровнять с главными компонентами. Это перемещает как можно большую часть дисперсии (используя ортогональное преобразование) в первые несколько измерений. Поэтому значения в остальных измерениях, как правило, малы и могут быть отброшены с минимальной потерей информации (см. ниже ). PCA часто используется таким образом для снижения размерности . PCA отличается тем, что является оптимальным ортогональным преобразованием для сохранения подпространства с наибольшей «дисперсией» (как определено выше). Однако это преимущество достигается за счет более высоких вычислительных требований по сравнению, например, с дискретным косинусным преобразованием , и в частности с DCT-II, которое просто известно как «DCT». Нелинейные методы снижения размерности, как правило, более требовательны к вычислительным ресурсам, чем PCA.

PCA чувствителен к масштабированию переменных. Если у нас есть только две переменные, и они имеют одинаковую дисперсию выборки и полностью коррелированы, то PCA повлечет за собой поворот на 45°, и «веса» (они являются косинусами поворота) для двух переменных относительно главного компонента будут равны. Но если мы умножим все значения первой переменной на 100, то первый главный компонент будет почти таким же, как эта переменная, с небольшим вкладом от другой переменной, тогда как второй компонент будет почти выровнен со второй исходной переменной. Это означает, что всякий раз, когда разные переменные имеют разные единицы (например, температуру и массу), PCA является несколько произвольным методом анализа. (Разные результаты были бы получены, если бы кто-то использовал градусы Фаренгейта, а не Цельсия, например.) Оригинальная статья Пирсона была озаглавлена «О линиях и плоскостях наиболее близкого соответствия системам точек в пространстве» — «в пространстве» подразумевает физическое евклидово пространство, где такие проблемы не возникают. Один из способов сделать PCA менее произвольным — использовать переменные, масштабированные так, чтобы иметь единичную дисперсию, путем стандартизации данных и, следовательно, использовать автокорреляционную матрицу вместо автоковариационной матрицы в качестве основы для PCA. Однако это сжимает (или расширяет) флуктуации во всех измерениях сигнального пространства до единичной дисперсии.

Вычитание среднего (также известное как «центрирование среднего») необходимо для выполнения классического PCA, чтобы гарантировать, что первый главный компонент описывает направление максимальной дисперсии. Если вычитание среднего не выполняется, первый главный компонент может вместо этого соответствовать более или менее среднему значению данных. Нулевое среднее значение необходимо для нахождения базиса, который минимизирует среднеквадратичную ошибку аппроксимации данных. ^[16]

Центрирование среднего не нужно, если выполняется анализ главных компонентов на корреляционной матрице, так как данные уже центрированы после вычисления корреляций. Корреляции выводятся из перекрестного произведения двух стандартных оценок (Z-оценок) или статистических моментов (отсюда и название: корреляция Пирсона по продукту и моменту ). Также см. статью Кромри и Фостера-Джонсона (1998) "Центрирование среднего в умеренной регрессии: много шума из ничего" . Поскольку ковариации являются корреляциями нормализованных переменных ( Z- или стандартных оценок ), PCA, основанный на корреляционной матрице X , равен PCA , основанному на ковариационной матрице Z , стандартизированной версии X.

PCA — популярный первичный метод распознавания образов . Однако он не оптимизирован для разделения классов. ^[17] Однако он использовался для количественной оценки расстояния между двумя или более классами путем вычисления центра масс для каждого класса в пространстве главных компонент и предоставления евклидового расстояния между центрами масс двух или более классов. ^[18] Линейный дискриминантный анализ — это альтернатива, оптимизированная для разделения классов.

Таблица символов и сокращений

Свойства и ограничения

Характеристики

Некоторые свойства PCA включают: ^[12]^{[ нужна страница ]}

Свойство 1 : Для любого целого числаq, 1 ≤q≤p, рассмотрим ортогональноелинейное преобразование

y=\mathbf {B'} x

где — вектор из q элементов , — матрица ( q × p ), и пусть — матрица дисперсии - ковариации для . Тогда след , обозначенный , максимизируется путем взятия , где состоит из первых q столбцов — транспонированная матрица . ( здесь не определено)

y

\mathbf {B'}

\mathbf {\Sigma } _{y}=\mathbf {B'} \mathbf {\Sigma } \mathbf {B}

y

\mathbf {\Sigma } _{y}

\operatorname {tr} (\mathbf {\Sigma } _{y})

\mathbf {B} =\mathbf {A} _{q}

\mathbf {A} _{q}

\mathbf {A}

(\mathbf {B'}

\mathbf {B} )

\mathbf {A}

Свойство 2 : Рассмотрим сноваортонормальное преобразование

y=\mathbf {B'} x

с и определенным как и раньше. Затем минимизируется путем взятия , где состоит из последних q столбцов .

x,\mathbf {B} ,\mathbf {A}

\mathbf {\Sigma } _{y}

\operatorname {tr} (\mathbf {\Sigma } _{y})

\mathbf {B} =\mathbf {A} _{q}^{*},

\mathbf {A} _{q}^{*}

\mathbf {A}

Статистическое значение этого свойства заключается в том, что последние несколько PC не являются просто неструктурированными остатками после удаления важных PC. Поскольку эти последние PC имеют наименьшие возможные дисперсии, они полезны сами по себе. Они могут помочь обнаружить неожиданные почти постоянные линейные отношения между элементами $x$ , и они также могут быть полезны в регрессии , при выборе подмножества переменных из $x$ и при обнаружении выбросов.

Свойство 3 : (Спектральное разложение

Σ

)

\mathbf {\Sigma } =\lambda _{1}\alpha _{1}\alpha _{1}'+\cdots +\lambda _{p}\alpha _{p}\alpha _{p}'

Прежде чем рассмотреть его использование, сначала рассмотрим диагональные элементы,

\operatorname {Var} (x_{j})=\sum _{k=1}^{P}\lambda _{k}\alpha _{kj}^{2}

Тогда, возможно, главное статистическое значение результата заключается в том, что мы не только можем разложить объединенные дисперсии всех элементов $x$ на убывающие вклады, обусловленные каждым PC, но мы также можем разложить всю ковариационную матрицу на вклады от каждого PC. Хотя элементы не являются строго убывающими, они будут иметь тенденцию становиться меньше по мере увеличения, как и не увеличиваются при увеличении , тогда как элементы имеют тенденцию оставаться примерно того же размера из-за ограничений нормализации: . $\lambda _{k}\alpha _{k}\alpha _{k}'$ $\lambda _{k}\alpha _{k}\alpha _{k}'$ $k$ $\lambda _{k}\alpha _{k}\alpha _{k}'$ $k$ $\alpha _{k}$ $\alpha _{k}'\alpha _{k}=1,k=1,\dots ,p$

Ограничения

Как отмечено выше, результаты PCA зависят от масштабирования переменных. Это можно исправить, масштабируя каждую характеристику по ее стандартному отклонению, так что в итоге получим безразмерные характеристики с единичной дисперсией. ^[19]

Применимость PCA, как описано выше, ограничена определенными (молчаливыми) предположениями ^[20], сделанными при его выводе. В частности, PCA может улавливать линейные корреляции между признаками, но терпит неудачу, когда это предположение нарушается (см. Рисунок 6a в ссылке). В некоторых случаях преобразования координат могут восстановить предположение о линейности, и тогда PCA может быть применен (см. ядро PCA ).

Другим ограничением является процесс удаления среднего значения перед построением ковариационной матрицы для PCA. В таких областях, как астрономия, все сигналы неотрицательны, и процесс удаления среднего значения заставит среднее значение некоторых астрофизических экспозиций стать равным нулю, что, следовательно, создает нефизические отрицательные потоки, ^[21] и для восстановления истинной величины сигналов необходимо выполнить прямое моделирование. ^[22] В качестве альтернативного метода можно использовать неотрицательную матричную факторизацию, фокусирующуюся только на неотрицательных элементах в матрицах, что хорошо подходит для астрофизических наблюдений. ^[23]^[24]^[25] Подробнее см. в разделе Связь между PCA и неотрицательной матричной факторизацией.

PCA находится в невыгодном положении, если данные не были стандартизированы до применения к ним алгоритма. PCA преобразует исходные данные в данные, которые соответствуют основным компонентам этих данных, что означает, что новые переменные данных не могут быть интерпретированы теми же способами, что и исходные. Они являются линейными интерпретациями исходных переменных. Кроме того, если PCA не выполняется должным образом, существует высокая вероятность потери информации. ^[26]

PCA опирается на линейную модель. Если в наборе данных есть скрытый нелинейный шаблон, то PCA может фактически направить анализ в совершенно противоположном направлении прогресса. ^[27]^{[ нужна страница ]} Исследователи из Университета штата Канзас обнаружили, что ошибка выборки в их экспериментах повлияла на смещение результатов PCA. «Если количество субъектов или блоков меньше 30 и/или исследователь заинтересован в PC за пределами первого, может быть лучше сначала исправить последовательную корреляцию, прежде чем проводить PCA». ^[28] Исследователи из Университета штата Канзас также обнаружили, что PCA может быть «серьезно смещенным, если структура автокорреляции данных обрабатывается неправильно». ^[28]

PCA и теория информации

Уменьшение размерности приводит к потере информации в целом. Уменьшение размерности на основе PCA имеет тенденцию минимизировать эту потерю информации при определенных моделях сигнала и шума.

При условии, что

\mathbf {x} =\mathbf {s} +\mathbf {n} ,

то есть, что вектор данных представляет собой сумму желаемого информационного сигнала и шумового сигнала, можно показать, что PCA может быть оптимальным для снижения размерности с точки зрения теории информации. $\mathbf {x}$ $\mathbf {s}$ $\mathbf {n}$

В частности, Линскер показал, что если является гауссовым и является гауссовым шумом с ковариационной матрицей, пропорциональной единичной матрице, то PCA максимизирует взаимную информацию между желаемой информацией и выходными данными с уменьшенной размерностью . ^[29] $\mathbf {s}$ $\mathbf {n}$ $I(\mathbf {y} ;\mathbf {s} )$ $\mathbf {s}$ $\mathbf {y} =\mathbf {W} _{L}^{T}\mathbf {x}$

Если шум по-прежнему является гауссовым и имеет ковариационную матрицу, пропорциональную единичной матрице (то есть компоненты вектора являются iid ), но несущий информацию сигнал не является гауссовым (что является распространенным сценарием), PCA по крайней мере минимизирует верхнюю границу потери информации , которая определяется как ^[30]^[31] $\mathbf {n}$ $\mathbf {s}$

I(\mathbf {x} ;\mathbf {s} )-I(\mathbf {y} ;\mathbf {s} ).

Оптимальность PCA также сохраняется, если шум является независимым и, по крайней мере, более гауссовым (в терминах расхождения Кульбака–Лейблера ), чем несущий информацию сигнал . ^[32] В общем случае, даже если приведенная выше модель сигнала верна, PCA теряет свою оптимальность с точки зрения теории информации, как только шум становится зависимым. $\mathbf {n}$ $\mathbf {s}$ $\mathbf {n}$

Расчет с использованием метода ковариации

Ниже приведено подробное описание PCA с использованием метода ковариации ^[33] в отличие от метода корреляции. ^[34]

Цель состоит в том, чтобы преобразовать заданный набор данных X размерности p в альтернативный набор данных Y меньшей размерности L. Эквивалентно, мы пытаемся найти матрицу Y , где Y — это преобразование Карунена–Лоэва (KLT) матрицы X :

$\mathbf {Y} =\mathbb {KLT} \{\mathbf {X} \}$

Организуйте набор данных
Предположим, у вас есть данные, включающие набор наблюдений p переменных, и вы хотите сократить данные так, чтобы каждое наблюдение можно было описать только с помощью L переменных, L < p . Предположим далее, что данные организованы как набор из n векторов данных , каждый из которых представляет собой одно сгруппированное наблюдение p переменных. $\mathbf {x} _{1}\ldots \mathbf {x} _{n}$ $\mathbf {x} _{i}$
- Запишите в виде векторов-строк, каждая из которых содержит p элементов. $\mathbf {x} _{1}\ldots \mathbf {x} _{n}$
- Поместите векторы-строки в одну матрицу X размерностью n × p .
Рассчитайте эмпирическое среднее значение
- Найдите эмпирическое среднее значение по каждому столбцу j = 1, ..., p .
- Поместите рассчитанные средние значения в эмпирический средний вектор u размерностью p × 1. $u_{j}={\frac {1}{n}}\sum _{i=1}^{n}X_{ij}$
Рассчитайте отклонения от среднего значения.
Вычитание среднего является неотъемлемой частью решения по поиску основного компонентного базиса, который минимизирует среднеквадратичную ошибку аппроксимации данных. ^[35] Поэтому мы действуем, центрируя данные следующим образом:
- Вычтите эмпирический средний вектор из каждой строки матрицы данных X. $\mathbf {u} ^{T}$
- Сохраните данные после вычитания среднего в матрице B размером n × p , где h — вектор-столбец размером $n$ $\times 1, состоящий из всех единиц:$ $\mathbf {B} =\mathbf {X} -\mathbf {h} \mathbf {u} ^{T}$ $h_{i}=1\,\qquad \qquad {\text{for }}i=1,\ldots ,n$
В некоторых приложениях каждая переменная (столбец B ) также может быть масштабирована, чтобы иметь дисперсию, равную 1 (см. Z-оценку ). ^[36] Этот шаг влияет на вычисляемые главные компоненты, но делает их независимыми от единиц, используемых для измерения различных переменных.
Найти ковариационную матрицу
- Найдите эмпирическую ковариационную матрицу C размером p × p из матрицы B : где — оператор сопряженного транспонирования . Если B состоит исключительно из действительных чисел, что имеет место во многих приложениях, «сопряженное транспонирование» совпадает с обычным транспонированием . $\mathbf {C} ={1 \over {n-1}}\mathbf {B} ^{*}\mathbf {B}$ $*$
- Причиной использования $n - 1$ вместо n для расчета ковариации является поправка Бесселя .
Найдите собственные векторы и собственные значения ковариационной матрицы.
- Вычислите матрицу V собственных векторов , которая диагонализирует ковариационную матрицу C : где D — диагональная матрица собственных значений C . Этот шаг обычно включает использование компьютерного алгоритма для вычисления собственных векторов и собственных значений . Эти алгоритмы легко доступны в качестве подкомпонентов большинства систем матричной алгебры , таких как SAS , ^[37]R , MATLAB , ^[38]^[39]Mathematica , ^[40]SciPy , IDL ( Interactive Data Language ) или GNU Octave , а также OpenCV . $\mathbf {V} ^{-1}\mathbf {C} \mathbf {V} =\mathbf {D}$
- Матрица D будет иметь вид диагональной матрицы p × p , где — j -е собственное значение ковариационной матрицы C , а $D_{k\ell }=\lambda _{k}\qquad {\text{for }}k=\ell$ $D_{k\ell }=0\qquad {\text{for }}k\neq \ell .$
- Матрица V , также имеющая размерность p × p , содержит p векторов-столбцов, каждый длиной p , которые представляют p собственных векторов ковариационной матрицы C.
- Собственные значения и собственные векторы упорядочены и объединены в пары. j -е собственное значение соответствует j -му собственному вектору.
- Матрица V обозначает матрицу правых собственных векторов (в отличие от левых собственных векторов). В общем случае матрица правых собственных векторов не обязательно должна быть (сопряженной) транспонированной матрицей левых собственных векторов.
Переставьте собственные векторы и собственные значения
- Отсортируйте столбцы матрицы собственных векторов V и матрицы собственных значений D в порядке убывания собственного значения.
- Обязательно соблюдайте правильные пары между столбцами в каждой матрице.
Вычислить кумулятивное содержание энергии для каждого собственного вектора
- Собственные значения представляют распределение энергии исходных данных ^{[ необходимо уточнение ]} среди каждого из собственных векторов, где собственные векторы формируют основу для данных. Кумулятивное содержание энергии g для j- го собственного вектора является суммой содержания энергии по всем собственным значениям от 1 до j : ^{[ необходимо цитирование ]} $g_{j}=\sum _{k=1}^{j}D_{kk}\qquad {\text{for }}j=1,\dots ,p$
Выберите подмножество собственных векторов в качестве базисных векторов.
- Сохраните первые L столбцов V как матрицу W размером p × L : где $W_{kl}=V_{k\ell }\qquad {\text{for }}k=1,\dots ,p\qquad \ell =1,\dots ,L$ $1\leq L\leq p.$
- Используйте вектор g в качестве ориентира при выборе подходящего значения для L. Цель состоит в том, чтобы выбрать значение L как можно меньше, при этом достигая достаточно высокого значения g в процентном отношении. Например, вы можете выбрать L так, чтобы кумулятивная энергия g была выше определенного порога, например 90 процентов. В этом случае выберите наименьшее значение L, такое, что ${\frac {g_{L}}{g_{p}}}\geq 0.9$
Спроецируйте данные на новую основу
- Прогнозируемые точки данных — это строки матрицы. $\mathbf {T} =\mathbf {B} \cdot \mathbf {W}$
То есть первый столбец — это проекция точек данных на первую главную компоненту, второй столбец — это проекция на вторую главную компоненту и т. д. $\mathbf {T}$

Вывод с использованием метода ковариации

Пусть X — d -мерный случайный вектор, выраженный как вектор-столбец. Без потери общности предположим, что X имеет нулевое среднее значение.

Мы хотим найти матрицу ортонормального преобразования P $размером d$ $\times$ $d$ , чтобы PX имел диагональную ковариационную матрицу (то есть PX — это случайный вектор, все отдельные компоненты которого попарно некоррелированы). $(\ast )$

Быстрый расчет, предполагающий единичную доходность: $P$

{\begin{aligned}\operatorname {cov} (PX)&=\operatorname {E} [PX~(PX)^{*}]\\&=\operatorname {E} [PX~X^{*}P^{*}]\\&=P\operatorname {E} [XX^{*}]P^{*}\\&=P\operatorname {cov} (X)P^{-1}\\\end{aligned}}

Следовательно, выполняется тогда и только тогда, когда диагонализируется с помощью . $(\ast )$ $\operatorname {cov} (X)$ $P$

Это очень конструктивно, поскольку cov( X ) гарантированно является неотрицательно определенной матрицей и, таким образом, гарантированно диагонализируется некоторой унитарной матрицей.

Вычисление без ковариации

В практических реализациях, особенно с данными высокой размерности (большие $p$ ), наивный ковариационный метод используется редко, поскольку он неэффективен из-за высоких вычислительных и затрат памяти на явное определение ковариационной матрицы. Ковариационный подход без ковариации избегает $np 2$ операций явного вычисления и хранения ковариационной матрицы $X T X$ , вместо этого используя один из безматричных методов , например, основанный на функции, оценивающей произведение $X T (X r)$ за счет $2 np$ операций.

Итеративное вычисление

Один из способов эффективного вычисления первого главного компонента ^[41] показан в следующем псевдокоде для матрицы данных $X$ с нулевым средним значением, без вычисления ее ковариационной матрицы.

 $r$  = случайный вектор длины $p$ r = r / norm( r )сделать  $c$  раз:  $s = 0$  (вектор длины  $p$  ) для каждой строки x в X  s = s + ( x ⋅ r ) x  λ = r ^Ts  // λ — собственное значение  ошибка = |λ ⋅ r − s |  r = s / norm( s )  выход, если ошибка < допуска
возврат λ, r

Этот алгоритм итерации мощности просто вычисляет вектор $X T (X r)$ , нормализует и помещает результат обратно в $r$ . Собственное значение аппроксимируется $r T (X T X) r$ , что является отношением Рэлея к единичному вектору $r$ для ковариационной матрицы $X T X$ . Если наибольшее сингулярное значение хорошо отделено от следующего по величине, вектор $r$ приближается к первому главному компоненту $X$ в пределах числа итераций $c$ , которое мало по сравнению с $p$ , при общей стоимости $2cnp$ . Сходимость итерации мощности можно ускорить без заметного ущерба для малой стоимости на итерацию, используя более продвинутые методы без матриц , такие как алгоритм Ланцоша или метод локально оптимального блочного предобусловленного сопряженного градиента ( LOBPCG ).

Последующие главные компоненты могут быть вычислены по одному с помощью дефляции или одновременно как блок. В первом подходе неточности в уже вычисленных приближенных главных компонентах аддитивно влияют на точность впоследствии вычисленных главных компонентов, тем самым увеличивая ошибку с каждым новым вычислением. Последний подход в методе блочной мощности заменяет отдельные векторы $r$ и $s$ на блочные векторы, матрицы $R$ и $S.$ Каждый столбец $R$ аппроксимирует один из ведущих главных компонентов, в то время как все столбцы итерируются одновременно. Основным вычислением является оценка продукта $X T (XR)$ . Реализованная, например, в LOBPCG , эффективная блокировка устраняет накопление ошибок, позволяет использовать высокоуровневые функции произведения матриц BLAS и, как правило, приводит к более быстрой сходимости по сравнению с методом одиночного вектора по одному.

Метод NIPALS

Нелинейный итеративный метод частичных наименьших квадратов (NIPALS) — это вариант классической степенной итерации с матричной дефляцией вычитанием, реализованный для вычисления первых нескольких компонентов в анализе главных компонент или частичных наименьших квадратов . Для очень многомерных наборов данных, таких как те, которые генерируются в науках *omics (например, геномика , метаболомика ), обычно необходимо вычислить только первые несколько PC. Алгоритм нелинейных итерационных методов частичных наименьших квадратов (NIPALS) обновляет итерационные приближения к ведущим оценкам и нагрузкам t ₁ и r ₁^T с помощью степенной итерации , умножающейся на каждой итерации на X слева и справа, то есть вычисление ковариационной матрицы избегается, как и в безматричной реализации степенных итераций до $X T X$ на основе функции, оценивающей произведение $X T (X r) = ((X r) T X) T$ .

Дефляция матрицы вычитанием выполняется путем вычитания внешнего произведения t ₁r ₁^T из X, оставляя дефлированную остаточную матрицу, используемую для вычисления последующих ведущих PC. ^[42] Для больших матриц данных или матриц с высокой степенью коллинеарности столбцов NIPALS страдает от потери ортогональности PC из-за ошибок округления точности машины , накопленных в каждой итерации, и дефляции матрицы вычитанием. ^[43] Алгоритм повторной ортогонализации Грама-Шмидта применяется как к оценкам, так и к нагрузкам на каждом шаге итерации, чтобы устранить эту потерю ортогональности. ^[44] Зависимость NIPALS от умножения отдельных векторов не может использовать преимущества высокоуровневого BLAS и приводит к медленной сходимости для кластеризованных ведущих сингулярных значений — оба этих недостатка устраняются в более сложных решателях без матриц, таких как метод локально-оптимального блочного предобусловленного сопряженного градиента ( LOBPCG ).

Онлайн/последовательная оценка

В ситуации «онлайн» или «потоковой передачи», когда данные поступают по частям, а не хранятся в едином пакете, полезно сделать оценку проекции PCA, которая может обновляться последовательно. Это можно сделать эффективно, но для этого требуются другие алгоритмы. ^[45]

Качественные переменные

В PCA часто мы хотим ввести качественные переменные в качестве дополнительных элементов. Например, многие количественные переменные были измерены на растениях. Для этих растений некоторые качественные переменные доступны, например, вид, к которому принадлежит растение. Эти данные были подвергнуты PCA для количественных переменных. При анализе результатов естественно связать главные компоненты с качественными переменными вида . Для этого получены следующие результаты.

Идентификация на факториальных плоскостях различных видов, например, с использованием различных цветов.
Изображение на факториальных плоскостях центров тяжести растений, принадлежащих к одному виду.
Для каждого центра тяжести и каждой оси p-значение позволяет оценить значимость разницы между центром тяжести и началом координат.

Эти результаты являются тем, что называется введением качественной переменной как дополнительного элемента . Эта процедура подробно описана в и Husson, Lê, & Pagès (2009) и Pagès (2013). Немногие программы предлагают эту опцию «автоматическим» способом. Это случай SPAD, который исторически, следуя работе Людовика Лебарта , был первым, кто предложил эту опцию, и пакет R FactoMineR.

Приложения

Интеллект

Самым ранним применением факторного анализа было определение и измерение компонентов человеческого интеллекта. Считалось, что интеллект имеет различные некоррелированные компоненты, такие как пространственный интеллект, вербальный интеллект, индукция, дедукция и т. д., и что оценки по ним могут быть получены с помощью факторного анализа из результатов различных тестов, чтобы дать единый индекс, известный как коэффициент интеллекта (IQ). Пионер статистического психолога Спирмен фактически разработал факторный анализ в 1904 году для своей двухфакторной теории интеллекта, добавив формальную технику к науке психометрии . В 1924 году Терстоун искал 56 факторов интеллекта, разработав понятие умственного возраста. Стандартные тесты IQ сегодня основаны на этой ранней работе. ^[46]

Жилая дифференциация

В 1949 году Шевки и Уильямс представили теорию факторной экологии , которая доминировала в исследованиях дифференциации жилых помещений с 1950-х по 1970-е годы. ^[47] Районы в городе были узнаваемы или могли отличаться друг от друга по различным характеристикам, которые можно было свести к трем с помощью факторного анализа. Они были известны как «социальный ранг» (индекс профессионального статуса), «семейность» или размер семьи и «этническая принадлежность»; Затем кластерный анализ можно было применить для разделения города на кластеры или районы в соответствии со значениями трех ключевых факторных переменных. Вокруг факторной экологии в городской географии возникла обширная литература, но этот подход вышел из моды после 1980 года, поскольку был методологически примитивным и имел мало места в постмодернистских географических парадигмах.

Одной из проблем факторного анализа всегда был поиск убедительных названий для различных искусственных факторов. В 2000 году Флуд возродил подход факторной экологии, чтобы показать, что анализ главных компонентов на самом деле давал содержательные ответы напрямую, не прибегая к ротации факторов. Главные компоненты на самом деле были двойными переменными или теневыми ценами «сил», сближающих или разделяющих людей в городах. Первым компонентом была «доступность», классический компромисс между спросом на поездки и спросом на пространство, вокруг которого базируется классическая городская экономика. Следующими двумя компонентами были «недостаток», который удерживает людей с одинаковым статусом в отдельных районах (опосредованно планированием), и этническая принадлежность, где люди с одинаковым этническим происхождением пытаются совместно проживать. ^[48]

Примерно в то же время Австралийское бюро статистики определило отдельные индексы преимуществ и недостатков, взяв первый главный компонент наборов ключевых переменных, которые считались важными. Эти индексы SEIFA регулярно публикуются для различных юрисдикций и часто используются в пространственном анализе. ^[49]

Индексы развития

PCA может использоваться как формальный метод для разработки индексов. В качестве альтернативы был предложен подтверждающий композитный анализ для разработки и оценки индексов. ^[50]

Индекс развития города был разработан PCA из примерно 200 показателей результатов города в исследовании 254 городов мира в 1996 году. Первый главный компонент был подвергнут итеративной регрессии, добавляя исходные переменные по отдельности до тех пор, пока не было учтено около 90% его вариации. Индекс в конечном итоге использовал около 15 показателей, но был хорошим предиктором гораздо большего количества переменных. Его сравнительное значение очень хорошо согласовывалось с субъективной оценкой состояния каждого города. Коэффициенты по элементам инфраструктуры были примерно пропорциональны средним затратам на предоставление базовых услуг, что говорит о том, что индекс на самом деле был мерой эффективных физических и социальных инвестиций в город.

Индекс развития человеческого потенциала (ИРЧП) на уровне страны от ПРООН , который публикуется с 1990 года и очень широко используется в исследованиях развития, ^[51] имеет очень похожие коэффициенты по аналогичным показателям, что убедительно свидетельствует о том, что изначально он был построен с использованием PCA.

Популяционная генетика

В 1978 году Кавалли-Сфорца и другие стали пионерами использования анализа главных компонент (PCA) для обобщения данных об изменении частот человеческих генов в разных регионах. Компоненты показали отличительные закономерности, включая градиенты и синусоидальные волны. Они интерпретировали эти закономерности как результат определенных древних миграционных событий.

С тех пор PCA повсеместно используется в популяционной генетике, и тысячи статей используют PCA в качестве механизма отображения. Генетика сильно варьируется в зависимости от близости, поэтому первые два главных компонента фактически показывают пространственное распределение и могут использоваться для картирования относительного географического положения различных групп населения, тем самым показывая особей, которые ушли из своих первоначальных мест. ^[52]

PCA в генетике был технически спорным, поскольку метод применялся к дискретным ненормальным переменным и часто к бинарным аллельным маркерам. Отсутствие каких-либо мер стандартной ошибки в PCA также является препятствием для более последовательного использования. В августе 2022 года молекулярный биолог Эран Элхаик опубликовал теоретическую статью в Scientific Reports, в которой анализировал 12 приложений PCA. Он пришел к выводу, что было легко манипулировать методом, который, по его мнению, давал результаты, которые были «ошибочными, противоречивыми и абсурдными». В частности, он утверждал, что результаты, достигнутые в популяционной генетике, характеризовались выборочным подходом и круговыми рассуждениями . ^[53]

Маркетинговые исследования и индексы отношения

Маркетинговые исследования широко используют PCA. Он используется для разработки оценок удовлетворенности клиентов или лояльности клиентов к продуктам, а также с кластеризацией для разработки сегментов рынка, которые могут быть направлены на рекламные кампании, во многом так же, как факторная экология будет определять географические области со схожими характеристиками. ^[54]

PCA быстро преобразует большие объемы данных в меньшие, более простые для усвоения переменные, которые можно быстрее и проще анализировать. В любой потребительской анкете есть ряд вопросов, разработанных для выявления потребительских установок, а главные компоненты ищут скрытые переменные, лежащие в основе этих установок. Например, в Оксфордском интернет-обследовании в 2013 году 2000 человек были опрошены об их установках и убеждениях, и из этих данных аналитики извлекли четыре главных компонента измерений, которые они определили как «побег», «социальные сети», «эффективность» и «создание проблем». ^[55]

Другой пример от Джо Флуда в 2008 году: индекс отношения к жилью был извлечен из 28 вопросов об отношении в национальном опросе 2697 домохозяйств в Австралии. Первый главный компонент представлял общее отношение к собственности и владению домом. Индекс или вопросы отношения, которые он воплощал, могли быть введены в общую линейную модель выбора права собственности. Самым сильным фактором, определяющим частную аренду, был индекс отношения, а не доход, семейное положение или тип домохозяйства. ^[56]

Количественные финансы

В количественной финансах PCA используется ^[57] в управлении финансовыми рисками и применяется к другим проблемам, таким как оптимизация портфеля .

PCA обычно используется в задачах, связанных с ценными бумагами и портфелями с фиксированным доходом , а также производными инструментами по процентным ставкам . Оценки здесь зависят от всей кривой доходности , включающей многочисленные высококоррелированные инструменты, и PCA используется для определения набора компонентов или факторов, которые объясняют движения ставок, ^[58] тем самым облегчая моделирование. Одним из распространенных приложений управления рисками является расчет стоимости под риском , VaR, с применением PCA к моделированию Монте-Карло . ^[59] Здесь для каждой выборки моделирования компоненты подвергаются стрессу, а ставки и, в свою очередь, значения опционов затем реконструируются; с VaR, вычисляемым, наконец, по всему циклу. PCA также используется для хеджирования подверженности риску процентных ставок , учитывая частичные дюрации и другие чувствительности. ^{[58] В}обоих случаях интерес представляют первые три, как правило, главных компонента системы ( представляющие «сдвиг», «поворот» и «кривизну»). Эти главные компоненты выводятся из собственного разложения ковариационной матрицы доходности при предопределенных сроках погашения; ^[60] и где дисперсия каждого компонента является его собственным значением (и поскольку компоненты ортогональны , нет необходимости включать корреляцию в последующее моделирование).

Для акций оптимальным портфелем является тот, в котором ожидаемая доходность максимизирована для заданного уровня риска или, в качестве альтернативы, где риск минимизирован для заданной доходности; см. модель Марковица для обсуждения. Таким образом, один подход заключается в снижении риска портфеля, когда стратегии распределения применяются к «основным портфелям» вместо базовых акций . Второй подход заключается в повышении доходности портфеля, используя основные компоненты для выбора акций компаний с потенциалом роста. ^[61] ^[62] PCA также использовался для понимания взаимосвязей ^[57] между международными рынками акций и внутри рынков между группами компаний в отраслях или секторах .

PCA также может применяться для стресс-тестирования , ^[63] по сути анализа способности банка выдерживать гипотетический неблагоприятный экономический сценарий . Его полезность заключается в «перегонке информации, содержащейся в [нескольких] макроэкономических переменных , в более управляемый набор данных, который затем может [использоваться] для анализа». ^{[63] Здесь полученные факторы связаны, например, с процентными ставками — на основе наибольших элементов}собственного вектора фактора — и затем наблюдается, как «шок» каждого из факторов влияет на подразумеваемые активы каждого из банков.

Нейробиология

Вариант анализа главных компонент используется в нейронауке для определения специфических свойств стимула, который увеличивает вероятность генерации нейроном потенциала действия . ^[64]^[65] Этот метод известен как ковариационный анализ, запускаемый спайком . В типичном приложении экспериментатор представляет процесс белого шума в качестве стимула (обычно либо как сенсорный вход для испытуемого, либо как ток, вводимый непосредственно в нейрон) и записывает последовательность потенциалов действия или спайков, производимых нейроном в результате. Предположительно, определенные особенности стимула делают нейрон более склонным к спайку. Чтобы извлечь эти особенности, экспериментатор вычисляет ковариационную матрицу ансамбля, запускаемого спайком , набора всех стимулов (определенных и дискретизированных в течение конечного временного окна, обычно порядка 100 мс), которые непосредственно предшествовали спайку. Собственные векторы разности между матрицей ковариации, вызванной спайком, и матрицей ковариации ансамбля предшествующих стимулов (набор всех стимулов, определенных в течение того же временного окна) затем указывают направления в пространстве стимулов , вдоль которых дисперсия ансамбля, вызванного спайком, больше всего отличалась от дисперсии ансамбля предшествующих стимулов. В частности, собственные векторы с наибольшими положительными собственными значениями соответствуют направлениям, вдоль которых дисперсия ансамбля, вызванного спайком, показала наибольшее положительное изменение по сравнению с дисперсией предшествующих. Поскольку это были направления, в которых изменение стимула приводило к спайку, они часто являются хорошими приближениями искомых соответствующих признаков стимула.

В нейронауке PCA также используется для различения идентичности нейрона по форме его потенциала действия. Сортировка спайков является важной процедурой, поскольку внеклеточные методы записи часто улавливают сигналы от более чем одного нейрона. При сортировке спайков сначала используется PCA для уменьшения размерности пространства волновых форм потенциала действия, а затем выполняется кластерный анализ для связывания определенных потенциалов действия с отдельными нейронами.

PCA как метод уменьшения размерности особенно подходит для обнаружения скоординированной активности больших нейронных ансамблей. Он использовался для определения коллективных переменных, то есть параметров порядка , во время фазовых переходов в мозге. ^[66]

Связь с другими методами

Анализ корреспонденции

Анализ соответствий (CA) был разработан Жаном-Полем Бензекри ^[67] и концептуально похож на PCA, но масштабирует данные (которые должны быть неотрицательными) так, чтобы строки и столбцы обрабатывались эквивалентно. Он традиционно применяется к таблицам сопряженности . CA разлагает статистику хи-квадрат, связанную с этой таблицей, на ортогональные факторы. ^[68] Поскольку CA является описательным методом, его можно применять к таблицам, для которых статистика хи-квадрат подходит или нет. Доступно несколько вариантов CA, включая анализ соответствий с исключенным трендом и анализ канонических соответствий . Одним из специальных расширений является анализ множественных соответствий , который можно рассматривать как аналог анализа главных компонентов для категориальных данных. ^[69]

Факторный анализ

Анализ главных компонент создает переменные, которые являются линейными комбинациями исходных переменных. Новые переменные обладают тем свойством, что все переменные ортогональны. Преобразование PCA может быть полезным в качестве шага предварительной обработки перед кластеризацией. PCA — это подход, ориентированный на дисперсию, стремящийся воспроизвести общую дисперсию переменной, в которой компоненты отражают как общую, так и уникальную дисперсию переменной. PCA обычно предпочитают для целей сокращения данных (то есть перевода пространства переменных в оптимальное пространство факторов), но не тогда, когда целью является обнаружение скрытой конструкции или факторов.

Факторный анализ похож на анализ главных компонент, в том, что факторный анализ также включает линейные комбинации переменных. В отличие от PCA, факторный анализ является корреляционно-ориентированным подходом, стремящимся воспроизвести интеркорреляции между переменными, в которых факторы «представляют общую дисперсию переменных, исключая уникальную дисперсию». ^[70] С точки зрения корреляционной матрицы это соответствует сосредоточению на объяснении недиагональных членов (то есть общей ковариации), в то время как PCA фокусируется на объяснении членов, которые находятся на диагонали. Однако, как побочный результат, при попытке воспроизвести диагональные члены, PCA также имеет тенденцию относительно хорошо соответствовать недиагональным корреляциям. ^[12]^{: 158} Результаты, полученные с помощью PCA и факторного анализа, очень похожи в большинстве ситуаций, но это не всегда так, и есть некоторые проблемы, когда результаты существенно различаются. Факторный анализ обычно используется, когда целью исследования является обнаружение структуры данных (то есть скрытых конструкций или факторов) или причинно-следственное моделирование . Если факторная модель сформулирована неправильно или предположения не выполняются, то факторный анализ даст ошибочные результаты. ^[71]

К- означает кластеризацию

Было заявлено, что расслабленное решение кластеризации k -средних , заданное кластерными индикаторами, задается главными компонентами, а подпространство PCA, охватываемое главными направлениями, идентично подпространству кластерного центроида. ^[72]^[73] Однако то, что PCA является полезным ослаблением кластеризации $k$ -средних, не было новым результатом, ^[74] и легко обнаружить контрпримеры к утверждению, что подпространство кластерного центроида охватывается главными направлениями. ^[75]

Неотрицательная матричная факторизация

Неотрицательная матричная факторизация (NMF) — это метод уменьшения размерности, в котором используются только неотрицательные элементы в матрицах, что, следовательно, является перспективным методом в астрономии, ^[23]^[24]^[25] в том смысле, что астрофизические сигналы неотрицательны. Компоненты PCA ортогональны друг другу, в то время как все компоненты NMF неотрицательны и, следовательно, создают неортогональный базис.

В PCA вклад каждого компонента ранжируется на основе величины его соответствующего собственного значения, что эквивалентно дробной остаточной дисперсии (FRV) при анализе эмпирических данных. ^[21] Для NMF его компоненты ранжируются только на основе эмпирических кривых FRV. ^[25] Графики остаточных дробных собственных значений, то есть как функция количества компонентов при общем количестве компонентов, для PCA имеют плоское плато, где не собираются никакие данные для удаления квазистатического шума, затем кривые быстро падают, что указывает на переобучение (случайный шум). ^[21] Кривые FRV для NMF непрерывно уменьшаются ^[25], когда компоненты NMF строятся последовательно , ^[24] указывая на непрерывный захват квазистатического шума; затем сходятся к более высоким уровням, чем PCA, ^[25] указывая на меньшее свойство переобучения NMF. $1-\sum _{i=1}^{k}\lambda _{i}{\Big /}\sum _{j=1}^{n}\lambda _{j}$ $k$ $n$

Иконография корреляций

Часто бывает трудно интерпретировать главные компоненты, когда данные включают много переменных различного происхождения или когда некоторые переменные являются качественными. Это приводит пользователя PCA к деликатному исключению нескольких переменных. Если наблюдения или переменные оказывают чрезмерное влияние на направление осей, их следует удалить, а затем спроецировать как дополнительные элементы. Кроме того, необходимо избегать интерпретации близости между точками, близкими к центру факторной плоскости.

Иконография корреляций , напротив, которая не является проекцией на систему осей, лишена этих недостатков. Поэтому мы можем сохранить все переменные.

Принцип построения диаграммы заключается в подчеркивании «замечательных» корреляций корреляционной матрицы сплошной линией (положительная корреляция) или пунктирной линией (отрицательная корреляция).

Сильная корреляция не является «замечательной», если она не прямая, а вызвана влиянием третьей переменной. И наоборот, слабые корреляции могут быть «замечательными». Например, если переменная Y зависит от нескольких независимых переменных, то корреляции Y с каждой из них слабые и все же «замечательные».

Обобщения

Разреженный PCA

Конкретным недостатком PCA является то, что главные компоненты обычно являются линейными комбинациями всех входных переменных. Разреженный PCA преодолевает этот недостаток, находя линейные комбинации, которые содержат всего несколько входных переменных. Он расширяет классический метод анализа главных компонент (PCA) для снижения размерности данных путем добавления ограничения разреженности на входные переменные. Было предложено несколько подходов, включая

регрессионная структура, ^[76]
структура выпуклой релаксации/полуопределенного программирования, ^[77]
обобщенная структура метода мощности ^[78]
структура альтернативной максимизации ^[79]
жадный поиск вперед-назад и точные методы с использованием методов ветвей и границ, ^[80]
Структура байесовской формулировки. ^[81]

Методологические и теоретические разработки Sparse PCA, а также его применение в научных исследованиях были недавно рассмотрены в обзорной статье. ^[82]

Нелинейный PCA

Большинство современных методов нелинейного снижения размерности находят свои теоретические и алгоритмические корни в PCA или K-средних. Первоначальная идея Пирсона состояла в том, чтобы взять прямую линию (или плоскость), которая будет «наилучшим образом соответствовать» набору точек данных. Тревор Хасти расширил эту концепцию, предложив основные кривые^[86] в качестве естественного расширения геометрической интерпретации PCA, которая явно строит многообразие для аппроксимации данных с последующим проектированием точек на него. См. также алгоритм эластичной карты и главный геодезический анализ . ^[87] Другим популярным обобщением является ядро PCA , которое соответствует PCA, выполняемому в воспроизводящем ядре гильбертова пространства, связанного с положительно определенным ядром.

В многолинейном подпространственном обучении [ ^88]^[89]^[90] PCA обобщается до многолинейного PCA (MPCA), который извлекает признаки непосредственно из тензорных представлений. MPCA решается путем итеративного выполнения PCA в каждой моде тензора. MPCA применялся для распознавания лиц, походки и т. д. MPCA далее расширяется до некоррелированного MPCA, неотрицательного MPCA и надежного MPCA.

N -факторный анализ главных компонент может быть выполнен с использованием таких моделей, как разложение Таккера , PARAFAC , многофакторный анализ, анализ коинерции, STATIS и DISTATIS.

Надежный PCA

Хотя PCA находит математически оптимальный метод (например, минимизируя квадратичную ошибку), он по-прежнему чувствителен к выбросам в данных, которые приводят к большим ошибкам, чего метод пытается избежать в первую очередь. Поэтому обычной практикой является удаление выбросов перед вычислением PCA. Однако в некоторых контекстах выбросы может быть трудно идентифицировать. ^[91] Например, в алгоритмах интеллектуального анализа данных , таких как корреляционная кластеризация , назначение точек кластерам и выбросам заранее неизвестно. Недавно предложенное обобщение PCA ^[92], основанное на взвешенном PCA, повышает надежность за счет назначения различных весов объектам данных на основе их оценочной релевантности.

Также были предложены варианты PCA, устойчивые к выбросам, на основе формулировок L1-нормы ( L1-PCA ). ^[6]^[4]

Надежный анализ главных компонент (RPCA) посредством разложения на низкоранговые и разреженные матрицы представляет собой модификацию PCA, которая хорошо работает в отношении сильно искаженных наблюдений. ^[93]^[94]^[95]

Программное обеспечение/исходный код

ALGLIB – библиотека C++ и C#, реализующая PCA и усеченный PCA
Analytica – Встроенная функция EigenDecomp вычисляет главные компоненты.
ELKI – включает PCA для проецирования, включая надежные варианты PCA, а также алгоритмы кластеризации на основе PCA .
Gretl – анализ главных компонент может быть выполнен либо с помощью pcaкоманды, либо с помощью princomp()функции.
Julia – поддерживает PCA с pcaфункцией в пакете MultivariateStats
KNIME – программное обеспечение для компоновки узлов на основе Java для анализа, в котором узлы PCA, PCA compute, PCA Apply, PCA inverse упрощают задачу.
Maple (программное обеспечение) – команда PCA используется для выполнения анализа главных компонент набора данных.
Система Mathematica – реализует анализ главных компонент с помощью команды PrincipalComponents, используя методы ковариации и корреляции.
MathPHP – математическая библиотека PHP с поддержкой PCA.
MATLAB – Функция SVD является частью базовой системы. В Statistics Toolbox функции princompи pca(R2012b) дают главные компоненты, в то время как функция pcaresдает остатки и реконструированную матрицу для аппроксимации PCA низкого ранга.
Matplotlib – библиотека Python имеет пакет PCA в модуле .mlab.
mlpack – Обеспечивает реализацию анализа главных компонент на языке C++ .
mrmath – высокопроизводительная математическая библиотека для Delphi и FreePascal, способная выполнять PCA, включая надежные варианты.
Библиотека NAG – Анализ главных компонент реализован с помощью g03aaпроцедуры (доступной в обеих версиях библиотеки на языке Fortran).
NMath – Собственная числовая библиотека, содержащая PCA для .NET Framework .
GNU Octave – свободная программная вычислительная среда, в основном совместимая с MATLAB, функция princompвозвращает главный компонент.
OpenCV
Oracle Database 12c – Реализуется путем DBMS_DATA_MINING.SVDS_SCORING_MODEуказания значения параметраSVDS_SCORING_PCA
Orange (программное обеспечение) – интегрирует PCA в свою среду визуального программирования. PCA отображает график осыпи (степень объясненной дисперсии), где пользователь может интерактивно выбирать количество главных компонент.
Origin – содержит PCA в версии Pro.
Qlucore – коммерческое программное обеспечение для анализа многомерных данных с мгновенным откликом с использованием PCA.
R – Бесплатный статистический пакет, функции princompи prcompмогут использоваться для анализа главных компонент; prcompиспользует разложение по сингулярным значениям , что обычно обеспечивает лучшую численную точность. Некоторые пакеты, реализующие PCA в R, включают, но не ограничиваются: ade4, vegan, ExPosition, dimRed, и FactoMineR.
SAS – фирменное программное обеспечение; например, см. ^[101]
scikit-learn – библиотека Python для машинного обучения, которая содержит PCA, Probabilistic PCA, Kernel PCA, Sparse PCA и другие методы в модуле декомпозиции.
Scilab – бесплатный кроссплатформенный пакет численных вычислений с открытым исходным кодом, функция princompвычисляет анализ главных компонентов pcaсо стандартизированными переменными.
SPSS – фирменное программное обеспечение, чаще всего используемое социологами для PCA, факторного анализа и связанного с ним кластерного анализа.
Weka – Java-библиотека для машинного обучения, содержащая модули для вычисления главных компонент.

Смотрите также

Анализ соответствий (для таблиц сопряженности)
Анализ множественного соответствия (для качественных переменных)
Факторный анализ смешанных данных (для количественных и качественных переменных)
Каноническая корреляция
Аппроксимация матрицы CUR (может заменить аппроксимацию SVD низкого ранга)
Анализ корреспонденции с исключенным трендом
Анализ направленных компонентов
Динамическая модовая декомпозиция
Eigenface
Алгоритм максимизации ожидания
Исследовательский факторный анализ (Викиверситет)
Факториальный код
Функциональный анализ главных компонент
Анализ геометрических данных
Независимый компонентный анализ
Ядро PCA
Анализ главных компонент L1-нормы
Низкоранговое приближение
Матричное разложение
Неотрицательная матричная факторизация
Нелинейное уменьшение размерности
Правило Оджи
Модель распределения точек (PCA, применяемая к морфометрии и компьютерному зрению)
Анализ главных компонент (Wikibooks)
Регрессия главных компонентов
Анализ сингулярного спектра
Разложение по сингулярным значениям
Разреженный PCA
Преобразование кодирования
Взвешенные наименьшие квадраты

Ссылки

^ Джоллифф, Ян Т.; Кадима, Хорхе (2016-04-13). "Анализ главных компонент: обзор и последние разработки". Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences . 374 (2065): 20150202. Bibcode :2016RSPTA.37450202J. doi :10.1098/rsta.2015.0202. PMC 4792409 . PMID 26953178.
^ Барнетт, Т. П. и Р. Прайзендорфер. (1987). "Истоки и уровни точности месячных и сезонных прогнозов температуры воздуха у поверхности США, определенные с помощью канонического корреляционного анализа". Monthly Weather Review . 115 (9): 1825. Bibcode : 1987MWRv..115.1825B. doi : 10.1175/1520-0493(1987)115<1825:oaloma>2.0.co;2 .
^ Хсу, Дэниел; Какаде, Шам М.; Чжан, Тонг (2008). Спектральный алгоритм для обучения скрытых марковских моделей . arXiv : 0811.4413 . Bibcode : 2008arXiv0811.4413H.
^ ab Markopoulos, Panos P.; Kundu, Sandipan; Chamadia, Shubham; Pados, Dimitris A. (15 августа 2017 г.). «Эффективный анализ главных компонент L1-нормы с помощью инвертирования битов». IEEE Transactions on Signal Processing . 65 (16): 4252–4264. arXiv : 1610.01959 . Bibcode : 2017ITSP...65.4252M. doi : 10.1109/TSP.2017.2708023. S2CID 7931130.
^ ab Chachlakis, Dimitris G.; Prater-Bennette, Ashley; Markopoulos, Panos P. (22 ноября 2019 г.). «L1-норма разложения тензора Такера». IEEE Access . 7 : 178454–178465. arXiv : 1904.06455 . doi : 10.1109/ACCESS.2019.2955134 .
^ ab Markopoulos, Panos P.; Karystinos, George N.; Pados, Dimitris A. (октябрь 2014 г.). «Оптимальные алгоритмы обработки сигналов в подпространстве L1». IEEE Transactions on Signal Processing . 62 (19): 5046–5058. arXiv : 1405.6785 . Bibcode : 2014ITSP...62.5046M. doi : 10.1109/TSP.2014.2338077. S2CID 1494171.
^ Zhan, J.; Vaswani, N. (2015). «Надежный PCA с частичным знанием подпространства». IEEE Transactions on Signal Processing . 63 (13): 3332–3347. arXiv : 1403.1591 . Bibcode : 2015ITSP...63.3332Z. doi : 10.1109/tsp.2015.2421485. S2CID 1516440.
^ Канаде, Т.; Ке, Кифа (июнь 2005 г.). «Надежная факторизация L₁-нормы при наличии выбросов и пропущенных данных с помощью альтернативного выпуклого программирования». Конференция компьютерного общества IEEE 2005 г. по компьютерному зрению и распознаванию образов (CVPR'05) . Том 1. IEEE. стр. 739–746. CiteSeerX 10.1.1.63.4605 . doi :10.1109/CVPR.2005.309. ISBN 978-0-7695-2372-9. S2CID 17144854.
^ Пирсон, К. (1901). «О линиях и плоскостях, наиболее близких к системам точек в пространстве». Philosophical Magazine . 2 (11): 559–572. doi :10.1080/14786440109462720. S2CID 125037489.
^ Хотеллинг, Х. (1933). Анализ комплекса статистических переменных на главные компоненты. Журнал педагогической психологии , 24 , 417–441 и 498–520. Хотеллинг, Х. (1936). «Связи между двумя наборами переменных». Biometrika . 28 (3/4): 321–377. doi :10.2307/2333955. JSTOR 2333955.
^ Стюарт, GW (1993). «О ранней истории разложения по сингулярным значениям». SIAM Review . 35 (4): 551–566. doi :10.1137/1035134. hdl : 1903/566 .
^ abcde Jolliffe, IT (2002). Анализ главных компонент. Springer Series in Statistics. Нью-Йорк: Springer-Verlag. doi :10.1007/b98835. ISBN 978-0-387-95442-4.
^ Bengio, Y.; et al. (2013). «Обучение представлениям: обзор и новые перспективы». Труды IEEE по анализу шаблонов и машинному интеллекту . 35 (8): 1798–1828. arXiv : 1206.5538 . doi : 10.1109/TPAMI.2013.50. PMID 23787338. S2CID 393948.
^ Форкман Дж., Джоссе Дж., Пьефо, Х. П. (2019). «Проверка гипотез для анализа главных компонент, когда переменные стандартизированы». Журнал сельскохозяйственной, биологической и экологической статистики . 24 (2): 289–308. doi : 10.1007/s13253-019-00355-5 .{{cite journal}}: CS1 maint: multiple names: authors list (link)
^ Бойд, Стивен; Ванденберг, Ливен (2004-03-08). Выпуклая оптимизация. Cambridge University Press. doi :10.1017/cbo9780511804441. ISBN 978-0-521-83378-3.
^ AA Miranda, YA Le Borgne и G. Bontempi. Новые пути от минимальной ошибки аппроксимации к главным компонентам, том 27, номер 3 / июнь 2008 г., Neural Processing Letters, Springer
^ Фукунага, Кейносукэ (1990). Введение в статистическое распознавание образов. Elsevier. ISBN 978-0-12-269851-4.
^ Ализаде, Элахех; Лайонс, Саманта М; Касл, Джордан М; Прасад, Ашок (2016). «Измерение систематических изменений в форме инвазивных раковых клеток с использованием моментов Цернике». Интегративная биология . 8 (11): 1183–1193. doi :10.1039/C6IB00100A. PMID 27735002.
^ Лезник, М.; Тофаллис, К. 2005 Оценка инвариантных главных компонент с использованием диагональной регрессии.
^ Джонатан Шленс, Учебник по анализу главных компонент.
^ abc Суммер, Реми; Пуэйо, Лоран; Ларкин, Джеймс (2012). «Обнаружение и характеристика экзопланет и дисков с использованием проекций на собственные изображения Карунена-Лоэва». The Astrophysical Journal Letters . 755 (2): L28. arXiv : 1207.4197 . Bibcode : 2012ApJ...755L..28S. doi : 10.1088/2041-8205/755/2/L28. S2CID 51088743.
^ Пуэйо, Лоран (2016). «Обнаружение и характеристика экзопланет с использованием проекций на собственные изображения Карунена-Лёве: прямое моделирование». The Astrophysical Journal . 824 (2): 117. arXiv : 1604.06097 . Bibcode :2016ApJ...824..117P. doi : 10.3847/0004-637X/824/2/117 . S2CID 118349503.
^ ab Blanton, Michael R.; Roweis, Sam (2007). «K-коррекции и преобразования фильтров в ультрафиолетовом, оптическом и ближнем инфракрасном диапазонах». The Astronomical Journal . 133 (2): 734–754. arXiv : astro-ph/0606170 . Bibcode : 2007AJ....133..734B. doi : 10.1086/510127. S2CID 18561804.
^ abc Zhu, Guangtun B. (2016-12-19). «Неотрицательная матричная факторизация (NMF) с гетероскедастическими неопределенностями и пропущенными данными». arXiv : 1612.06037 [astro-ph.IM].
^ abcdef Ren, Bin; Pueyo, Laurent; Zhu, Guangtun B.; Duchêne, Gaspard (2018). «Неотрицательная матричная факторизация: надежное извлечение расширенных структур». The Astrophysical Journal . 852 (2): 104. arXiv : 1712.10317 . Bibcode :2018ApJ...852..104R. doi : 10.3847/1538-4357/aaa1f2 . S2CID 3966513.
^ «Каковы плюсы и минусы PCA?». i2tutorials . 1 сентября 2019 г. Получено 4 июня 2021 г.
^ Эбботт, Дин (май 2014). Прикладная предиктивная аналитика . Wiley. ISBN 9781118727966.
^ ab Jiang, Hong; Eskridge, Kent M. (2000). «Смещение в анализе главных компонентов из-за коррелированных наблюдений». Конференция по прикладной статистике в сельском хозяйстве . doi : 10.4148/2475-7772.1247 . ISSN 2475-7772.
^ Линскер, Ральф (март 1988). «Самоорганизация в перцептивной сети». IEEE Computer . 21 (3): 105–117. doi :10.1109/2.36. S2CID 1527671.
^ Деко и Обрадович (1996). Информационно-теоретический подход к нейронным вычислениям. Нью-Йорк, Нью-Йорк: Springer. ISBN 9781461240167.
^ Пламбли, Марк (1991). Теория информации и неконтролируемые нейронные сети .Техническая заметка
^ Гейгер, Бернхард; Кубин, Гернот (январь 2013 г.). «Усиление сигнала как минимизация потери релевантной информации». Труды ITG Conf. On Systems, Communication and Coding . arXiv : 1205.6935 . Bibcode : 2012arXiv1205.6935G.
^ Смотрите также руководство здесь
^ "Справочник по инженерной статистике, раздел 6.5.5.2" . Получено 19 января 2015 г.
^ AA Miranda, Y.-A. Le Borgne и G. Bontempi. Новые пути от минимальной погрешности аппроксимации к главным компонентам, том 27, номер 3 / июнь 2008 г., Neural Processing Letters, Springer
^ Abdi. H. & Williams, LJ (2010). «Анализ главных компонент». Wiley Interdisciplinary Reviews: Computational Statistics . 2 (4): 433–459. arXiv : 1108.4372 . doi : 10.1002/wics.101. S2CID 122379222.
^ «Руководство пользователя SAS/STAT(R) 9.3».
^ Функция eig Документация Matlab
^ "Система распознавания лиц на основе PCA". www.mathworks.com . 19 июня 2023 г.
^ Функция собственных значений Документация Mathematica
^ Роуис, Сэм. «Алгоритмы EM для PCA и SPCA». Достижения в области нейронных систем обработки информации. Ред. Майкл И. Джордан, Майкл Дж. Кернс и Сара А. Солла. Издательство MIT, 1998.
^ Гелади, Пол; Ковальски, Брюс (1986). «Частичная регрессия наименьших квадратов: Учебное пособие». Analytica Chimica Acta . 185 : 1–17. doi :10.1016/0003-2670(86)80028-9.
^ Крамер, Р. (1998). Хемометрические методы количественного анализа. Нью-Йорк: CRC Press. ISBN 9780203909805.
^ Андрекат, М. (2009). «Реализация итеративных алгоритмов PCA на параллельном GPU». Журнал вычислительной биологии . 16 (11): 1593–1599. arXiv : 0811.1081 . doi : 10.1089/cmb.2008.0221. PMID 19772385. S2CID 1362603.
^ Warmuth, MK; Kuzmin, D. (2008). «Рандомизированные онлайн-алгоритмы PCA с границами сожаления, логарифмическими по размерности» (PDF) . Журнал исследований машинного обучения . 9 : 2287–2320.
^ Каплан, Р. М. и Саккуццо, Д. П. (2010). Психологическое тестирование: принципы, применение и проблемы. (8-е изд.). Белмонт, Калифорния: Уодсворт, Cengage Learning.
^ Шевки, Эшреф; Уильямс, Мэрилин (1949). Социальные районы Лос-Анджелеса: анализ и типология . Издательство Калифорнийского университета.
^ Flood, J (2000). Sydney divided: factorial ecology revisited. Доклад на конференции APA 2000, Мельбурн, ноябрь и на 24-й конференции ANZRSAI, Хобарт, декабрь 2000.[1]
^ "Социально-экономические индексы для территорий". Австралийское бюро статистики . 2011. Получено 2022-05-05 .
^ Шамбергер, Тамара; Шуберт, Флориан; Хенселер, Йорг. «Подтверждающий композитный анализ в исследованиях человеческого развития». Международный журнал поведенческого развития . 47 (1): 88–100. дои : 10.1177/01650254221117506. hdl : 10362/143639 .
^ Отчеты о развитии человека. "Индекс развития человека". Программа развития Организации Объединенных Наций . Получено 2022-05-06 .
^ Новембре, Джон; Стивенс, Мэтью (2008). «Интерпретация анализа главных компонент пространственной популяционной генетической изменчивости». Nat Genet . 40 (5): 646–49. doi :10.1038/ng.139. PMC 3989108 . PMID 18425127.
^ Elhaik, Eran (2022). «Результаты, основанные на анализе главных компонентов (PCA) в популяционных генетических исследованиях, являются крайне предвзятыми и должны быть переоценены». Scientific Reports . 12 (1). 14683. Bibcode :2022NatSR..1214683E. doi : 10.1038/s41598-022-14395-4 . PMC 9424212 . PMID 36038559. S2CID 251932226.
^ ДеСарбо, Уэйн; Хаусманн, Роберт; Кукиц, Джеффри (2007). «Анализ ограниченных главных компонент для маркетинговых исследований». Журнал маркетинга в менеджменте . 2 : 305–328 – через Researchgate.
^ Даттон, Уильям Х.; Бланк, Грант (2013). Культуры Интернета: Интернет в Британии (PDF) . Оксфордский институт Интернета. стр. 6.
^ Флуд, Джо (2008). «Мультиномиальный анализ для обследования карьеры в сфере жилья». Доклад на конференции Европейской сети исследований в сфере жилья, Дублин . Получено 6 мая 2022 г.
^ ab См. гл. 9 в Michael B. Miller (2013). Математика и статистика для управления финансовыми рисками , 2-е издание. Wiley ISBN 978-1-118-75029-2
^ ab §9.7 в John Hull (2018). Управление рисками и финансовые институты, 5-е издание. Wiley. ISBN 1119448115
^ §III.A.3.7.2 в Кэрол Александер и Элизабет Шиди, ред. (2004). Справочник профессионального риск-менеджера . PRMIA . ISBN 978-0976609704
^ пример разложения, Джон Халл
^ Либин Янг. Применение анализа главных компонент к управлению портфелем акций. Кафедра экономики и финансов, Университет Кентербери , январь 2015 г.
^ Джорджия Пазини (2017); Анализ главных компонентов для управления портфелем акций. Международный журнал чистой и прикладной математики . Том 115 № 1 2017, 153–167
^ ab См. гл. 25 § "Тестирование сценариев с использованием анализа главных компонент" в Li Ong (2014). "Руководство по методам и моделям стресс-тестирования МВФ", Международный валютный фонд
^ Чапин, Джон; Николелис, Мигель (1999). «Анализ главных компонентов активности нейронного ансамбля выявляет многомерные соматосенсорные представления». Журнал методов нейронауки . 94 (1): 121–140. doi :10.1016/S0165-0270(99)00130-2. PMID 10638820. S2CID 17786731.
^ Бреннер Н., Бялек В. и де Рюйтер ван Стивенинк Р.Р. (2000).
^ Джирса, Виктор; Фридрих, Р.; Хакен, Герман; Келсо, Скотт (1994). «Теоретическая модель фазовых переходов в человеческом мозге». Биологическая кибернетика . 71 (1): 27–35. doi :10.1007/bf00198909. PMID 8054384. S2CID 5155075.
^ Бензекри, Ж.-П. (1973). L'Analyse des Données. Том II. L'Анализ соответствий . Париж, Франция: Дюно.
^ Гринакр, Майкл (1983). Теория и применение анализа соответствий . Лондон: Academic Press. ISBN 978-0-12-299050-2.
^ Le Roux; Brigitte и Henry Rouanet (2004). Геометрический анализ данных, от анализа соответствий к структурированному анализу данных. Дордрехт: Kluwer. ISBN 9781402022357.
^ Тимоти А. Браун. Подтверждающий факторный анализ для прикладной исследовательской методологии в социальных науках. Guilford Press, 2006
^ Меглен, RR (1991). «Исследование больших баз данных: хемометрический подход с использованием анализа главных компонент». Журнал хемометрии . 5 (3): 163–179. doi :10.1002/cem.1180050305. S2CID 120886184.
^ H. Zha; C. Ding; M. Gu; X. He; HD Simon (декабрь 2001 г.). «Спектральная релаксация для кластеризации методом K-средних» (PDF) . Neural Information Processing Systems Vol.14 (NIPS 2001) : 1057–1064.
^ Крис Дин; Сяофэн Хэ (июль 2004 г.). «Кластеризация методом k-средних с помощью анализа главных компонент» (PDF) . Proc. Of Int'l Conf. Machine Learning (ICML 2004) : 225–232.
^ Дринеас, П.; А. Фриз; Р. Каннан; С. Вемпала; В. Винай (2004). «Кластеризация больших графов с помощью сингулярного разложения» (PDF) . Машинное обучение . 56 (1–3): 9–33. doi : 10.1023/b:mach.0000033113.59016.96 . S2CID 5892850 . Получено 2012-08-02 .
^ Коэн, М.; С. Элдер; К. Муско; К. Муско; М. Персу (2014). Снижение размерности для кластеризации k-средних и аппроксимации низкого ранга (Приложение B) . arXiv : 1410.6801 . Bibcode :2014arXiv1410.6801C.
^ Хуэй Цзоу; Тревор Хасти; Роберт Тибширани (2006). "Анализ разреженных главных компонент" (PDF) . Журнал вычислительной и графической статистики . 15 (2): 262–286. CiteSeerX 10.1.1.62.580 . doi :10.1198/106186006x113430. S2CID 5730904.
^ Александр д'Аспремон; Лоран Эль Гауи; Майкл И. Джордан; Герт Р. Г. Ланкриет (2007). «Прямая формулировка для разреженного PCA с использованием полуопределенного программирования» (PDF) . Обзор SIAM . 49 (3): 434–448. arXiv : cs/0406021 . doi :10.1137/050645506. S2CID 5490061.
^ Мишель Журне; Юрий Нестеров; Питер Ричтарик; Родольф Сепульшр (2010). «Обобщенный метод мощности для анализа разреженных главных компонент» (PDF) . Журнал исследований машинного обучения . 11 : 517–553. arXiv : 0811.4724 . Bibcode : 2008arXiv0811.4724J. Документ для обсуждения CORE 2008/70.
^ Питер Ричтарик; Мартин Такач; С. Дамла Ахипасаоглу (2012). «Альтернативная максимизация: унифицированная структура для 8 разреженных формулировок PCA и эффективных параллельных кодов». arXiv : 1212.4137 [stat.ML].
^ Baback Moghaddam; Yair Weiss; Shai Avidan (2005). "Спектральные границы для разреженного PCA: точные и жадные алгоритмы" (PDF) . Достижения в области нейронных систем обработки информации . Том 18. MIT Press.
^ Юэ Гуан; Дженнифер Дай (2009). "Разреженный вероятностный компонентный анализ" (PDF) . Журнал исследований машинного обучения. Семинар и материалы конференции . 5 : 185.
^ Хуэй Цзоу; Линчжоу Сюэ (2018). «Избирательный обзор анализа разреженных главных компонент». Труды IEEE . 106 (8): 1311–1320. doi : 10.1109/JPROC.2018.2846588 .
^ AN Gorban , AY Zinovyev, «Основные графы и многообразия», В: Справочник по исследованиям в области приложений и тенденций машинного обучения: алгоритмы, методы и приемы , под ред. Olivas ES et al. Information Science Reference, IGI Global: Hershey, PA, USA, 2009. 28–59.
^ Ван, Ю.; Клин, Дж.Г.; Чжан, Ю.; Сьювертс, AM; Смотри, депутат; Ян, Ф.; Талантов Д.; Тиммерманс, М.; Мейер-ван Гелдер, Мэн; Ю, Дж.; и др. (2005). «Профили экспрессии генов для прогнозирования отдаленных метастазов первичного рака молочной железы с отрицательным поражением лимфатических узлов». Ланцет . 365 (9460): 671–679. дои : 10.1016/S0140-6736(05)17947-1. PMID 15721472. S2CID 16358549.Данные онлайн
^ Зиновьев, А. «ViDaExpert – инструмент визуализации многомерных данных». Институт Кюри . Париж.(бесплатно для некоммерческого использования)
^ Hastie, T. ; Stuetzle, W. (июнь 1989 г.). "Главные кривые" (PDF) . Журнал Американской статистической ассоциации . 84 (406): 502–506. doi :10.1080/01621459.1989.10478797.
^ А. Н. Горбань, Б. Кегл, Д. К. Вунш, А. Зиновьев (ред.), Главные многообразия для визуализации данных и снижения размерности, LNCSE 58, Springer, Берлин – Гейдельберг – Нью-Йорк, 2007. ISBN 978-3-540-73749-0
^ Василеску, МАО; Терзопулос, Д. (2003). Мультилинейный подпространственный анализ ансамблей изображений (PDF) . Труды конференции IEEE по компьютерному зрению и распознаванию образов (CVPR'03). Мэдисон, Висконсин.
^ Василеску, МАО; Терзопулос, Д. (2002). Мультилинейный анализ ансамблей изображений: TensorFaces (PDF) . Lecture Notes in Computer Science 2350; (Представлено на Proc. 7th European Conference on Computer Vision (ECCV'02), Копенгаген, Дания). Springer, Берлин, Гейдельберг. doi :10.1007/3-540-47969-4_30. ISBN 978-3-540-43745-1.
^ Василеску, МАО; Терзопулос, Д. (июнь 2005 г.). Многолинейный независимый компонентный анализ (PDF) . Труды конференции IEEE по компьютерному зрению и распознаванию образов (CVPR'05). Том 1. Сан-Диего, Калифорния. С. 547–553.
^ Кирилл Симонов, Федор В. Фомин, Петр А. Головач, Фахад Панолан (9–15 июня 2019 г.). «Усовершенствованная сложность PCA с выбросами». В Камалике Чаудхури, Руслане Салахутдинове (ред.). Труды 36-й Международной конференции по машинному обучению (ICML 2019) . Том 97. Лонг-Бич, Калифорния, США: PMLR. С. 5818–5826.{{cite conference}}: CS1 maint: multiple names: authors list (link)
^ Кригель, HP; Крёгер, П.; Шуберт, Э.; Зимек, А. (2008). «Общая структура для повышения надежности алгоритмов кластеризации корреляции на основе PCA». Управление научными и статистическими базами данных . Конспект лекций по информатике. Том 5069. С. 418–435. CiteSeerX 10.1.1.144.4864 . doi :10.1007/978-3-540-69497-7_27. ISBN 978-3-540-69476-2.
^ Эммануэль Дж. Кандес; Сяодун Ли; Йи Ма; Джон Райт (2011). «Надежный анализ главных компонент?». Журнал ACM . 58 (3): 11. arXiv : 0912.3599 . doi : 10.1145/1970392.1970395. S2CID 7128002.
^ T. Bouwmans; E. Zahzah (2014). «Надежный PCA с помощью преследования главных компонент: обзор сравнительной оценки в видеонаблюдении». Computer Vision and Image Understanding . 122 : 22–34. doi :10.1016/j.cviu.2013.11.009.
^ T. Bouwmans; A. Sobral; S. Javed; S. Jung; E. Zahzah (2015). «Разложение на низкоранговые плюс аддитивные матрицы для разделения фона/переднего плана: обзор сравнительной оценки с крупномасштабным набором данных». Computer Science Review . 23 : 1–71. arXiv : 1511.01245 . Bibcode : 2015arXiv151101245B. doi : 10.1016/j.cosrev.2016.11.001. S2CID 10420698.
^ Liao, JC; Boscolo, R.; Yang, Y.-L.; Tran, LM; Sabatti, C. ; Roychowdhury, VP (2003). "Анализ сетевых компонентов: реконструкция регуляторных сигналов в биологических системах". Труды Национальной академии наук . 100 (26): 15522–15527. Bibcode : 2003PNAS..10015522L. doi : 10.1073/pnas.2136632100 . PMC 307600. PMID 14673099 .
^ Ляо, Т.; Жомбарт, С.; Девийяр, Ф.; Баллу (2010). «Дискриминантный анализ главных компонентов: новый метод анализа генетически структурированных популяций». BMC Genetics . 11 : 11:94. doi : 10.1186/1471-2156-11-94 . PMC 2973851 . PMID 20950446.
^ Джуисон, С. (2020). «Альтернатива PCA для оценки доминирующих моделей изменчивости климата и экстремальных явлений с применением к сезонным осадкам в США и Китае». Атмосфера . 11 (4): 354. Bibcode : 2020Atmos..11..354J. doi : 10.3390/atmos11040354 .
^ Scher, S.; Jewishon, S.; Messori, G. (2021). «Надежные сценарии наихудшего случая из ансамблевых прогнозов». Погода и прогнозирование . 36 (4): 1357–1373. Bibcode : 2021WtFor..36.1357S. doi : 10.1175/WAF-D-20-0219.1 . S2CID 236300040.
^ Джуисон, С.; Мессори, Г.; Барбато, Г.; Меркольяно, П.; Мисяк, Дж.; Сасси, М. (2022). «Разработка репрезентативных сценариев воздействия на основе ансамблей климатических проекций с применением к осадкам UKCP18 и EURO-CORDEX». Журнал достижений в моделировании земных систем . 15 (1). doi : 10.1029/2022MS003038 . S2CID 254965361.
^ "Анализ главных компонентов". Институт цифровых исследований и образования . Калифорнийский университет в Лос-Анджелесе . Получено 29 мая 2018 г.

Дальнейшее чтение

Джексон, Дж. Э. (1991). Руководство пользователя по основным компонентам (Wiley).
Jolliffe, IT (1986). Анализ главных компонент . Springer Series in Statistics. Springer-Verlag. стр. 487. CiteSeerX 10.1.1.149.8828 . doi :10.1007/b98835. ISBN 978-0-387-95442-4.
Jolliffe, IT (2002). Анализ главных компонент. Springer Series in Statistics. Нью-Йорк: Springer-Verlag. doi :10.1007/b98835. ISBN 978-0-387-95442-4.
Юссон Франсуа, Ле Себастьян и Паж Жером (2009). Исследовательский многомерный анализ на примере использования R. Чепмен и Холл/CRC The R Series, Лондон. 224стр. ISBN 978-2-7535-0938-2
Пажес Жером (2014). Многофакторный анализ на примере с использованием R. Chapman & Hall/CRC The R Series London 272 стр.

Внешние ссылки

На Викискладе есть медиафайлы по теме «Анализ главных компонент» .

Видео Копенгагенского университета от Расмуса Бро на YouTube
Видео Стэнфордского университета Эндрю Нга на YouTube
Учебное пособие по анализу главных компонент
Введение в метод главных компонент для неспециалистов на YouTube (видео продолжительностью менее 100 секунд).
StatQuest: StatQuest: Анализ главных компонент (PCA), пошаговое руководство на YouTube
См. также список реализаций программного обеспечения.