Многофакторный анализ (МФА) — это факторный метод [1], посвященный изучению таблиц, в которых группа лиц описывается набором переменных (количественных и/или качественных), структурированных в группы. Это многомерный метод из области ординации, используемый для упрощения многомерных структур данных . МФА обрабатывает все задействованные таблицы одинаково (симметричный анализ). Его можно рассматривать как расширение:
Зачем вводить несколько активных групп переменных в один и тот же факторный анализ?
данные
Рассмотрим случай количественных переменных, то есть в рамках PCA. Пример данных из экологических исследований дает полезную иллюстрацию. Для 72 станций имеются два типа измерений:
Возможны три варианта анализа:
Третий анализ вводного примера неявно предполагает баланс между флорой и почвой. Однако в этом примере тот простой факт, что флора представлена 50 переменными, а почва — 11 переменными, подразумевает, что PCA с 61 активной переменной будет в основном зависеть от флоры (по крайней мере, на первой оси). Это нежелательно: нет причин желать, чтобы одна группа играла более важную роль в анализе.
Ядро MFA основано на факторном анализе (PCA в случае количественных переменных, MCA в случае качественных переменных), в котором переменные взвешиваются. Эти веса идентичны для переменных одной и той же группы (и различаются от одной группы к другой). Они таковы, что максимальная осевая инерция группы равна 1: другими словами, применяя PCA (или, где применимо, MCA) к одной группе с этим взвешиванием, мы получаем первое собственное значение, равное 1. Чтобы получить это свойство, MFA назначает каждой переменной группы вес, равный обратной величине первого собственного значения анализа (PCA или MCA в зависимости от типа переменной) группы .
Формально, отмечая первое собственное значение факторного анализа одной группы , МФА присваивает вес каждой переменной группы .
Балансировка максимальной осевой инерции, а не полной инерции (= число переменных в стандартном PCA) дает MFA несколько важных свойств для пользователя. Более непосредственно его интерес проявляется в следующем примере.
Пусть две группы переменных определены для одного и того же набора индивидуумов.
Этот пример не совсем нереалистичен. Часто необходимо одновременно анализировать многомерные и (довольно) одномерные группы.
Каждая группа с одинаковым числом переменных имеет одинаковую общую инерцию.
В этом примере первая ось PCA почти совпадает с C. Действительно, в пространстве переменных имеются две переменные в направлении C: группа 2, вся инерция которой сосредоточена в одном направлении, влияет преимущественно на первую ось. Со своей стороны, группа 1, состоящая из двух ортогональных переменных (= некоррелированных), имеет свою инерцию, равномерно распределенную в плоскости (плоскость, образованная двумя переменными) и почти не давит на первую ось.
Числовой пример
В таблице 2 суммированы значения инерции первых двух осей PCA и MFA, примененные к таблице 1.
Переменные группы 2 вносят вклад в 88,95% инерции оси 1 PCA. Первая ось ( ) почти совпадает с C: корреляция между C и составляет .976;
Первая ось МФА (по данным табл. 1) показывает баланс между двумя группами переменных: вклад каждой группы в инерционность этой оси строго равен 50%.
Вторая ось, между тем, зависит только от группы 1. Это естественно, поскольку эта группа является двумерной, в то время как вторая группа, будучи одномерной, может быть тесно связана только с одной осью (в данном случае с первой осью).
Введение нескольких активных групп переменных в факторный анализ неявно предполагает баланс между этими группами.
Этот баланс должен учитывать, что многомерная группа естественным образом влияет на большее количество осей, чем одномерная группа (которая может быть не тесно связана с одной осью).
Эту роль играет взвешивание MFA, которое делает максимальную осевую инерцию каждой группы равной 1.
Анкеты опросов всегда структурированы в соответствии с различными темами. Каждая тема представляет собой группу переменных, например, вопросы о мнениях и вопросы о поведении. Таким образом, в этом примере мы можем захотеть провести факторный анализ, в котором два человека близки, если они оба выразили одинаковые мнения и одинаковое поведение.
Сенсорный анализ Один и тот же набор продуктов был оценен группой экспертов и группой потребителей. Для своей оценки каждое жюри использует список дескрипторов (кислый, горький и т. д.). Каждый судья оценивает каждый дескриптор для каждого продукта по шкале интенсивности, например, от 0 = ноль или очень низкий до 10 = очень сильный. В таблице, связанной с жюри, на пересечении строки и столбца находится средний балл, присвоенный продукту для дескриптора .
Индивидуумы — это продукты. Каждое жюри — это группа переменных. Мы хотим добиться факторного анализа, в котором два продукта были бы схожи, если бы они были оценены одинаково обоими жюри.
Многомерные переменные временных рядов измеряются на отдельных лицах. Эти измерения производятся в определенные даты. Существует много способов анализа такого набора данных. Один из способов, предложенных MFA, заключается в том, чтобы рассматривать каждый день как группу переменных в анализе таблиц (каждая таблица соответствует одной дате), сопоставленных по строкам (таким образом, анализируемая таблица имеет строки и x столбцов).
Заключение : Эти примеры показывают, что на практике переменные очень часто организованы в группы.
Помимо взвешивания переменных, интерес к МФА заключается в ряде графиков и индикаторов, ценных при анализе таблицы, столбцы которой организованы в группы.
Основой MFA является взвешенный факторный анализ: MFA в первую очередь предоставляет классические результаты факторного анализа.
1. Представления индивидуумов, в которых два индивидуума близки друг к другу, если они демонстрируют схожие значения для многих переменных в различных группах переменных; на практике пользователь в частности изучает первую факторную плоскость.
2. Представления количественных переменных , как в PCA (корреляционный круг).
В примере:
3. Индикаторы, помогающие интерпретации : прогнозируемая инерция, вклады и качество представления. В примере вклад индивидов 1 и 5 в инерцию первой оси составляет 45,7% + 31,5% = 77,2%, что оправдывает интерпретацию, сосредоточенную на этих двух точках.
4. Представления категорий качественных переменных, как в MCA (категория лежит в центре масс индивидов, которые ею обладают). В примере нет качественных переменных.
5. Наложенные представления индивидов, «видимых» каждой группой. Индивид, рассматриваемый с точки зрения одной группы, называется частичным индивидом (параллельно, индивид, рассматриваемый с точки зрения всех переменных, называется средним индивидом , потому что он лежит в центре тяжести своих частичных точек). Частичное облако собирает индивидов с точки зрения одной группы (т.е. ): это облако, проанализированное в раздельном факторном анализе (PCA или MCA) группы . Наложенное представление, предоставляемое MFA, по своей цели аналогично представлению, предоставляемому анализом Прокруста .
В примере (рисунок 3) особь 1 характеризуется малым размером (т.е. малыми значениями) как по отношению к группе 1, так и к группе 2 (частичные точки особи 1 имеют отрицательную координату и расположены близко друг к другу). Напротив, особь 5 характеризуется более высокими значениями для переменных группы 2, чем для переменных группы 1 (для особи 5 частичная точка группы 2 лежит дальше от начала координат, чем частичная точка группы 1). Такое прочтение графика можно проверить непосредственно в данных.
6. Представления групп переменных как таковых. На этих графиках каждая группа переменных представлена одной точкой. Две группы переменных близки друг к другу, когда они определяют одну и ту же структуру на индивидуумах. Крайний случай: две группы переменных, которые определяют гомотетические облака индивидуумов, совпадают. Координата группы вдоль оси равна вкладу группы в инерцию измерения MFA ранга . Этот вклад можно интерпретировать как индикатор связи (между группой и осью , отсюда и название квадрат связи, данное этому типу представления). Это представление существует также в других факторных методах (MCA и FAMD в частности), в которых каждая группа переменных сводится к одной переменной.
В примере (рисунок 4) это представление показывает, что первая ось связана с двумя группами переменных, тогда как вторая ось связана с первой группой. Это согласуется с представлением переменных (рисунок 2). На практике это представление особенно ценно, когда группы многочисленны и включают много переменных.
Другая сетка чтения . Две группы переменных имеют общий эффект размера (первая ось) и различаются по оси 2, поскольку эта ось специфична для группы 1 (он противопоставляет переменные A и B).
7. Представления факторов отдельных анализов различных групп. Эти факторы представлены как дополнительные количественные переменные (корреляционный круг).
В примере (рисунок 5) первая ось MFA относительно сильно коррелирует (r = .80) с первым компонентом группы 2. Эта группа, состоящая из двух идентичных переменных, обладает только одним главным компонентом (смешанным с переменной). Группа 1 состоит из двух ортогональных переменных: любое направление подпространства, генерируемого этими двумя переменными, имеет одинаковую инерцию (равную 1). Таким образом, существует неопределенность в выборе главных компонент, и нет причин интересоваться одной из них в частности. Однако два компонента, предоставляемые программой, хорошо представлены: плоскость MFA близка к плоскости, охватываемой двумя переменными группы 1.
Числовой пример иллюстрирует вывод MFA. Помимо балансировки групп переменных и обычных графиков PCA (MCA в случае качественных переменных), MFA выдает результаты, специфичные для групповой структуры набора переменных, то есть, в частности:
Небольшой размер и простота примера позволяют простую проверку правил интерпретации. Но метод будет более ценным, когда набор данных большой и сложный. Доступны другие методы, подходящие для этого типа данных. Анализ Прокруста сравнивается с MFA в. [2]
MFA был разработан Брижит Эскофье и Жеромом Пажесом в 1980-х годах. Он лежит в основе двух книг, написанных этими авторами: [3] и. [4] MFA и его расширения (иерархический MFA, MFA на таблицах сопряженности и т. д.) являются темой исследований лаборатории прикладной математики Agrocampus (LMA ²), которая опубликовала книгу, в которой представлены основные методы исследовательского многомерного анализа. [5]
MFA доступен в двух пакетах R (FactoMineR и ADE4) и во многих программных пакетах, включая SPAD, Uniwin, XLSTAT и т. д. Также есть функция SAS [ permanent dead link ] . Графики в этой статье взяты из пакета R FactoMineR.