Конфигурационный частотный анализ (CFA) — это метод разведочного анализа данных , представленный Густавом А. Линертом в 1969 году. [1] Целью конфигурационного частотного анализа является обнаружение закономерностей в данных, которые встречаются значительно чаще (такие закономерности называются Типами ) или значительно реже (такие закономерности называются Антитипами ), чем ожидалось случайно. Таким образом, идея CFA заключается в том, чтобы с помощью идентифицированных типов и антитипов предоставить некоторое представление о структуре данных. Типы интерпретируются как концепции, которые образованы закономерностью значений переменных. Антитипы интерпретируются как закономерности значений переменных, которые в общем случае не встречаются вместе.
Объясним основную идею CFA на простом примере. Предположим, что у нас есть набор данных, который описывает для каждого из n пациентов, проявляются ли у них определенные симптомы s 1 , ..., s m . Для простоты мы предполагаем, что симптом проявляется или нет, т.е. у нас есть дихотомический набор данных.
Каждая запись в наборе данных, таким образом, представляет собой m -кортеж ( x 1 , ..., x m ), где каждый x i равен либо 0 (у пациента нет симптома i ), либо 1 (у пациента есть симптом i ). Каждый такой m -кортеж называется конфигурацией . Пусть C будет набором всех возможных конфигураций, т. е. набором всех возможных m -кортежей на {0,1} m . Таким образом, набор данных можно описать, перечислив наблюдаемые частоты f ( c ) всех возможных конфигураций в C .
Основная идея CFA заключается в оценке частоты каждой конфигурации при условии, что m симптомов статистически независимы . Пусть e ( c ) будет этой оценочной частотой при условии независимости.
Пусть p i (1) будет вероятностью того, что член исследуемой популяции проявит симптом s i , а p i (0) будет вероятностью того, что член исследуемой популяции не проявит симптом s i . При условии, что все симптомы независимы, мы можем вычислить ожидаемую относительную частоту конфигурации c = ( c 1 , ..., c m ) по формуле:
Теперь f ( c ) и e ( c ) можно сравнить с помощью статистического теста (типичные тесты, применяемые в CFA, — это критерий хи-квадрат Пирсона , биномиальный тест или гипергеометрический тест Лемахера).
Если статистический тест предполагает для данного -уровня, что разница между f ( c ) и e ( c ) значительна, то c называется типом , если f ( c ) > e ( c ), и называется антитипом, если f ( c ) < e ( c ). Если между f ( c ) и e ( c ) нет существенной разницы , то c не является ни типом, ни антитипом. Таким образом, каждая конфигурация c может иметь в принципе три различных состояния. Она может быть типом, антитипом или не классифицироваться.
Типы и антитипы определяются симметрично. Но в практических приложениях исследователи в основном заинтересованы в обнаружении типов. Например, клинические исследования обычно заинтересованы в обнаружении комбинаций симптомов, которые являются индикаторами заболевания. По определению, это комбинации симптомов, которые встречаются чаще, чем ожидалось, случайно, т. е. типы.
Поскольку в CFA тест значимости применяется параллельно для каждой конфигурации c, существует высокий риск совершения ошибки типа I (т. е. обнаружения типа или антитипа, когда нулевая гипотеза верна). В настоящее время наиболее популярным методом контроля этого является использование поправки Бонферрони для α -уровня. [2] Существует ряд альтернативных методов контроля α -уровня. Один из альтернативных методов, метод Холма–Бонферрони, представленный Стуре Холмом, учитывает количество уже завершенных тестов, когда выполняется i- й тест. [3] Таким образом, в этом методе альфа-уровень не является постоянным для всех тестов.
В нашем примере выше мы предположили для простоты, что симптомы дихотомичны. Однако это не обязательное ограничение. CFA также может применяться для симптомов (или более общих атрибутов объекта), которые не дихотомичны, но имеют конечное число степеней. В этом случае конфигурация является элементом C = S 1 x ... x S m , где S i — множество возможных степеней для симптома s i . [2] [4] [5] [6]
Предположение о независимости симптомов можно заменить другим методом расчета ожидаемых частот e ( c ) конфигураций. Такой метод называется моделью случая .
В большинстве приложений CFA предположение о том, что все симптомы независимы, используется в качестве модели вероятности. CFA, использующий эту модель вероятности, называется CFA первого порядка . Это классический метод CFA, который во многих публикациях даже считается единственным методом CFA. Примером альтернативной модели вероятности является предположение о том, что все конфигурации имеют одинаковую вероятность. CFA, использующий эту модель вероятности, называется CFA нулевого порядка .