stringtranslate.com

Анализ конфигурационной частоты

Конфигурационный частотный анализ (CFA) — это метод разведочного анализа данных , представленный Густавом А. Линертом в 1969 году. [1] Целью конфигурационного частотного анализа является обнаружение закономерностей в данных, которые встречаются значительно чаще (такие закономерности называются Типами ) или значительно реже (такие закономерности называются Антитипами ), чем ожидалось случайно. Таким образом, идея CFA заключается в том, чтобы с помощью идентифицированных типов и антитипов предоставить некоторое представление о структуре данных. Типы интерпретируются как концепции, которые образованы закономерностью значений переменных. Антитипы интерпретируются как закономерности значений переменных, которые в общем случае не встречаются вместе.

Основная идея алгоритма CFA

Объясним основную идею CFA на простом примере. Предположим, что у нас есть набор данных, который описывает для каждого из n пациентов, проявляются ли у них определенные симптомы s 1 , ..., s m . Для простоты мы предполагаем, что симптом проявляется или нет, т.е. у нас есть дихотомический набор данных.

Каждая запись в наборе данных, таким образом, представляет собой m -кортеж ( x 1 , ..., x m ), где каждый x i равен либо 0 (у пациента нет симптома  i ), либо 1 (у пациента есть симптом  i ). Каждый такой m -кортеж называется конфигурацией . Пусть C будет набором всех возможных конфигураций, т. е. набором всех возможных m -кортежей на {0,1} m . Таким образом, набор данных можно описать, перечислив наблюдаемые частоты f ( c ) всех возможных конфигураций в C .

Основная идея CFA заключается в оценке частоты каждой конфигурации при условии, что m симптомов статистически независимы . Пусть e ( c ) будет этой оценочной частотой при условии независимости.

Пусть p i (1) будет вероятностью того, что член исследуемой популяции проявит симптом s i , а p i (0) будет вероятностью того, что член исследуемой популяции не проявит симптом s i . При условии, что все симптомы независимы, мы можем вычислить ожидаемую относительную частоту конфигурации c = ( c 1 , ..., c m ) по формуле:

Теперь f ( c ) и e ( c ) можно сравнить с помощью статистического теста (типичные тесты, применяемые в CFA, — это критерий хи-квадрат Пирсона , биномиальный тест или гипергеометрический тест Лемахера).

Если статистический тест предполагает для данного -уровня, что разница между f ( c ) и e ( c ) значительна, то c называется типом , если f ( c ) > e ( c ), и называется антитипом, если f ( c ) < e ( c ). Если между f ( c ) и e ( c ) нет существенной разницы , то c не является ни типом, ни антитипом. Таким образом, каждая конфигурация c может иметь в принципе три различных состояния. Она может быть типом, антитипом или не классифицироваться.

Типы и антитипы определяются симметрично. Но в практических приложениях исследователи в основном заинтересованы в обнаружении типов. Например, клинические исследования обычно заинтересованы в обнаружении комбинаций симптомов, которые являются индикаторами заболевания. По определению, это комбинации симптомов, которые встречаются чаще, чем ожидалось, случайно, т. е. типы.

Контроль альфа-уровня

Поскольку в CFA тест значимости применяется параллельно для каждой конфигурации c, существует высокий риск совершения ошибки типа I (т. е. обнаружения типа или антитипа, когда нулевая гипотеза верна). В настоящее время наиболее популярным методом контроля этого является использование поправки Бонферрони для α -уровня. [2] Существует ряд альтернативных методов контроля α -уровня. Один из альтернативных методов, метод Холма–Бонферрони, представленный Стуре Холмом, учитывает количество уже завершенных тестов, когда выполняется i- й тест. [3] Таким образом, в этом методе альфа-уровень не является постоянным для всех тестов.

Алгоритм в недихотомическом случае

В нашем примере выше мы предположили для простоты, что симптомы дихотомичны. Однако это не обязательное ограничение. CFA также может применяться для симптомов (или более общих атрибутов объекта), которые не дихотомичны, но имеют конечное число степеней. В этом случае конфигурация является элементом C = S 1 x ... x S m , где S i — множество возможных степеней для симптома s i . [2] [4] [5] [6]

Модель шанса

Предположение о независимости симптомов можно заменить другим методом расчета ожидаемых частот e ( c ) конфигураций. Такой метод называется моделью случая .

В большинстве приложений CFA предположение о том, что все симптомы независимы, используется в качестве модели вероятности. CFA, использующий эту модель вероятности, называется CFA первого порядка . Это классический метод CFA, который во многих публикациях даже считается единственным методом CFA. Примером альтернативной модели вероятности является предположение о том, что все конфигурации имеют одинаковую вероятность. CFA, использующий эту модель вероятности, называется CFA нулевого порядка .

Ссылки

  1. ^ Линерт, Джорджия (1969). «Die Konfigurations frequenzanalyse als Klassifikationsmethode in der klinischen Psychologie» [Конфигурационный частотный анализ как метод классификации в клинической психологии]. В Ирле, М. (ред.). Bericht über den 26. Kongress der Deutschen Gesellschaft für Psychologie в Тюбингене, 1968 год . Геттинген: Хогрефе. стр. 244–253.
  2. ^ Аб Краут, Дж.; Линерт, Джорджия (1973). КФА. Частотный анализ конфигураций и их анализ в психологии и медицине [ CFA. Конфигурационный частотный анализ и его применение в психологии и медицине . Фрайбург: Альбер.
  3. ^ Холм, С. (1979). «Простая последовательная отклоняющая множественная процедура тестирования». Scandinavian Journal of Statistics . 6 (2): 65–70. JSTOR  4615733.
  4. ^ фон Ай, А. (1990). Введение в конфигурационный частотный анализ: поиск типов и антитипов в перекрестных классификациях . Кембридж, Великобритания: Cambridge University Press. ISBN 0521380901.
  5. ^ Лауч, Э.; Вебер, С. (1990). Конфигурационный частотный анализ (КФА) . Берлин: Volk und Wissen.
  6. ^ Краут, Дж. (1993). Einführung in die Konfigurationsfrequenzanalyse (KFA) [ Введение в конфигурационный частотный анализ (CFA) ]. Вайнхайм: Бельц, Союз психологов. ISBN 3621271821.

Дальнейшее чтение