В теории вероятностей и, в частности, в теории информации , полная корреляция (Watanabe 1960) является одним из нескольких обобщений взаимной информации . Она также известна как многомерное ограничение (Garner 1962) или мультиинформация (Studený & Vejnarová 1999). Она количественно определяет избыточность или зависимость среди набора из n случайных величин.
Определение
Для заданного набора из n случайных величин общая корреляция определяется как отклонение Кульбака–Лейблера от совместного распределения к независимому распределению ,
Это расхождение сводится к более простой разнице энтропий,
где - информационная энтропия переменной , а - совместная энтропия набора переменных . В терминах дискретных распределений вероятностей по переменным общая корреляция определяется как
Общая корреляция — это количество информации, разделяемой между переменными в наборе. Сумма представляет собой количество информации в битах (предполагая логарифмы по основанию 2), которой обладали бы переменные, если бы они были полностью независимы друг от друга (неизбыточны), или, что эквивалентно, среднюю длину кода для передачи значений всех переменных, если бы каждая переменная была (оптимально) закодирована независимо. Термин — это фактическое количество информации, которое содержит набор переменных, или, что эквивалентно, средняя длина кода для передачи значений всех переменных, если бы набор переменных был (оптимально) закодирован вместе. Таким образом, разница между этими терминами представляет собой абсолютную избыточность (в битах), присутствующую в данном наборе переменных, и, таким образом, обеспечивает общую количественную меру структуры или организации , воплощенной в наборе переменных (Ротштейн, 1952). Общая корреляция также является расхождением Кульбака–Лейблера между фактическим распределением и его приближением максимального энтропийного произведения .
Общая корреляция количественно определяет степень зависимости между группой переменных. Общая корреляция, близкая к нулю, указывает на то, что переменные в группе по существу статистически независимы; они совершенно не связаны, в том смысле, что знание значения одной переменной не дает никаких подсказок относительно значений других переменных. С другой стороны, максимальная общая корреляция (для фиксированного набора индивидуальных энтропий ) определяется как
и происходит, когда одна из переменных определяет все остальные переменные. Переменные тогда максимально связаны в том смысле, что знание значения одной переменной дает полную информацию о значениях всех остальных переменных, и переменные можно образно рассматривать как шестеренки, в которых положение одной шестеренки определяет положения всех остальных (Ротштейн, 1952).
Важно отметить, что общая корреляция учитывает все избыточности среди набора переменных, но эти избыточности могут быть распределены по всему набору переменных различными сложными способами (Garner 1962). Например, некоторые переменные в наборе могут быть полностью взаимоизбыточными, в то время как другие в наборе полностью независимы. Возможно, что еще более важно, избыточность может переноситься во взаимодействиях различной степени: группа переменных может не обладать никакими попарными избыточностями, но может обладать избыточностями взаимодействия более высокого порядка , например, такими, которые иллюстрирует функция четности. Разложение полной корреляции на составляющие ее избыточности исследуется в ряде источников (Mcgill 1954, Watanabe 1960, Garner 1962, Studeny & Vejnarova 1999, Jakulin & Bratko 2003a, Jakulin & Bratko 2003b, Nemenman 2004, Margolin et al. 2008, Han 1978, Хан 1980).
Условная общая корреляция
Условная общая корреляция определяется аналогично общей корреляции, но с добавлением условия к каждому члену. Условная общая корреляция определяется аналогично как расхождение Кульбака-Лейблера между двумя условными распределениями вероятностей,
Аналогично вышесказанному, условная полная корреляция сводится к разности условных энтропий,
Использование полной корреляции
Алгоритмы кластеризации и выбора признаков, основанные на полной корреляции, были исследованы Ватанабе. Альфонсо и др. (2010) применили концепцию полной корреляции для оптимизации сетей мониторинга воды.
Смотрите также
Ссылки
- Альфонсо, Л., Лоббрехт, А. и Прайс, Р. (2010). Оптимизация сети мониторинга уровня воды в польдерных системах с использованием теории информации , Исследования водных ресурсов , 46, W12553, 13 стр., 2010, doi :10.1029/2009WR008953.
- Гарнер В. Р. (1962). Неопределенность и структура как психологические концепции , JohnWiley & Sons, Нью-Йорк.
- Хан ТС (1978). Неотрицательные энтропийные меры многомерных симметричных корреляций, Информация и управление 36 , 133–156.
- Хан ТС (1980). Множественная взаимная информация и множественные взаимодействия в частотных данных, Информация и управление 46 , 26–45.
- Якулин А. и Братко И. (2003a). Анализ зависимостей атрибутов, в N Lavra\quad{c}, D Gamberger, L Todorovski & H Blockeel, ред., Труды 7-й Европейской конференции по принципам и практике обнаружения знаний в базах данных , Springer, Цавтат-Дубровник, Хорватия, стр. 229–240.
- Якулин А. и Братко И. (2003b). Количественная оценка и визуализация взаимодействий атрибутов [1].
- Марголин А., Ван К., Калифано А. и Неменман И. (2010). Многомерная зависимость и вывод генетических сетей. IET Syst Biol 4 , 428.
- Макгилл У. Дж. (1954). Многомерная передача информации, Психометрика 19 , 97–116.
- Неменман И. (2004). Теория информации, многомерная зависимость и вывод генетических сетей [2].
- Ротштейн Дж. (1952). Организация и энтропия, Журнал прикладной физики 23 , 1281–1282.
- Studený M & Vejnarová J (1999). Мультиинформационная функция как инструмент для измерения стохастической зависимости, в MI Jordan, ред., Learning in Graphical Models , MIT Press, Кембридж, Массачусетс, стр. 261–296.
- Ватанабе С. (1960). Информационно-теоретический анализ многомерной корреляции, IBM Journal of Research and Development 4 , 66–82.