Подход на основе сетей зависимости обеспечивает системный анализ активности и топологии направленных сетей . Подход извлекает причинно-следственные топологические связи между узлами сети (при анализе структуры сети) и обеспечивает важный шаг к выводу причинно-следственных связей между узлами сети (при анализе активности сети). Эта методология изначально была введена для изучения финансовых данных, [1] [2] она была расширена и применена к другим системам, таким как иммунная система , [3] и семантические сети . [4]
В случае сетевой активности анализ основан на частичных корреляциях . [5] [6] [7] [8] [9] Проще говоря, частичная (или остаточная) корреляция является мерой эффекта (или вклада) данного узла, скажем j , на корреляции между другой парой узлов, скажем i и k . Используя эту концепцию, зависимость одного узла от другого узла вычисляется для всей сети. Это приводит к направленной взвешенной матрице смежности полностью связанной сети. После построения матрицы смежности можно использовать различные алгоритмы для построения сети, такие как пороговая сеть, минимальное остовное дерево (MST) , планарный максимально отфильтрованный граф (PMFG) и другие.
Сеть зависимостей, основанная на частичной корреляции, представляет собой класс корреляционных сетей, способных выявлять скрытые связи между своими узлами.
Эта оригинальная методология была впервые представлена в конце 2010 года и опубликована в PLoS ONE . [1] Авторы количественно раскрыли скрытую информацию о базовой структуре фондового рынка США , информацию, которая отсутствовала в стандартных корреляционных сетях. Одним из основных результатов этой работы является то, что в течение исследуемого периода времени (2001–2003 гг.) в структуре сети доминировали компании, принадлежащие финансовому сектору , которые являются хабами в сети зависимости. Таким образом, они впервые смогли количественно показать отношения зависимости между различными секторами экономики . После этой работы методология сети зависимости была применена к изучению иммунной системы , [3] и семантических сетей . [4]
Если говорить точнее, то частная корреляция пары (i, k) при заданном j — это корреляция между ними после надлежащего вычитания корреляций между i и j и между k и j . Определенная таким образом, разница между корреляциями и частными корреляциями дает меру влияния узла j на корреляцию . Поэтому мы определяем влияние узла j на узел i или зависимость узла i от узла j − D ( i , j ), как сумму влияния узла j на корреляции узла i со всеми другими узлами.
В случае топологии сети анализ основан на влиянии удаления узла на кратчайшие пути между узлами сети. Более конкретно, мы определяем влияние узла j на каждую пару узлов (i,k) как величину, обратную топологическому расстоянию между этими узлами при наличии j минус обратное расстояние между ними при отсутствии узла j . Затем мы определяем влияние узла j на узел i или зависимость узла i от узла j − D ( i , j ), как сумму влияния узла j на расстояния между узлом i со всеми остальными узлами k .
Корреляции между узлами можно рассчитать по формуле Пирсона :
Где и являются активностью узлов i и j субъекта n, μ обозначает среднее, а sigma — стандартное отклонение профилей динамики узлов i и j . Обратите внимание, что корреляции узел-узел (или для простоты корреляции узла) для всех пар узлов определяют симметричную корреляционную матрицу, элементом которой является корреляция между узлами i и j .
Далее мы используем полученные корреляции узлов для вычисления частных корреляций. Коэффициент частной корреляции первого порядка — это статистическая мера, показывающая, как третья переменная влияет на корреляцию между двумя другими переменными. Частичная корреляция между узлами i и k относительно третьего узла определяется как:
где и — корреляции узлов, определенные выше.
Относительное влияние корреляций и узла j на корреляцию C ( i , k ) определяется по формуле:
Это позволяет избежать тривиального случая, когда узел j, по-видимому, сильно влияет на корреляцию , в основном потому, что и имеют малые значения. Отметим, что эту величину можно рассматривать либо как корреляционную зависимость C ( i , k ) от узла j (термин, используемый здесь), либо как корреляционное влияние узла j на корреляцию C ( i , k ).
Далее мы определяем общее влияние узла j на узел i или зависимость D ( i , j ) узла i от узла j следующим образом:
Согласно определению, D ( i , j ) является мерой среднего влияния узла j на корреляции C(i,k) по всем узлам k, не равным j . Зависимости активности узлов определяют матрицу зависимостей D , элемент ( i , j ) которой является зависимостью узла i от узла j . Важно отметить, что в то время как матрица корреляции C является симметричной матрицей, матрица зависимости D является несимметричной, поскольку влияние узла j на узел i не равно влиянию узла i на узел j . По этой причине некоторые из методов, используемых при анализе матрицы корреляции (например, PCA), должны быть заменены или менее эффективны. Однако существуют и другие методы, подобные тем, которые используются здесь, которые могут должным образом учитывать несимметричную природу матрицы зависимости.
Влияние пути и зависимость от расстояния: относительное влияние узла j на направленный путь – кратчайший топологический путь, где каждый сегмент соответствует расстоянию 1, между узлами i и k задается:
где и — кратчайший направленный топологический путь от узла i до узла k при наличии и отсутствии узла j соответственно.
Далее мы определяем общее влияние узла j на узел i или зависимость D ( i , j ) узла i от узла j следующим образом:
Согласно определению, D ( i , j ) является мерой среднего влияния узла j на направленные пути от узла i ко всем остальным узлам k . Структурные зависимости узлов определяют матрицу зависимостей D , элемент ( i , j ) которой является зависимостью узла i от узла j , или влиянием узла j на узел i . Важно отметить, что матрица зависимостей D несимметрична, поскольку влияние узла j на узел i не равно влиянию узла i на узел j .
Матрица зависимости — это взвешенная матрица смежности, представляющая полностью связанную сеть. Для фильтрации полностью связанной сети с целью получения наиболее значимой информации можно применять различные алгоритмы, например, с использованием порогового подхода [1] или различных алгоритмов обрезки. Широко используемый метод построения информативного подграфа полной сети — это минимальное остовное дерево (MST). [10] [11] [12] [13] [14] Другим информативным подграфом, который сохраняет больше информации (по сравнению с MST), является планарный максимально отфильтрованный граф (PMFG) [15] , который здесь используется. Оба метода основаны на иерархической кластеризации , и полученные подграфы включают все N узлов в сети, ребра которых представляют наиболее значимые корреляции ассоциаций. Подграф MST содержит ребра без петель, в то время как подграф PMFG содержит ребра.