Центральность по близости

В связном графе близость центральности (или близости ) узла — это мера центральности в сети , рассчитываемая как обратная сумма длин кратчайших путей между узлом и всеми остальными узлами в графе. Таким образом, чем центральнее узел, тем ближе он ко всем остальным узлам.

Расстояние и кратчайший путь в простом графике. — Число рядом с каждым узлом — это расстояние от этого узла до квадратного красного узла, измеренное длиной кратчайшего пути. Зеленые края иллюстрируют один из двух кратчайших путей между узлом красного квадрата и узлом красного круга. Следовательно, близость узла красного квадрата равна 5/(1+1+1+2+2) = 5/7.

Близость была определена Бавеласом (1950) как величина, обратная дальности , [ 1 ^]^[2] , то есть:

C_{B}(x)={\frac {1}{\sum _{y}d(y,x)}},

где расстояние (длина кратчайшего пути) между вершинами и . Эту ненормализованную версию близости иногда называют статусом. ^[3]^[4]^[5] Говоря о централизации по близости, люди обычно имеют в виду ее нормализованную форму, которая представляет собой среднюю длину кратчайших путей, а не их сумму. Обычно оно определяется предыдущей формулой, умноженной на , где — количество узлов в графе, что дает: ${\ displaystyle d (y, x)}$ $х$ $y$ $N-1$ $N$

C(x)={\frac {N-1}{\sum _{y}d(y,x)}}.

Нормализация близости упрощает сравнение узлов в графах разного размера. Для больших графов минус один при нормализации становится несущественным и его часто отбрасывают.

Как одна из старейших мер центральности, близость часто упоминается в общих обсуждениях мер центральности сети во вводных текстах ^[6]^[7]^[8] или в статьях, сравнивающих различные меры центральности. ^[9]^[10]^[11]^[12] Значения, полученные с помощью многих показателей центральности, могут быть сильно коррелированы. ^[9]^[13]^[11] В частности, было показано ^[12], что близость и степень связаны во многих сетях посредством приблизительного соотношения

{\frac {1}{C(x)}}\approx {\frac {-1}{\ln(z-1)}}\ln(k_{x})+\beta

где - степень вершины , а и β - параметры, найденные путем подгонки близости и степени к этой формуле. Параметр z представляет собой коэффициент ветвления, среднюю степень узлов (исключая корневой узел и листья) деревьев кратчайшего пути, используемых для аппроксимации сетей при демонстрации этой взаимосвязи. ^[12] Это никогда не является точным соотношением, но оно отражает тенденцию, наблюдаемую во многих реальных сетях. ${\textstyle k_ {x}}$ $х$ $z$

Близость связана с другими масштабами длины, используемыми в сетевых науках. Например, средняя длина кратчайшего пути , среднее расстояние между вершинами в сети, представляет собой просто среднее значение обратных значений близости. ${\ textstyle \ langle \ ell \ rangle }$

\langle \ell \rangle = {\frac {1}{N}} \sum _ {x}{\frac {1}{C(x)}} = {\frac {1}{N(N) -1)}}\sum _{x}\sum _{y}d(y,x)

Определение расстояний от или до всех других узлов не имеет значения в неориентированных графах, тогда как в ориентированных графах оно может давать совершенно другие результаты (например, веб-сайт может иметь высокую центральность близости от исходящих ссылок, но низкую центральность близости от входящих ссылок).

Приложения

Близость используется во многих различных контекстах. В библиометрии близость использовалась для изучения того, как ученые выбирают журналы и библиографии в различных областях ^[14] или для измерения влияния автора на данную область и его социального капитала. ^[15] Было замечено, что при использовании для выбора потенциальных потенциальных клиентов в данных о клиентах близость приводит к значительному увеличению показателя успеха. ^[16] Было показано, что близость города к сети воздушного транспорта тесно коррелирует с социально-экономическими показателями, такими как валовой региональный внутренний продукт. ^[17] Близость также применялась к биологическим сетям ^[5] , где, например, она использовалась для идентификации более 50% глобальных регуляторов в пределах 2% верхних ранжированных генов ^[18] или было обнаружено, что существенные гены имеют более высокую близость, чем несущественные гены в сетях взаимодействия белков. ^[19] В метаболической сети близость узлов позволяет идентифицировать наиболее важные метаболиты. ^[20]

В несвязных графах

Когда граф не является сильно связным , Бошан в 1965 году ввел идею использования суммы, обратной суммы расстояний, ^[21] вместо суммы, обратной сумме расстояний, с соглашением : $1/\infty =0$

H(x)=\sum _{y\neq x}{\frac {n-1}{d(y,x)}}.

Модификация Бошана следует (гораздо позже) общему принципу, предложенному Марчиори и Латорой (2000) ^[22] , согласно которому на графиках с бесконечными расстояниями гармоническое среднее ведет себя лучше, чем среднее арифметическое. Действительно, близость Бавеласа можно описать как денормализованную величину, обратную среднему арифметическому расстояний, тогда как центральность Бошана является обратной величиной среднего гармонического расстояния.

Эта идея несколько раз всплывала в литературе, часто без коэффициента нормализации : для неориентированных графов под названием «центральность по значению» Деккера (2005) ^[23] и под названием $n-1$ гармоническая центральность Роша (2009); ^[24] было аксиоматизировано Гаргом (2009) ^[25] и предложено еще раз позже Опсалом (2010). ^[26] Он был изучен на общих ориентированных графах Болди и Винья (2014). ^[27] Эта идея также очень похожа на рыночный потенциал, предложенный Харрисом (1954) ^[28], который сейчас часто используется под термином «доступ к рынку». ^[29]

Варианты

Дангалчев (2006), ^[30] в работе по сетевой уязвимости предлагает для неориентированных графов другое определение:

D(x)=\sum _{y\neq x}{\frac {1}{2^{d(y,x)}}}.

Это определение эффективно используется для несвязных графов и позволяет создавать удобные формулы для операций с графами. Например:

Если граф создается путем связывания узла графа с узлом графа, тогда объединенная близость равна: $G_{1}+G_{2}$ ${\ displaystyle p}$ $G_{1}$ $q$ $G_{2}$

D(G_{1}+G_{2})=D(G_{1})+D(G_{2})+(1+D(p))(1+D(q));

если граф создается путем свертывания узла графа и узла графа в один узел, то близость равна: ^[31] $G_{1}+G_{2}$ ${\ displaystyle p}$ $G_{1}$ $q$ $G_{2}$

D(G_{1}+G_{2})=D(G_{1})+D(G_{2})+2D(p)D(q).

Если граф является теневым графом графа , у которого есть узлы, то близость равна: ^[32] $S(G)$ $G$ $п$ $S(G)$

D(S(G))=4D(G)+{\frac {n}{2}}.

Если граф является шиповым графом графа , у которого есть узлы, то близость равна: ^[33] ${\ displaystyle T (G)}$ $G$ $п$ ${\ displaystyle T (G)}$

D(T(G))={\frac {9}{4}}D(G)+n.

Естественным обобщением этого определения является: ^[34]

D(x)=\sum _{y\neq x}\ {\alpha ^{d(y,x)}},

где принадлежит (0,1). При увеличении от 0 до 1 обобщенная близость меняется с локальной характеристики (степени) на глобальную (количество связанных узлов). $\альфа$ $\альфа$

Информационная центральность Стивенсона и Зелена (1989) — это еще одна мера близости, которая вычисляет среднее гармоническое расстояние сопротивления по направлению к вершине x , которое меньше, если x имеет много путей малого сопротивления, соединяющих ее с другими вершинами. ^[35]

В классическом определении центральности по близости распространение информации моделируется с использованием кратчайших путей. Эта модель может быть не самой реалистичной для всех типов коммуникационных сценариев. Таким образом, обсуждались связанные определения для измерения близости, такие как центральность близости случайного блуждания, введенная Но и Ригером (2004). Он измеряет скорость, с которой случайно перемещающиеся сообщения достигают вершины из другого места графа. ^[36] Иерархическая близость Трана и Квона (2014) ^[37] представляет собой расширенную центральность близости, позволяющую по-другому справиться с ограничением близости в графах, которые не сильно связаны. Иерархическая близость явно включает информацию о диапазоне других узлов, на которые может влиять данный узел.

Центральность по близости

Приложения

В несвязных графах

Варианты

Смотрите также

Рекомендации