Neo4j GDS-04-图的中心性分析介绍

neo4j apoc 系列

Neo4j APOC-01-图数据库 apoc 插件介绍

Neo4j APOC-01-图数据库 apoc 插件安装 neo4j on windows10

Neo4j APOC-03-图数据库 apoc 实战使用使用

Neo4j APOC-04-图数据库 apoc 实战使用使用 apoc.path.spanningTree 最小生成树

Neo4j APOC-05-图数据库 apoc 实战使用使用 labelFilter

Neo4j GDS-01-graph-data-science 图数据科学插件库概览

Neo4j GDS-02-graph-data-science 插件库安装实战笔记

Neo4j GDS-03-graph-data-science 简单聊一聊图数据科学插件库

Neo4j GDS-04-图的中心性分析介绍

Neo4j GDS-05-neo4j中的中心性分析算法

中心性分析是图论中用于量化节点重要性的核心技术，通过不同维度的指标揭示节点在网络中的战略地位。

以下从算法原理、数学表达、应用场景及实际案例四个维度展开分析：

中心性算法通过不同视角评估节点影响力，主要分为以下类别：

定义：衡量节点的直接连接数量，适用于评估节点的即时影响力。
计算公式：
- 无向图： $C_D(v) = \frac{deg(v)}{n-1}$ （归一化至[0,1]）
- 有向图：分解为入度 $C_{in}(v)$ 和出度 $C_{out}(v)$
复杂度： $O (n)$ ，适用于大规模网络快速计算
应用场景：
- 社交网络识别活跃用户（高入度中心性用户可能为意见领袖）
- 推荐系统中的热门商品识别
案例：Twitter用户关注网络分析中，入度中心性前10%用户贡献了80%的信息传播

定义：量化节点到其他节点的平均可达性，反映信息传播效率。
计算公式：
- 基础公式： $C_C(v) = \frac{n-1}{\sum_{u \neq v}d(u,v)}$
- Wasserman-Faust改进（适用于非连通图）： $C_{WF}(v) = \frac{n-1}{N-1} \cdot \frac{n-1}{\sum d(u,v)}$ （ $n$ 为连通分量节点数）
复杂度： $O (nm)$ （需计算全节点最短路径）
应用场景：
- 交通网络枢纽选址（高接近中心性节点适合建设物流中心）
- 疾病传播模型中的关键控制点定位
案例：伦敦地铁网络分析显示，King’s Cross站的接近中心性最高，验证其作为换乘枢纽的战略地位

定义：评估节点作为"桥梁"的重要性，反映对资源流动的控制力。
计算公式：
$C_B(v) = \sum_{s \neq v \neq t} \frac{\sigma_{st}(v)}{\sigma_{st}}$
其中 $\sigma_{st}$ 为s到t的最短路径总数， $\sigma_{st}(v)$ 为经过v的路径数
优化算法：Brandes算法将复杂度从 $O(n^3)$ 降至 $O (nm)$
应用场景：
- 通信网络脆弱性分析（高介数节点故障易导致网络分裂）
- 金融交易网络洗钱路径识别
案例：全球航空网络中，迪拜机场的介数中心性最高，印证其作为洲际中转枢纽的作用

核心思想：引入随机游走模型，解决"重要性传递"问题。
公式：
$\frac{1-d}{N} + d\sum_{v \in B_u}\frac{PR(v)}{L(v)}$
$d$ 为阻尼因子（通常取0.85）， $L (v)$ 为v的出链数
创新点：
- 处理悬挂节点（dead ends）的随机跳转机制
- 个性化PageRank实现局部重要性计算
应用场景：
- 网页重要性排序（原始设计目标）
- 加密货币交易网络关键地址识别
案例：比特币交易网络中，前0.01%地址的PageRank值占全网总值的75%

算法	计算视角	计算复杂度	适用网络类型	典型应用领域
度中心性	局部直接连接	O(n)	无向/有向	社交网络活跃度分析
接近中心性	全局可达性	O(nm)	强连通图	基础设施枢纽选址
介数中心性	路径控制	O(nm)	加权/无权	网络安全脆弱性评估
特征向量中心性	递归影响力	O(n^2)	对称邻接矩阵	学术合作网络分析
PageRank	随机游走	O(n log n)	有向图（含环）	网页排序/推荐系统