参考文献为Link Prediction in Complex Networks: A Survey
??链接预测方法最简单的框架是基于相似度的算法,包括每对节点 x x x和 y y y分配一个分数 S x y S_{xy} Sxy,分数直接定义为 x x x和 y y y它们之间的相似性(或相似性)。所有未观察到的链接都根据其得分进行排名,连接更多类似节点的链接被认为是更有可能的。节点的相似性可以通过使用节点的基本属性来定义:如果这两个节点有许多共同特征,它们被认为是相似的。
??本文主要介绍基于局部信息的10个相似指标。
1 局部相似性指标
(1) C o m m o n N e i g h b o u r s ( C N ) \small Common\ Neighbours(CN) CommonNeighbours(CN)。对于 x \small x x,让 Γ ( x ) \small Γ(x) Γ(x)表示 x \small x x的邻域集合。一般来说,两个节点, x \small x x和 y \small y y,如果有许多共同的邻居,则更有可能有一条链接。此邻域重叠的最简单度量是有向计数,即 s x y C N = ∣ Γ ( x ) ∩ Γ ( y ) ∣ . \small s^{CN}_{xy}= |Γ(x) ∩ Γ(y)|. sxyCN=∣Γ(x)∩Γ(y)∣. 显然, S x y = ( A 2 ) x y \small S_{xy}=(A^2)_{xy} Sxy=(A2)xy, A \small A A为邻接矩阵。若 x x x和 y y y直接相连,则 A x y = 1 \small A_{xy}=1 Axy=1,否则 A x y = 0 \small A_{xy}=0 Axy=0。 ( A 2 ) x y \small (A^2)_{xy} (A2)xy是连接 x x x和 y y y的长度为2的不同路径的数目。
(2) S a l t o n I n d e x \small Salton\ Index Salton Index(称余弦相似性)。 s x y S a l t o n = ∣ Γ ( x ) ∩ Γ ( y ) ∣ k x × k y . \small s^{Salton}_{xy}= \frac{|Γ(x) ∩ Γ(y)|}{\sqrt{k_x × k_y}}. sxySalton=kx×ky ∣Γ(x)∩Γ(y)∣. 其中 k x \small k_x kx为节点 x x x的度数。
(3) J a c c a r d I n d e x \small Jaccard\ Index Jaccard Index S x y J a c c a r d = ∣ Γ ( x ) ∩ Γ ( y ) ∣ ∣ Γ ( x ) ∪ Γ ( y ) \small S^{Jaccard}_{xy} = \frac{|Γ(x) ∩ Γ(y)|}{|Γ(x) ∪ Γ(y)} SxyJaccard=∣Γ(x)∪Γ(y)∣Γ(x)∩Γ(y)∣
(4) S o r e n s e n I n d e x \small Sorensen\ Index Sorensen Index。该指标主要用于生态群落数据,定义为 S x y s o r e n s e n = 2 ∣ Γ ( x ) ∩ Γ ( y ) ∣ k x + k y \small S^{sorensen}_{xy} = \frac{2|Γ(x) ∩ Γ(y)|}{k_x+k_y} Sxysorensen=kx+ky2∣Γ(x)∩Γ(y)∣
(5) H u b P r o m o t e d I n d e x ( H P I ) \small Hub\ Promoted\ Index (HPI) Hub Promoted Index(HPI)。该指标是为了量化代谢网络中底物对的拓扑重叠而提出的,其定义为: S x y H P I = ∣ Γ ( x ) ∩ Γ ( y ) ∣ m i n { k x , k y } \small S^{HPI}_{xy} = \frac{|Γ(x) ∩ Γ(y)|}{min\lbrace k_x,k_y\rbrace} SxyHPI=min{ kx,ky}∣Γ(x)∩Γ(y)∣ 在这一衡量标准下,由于分母仅由较小的度数决定,因此与中心节点相邻的链路可能会被分配高分。因为离中心节点越近,分母越小, H P I \small HPI HPI数值就越大。
(6) H u b D e p r e s s e d I n d e x ( H D I ) \small Hub\ Depressed\ Index (HDI) Hub Depressed Index(HDI) S x y H D I = ∣ Γ ( x ) ∩ Γ ( y ) ∣ m a x { k x , k y } \small S^{HDI}_{xy} = \frac{|Γ(x) ∩ Γ(y)|}{max\lbrace k_x,k_y\rbrace} SxyHDI=max{ kx,ky}∣Γ(x)∩Γ(y)∣
(7) L e i c h t − H o l m e − N e w m a n I n d e x ( L H N 1 ) \small Leicht-Holme-Newman Index(LHN1) Leicht−Holme−NewmanIndex(LHN1)。该指标为具有许多公共邻居的节点对分配高相似度,不是与可能的最大值相比,而是与此类邻居的预期数量相比。它被定义为 S x y L H N 1 = ∣ Γ ( x ) ∩ Γ ( y ) ∣ k x × k y \small S^{LHN1}_{xy} = \frac{|Γ(x) ∩ Γ(y)|}{k_x × k_y} SxyLHN1=kx×ky∣Γ(x)∩Γ(y)∣ 其中分母 k x × k y k_x×k_y kx×ky与配置模型中节点x和y的公共邻居的预期数量成比例
(8) P r e f e r e n t i a l A t t a c h m e n t I n d e x ( P A ) \small Preferential\ Attachment\ Index(PA) Preferential Attachment Index(PA)。优先连接机制可用于生成演化的无标度网络,其中新链路连接到节点 x x