复杂网络链路预测
2020-06-16
来源:步旅网
第39卷第5期 2010年9月 电子科技大学学报 Journal of University of Electronic Science and Technology of China Vlo1.39 NO.5 Sep.2010 复杂网络链路预测 吕琳媛 (弗里堡大学物理系瑞士弗里堡 CH-1700) 【摘要】网络中的链路预测是指如何通过已知的网络结构等信息预测网络中尚未产生连边的两个节点之间产生连接的可 能性。预测那些已经存在但尚未被发现的连接实际上是一种数据挖掘的过程,而对于未来可能产生的连边的预测则与网络的 演化相关。传统的方法是基于马尔科夫链或者机器学习的,往往考虑节点的属性特征。该类方法虽然能够得到较高的预测精 度,但是由于计算的复杂度以及非普适性的参数使其应用范围受到限制。另一类方法是基于网络结构的最大似然估计,该类 方法也有计算复杂度高的问题。相比上述两种方法,基于网络结构相似性的方法更加简单。通过在多个实际网络中的实验发 现,基于相似性的方法能够得到很好的预测效果,并且网络的拓扑结构性质能够帮助选择合适的相似性指标。该文综述并比 较了若干有代表性的链路预测方法,展望了若干重要的开放性问题。 关键词复杂网络;链路预测;最大似然估计;概率模型;相似性指标 中图分类号TP391 文献标识码A doi:10.3969 ̄.issn.1001.0548.2010.05.002 Link Prediction on Complex Networks LU Lin—yuan (Department ofPhysics,University ofFribourg Fribourg Switzerland CH-1700) Abstract Link prediction aims at estimating the likelihpod of the existence of links between nodes.The predicting of existent yet unknown links iS similar to he datta mining process.while the predicting of future Iinks relates to he tnetwork evolution.The traditional methods are based on Markov Chains and machine learning which usually involve the node attributes information。A1though these methods Can give good prediction.the high computational complexity limits their applications in large—scale systems.The approaches based on maximum likelihood approximation also SUffer this shortcoming.Another group of methods iS based on the node similariW that is defned isolely based on the network structure.Extensive experiments on many real networks show that the similariy—tbased methods Can give good prediction while with】ower computational complexiy compartng wjith the above two kinds of methods.This article introduces and compares many representative link prediction methods nd aoutlnes isome mporitant open problems,which may be valuable for related research domains. Key words complex networks:lnk prediiction;maximum likelihpod approximation;probabilistic model; similarity ndex i网络中的链路预N(1ik nprediction),既包含了对 方法还有很多,如文献[5]利用网络的拓扑结构信息 以及节点的属性,建立了一个局部的条件概率模型 进行预测。文献[6】基于节点的属性定义了节点间的 未知链接(existent yet unknown links)的预测,也包含 了对未来链接(future liks)的预测。链路预测作为数 n据挖掘领域的研究方向之一在计算机领域已有较深 入的研究,研究的思路和方法主要基于马尔科夫链 相似性,可以直接用于进行链路预测。虽然应用节 点属性等外部信息的确可以得到很好的预测效果, 但是很多情况下,信息的获得是非常困难的,甚至 和机器学习。文献[2】应用马尔科夫链进行网络的链 路预测和路径分析。之后,文献[3]将基于马尔科夫 链的预测方法扩展到自适应性网站(adaptive web 是不可能的,如很多在线系统的用户信息都是保密 的。另外,即使获得了节点的属性信息,也很难保 证信息的可靠性,即属性是否反映了节点的真实情 况,如在线社交网络中,很多用户的注册信息都是 sites)的预测中。此外,文献[4]提出一个回归模型在 文献引用网络中预测科学文献的引用关系,方法不 仅用到了引文网络的信息,还有作者信息、期刊信 息以及文章内容等外部信息。应用节点属性的预测 收稿It期:2010—07—18 虚假的。更进一步,在能够得到节点属性的精确信 息的情况下,如何鉴别出哪些信息对网络的链路预 基金项目:瑞士国家科 ̄(200020.121848);国家自然科学基金(1 1075031) 作者简介:吕琳媛(1984一),女,博士生,主要从事信息物理,包括链路预测、推荐算法以及网络结点排序等方面的研究 652 电子科技大学学报 第39卷 测是有用的,哪些信息是没用的,仍然是个问题。 最近几年,基于网络结构的链路预测方法受到 个手机用户是否产生了切换运营商(如从移动到联 通)的念头L1引。另外文献[10】所提出的对网络中的错 越来越多的关注。相比节点的属性信息而言,网络 的结构更容易获得,也更加可靠。同时,该类方法 对于结构相似的网络具有普适性,从而避免了对不 同网络需要机器学习获得一些特定的参数组合。文 误链接的预测,对于网络重组和结构功能优化也有 重要的应用价值,如在很多构建生物网络的实验中 存在暧昧不清甚至自相矛盾的数据【l ,就有可能应 用链路预测的方法对其进行纠正。 献[7]提出了基于网络拓扑结构的相似性定义方法, 并分析了若干指标对社会合作网络中链路预测的效 链路预测研究不仅具有广泛的实际应用价值, 也具有重要的理论研究意义,特别是对一些相关领 果。另外~类链路预测方法是基于网络结构的最大 似然估计。2008年,文献[8]提出了一种利用网络的 层次结构进行链路预测的方法,并在具有明显层次 结构的网络中表现很好。此外,利用随机分块模型 J预测网络缺失边和错误边的链路预测方法。值得 一提的是,该篇文章第一次提到网络错误连边 (spurious links)的概念,即在网络已知的链接中很可 能存在一些错误的链接,比如人们对蛋白质相互作 用关系的错误认知。 链路预测问题受到来自不同领域、拥有不同背 景的科学家的广泛关注,首先是因其重大的实际应 用价值。如在生物领域研究中,蛋白质相互作用网 络和新陈代谢网络,节点之间是否存在链接,或者 说是否存在相互作用关系,是需要通过大量实验结 果进行推断的。已知的实验结果仅仅揭示了巨大网 络的冰山一角。仅以蛋白质相互作用网络为例,酵 母菌蛋白质之间8 0%的相互作用不为人们所 知【】”,而对于人类自身,人们知道的仅有可怜的 O.3%【 引。由于揭示该类网络中隐而未现的链接需 要耗费高额的实验成本,如果能够事先在已知网络 结构的基础上设计出足够精确的链路预测算法,再 利用预测的结果指导试验,就有可能提高实验的成 功率,从而降低实验成本,并加快揭开该类网络真 实面目的步伐。实际上,社会网络分析中也会遇到 数据不全的问题,链路预测同样可以作为准确分析 社会网络结构的有力的辅助工具【l¨ 。除了帮助分 析数据缺失的网络,链路预测算法还可以用于分析 演化网络。如近几年在线社交网络发展非常迅速【J bJ, 链路预测可以基于当前的网络结构预测哪些现在尚 未结交的用户“应该是朋友”,并将此结果作为“朋 友推荐”发送给用户。如果预测足够准确,显然有 助于提高相关网站在用户心目中的地位,从而提高 用户对该网站的忠诚度。另外,链路预测的思想和 方法,还可以用于在已知部分节点类型的网络 (partially labeled networks)中预测未标签节点的类 型,如用于判断一篇学术论文的类型Ll 或者判断一 域理论方面的推动和贡献。近年来,随着网络科学 的快速发展,其理论上的成果为链路预测搭建了一 个研究的平台,使得链路预测的研究与网络的结构 与演化紧密联系起来。因此,对于预测的结果更能 够从理论的角度进行解释。与此同时,链路预测的 研究也可以从理论上帮助人们认识复杂网络演化的 机制。针对同一个或者同一类网络,很多模型都提 供了可能的网络演化机制【2m ¨。由于刻画网络结构 特征的统计量非常多,很难比较不同的机制孰优孰 劣。链路预测机制有望为演化网络提供~个简单统 一且较为公平的比较平台,从而大大推动复杂网络 演化模型的理论研究。另外,如何刻画网络中节点 的相似性也是一个重大的理论问题【2 ,该问题和网 络聚类等应用息息相关【2引。类似,相似性的度量指 标数不胜数,只有能够快速准确地评估某种相似性 定义是否能够很好地刻画一个给定网络节点间的关 系,才能进一步研究网络特征对相似性指标选择的 影响,因此,链路预测可以起到核心技术的作用。 链路预测问题本身也带来了有趣且有重要价值的理 论问题,就是通过构造网络系综(network ensemble), 并借此利用最大似然估计方法进行链路预测的可能 性和可行性研究,对链路预测本身以及复杂网络研 究的理论基础的建立和完善起到推动和借鉴作用。 1 问题描述与评价方法 定义G(V,E)为一个无向网络,其中 节点集 合,E为边集合。网络总的节点数为Ⅳ,边数为 该网络共有N(N一1)/2个节点对,即全集 。给定 一种链路预测的方法,对每对没有连边的节点对 , (∈ \E)赋予一个分数值 ,然后将所有未连接 的节点对按照该分数值从大到小排序,排在最前面 的节点对出现连边的概率最大。 为了测试算法的准确性,将已知的连边E分为训 练集 和测试集 两部分。在计算分数值时只能使 用测试集中的信息。显然,E=E UE ,且 n E =(2j。在此,将属于 不属于E的边定义为不 第5期 吕琳嫒:复杂网络链路预测 653 存在的边。衡量链路预测算法精确度的指标有AUC、 简单直接的方法就是利用节点的属性,如果两个人 具有相同的年龄、性别、职业、兴趣等等,就说他 Precision ̄HRanking Score共3种。它们对预测精确度 衡量的侧重点不同:AUC(area under the receiver operating characteristic curve)从整体上衡量算法的精 确度【 】;Precision只考虑对排在前三位的边是否预测 准确【 1;而Ranking Score更多考虑对所预测的边的 排序 。 们俩很相似。利用节点属性的相似性进行链路预测 的前提,就是网络中的边本身代表着相似。另外一 类相似性的定义完全基于网络的结构信息,称为结 构相似性。基于结构相似性的链路预测精度的高低 取决于该种结构相似性的定义是否能够很好地抓住 目标网络的结构特征。如基于共同邻居的相似性指 AUC可以理解为在测试集中的边的分数值有比 随机选择的一个不存在的边的分数值高的概率,也 就是说,每次随机从测试集中选取一条边与随机选 择的不存在的边进行比较,如果测试集中的边的分 数值大于不存在的边的分数值,就加1分;如果两个 分数值相等,就3n0.5分。独立地比较 次,如果有rt 次测试集中的边的分数值大于不存在的边的分数, 有n 次两分数值相等,则AUC定义为: Auc:竺:± : n 显然,如果所有分数都是随机产生的,AUC=O.5。 因此AUC大于0.5的程度衡量了算法在多大程度上 比随机选择的方法精确。 Precision定义为在前三个预测边中被预测准确 的比例。如果有m个预测准确,即排在前三的边中有 m个在测试集中, ̄3JPrecision定义为: PrecisiOn:一m 显然,Precision越大预测越准确。如果两个算法AUC 相同,而算法l的Precision大于算法2,说明算法l更 好,因为其倾向于把真正连边的节点对排在前面。 Ranking Score主要考虑测试集中的边在最终排 序中的位置。令H=U—E 为未知边的集合(相当于 测试集中的边和不存在的边的集合), 表示未知边 i∈E 在排序中的排名。则该条未知边的Ranking Score值为RS =,:/l I,其中1 l表示集合日中元素 的个数遍历所有在测试集中的边,得到系统的 Ranking Score值为: Rs 南 南  ̄,上I H I 2基于相似性的链路预测 应用节点间的相似性进行链路预测的一个重要 前提假设就是两个节点之间相似性(或者相近性)越 大,它们之间存在链接的可能性就越大。应注意, 相似性并非一般意义上的相似性,而是指一种接近 程度(proximity)。刻画节点的相似性有多种方法,最 标,即两个节点如果有更多的共同邻居就更可能连 边,在集聚系数较高的网络中表现非常好,有时甚 至超过一些更复杂的算法。然而对于集聚系数较低 的网络如路由器网络或电力网络等,预测精度就差 很多。 2.1基于局部信息的相似性指标 基于局部信息的最简单的相似性指标是共同邻 居(common neighbors),也就是说两个节点如果有更 多的共同邻居,则它们更倾向于连边。在共同邻居 的基础上考虑两端节点度的影响,从不同的角度以 不同的方式又可产生6种相似性指标,分别是Salton 指标 (也叫做余弦相似性)、Jaccard指标 、 SorensoMR标【2 1、大度节点有利指标(hub promoted index) 】、大度节点不利指标(hub depressed index) 和LHN-I指标t (由Leicht,Holme和Newman提出 而得名1,称这一类指标为基于共同邻居的相似性。 另一个只考虑节点度的相似性为优先连接指标 (preferential a ̄achment)。应用优先连接的方法可以 产生无标度的网络结构,在该网络中,一条即将加 入的新边连接到节点 的概率正比于节点 的度 )D¨,因此新边连接节点 和y的概率正比于两节点 度的乘积。该算法的复杂度较其他算法低,因为需 要的信息量最少。 如果考虑两节点共同邻居的度信息,有Adamic— Adar(AA) ̄g【3引,其思想是度小的共同邻居节点的 贡献大于度大的共同邻居节点。因此根据共同邻居 节点的度为每个节点赋予一个权重值,该权重等于 该节点的度的对数分之一,即1/lg k。 文献[331从网络资源分配(resource allocation)的 角度提出一种新的指标,简称RA。考虑网络中没有 直接相连的两个节点 和y,从 可以传递一些资源到 Y,而在此过程中,它们的共同邻居就成为传递的媒 介。假设每个媒介都有一个单位的资源并且将平均 分配传给它的邻居,则),可以接收到的资源数就定义 为节点 和y的相似度。RA和AA指标最大的区别在 于赋予共同邻居节点权重的方式不同,前者以1/k的 654 电子科技大学学报 第39卷 形式递减,后者以l/lg k的形式递减。可见,当网络 表3 10种基于节点局部信息的相似性 的平均度较小时RA和AA差别不大,但是当平均度较 大时,就有很大的区别了。 表1总结了以上1O种基于局部信息的相似性指 标的定义公式。对于网络中的节点 ,定义它的邻居 在6个网络链路预测中的精度比较 0 937 0.898 0.901 0.902 为厂 ),七( )=I厂( )I为节点 的度。 表1 1O种基于节点局部信息的相似性指标 一O O 0 O O O O O O O —一9 罟昌 罟9 8 昌38 8 宕 骢 跎鼹鲫 8 6 8 8 O 文献[33]将上述l0种基于节点局部信息的相似 一O O O O 0 0 O O O 0 性指标在6个实际网络中进行实验,并比较其预测精 — 一3 1 3 3●3 l 3 2 3 确度【3引。6个网络分别为:蛋白质相互作用网络 1一(一 一O 5 鼹 O O 0 5 0 O O 5 鳃 O 6 O O 0 0 O (PPI)、科学家合作网络 S)、美国电力网络(Grid)、 政治博客网络(PB)、路由器网络( T)以及美国航空 陋一一 5 O 4 0 肿22 2 0 罨罟O 罨 O 7 O 2 刀册 O 7 O 2 O O 网络(USAir),它们的统计性质如表2所示。其中Ⅳ、 分别表示网络的节点数和边数,Nc为网络的最大 联通集团,如2 375/T~一 92表示PPI网络中有92个联通集 团,最大联通集包含2 375个节点, 为网络的效率, C为网络集聚系数,,.为同配系数,日为网络度异质 性。预测结果如表3所示。所有结果均以AUC为预测 精度评价指标。可见在l0种算法中,RA表现最好, 其次是CN,再次是AA。总的来说,PA表现最差, 特别是在电力网络和路由器网络中,预测精度还不 No.5,意味着PA算法在这两个网络中预测精度还不 如完全随机预测的好。 表2 6个实验网络的拓扑性质 Networks N M Nc e C r H PPI 2 617 1 1 855 2 375/92 0.18O 0.387 0.461 3.73 NS l 461 2 742 379/268 0.016 0.878 0 462 1 85 Grid 4 941 6 594 4 941/1 0 063 0.107 0 003 l 45 PB l 224 19 090 1 222/2 0 397 0。361-o.079 3.13 INT 5 022 6 258 5 022/1 0.167 0.033--0.138 5.O5 USAir 332 2 1 26 332/1 0.406 0.749-0.208 3.46 0.857 0 895 0.758 0 886 0 925 0 955 2.2基于路径的相似性指标 基于路径的相似性指标有3个,分别是局部路径 指标(LP)[34]、Katz ̄'g[ ] ̄HLHN.II[ 】于旨标(与LHN,I 在同一篇文章中提出)。 (1)局部路径指标(1ocal path),LP是在共同邻居 指标的基础上考虑三阶邻居的贡献,其定义为 S=A + /4 ,其中 为可调节参数,用于控制三 阶路径的作用,当 =0时,LP指标就等于CN;A 为网络的邻接矩阵。注意,( ) ,表示节点 和),之 间长度为,?的路径数。 (2)Katz ̄标考虑的是所有的路径数,且对于短 路径赋予较大的权重,而长路径赋予较小的权重, 它定义为S= + A + A …=(,一flA)~一1, 其中 为权重衰减因子,为了保证数列的收敛性, 的取值须小于邻接矩阵 最大特征值的倒数。 (3)LHN—II指标 ̄llKatz参数类似,也是考虑所有 路径,所不同的是LHN.II中每一项不再是( ) 而变为(A ) /E[(A ) 】,其中E【 ) ]= 』 为节点 和y之间长度为 的路径数的期望值。整理后 得到LHN—II的最终表达式为S= /- ^J 1 M&D l 一 /I D~,其中 为 的最大特征值,‘ 为参数取值小于1(具体推导过程参见文献[221)。 运用上述3种基于路径的相似性指标进行链路 预测,分别用AUC ̄llPrecision(L=100)进行评价,结 果如表4和表5所示。LP的结果是在最优参数 时得 到的;LP 的结果是在固定参数 =0.01时得到的。 由于美国航空网络特殊的层次结构,在USAir网络中 设定 =-0.01 1。从表中可以看出,运用AUC作为 评价指标时,基于全局信息的Katz ̄标表现最好, 特别是在电力网络 ̄lllntemet路由器网络中,AUC可 达No.95以上。其次,局部路径算法表现也不错, 比如在PPI ̄IIPB网络中,可以达到与Katz指标差不多 好的预测精度,甚至在PB和USAir网络中表现比 第5期 吕琳媛:复杂网络链路预测 655 Katz ̄标还好。其原因在于PB和USAir网络的平均 此相隔较近的节点更容易连边。由此定义基于ACT 最短距离很小,因此基于三阶路径的L时旨标比基于 全部路径的Katz指标能够更好地符合网络的结构特 点。同理,在电力网络中,平均最短路径为16,此 时只考虑三阶路径的LP指标就不够精确了。关于平 的相似性为(在此可忽略常数J)l : ACTm—南 (2)基于随机游走的余弦相似性(Cos+)。在由向 量1, =A2U e 展开的欧式空间内, 中的元素 ,可 均最短路径和最优路径长度的关系在文献[36]中有 详细讨论。 表4基于路径的相似性指标在使用AUC衡量时 的预测精度E匕较 AUC LP 表示为两个向量 和 的内积,即 = T', ,其中 是一个标准正交矩阵,是由 特征向量按照对应 的特征根从大到小排列所得, 为以特征根为对角 元素的对角矩阵,上标T表示矩阵转置,e 表示一 个一维向量且只有第 个元素为1,其他都为0。由此 定义余弦相似性【38J为: , COS PPI 0.970 NS 0.988 Grid 0 697 PB 0 941 D T 0 943 USA 0.960 LP*Katz LHN.Ⅱ0.970 0.972 0.968 0988 0 988 0.986 0697 0 952 0.947 0.939 0 936 0.769 0 941 0 975 0 959 0 959 0 956 0 778 =cos(x, ) = 表5基于路径的相似性指标在使用Precision衡量时 xv/l +l + (3)重启的随机游走(random walk with restart) 简称RWR。该指标可以看成是网页排序算法 (PageRank)的拓展应用 ,其假设随机游走粒子每 走一步时都以一定概率返回初始位置。设粒子返回 概率为l_c,P为网络的马尔科夫概率转移矩阵,其 的预测精度比较 Precision LP LP*Katz PPI 0.734 0.734 0.719 NS 0 292 0.292 0.290 Grid ‘0.132 0.132 0 063 PB 0.519 0.469 0.456 INT 0.557 0.12l 0.368 USAtr 0.627 0.627 0 623 LHN一Ⅱ O 0 060 0005 0 0 0.005 元素 = / 表示节点 处的粒子下一步走到节 另外,在计算复杂度方面,由于LP指标只考虑局 部信息,其计算复杂度比考虑全局信息的 她和 的概率。如果 相连则axy=l,否则为0。某一 粒子初始时刻在节点x处,则 1时刻该粒子到达网 络各个节点的概率向量为: qx(t+1)=cP (f)+(1一c)ex LHN—II要小很多。LP的计算复杂度约为D(JV(七)。), 而Katz ̄标和LHN一Ⅱ指标的计算复杂度均为O(N’)。 可见,对于规模巨大(Ⅳ大)且较稀疏(平均度(七)小)的 网络,LP指标在计算速度上具有明显的优势。 2.3基于随机游走的相似性指标 式中 e 表示初始状态(其定义与cos+中相同)。不难 得到上式的稳态解为 =(1一c)( 一cP ) ,其中 有一类相似性算法是基于随机游走定义的,包 括平均通勤时间(average commute time)[ J、Cos+指 标【38j、有重启的随机游走(random walk with 元素g ,为从节点 出发的粒子最终以多少概率走到 节点y。由此定义RWR相似性为: =‰+g restart)[。 、SimRank指标 们,以及新提出的两种基 于局部随机游走的指标p引。 关于RWR的一种快速算法参见文献【41】,该指 标已被应用于推荐系统的算法研究中 1。 (4)SimRank ̄标简称SimR。它的基本假设是, 如果两节点所连接的节点相似,则该两节点相似 。 它的自洽定义式为: (1)平均通勤时间(average commute time)简称 ACT。设m(x,y)为一个随机粒子从节点 到节点 需 .要走的平均步数,则节点 和Y的平均通勤时间定 义为: n(x, )=m(x, )+m(y, ) 曼 SimR_C型 一 其数值解可通过求该网络拉普拉斯矩阵的伪逆 获得I J,即: 式中假定S =1;c∈[O,1]为相似性传递时的衰减 参数。SimR ̄标可以用于描述两个分别从节点 和y 出发的粒子何时相遇。 n(x, )= ( +,w十一2 ) 式中 , 表示矩阵 中相应位置的元素。可以说, 如果两个节点的平均通勤时间越小,则两个节点越 (5)局部随机游走指标(1ocal random walk)简 称LRW【3引。该指标与上述4种基于随机游走的相似 性不同,其只考虑有限步数的随机游走过程。一个 接近。通常,网络被观察到有普遍的集聚效应,因 656 电子科技大学学报 第39卷 粒子t时刻从节点 出发,定义 ,(f)为件1时刻这个 粒子正好走到节点Y的概率,那么可得到系统演化 方程: xx(t+1)=P (f) f≥0 复杂度为O(N。),而LRw和SRw为0(Ⅳ(七) ),其中 刀为随机游走步数。由此可以推算,对于NS网络来 说,计算RWR的时间复杂度要LLSRW慢l 000多倍, 而AUC只提高了千分之一。 表7 4种基于随机游走的算法在使用AUC衡量时 的预测精度比较 式中 石 (0)为一个Nx1的向量,只有第 个元素为 1,其他为0,即万 (0)=e 。设定各个节点的初始资 源分布为g ,基于f步随机游走的相似性为: (f)= ・ (f)+g ・刀 (f) 文献【36]给出了一种与度分布一致的初始资源 分布,即q = /M,并在此基础上进行了大量实 验,实验结果如表7和表8所示。LRW相似性由于只 考虑了有限步数的随机游走,该算法的计算复杂度 相比较基于全局随机游走的ACT、RWR、Cos+以及 SimR算法都要小很多,因此对于规模较大、较稀疏 的网络非常适用。 (6)叠加的局部随机游走指标(superposed random walk) ̄,SRW【36J。在LRW的基础上将 步及 其以前的结果加总便得到SRW的值,即: SRW(f)=∑ (1=1 ,)= ∑ (1=1 ,)+ ∑ (1=t ,) 这个指标的目的就是给邻近目标节点的点更多 的机会与目标节点相连。 文献[36]比较了上述两种基于局部随机游走和 基于全局随机游走的ACT和RWR指标在5个不同领 域的网络中的链路预测效果。该5个网络分别为美国 航空网络(USAir)、科学家合作网 S)、电力网络 (Grid)、蛋白质相互作用网络(PPI)和线虫神经网络 (C.elegans),其拓扑结构的统计特性展现于表6。注 意,与节3.1中数据不同的是,这里只考虑了最大联 通集。(七)和( )分别表示平均度和平均最短距离。 表6 st网络最大连通集的统计特征 Networks N M (七) ( ) C r H USAir 332 2126 12.807 2 46 0 749 --0 208 3 464 NS 379 941 4.823 4 93 0.798 -4).082 1.663 Grid 494l 6594 2.669 l5.87 0 l07 0.003 1.450 PPI 2375 l1693 9.847 4.59 0.388 0.454 3 476 C elegans 297 2148 14.456 2 46 0 308 -43 163 1.801 表7和表8总结了4种基于随机游走的相似性的 链路预测精度,分别用AUC和Precision衡量。括号 中的数字表示LRW和S Ⅳ指标所对应的最优行走 步数。可见,除了NS网络以外,LRW和SRW指标无 论AUC还是Precision都好于ACT和RWR指标。而在 NS网络中,虽然R、 R表现稍好,但是其计算复杂度 远远大于LRW和SRW指标。由于ACT和RWR的计算 AUC USAir NS Grid PP1 C.elegans ACT 0 90l 0.934 0.895 0.900 0.747 RW霹 0.977 0 993 0,760 0.978 0.889 LRW O.972(2) O 989(4)O.953(16)O.974(7) 0 899(3) SRW 0.978 f31 0 992f31 0.963f161 0 980f8、 0906f3、 表8 4种基于随机游走的算法在使用Precision衡量时 的预测精度比较 2.4权重在链路预测中的作用 含权网络的链路预测是一个较重要的方向,但 到目前为止还没有系统的研究工作,对于如何更好 地运用权重的信息以提高链路预测的精确度还没有 明确的答案。文献【43]将3种局部算法CN、AA和RA 拓展为含权形式,定义如下: 。 = w( ,z) +w(z,j,) z r 【y WAA— w(x,z) +w(z, ) 厂 厂l( )lg(1+ (z)) wCN— w(x,z) +w(z,.y) 一z厶:E r( x)flr(y) 。\(z) 式中 w(x,Y)为连接节点 和Y的连边的权重; ( ): w(x, ) 为节点 的强度; 参数用于调 = ) 节权重在预测中的作用。当 =0时,WCN、WAA 和WRA指标分别回到各自不含权的形式(参见节3.1 中的定义)。在3个实际网络中,运用3种含权指标进 行链路预测,结果发现在链路预测中也存在弱连接 效应【4引,即给原来权重较低的边赋予较大的权重, 而原来权重大的边赋予较小的权重(redistribution), 用新的权重会得到更好的预测效果。美国航空网络 的预测结果如图1所示。在美国航空网络中,城市机 场代表节点,航线代表边,边的权重由两机场间航 班的飞行频次决定。从图中得到3种含权算法的最优 参数 均小于0,意味着原来权重大的边在链路预测 中的作用变小了,而原来权重小的边作用反而增大 了,即所谓的弱连接效应。 第5期 吕琳媛:复杂网络链路预测 657 图1 美国航空网络预测精度与参数 的关系 此外,在科学家合作网中也发现了弱连接效应。 但是在C.elegans线虫神经网络中结果恰恰相反,其 最优参数值均大于1,意味着只有更加强调强连接, 弱化弱连接,可称为链路预测的强连接效应,才能 得到更好的预测结果。文献[43】随后运用motif ̄析 方法定性解释了造成差异的原因,但是还不能进行 定量的描述。含权网络的预测方法研究还具有很大 的拓展空间,同样的网络结构,不同的含权方式在 实际预测中起到的作用也可能不一样。要搞清这些 问题,还需要更加深入细致的研究工作。 3基于最大似然估计的链路预测 链路预测的另一类方法是基于最大似然估计 的。文献【8]认为,很多网络的连接可以看作某种内 在的层次结构的反映,基于此,文献【8】提出了一种 最大似然估计算法进行链路预测,该方法在处理具 有明显层次组织的网络f如恐怖袭击网络和草原食 物链)时具有较好的精确度。但是,由于每次预测要 生成很多个样本网络,因此其计算复杂度非常高, 只能处理规模不太大的网络。文献【1O]假设观察到的 网络是一个随机分块模型(stochastic block mode1)[ 1 的一次实现,在该模型中节点被分为若干集合,两 个节点间连接的概率只与相应的集合有关。文献【10] 所提出的基于随机分块模型的链路预测方法,可以 得到更好的结果。同时,该方法不仅可以预测缺失 边,还可以预测网络的错误链接,如纠正蛋白质相 互作用网络中的错误链接。基于最大似然估计方法 的一个最大问题是计算复杂度太高,因此并不适合 在规模较大的网络中应用。 3.1层次结构模型1 1 对实际网络结构的实证研究表明,在很多情况 下,网络具有一定的层次结构[30,45-461。因此,某个 含有Ⅳ个节点的网络可以由一个含有Ⅳ个叶子节点  ̄HN-1个内部节点的树状图表示。每个内部节点赋 予一个概率值P,(∈【0,1]),而两个节点相连接的概率 就等于距离它们最近的共同祖先节点所赋予的概 率。一个用树形结构表示的含有5个节点的网络层次 结构如图2所示。由图可见节点1和节点2连接的概率 为0.5,节点l和节点3连接的概率为0.3,节点3与节 点4连接的概率为0.4。 O 3 图2用树形图表示网络的层次结构示例 给定一个网络G及和它相对应的一个树形图D, 则这个树形图对目标网络G的似然估计值为: L(D,{ ))=丌 (1一Pr) 肆一 式中 三,和R分别表示以内部节点,.为根的左子树 和右子树的叶子节点数目;E表示以r为最近共同祖 先的节点对在G中已形成连边的节点对数目;对于 给定的D,使似然估计值最大的最优概率 P:=E/(L ),并按此给D的每个内部节点赋概率r ̄ 值;对于网络G的多个树形图,L(D,{ ))越大表示 该树形图对网络的刻画越真切。由于能够得到最大 似然估计值的树形图不止一个,因此要考虑多个树 形图的平均结果。采用马尔科夫链蒙特卡洛算法可 得到一组可用于链路预测的树形图,具体步骤如下: (1)首先给定一个树形图,并按照公式 P._E/( R)给每个内部节点赋概率值。 (2)随机选择一个内部节点厂并考虑以其兄弟 节点为根节点的子树集合 和以其儿女节点为根节 点的子树集合C。 (3)通过交换子树集合 和C中的子树获得新 的树状图D ,注意D和D 不同。 (4)从所有可能的D 中随机选择一个,当 IgL(D')≥lgt(D)时接受新树状图 ,否则以 L(D )/ (D)的概率接受D 。然后重新回到第(2)步。 (5)当该马尔科夫链收敛于平稳时,开始生成可 658 电子科技大学学报 第39卷 用的树形图,如5 000个。 最终,网络中未连边的两个节点 和y可能连边 结构模型好,尤其是在预测错误连边时。但是它与 层次模型同样都存在计算时间复杂度高的问题。 的概率为所有树形图中两节点连接概率的平均值 ( ,)。然后将所有未连边的节点对按照连接概率从 大到小排列,排在最前面的出现连边的概率越大。 实验结果显示,该方法对于有明显层次结构的 网络表现尚好,如恐怖袭击网络和草原食物链网络, 而对于层次结构不明显的网络,如科学家合作网和 4概率模型 运用概率模型进行链路预测的基本思路就是建 立一个含有一组可调参数的模型,然后使用优化策 略寻找最优的参数值,使得所得到的模型能够更好 地再现真实网络的结构和关系特征,网络中两个未 线虫神经网络,表现还不如最简单的共同邻居算法, 具体比较参见文献[36】。另外,从链路预测实用性的 角度来讲,该方法的计算时间复杂度较大,通常使 马尔科夫链收敛需要O(N )步,而每一步都至少要 执行上述步骤(2)至步骤(4)一次。因此不适用于规模 较大的网络。 3.2随机分块模型【l 随机分块模型也是一种基于最大似然估计的方 法,其基本思想是根据网络具有模块性的特点,将 网络的节点分组,而每两个节点是否连边是由它们 所在的组决定的。已知目标网络的节点数为Ⅳ,运用 随机分块模型进行链路预测,首先需将 个节点分 组,然后给每个组对赋予一个连接概率Q (∈【0,l】), 由此建立一个分块模型 。根据该分块模型可以得 到在组 内的节点f和在组 内的节点,连接的概率 p( =1IM)= 。该分块模型对目标网络的可靠 性为: p(Al )=兀 (西 1一 ) 式中 为目标网络的邻接矩阵; 为原网络中组 内的节点与组 内的节点连边的数量; 为组 内的节点与组 内的节点一共可连边的数量。可见 该方法与层次结构模型的公式基本一致,其最优概 率 = 。按上述方法生成所有可能的分块模 型 最终由贝叶斯定理得到节点 阳节点,的连边的 可信度为: =p( =1fA)= , I 』 p( =1lM)p(AIM)p(M)dM , I j p(A l M )p( )dM 式中 为所有可能的分块模型集合(实际运算中 并不需要真正考虑所有的)。为方便计算,可将 ( ) 设定为一个常数。可信度越高表示越可能连边。随 机分块模型不仅可以预测缺失边,还可以根据可信 度判断哪些边是错误连边,如对蛋白质相互作用关 系的错误认识。随机分块模型平均而言表现比层次 连边的节点对连边的概率就等于在该组最优参数下 它们之间产生连边的条件概率。如果将边的存在性 (存在或不存在)看成是边的一种属性,那么链路预测 问题就转变为预测边的属性问题【4 】。两个常用的框 架为概率关系模型框架(probabilistic relational models)[481和有向无环概率实体关系框架(directed acyclic probabilistic entity relationship)t491。它们的区 别在于对数据库的表达方式不同,前者基于关系模 型(relational models),后者基于实体关系模型(entiyt. relationship mode1)。 概率模型的优势在于较高的预测精确度,它不 仅使用了网络的结构信息还涉及节点的属性信息。 但是计算的复杂度以及非普适性的参数使其应用范 围受到限制。 4.1概率关系模型0'RlVIs) 概率关系模型是将概率模型和关系模型相结合 的一种预测模型。概率关系模型包括3个网络:(1)数 据网络(data graph)tiP所谓的训练集,包含原始的数 据信息;(2)模型网络(model graph),分析数据网络 得到的用于刻画网络主体属性之间的关系,该种关 系既包括一类主体内部属性之间的关系,也包括不 同主体属性之间的关系;(3)推理网络(inference graph),是将模型网络与目标网络(测试集)相结合的 网络,用于对目标网络的预测。根据模型网络的不 同构造方法又可将概率关系模型分为贝叶斯网络关 系模型(relational bayesian networks)t J、马尔科夫网 络关系模型(relational markov networks)[5 ̄1和关系依 赖网络模型(relational dependency networks)p 弱】。 (1)贝叶斯网络模型 BN) 川。贝叶斯网络 G(V,E,p)为一有向无环图,由条件概率分布和网络 结构两部分组成。其中V={ ,v3,…, >为节点集合, 每个节点代表一个变量,即数据网络中所涉及的属 性变量,E为有向边集合,表示变量之间的关系;P 为一组条件概率,p(v I ( ))表示节点v的父亲节点 pa(v)点对其的影响。如果一条有向边从节点对旨向 第5期 吕琳嫒:复杂网络链路预测 659 节点y,则节点 可视为节 的父亲,于是该贝叶斯 网络的联合概率分布为: 0 ECourse ̄…< [course 凰 course[Gr ade I 】r 1p(vl,v2,…,v)=II百 P(Vi I p口( )) (2)马尔科夫网络模型 ) 。马尔科夫网 络G(V,E, )为一无向图,允许环存在。其中 ⅡE ◇…辜 Q_Grade. ̄) .se [1)cour\ rse“ Ⅱ '洲∞ 眦L 。… "仍表示变量和变量关系集合, 表示潜能函数。定 义c为网络中完全子图的集合,每一个完全子图对应 student[Grade st ̄a.ent! C IQ { 】: lIQ】= E 兰 咖 m删司 b.PRMS模型 a.DAPER模型 图3 以大学数据中学生和课程为例的 一个潜能函数 ,于是网络的联合概率分布为 1—— p(vl, ,…, )=专几 (厶 ),其中 表示完全子图 c中的节点,z为标准归一化函数。 (3)关系依赖网络模型 DN) 引。关系依赖网络 模型与上述两个模型的最大区别在于其不用优化整 个联合概率分布,而是运用伪似然估计(pseudo. 1ikelihood)[541方法分别对每个变量的条件概率进行 估计,也就是说在估计条件概率p(v I pa(v))时并不 考虑条件概率p(pa(v)I v)。由于对变量的估计是独 立的,相比I N和RMN模型其计算复杂度降低很 多。RDN与RBN相似,也是用有向图表示属性之间 的依赖关系,但是其允许环的存在。 4.2 有向无环概率实体关系模型(DAPER) 叫 DAPER是以实体关系模型为基础所建立的模 型,它将实体之间的关系也看成和实体一样重要。 DAPER模型包括6类组成成分。 (1)实体类(entity classes),即网络的实体,如大 学数据库中的学生类和课程类。 (2)关系类(relationship classes),即描述实体问 的关系,如学生选择课程中的选择关系。 (3)属性类(attribute classes),即实体或者关系的 属性,如学生的智商,课程的难易程度等。 (4)弧线类(arc classes),用于描述各个属性之间 的关系,如学生的课程分数受到学生智商和课程难 度的影响。属性关系构成的网络为有向无环网络f与 RBN类似)。 (5)局部概率分布类(1ocal distribution classes), 对某一属性类的条件概率分布,与PRMs中的条件概 率类似。 (6)限制条件类(constraint classes),衡量属性关 系之间的限制条件。 文献[49】比较了该模型与PRMs模型的区别和联 系。图3展现了在学生选择课程的例子中分别用 DAPER和PI Ms建立的模型,分别如图3a和3b所示。 DAPER模型和PRMs模型 5总结与展望 综上所述,无论是基于结构的相似性预测方法 还是基于最大似然估计的方法,或是概率模型本质 上都是通过对已知数据的尽可能真切的刻画的方法 实现预测,但是它们的角度各自不同。基于结构相 似性的方法只涉及网络的结构信息,主要从某一个 角度对于网络的某一方面的结构特点进行刻画,如 果目标网络的结构在该方面特征显著,即可得到较 好的预测效果。虽然基于网络结构相似性的方法比 较简单,计算复杂度相对较低,特别是基于局部结 构的算法,但是各个方法在不同网络中的预测能力 大不相同。目前还没有对算法性能和网络结构特征 之间关系较深入的研究。对于比较复杂的网络,如 含权网络、有向网络、多部分网络以及含有异质边 的网络,如何通过结构信息进行预测的讨论甚少且 不系统[43,55-561。基于最大似然估计的方法虽然也是 基于网络结构的,但是其针对的是整个网络结构而 不仅仅局限于某一方面。该类方法由于计算复杂度 较高,不可能应用于规模较大的网络。实验显示该 类方法的预测精度也不是很高。概率模型是数据挖 掘的传统模型,它可以同时考虑网络的结构信息和 节点的属性信息,以求得到更好的预测效果。 但是 计算的复杂性以及节点外在属性信息在获取上的难 度,造成该类方法应用的局限性。 最近十年,复杂网络研究在很多科学分支,包 括物理、生物、计算机等掀起高潮 1,其中相当一 部分研究立足于揭示网络演化的内在驱动因素。仅 以无标度网络(scale.free networks)N{ ̄J]p圳,已经报道 的可以产生幂律度分布的机制就包括了富者愈富 (rich—get.richer)机制1311、好者变富(good—get-richer) 机制 、优化设计(optimal des n)驱动l 、哈密顿 动力学(hamiltonian dynamics)驱动【6“、聚生(merging and regeneration)机制【6 、稳定性限制(stabiliyt cons仃aintS)驱动【∞】,等等。可是,由于刻画网络结 电子科技大学学报 第39卷 构特征的统计指标非常多,很难比较和判定什么样 109.137. 的机制能够更好再现真实网络的生长特性。利用链 路预测有望建立简单的比较平台,能够在知道目标 网络演化情况的基础上,量化比较各种不同机制对 于真实生长行为的预测能力,从而可以大大推动复 杂网络演化机制的相关研究。 与此同时,受益于复杂网络研究的快速发展, 基于网络结构的链路预测方法有望在网络理论的帮 『1 01 GUIMERA R,SALES一 LRD0 M.Missing and spurious interactions and the reconstruction of complex newortks[J1. Proc Natl Sci Acad USA.2009.1 06(52):22073.22078. 【11】Yu H,BRAUN Y1LDI砌M M A,et al Hj 一qua】jty binary protein interaction map of the yeast interactome network『J1.Science,2008,322(5898):104.1 lO 『121 STUMPF M P H,THORNE SIL ~E de,et a1. Estimating he tsize of het human interactome[J].Proc Natl Sci Acad USA。2008,l05(19):6959 6964. 助下得到发展和完善。一方面是如何以网络系综理 论为基础,建立网络链路预测的理论框架,并产生 对实际预测有指导作用的理论结论,如通过对网络 结构的统计分析估算各个方法的可预测的极限,从 而指导选择最佳的预测方法等:另一方面是如何通 过网络的结构信息,借助复杂网络的分析工具,设 计高效的算法处理大规模网络的链路预测问题。 尽管已有一些论文讨论了如何将链路预测的方 法和思想与一些应用问题(如部分标号网络的节点 类型预测【19’ 】与信息推荐问题【。 , )相联系的可 能性与方法,但是,目前尚缺乏对于大规模真实数 据在应用层面的深入分析和研究。这方面的研究不 仅仅具有实用价值,而且有助于揭示链路预测问题 本身存在的优势与局限性。 参考文献 【l】GETOOR L,DIEHL c P Link mining:a survey[J].ACM SIGKDD Explorations Newsletter,2005,7(2):3.1 2. 【2】SARI KAI R R.Link prediction and path analysis using markov chains[J].Computer Networks,2000,33(1—6): 377 386. [3】zHU J,H0NG J,HuGHES J G Using markov chains for link prediction in adaptive web sites[J].Lect Notes Comput Sci.2002.23 ll:60.73. 『414 POPESCUL A,【JNGAR L.Statistical relationalJearning for link prediction[C]//Proceedings of the Workshop on Learning Statistical Models from Relational Dam.New Y_0rk ACM Press.2003:81-87. 『51 O’MADADHAIN J,HUTCHrNS J,SMYTH P Prediction and ranking algorithms for event.based network data[Cl# Proceedings of the ACM SIGKDD 2005.New York:ACM Press.2005:23.3O. 【6】LIN D.An information-hteoretic definition of similarity[C】// Proceedings of the 1 5th Infl Conf Mach.Learn..San Francisco.Morgan Kaufman Publishers。l998:296.304. 『71 LIBEN.N0WELL D,KLEINBERG J.The link.prediction problem for social networks[J1.J Am Soc InfoFin Sci Technol,2007,58(7):1019.1031. f81 CLAUSET A,M00RB C,NE AN M E J.Hierarchical structure and hte prediction of missing links in networks[J]. Nature 2008.453:98.101. 『91 HOLLAND P W LASKEY K B,LEINHARD S.Stochastic blockmodels:First steps[J1.Social Newtorks,l 983,5: 【13】AMARAL L A N.A truer measure of our ignornace[J]. Proc Na廿Sci Acad USA,2008。1 05(1 9 :6795.6796. f l41 SCHAFER L,GRAHAM J W Missing data:0ur view of the satte of the art[J]Psychol Methods,2002,7(2): l47.177. 『1 51 K0SSINETS G Effects of missing data in social networks[J1.Social Newtorks,2006,28(3):247-268. 『l 61 KI MAR R,NOV久K J,TOMKINS A.Structure and evolution of online social networks[C]#Proceedings of hte ACM SIGKDD 2006.New York:ACM Press.2006: 6l1.617. 【l 7】GALLAGHER B,T0NG H,ELIASSI-RAD T,et a1.Using ghost edges for classification in sparsely labeled networksICl//Proceedings of the ACM SIGKDD 2008. New York:ACM Press.2008:256.264. 『1 81 DASGUPTA K,SINGH R,VIS ANATHAN B,et a1. Social ties and their relevance to chum in mobile telecom networks[Cl#Proceedings of the EDBT’08.New York: ACM Press.2008:668—677. 『l91 MERING C、‘KRAUSE I SNEL B,et a1.Comparative assessment of large.scale data sets of protein.protein interactions[J].Nature.2002.417:399.403. 『201 ALBERT I BAR ABASI L.Statistical mechanics of complex networks[J].Rev Mod Phys,2002,74(1):47-97. 『2 l 1 DOROGOVTSEV S N,MENDES J F F Evolution of networks[J].Adv Phys,2002,51(4):1079一l187. 『221 LEICHT E A。HOLME P'NEWMAN M E J.V_ertex similarity in networks[J1.Phys Rev E,2006,73:026 l 20. 【23】PAN LI D H,LIU J G et a1.Detecting community structure in complex networks via node similarity[J1. Physica八2010.389(14 :2849.2857. 『241 HANELY J A,MCNEIL B J.The meaning and use of the raea under a receiver operating characteristic(ROC) curve[J1.Radiology,1982,l43:29.36. 『251 HERL0CKER J L,K0NSTANN J A,TERVEEN K,et a1. Evaluating collaborative ifltering recommender systems[J]. ACM Trans Inf Syst,2004,22(1):5.53. 『261 ZHOU T’REN J。MEDO M,et a1.Bipartite network projection and personal recommendation[J].Phys Rev E, 2007.76:046l15. 『271 SA【 0N G MCGILL M J.Introduction to modern information retrieval[M1.Aucklnad:MuGraw-Hill,1983. f281 JACCARD R Etude comparative de la distribution florale dans une portion des AIpes et des Jura[J].Bulletin de Ja Soci6t6 Vaudoise des Science Naturelles,1901,37: 547.579. 【29】SORENSEN A mehtod of establishing groups of equal 第5期 吕琳媛:复杂网络链路预测 661 amplitude in plant sociology based on similarity of species content and its application to an ̄yses of the vegetation on Danish commons[J1.Biol Skr,l948,5(4):1—34. f301 RA SZ E,S0MERA A L,MONGRU D A,et a1. Hierarchical organization of modularity in metabolic networks[J1.Science,2002。297(5586):1 553.1 555. 『3 1 1 BAR ABASI A L,ALBERT R.Emergence of scaling in random networks[J1.Science,1999,286(5439):509.512. 『321 ADAMIC L A,ADAR E.Friends and neighbors on the web[J1.Social Networks,2003,25(3):2 l1.230. 【33】zHOu T,Lu L,zHANG Y C.Predicting missing links via localjnformation[J1.Eur Phys J B,2009,7 l(4):623.630. 『341 LU L,JIN C H,ZH0U Similraity index based on local paths for link prediction ofcomplex networks[J].Phys Rev E.2009.80:046122. 『351 KATZ L.A new status index derived from sociometric naalysis[J1.Psychometrika,1 953,l 8(1):39.43. f361 LIU W LU L.Link prediction based on local random walk[J].Europhys Lett,2010,89(5):58007. 【37】Klein D J,Randic M,Resistance distance[J].J Math Chem, l993。12(11:81-95. 『381 FOUSS PIROTTE A,RENDERS J M, et a】. Random.walk computation of similarities between nodes of a graph with application to collaborative recommendation[J].IEEE Trans Knowl Data Eng,2007, l 9f3 :355.369. 『391 BRIN S,PAGE L. The anatomy of a large.scale hypertextual wleb search engine[J].Comput Netw&ISDN Syst,1998.30(I.7):l07.117. f401 JEH G wIDOM J.SimRank:A measure of structura1. context similraiytfC1//Proceedings of hte ACM SIGKDD 2002.New York:ACM Press.2002:538.543. 『4l1 TONG H,F_AL0UTSOS C,PAN J Y Fast random awlk with restart and its applications[C]#Proceedings of hte 6th Intl Conf Data Min,Washington,D C,USA:IEEE Press, 2006:6l3.622. 『421 SHANG M S,LU L,ZENG W et a1.Relevance is more signiifcant than correlation:Infol-mation filtering on sparse data[J].Europhys Let-t,2009,88(6):68008. 【43】LU L,ZH0U Likn prediction in weighted networks:The RoleofWeakTies[J].EurophysLett,2010,89(1):18001. 【44】GRAN0VETTER M S.The s ̄ength ofweak ties[J].Am J Sociology,1973,78(6):1360-1380. 『451 RA、,ASZ E,BARAB缸si A L.Hierarchical organization in complex networks[J].Phys Rev E.2003.67:026112. 【46】ZH0U C,ZEMANOVfi L。ZAM0RA G et a1.Hierarchical organiaztion unveiled by functional connectivity in complex brain networks[J].Phys Rev Lett,2006,97: 238103. 【47】1.ASKAR B,WONG M ABBEEL P:'et a1.Link prediction in relational data[C]#Proceedings of hte Neurla Information Processing Systems(NIPS’03).Cambridge MA:MIT Press.2004:659.666. 【48】FRIEDM AN N,GETOOR L,KOLLER D,et a1.Learning probabilistic relational models[C]#Proceedings ofthe 16th Intl Joint Conf Artif Intell(IJCAI).Stockholm.Sweden: 『s.n.1。1999:l300.1307. 『491 HECKEI 讧AN D。MEEK C,K0LLER D.Probabilistic entity—relationship models,PRMs,and plate models[C]// Proceedings of the 21st Intl Conf Mach Learn.Banif, Canada:『s.n.1.2004:55.6O. 『501 HECKERMAN D, GEIGER D, CHICKERING D. Learning bayesian networks:the combination of knowledge nad statistical data[J].Mach,Learn,1 995,2O(3): 197.243. f5 1 1 TASK AR B,ABBEEL K0LLER D.Discriminative probabilistic models for relational data[C]#Proceedings of the U 2002.Edmonton,Canada:『s.n.1,2002:485.492. 『521 HECKERMAN D,CHICKER【NG D M,MEEK C,et a1. Dependency networks for inference.collaborative filtering. and data visualiaztion[J].J Mach Learn Res,2000.1: 49.75 『531 NEVILLE J, JENSEN D. Relational dependency networks[J1.J Mach Learn Res,2007,8:653.692. f541 BESAG J.Statistical analysis of non.1attice data[J].The Statisticina,1975,24(3):l79 195. 『551 LESKOVEC J,HUTTENL0CHER D, KleinBerg J. Predicting positive and negative links in online social networksIC]#Proceedings of hte WWW 201 0.New York: ACM.20lO:641.650. 『561 MI瓜ATA L MORJYASU S.Link prediction of social networks based on weighted proximity measures[Cl# Proceedings of the IEEE/WIC,ACM Intl Conf Web Intelligence.Washington,D C,USA:IEEE Press,2007: 85.88. 『571 BARABASI A.L.Scale.Free Networks:a decade and beyond[J].Science,2009,325(5939):412-41 3 『581 CALDAI LLI G Scale.Free Networks:complex webs in nature nad technology[M1.New York:Oxford Press。2007. 『591 GARLASCHELLI D,CAPOCCI A,CALDARELLI G Self-organized network evolution coupled to extremal dynamics[J].Nature Physics,2007,3:813.817. f6O1 VAI VERDE S,CANCH0 R F,SOLE R V Scale.free networks from optimal design[J].Europhys Lett,2002, 60(4):5l2.517. 【61】BAJESI M,MANNA S S.Scale.lfee networks from a Hamiltonian dynamics[J1.Phys Rev E,2003,68:047 1 O3. 【62】 M B J'TRUSINA MINNHAGEN et a1.Self organized scale-free networks from merging and regeneration[J].Eur Phys J B,2005,43(3):369—372. 『631 PEROTTI J I,BILLONI O V TAMARIT F A,et a1. Emergent self-organiezd complex network topology out of stabiliyt constraints[J1.Phys Rev Lett,2009,1 03:l 0870 1. [64】zHANG Q M,SHANG M S,LO L.Similrai ̄-based classiifcation in partilaly labeled networks[J1.Int J Mod Phys C,2010。2lf6):8l3.824. 【65】SEN NAMA] G BILGIC M,et a1.Collective clsasiifcation in network data[J].AI Magazine,2008,29(3): 93.1O6. 【661 ZH0U T Statistical mechanics of information systems: information ifltering on complex networks[D].Switzerlnad: Universiyt ofFribourg,2010. 编辑蒋晓