学术论坛
微博用户影响力模型研究
①
昆明理工大学 毕秋敏 云南财经大学 倪明明 曾志勇
摘 要:本文建立的算法可用于在微博中寻找影响力大的用户,并为控制虚假新闻的传播提供有效的途径。笔者在分析微博用户的影响力中,发现本文提出的算法相对原始的PageRank算法更具有合理性;通过分析原始的PageRank与改进的PageRank的基础上,我们考虑引进用户内在影响力建立偏随机游走的PageRank算法;基于偏随机游走的PageRank对用户的影响力具有更好的分析性。本文没考虑到地域性的差异,怎么结合地域的特点来建立模型也是下一步研究的重点。如果能较好地结合时间性与地域性的特点,那么我们能更好地预测重点舆论爆发的时间,并且有效地进行控制。关键词:用户影响力 PageRank 主题模型 内在影响力
中图分类号:F719.9 文献标识码:A 文章编号:2096-0298(2015)08(c)-158-05Web2.0时代,基于互联网的社交网络正在成为人类社会中社会关系维系和信息传播的重要渠道和载体。社会个体通过各种连接关系在社交网络上构成“关系结构”;各类信息基于社交网络的关系结构和网络群体,得以快速发布并传播扩散形成社会化媒体,并反馈到现实社会,从而使得社交网络与现实社会间形成互动,并对现实世界产生影响[1]。
微博吸引了越来越多来自各个行业、拥有各种背景的人。人们可以自定义标签,五花八门的内容体现出用户的兴趣需求点又广又细。然而,除了一些大众的需求,很多相对冷门的兴趣点并没有聚合起用户。一方面,在当前嘈杂的微博环境中,信息一出现就很有可能被迅速淹没,据数据显示[1],只有很少量的微博才得以广泛传播;但是只要有一部分影响力大的用户点赞或者转发相应的微博就会使信息得到广泛的关注。因此找到微博影响力大的用户对
舆论控制或者信息传播是十分重要的。
目前有许多人应用了PageRank算法对微博用户影响力进行排名。因此本文以新浪微博作为社交网络的出发点,类似于偏随机游走PageRank算法从一个新的角度构建微博用户的影响力模型。
1 研究现状
用户影响力在微博领域的延伸始于链接分析,2010年Weng等基于PageRank设计了Twitter用户和链接结构的话题相似性影响力排序算法[3]。2010年王晓光将新浪微博作为研究对象,考察用户的基本行为特征和关系特征,分析用户影响力的相关变量,最终建立出影响力回归方程[4]。2010年Cha等选择从用户行为的角度,通过分析微博的粉
[5]
丝、被转发与用户被@状况对用户影响力进行了考察。Ye
等将用户粉丝数量影响力、回复影响力、转发影响力、粉丝数、微博的数量、回复和转发数作为排序的准则进行了计
①基金项目:云南省哲学社会科学规划基金项目“微博用户
影响力模型研究”研究成果(QN2014071)。
作者简介:毕秋敏(1981-),女,硕士研究生,副教授,主要
从事新媒体传播方面的研究;
倪明明(1990-),男,硕士研究生,主要从事统计学理学方面的研究;
通讯作者:曾志勇,男,博士研究生,教授,主要从事数据挖
掘方面的研究。
158
2015年8月 www.chinabt.net
算和比较,认为从回复最多的角度得出的用户影响力值最稳定,并按此进行影响力排序作为标准[6]。2011年邵晶晶等提出PageRank算法的阻尼因子值[7]。2012年原福永等通过用户活跃度与微博影响力针对微博的排名机制进行研究,建构了微博用户的用户影响力指数模型[8]。2013年周志峰等应用h指数对博客的影响力进行分析[9]。何静等基于改进PageRank算法的微博用户影响力研究来控制僵尸粉的影响[10]。偏置游走模型针对PageRank的随机游走模
Copyright©博看网 www.bookan.com.cn. All Rights Reserved.学术论坛
型进行改进,其基本思想很接近,不同点在于:智能游走模型考虑的是网页内容和用户查询的相关性,而偏置游走模型考虑的是链接指向的网页内容和当前游览网页内容之间的相似性[11]。Chakrabarti等指出一个网页倾向于链向主题相关性的网页,这从一定角度解释了PageRank这一与查询无关的排序方式在搜索结果排序中的有用性,更重要的是给研究者以提示:通过考虑网页的主题特性可以改进PageRank的效果。
本文重点研究新浪微博社区中用户的影响力。建立一个通过偏随机游走建立的PageRank算法,利用微博社区网络中用户之间的相互关系作为微博影响力的因素,评价其在网络中的影响力,找出微博社区网络中的关键用户,并且为PageRank算法提供新的思路。
和稳定。
Forum
在数据中把PageRank值作为用户影响力效果,作为用户关注的人数。因为微博用户的初始影响力不同,所以需要对这个模型进行改进。
PageRank算法运用用户之间的关注情况来评价用户的重要性,在一定程度上避免和减少了人为因素对排序结果的影响;一个用户只能通过别的用户关注对其引用来增加自身的PR值,且算法的均分策略使得一个用户的关注越多,被关注的用户所获得的PR值就越少。因此,算法可以有效避免那些为了提高网站的搜索排名而故意使用链接的行为,但是原始的PageRank算法仅利用网络的链接结构,无法判断网页内容上的相似性。我们针对这种情况在只有关注的与被关注的数据上对模型进行修正。2.2 改进PageRank算法的影响力模型
2 方法描述
2.1 基于传统PageRank算法的影响力模型
PageRank算法是用来衡量网络中节点重要程度的经典算法[12],该算法基于用户链接分析计算用户的重要度。其基本思想是将用户之间的链接作为一种投票行为。重要用户投出的选票要比一般用户投出的价值高。如果在最后一个用户得到的选票越多说明该用户越重要。虽然PageRank会一直传递,但经过佩奇等(1997)的证实,PageRank的计算是收敛的[13]。为此,拉里·佩奇和谢尔盖·布林得到了简易计算模型:
(1)
僵尸粉是指已经注册却不活跃在平台上的用户,他们的特点往往是无头像、极少内容、无粉丝、却有大量关注,是一些虚假粉丝、“死粉丝”。现在一些用户通过花钱购买僵死粉从而增加自己的粉丝数量,增加人气值。僵尸粉的存在使得传统的PageRank算法不合适。
改进的PageRank算法的思想:每位影响力很大的用户,必须具备两个条件:一是具有大量的粉丝;二是具有较少的关注数。两者的比值是一个较大的数,结合实际生活中很多用户是通过了解别人与之成为好友从而引发好友也关注他。这样改进后,如果某个用户被一个重要的用户引用,则这个用户可以流入一个较大的PR值。如果这个用户被很多虚假用户引用,流入的PR值也应该较小。通过这个方法,PR值大的用户在分配给其他用户时,其他用户可以获得较高PR值。对于虚假粉丝,具有很少粉丝却具有较多关注的用户,可以适当地降低他们对PR值的影响,有效地过滤掉了僵尸粉。因此可以引入一个条件系数m(粉丝数与关注数
由于用户在进行浏览别人博客时,会出现“疲劳”,也就是会跳至别的URL。因此需要对PageRank公式进行修正,的基础上增加了阻尼系数d(一般为d=0.85)。所以得到修正后较为具体的PageRank。
(2)
为用户的PageRank值简称PR值,是
的比值)[10]。
由以上陈述现将改进的PageRank算法计算公式记为:
用户重要性的判别标;表示用户j的所有出链总数;
是链入用户链接数
(3)
为阻尼系数,一般取值为0.85;
目。所以一个用户的PageRank值是由其他用户的PageRank计算得到。如果赋予每个用户一个随机PageRank值(非0),那么经过不断地重复计算,这些用户的PR值会趋向于正常
其中d为调节因子,在经验上通常取为0.85,其中为指向用户的所有用户集合;值,为用户从中获得PR值,
为入链的。
表示
159
www.chinabt.net 2015年8月
Copyright©博看网 www.bookan.com.cn. All Rights Reserved.Forum
学术论坛
为用户的关注数。
用户的粉丝数,
2.3 偏随机游走的PageRank算法
对于传统的模型或者是现有改进的模型来说,研究者常常是对原有网页的PR进行加权或者删去一些僵尸粉。我们发现这种直接把运用于网页排名的PageRank算法应用于微博用户影响力中具有不合理性,因此我们提出了一种修正的偏PageRank算法模型。针对传统的PageRank模型而言,用户在进行浏览微博时,会出现“疲劳”也就是会跳至别的URL。但是这种情况对应于微博影响力的排名中是不合理的,在影响力中不存在游览疲劳。我们对疲劳游览进行修正。
我们的解决方法类型:
(1)主题敏感的PageRank改进算法[5]类似,我们选取用户共同好友的所在比例作为用户的内在影响因素,称为好友影响力。
(2)又因为即使没有共同的好友,用户之间还是有一点影响,称为微弱影响。
通过以上方案(1)与(2)结合,我们根据原始的PageRank算法给出偏随机游走PageRank。
我们对原始PageRank算法表示为矩阵模式:
其中d为阻尼因子,
户关注第j个用户时,为1否则为0,的用户总数,
,
(4)
其中如果第i个用为用户i所观测
,为一列
向的PageRank算法:
,其中
,我们定义为影响因子(表示用户之间的影响
作用)。其他符号如公式(4)所示,并且令
为列随机矩阵,且非周期不可约,能
保证迭代收敛。根据幂法可以计算实方阵的按模最大的特征值及相应特征向量的一种迭代法。又因为A为一个列随机矩阵,根据文献[7]知,矩阵A有最大特征值1。所以我们可以得到稳定的PR值。
,因此我们可以有偏
3 实验与结果分析
3.1 实验数据
新浪微博为用户提供了丰富的API接口,使用户可以方便地抓取和采集微博数据。用户使用新浪微博API的前提是需要通过身份认证。本文通过基于新浪微博开放的API来获取信息[13]。3.2 数据整理
在抓取的数据集中,实际数据存在着缺失的情况,比如A用户的粉丝并不在所抓取的数据集中或者有些用户和数据里面其他用户没有共同关注的对象。遇到这种情况,本文将删去那些与其他用户没有共同观注对象的用户和只考虑在数据集中的粉丝。本文中的粉丝数与关注数都只是指关于用户在所抓取数据里的粉丝与关注。
整理后的数据一共包含了12691个用户,在用户关系信息文件中包含了所有这些用户的朋友关系,在用户转发信息文件中包含了所有这些用户的转发信息。在12691个用户中,总共有1840290条朋友关系,每个用户平均拥有145个朋友关系。总共有34565条转发关系,平均每条转发关系的转发数为2.65条。在所有的朋友关系中,只有8.68%的朋友关系同时也是转发关系。这些数据都说明了虽然微博上总体的转发数量很大,但相对于微博上的用户数以及朋友关系数,平均到每个用户以及每条关系上的转发微博数还是十分少的。3.3 实验结果与分析
向量,的第i个元素为用户i的PR值。
由于公式(4)中
表示以1-d的概率平均分到n个
用户上。在实际中,当用户游览微博时,不可能随机调到其他用户中,我们参照主题下的PageRank算法,建立有偏向的PageRank算法。在微博中,用户关注的相同用户越多就越容易对相互产生更大的影响。在这里称这种影响力为好友影响力。我们假定用户i的集合为其中如果用户i关注了用户j则
,
为1,否则为0。通过比较用
户i与用户j所公共关注的用户,我们得到
为共同关注的用户数量。如果用户共同关注的数量越多就越说明用户属于同一个主题的概率越大。但是微博用户不关注的用户对用户还是有一定的潜在影响力。
假定:
160
2015年8月 www.chinabt.net
Copyright©博看网 www.bookan.com.cn. All Rights Reserved.学术论坛
首先,我们用原始的PageRank算法计算用户影响力模型,并显示用户的粉丝数量,关注度,微博数量与微博被收藏次数,如表1所示。
Forum
通过表2我们看出原始PR算法与偏随机PR算法比较接近。果粒那个橙用户在原始的PR算法中有较大的下降。通过分析参考原始数据发现,在所挖掘的信息中,果粒那个橙用户在用户之间影响力较大。我们可以分析基于偏随机
表1 微博影响力状况
用户名老阿依施特的五窗口流浪的零零磊人民舆论乖乖我真不知
道我是吖俊JacRetFishlyr果粒那个橙大漠零清贰手人民藝術
家
粉丝19542331358647832643812759794852686
关注数20005792484134351419893862000949433
发的文章被收藏次
原始PR
数量数849321730916922631782971344853471805814946
434823465565503721328819
12543761089
游走的用户的影响力与粉丝与关注度的关系。如图1所示。
通过表1分析得到原始PageRank算法计算出来有较高PR值的用户,相应的他们的粉丝或者关注数量也比较多。可以得到原始PageRank算法对用户影响力有一定的分析能力。
然后通过数据整理得到
与
。其次计算矩阵A,并
图1 偏随机游走的微博影响力
通过图1,我们发现,用户的粉丝与关注数与用户影响力有一定的影响,并不是决定性因素,可以通过用户6与用户7可知。而用户6和用户7能有较高的排名,是因为他们有较高质量的粉丝与用户之间的影响力较大。
通过比较PageRank三种不同值的情况,我们可以得到如下情况。
且设定阻尼系数d=0.85。最后通过迭代得到稳定的PR值。并且分别按照上面公式(2)和(9)计算,经过有限次迭代得到前十个用户的传统PageRank影响力与基于偏随机游走的PageRank影响力(其中我们取分别0.15与0.3)。
表2 偏随机游走的PageRank影响力
用户名
老阿依施特的五窗口
流浪的零零磊人民舆论乖乖我真不知道我是吖俊JacRetFishlyr果粒那个橙大漠零清贰手人民藝術家
原始PR
12543761089
偏随机
PR(0.3)
1235641271011
偏随机PR(0.15)
12345678910
图2 原始pagerank与偏随机PR算法的比较
161
www.chinabt.net 2015年8月
Copyright©博看网 www.bookan.com.cn. All Rights Reserved.Forum
学术论坛
[5] Cha M Y,et al.Measuring user influence in Twitter:The million follower fallacy[C]// Proceedings of International AAAI Conference on Weblogs and Social Media (ICWSM’10),Washington,Menlo Park:The AAAI Press,2010.
[6] Ye S Z,Wu S F.Measuring Message Propagation and Social Influence on Twitter.com[C]//Proceedings of the 2nd International Conference on Social Informatics (SocInfo‘10).Heidelberg:Springer-Verlag,2010.
[7] 邵晶晶,等.PageRank[J].华中师范大学学报,2011 (04).
[8] 原福永,等.微博用户的影响力指数模型[J].现代图书情报技术,2012(06).
[9] 周志峰,等.H指数应用于微博影响力分析的探索[J].情报杂志,2013(04).
[10] 何静,等.基于改进PageRank算法的微博用户影响力研究[J].中国报业,2013(01).
[11] 张俊林.这就是搜索引擎核心技术[M].北京:电子工业出版社,2012.
[12] 王冬,雷景生.一种基于PageRank的页面排序改进算法[J].微电子学与计算机,2009,26(04).
[13] Page L,Brin S,Motwani R,et al.The Page-Rank citation ranking:Bringing order to the web[R].Stanford Digital Librar- ies,1999.[14] Tang J,Sun J,Wang C,et al.Social influence analysis in large-scale net works[C]//Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining,2009.
[15] 黄延炜.新浪微博数据获取技术研究[J].信息安全与通信保密,2013(06).
由图2对微博用户主排名可以分析两种算法模型的区别和联系。基本上排在前十的用户还在前十,大多是顺序发生了变换,PR值并没有发生显著的改变。比较图1中原始PR值与基于偏随机游走的PR值,可以发现偏随机游走的PR值只是对原始PageRank算法进行微弱的改进。
在社会舆论的管理中,我们控制影响力较大的用户能对舆论监督与管理有较大的意义,并且可以控制虚假新闻的传播。本算法相对于原始PageRank算法都只用了粉丝数据与关注数据,但是本算法通过用户之间的影响力在微博用户分析当中具有更强的说服力。
4 结语
本文从偏随机游走的PageRank算法的角度考虑用户与用户之间的内在影响力,并通过有限次计算得到一个稳定的微博用户的影响力值。该方法相对于原始PageRank算法的影响力模型来说,能够对微博影响力进行更加准确的排名。更重要的是该方法能为进一步扩展PageRank算法提供新的思路。本文只在一个固定时间段进行影响力排序,怎么合理地考虑动态效应时间下的基于贝叶斯的PageRank算法是进一步研究的重点。本文没考虑到地域性的差异,怎么结合地域的特点来建立模型也是下一步研究的重点。如果能较好地结合时间性与地域性的特点,那么我们能更好地预测重点舆论爆发的时间,并且有效地进行控制。
参考文献
[1] 丁兆云.社交网络影响力研究综述[J].计算机科学, 2014(01).
[2] 靳政衡.受众心理对微博营销效果的影响[D].安徽:安徽大学,2013.
[3] Weng J S,Lim E P,Jiang J,et al.TwitterR-ank:Finding Topic-sensitive Influential Twitterers[C]//Proceedings of the 3rd ACM International Conference on Web Search and Data Mining(WSDM2010).New York:ACM,2010.[4] 王晓光.微博客用户行为特征与关系特征实证分析——以“新浪微博”为例[J].图书情报工作,2010(14).
162
2015年8月 www.chinabt.net
Copyright©博看网 www.bookan.com.cn. All Rights Reserved.
因篇幅问题不能全部显示,请点此查看更多更全内容