基于概念模型的个性化搜索引擎研究
2021-03-23
来源:步旅网
总第293期 2014年第3期 计算机与数字工程 Computer&Digital Engineering Vo1.42 No.3 475 基于概念模型的个性化搜索引擎研究 冉令帅马恩穹 南京210094) (南京理工大学计算机科学与技术学院摘要在对用户兴趣模型探讨的基础上,提出了一种基于概念的用户兴趣模型,用于区别用户兴趣的大小。讨论了基 于链接的查询聚类算法,并针对该算法的不足提出了一种基于概念的聚类算法,该算法根据用户兴趣模型建立查询一概念二分 图,然后计算图中查询顶点间的概念相似度,并将概念相似度最高的查询顶点进行合并以实现聚类。设计实现了一个基于 Web数据挖掘的个性化搜索引擎系统,对系统的个性化查询进行了测试,并对比分析了链接聚类和概念聚类的实验结果。 关键词概念模型;搜索引擎;个性化 中图分类号TP391 DOI:10.3969/j.issn1672—9722.2014.03.029 Personalized Search Engine Based on Conceptual Model RAN Lingshuai MA Enqiong (Department of Computer Science and Technology,Nan)ing University of Science and Technology,Nan)ing 210094) Abstract Based on discussion of user interest mode1.a new user model based on concept is proposed tO distinguish the user’S interest. en a query clustering algorithm based on hyperlink is discussed in detail.For the problem of hyperlink query clustering algorithm,a Dew query clustering algorithm based on concept is proposed.In this clustering algorithm,query-concept bipartite graph are created through user model,and then the similarity between query vertex and concept vertex is calculatde,the algorithm is itera— tive until the max similarity meets certain ocndition.A personalized search engine based onⅥ b data mining is designed and imple— mented to evaluate the effectiveness of concept query clustering algorithm,and an experiment is conducted tO compare with link query clustering algorithm.Experiment shows the precision and recall of personalized search. Key Words conceptual model,search engine,personalized Class Number TP391 l 引言 擎返回的结果无法满足用户的要求。其次,在准确 化和快速化之间存在矛盾。个性化搜索引擎在处 从Web上查找资源已成为人们获取信息的主 理海量的数据时,会产生严重的性能问题,这主要 要方式,但是Web上的信息数量巨大,人们必须使 是由于个性化算法缺乏良好的伸缩性。有研究提 用有效的信息检索工具才能从海量的数据中找到 出了一些解决方法,比如维度规约口]、聚类分析l_2j 自己所需的资源,搜索引擎就是使用最广泛的信息 和贝叶斯网络L3]等,这些技术能够在一定程度上减 检索工具。目前的搜索引擎不足之处是缺乏个性 轻伸缩性的问题,一般都是通过在离线阶段分析抽 化的查询,个性化的查询是指针对不同的用户,搜 取模式信息,并于在线阶段应用这些模式信息来得 索引擎根据用户的兴趣返回适合该用户的搜索结 到个性化的搜索结果,这就导致搜索结果准确度不 果。个性化搜索引擎面临着一些与传统搜索引擎 高,并且在线计算的复杂度也随着模式的增多而增 相似的问题,表现如下:首先,用户需求难以有效的 加。第三,现阶段个性化搜索引擎的智能化水平仍 表达。普通用户在使用搜索引擎时很随意,输入的 然较低。由于搜索引擎不能准确地理解网页内容 关键字往往不能表达用户的查询意图导致搜索引 的语义,所以简单的利用词语匹配L4]、统计分析L5]、 *收稿日期:2013年9月8日,修回Et期:2013年1O月29日 作者简介:冉令帅,男,硕士研究生,研究方向:数据挖掘,数据库。马恩穹,男,硕士,研究方向:数据挖掘,数据库。 476 冉令帅等:基于概念模型的个性化搜索引擎研究 第42卷 相关分析[6]等算法,在一定程度上造成理解错误, 尤其在关键词有多义、歧义的情况下。 2用户兴趣模型 用户兴趣模型的作用是描述用户个体化的信 息需求,为系统提供个性化服务做参照。在搜索 引擎中,用户兴趣模型一般通过挖掘用户的访问 历史、点击数据、行为动作等数据获得,形成的模 型用来筛选过滤搜索结果,确定搜索结果的排序 等。用户兴趣模型是否准确关系到个性化查询的 效果,它是个性化系统的基础。用户在使用搜索 引擎时,会产生点击数据,被点击的页面能够部分 地反映用户的兴趣偏好。基于概念的用户兴趣模 型从被点击的页面中提取出最能代表页面内容的 关键词,称之为概念,用这些概念来表达用户的兴 趣偏好。 本文基于这样的假设,如果用户点击搜索结果 列表中某一个链接,那么该链接所指向的网页的内 容中,必然有一些概念与用户查询意图有关,或者 说与用户输入的查询关键词有关。将这些与用户 需求有关的概念提取出来,把相关度较高的概念词 作为搜索建议推荐给用户,再由用户自主选择,这 样能够提高搜索准确率,使得搜索结果更加个性 化。在搜索结果集排序靠前的条目中,如果某个词 ti在所有的标题或片段中出现的频率较高,它很有 可能与关键词q在语义上概念相关。用式(1)来计 算词ti与关键词q的相关度 s“pport(ti)一 (1) 其中, 是所选取的结果集中标题和片段的总数, sf(t )是包含词t 的标题片段数。support数值越 大,说明词t 在所有标题片段中出现频率越高,那 么t 与关键词q相关度就越高。显然,一些语义上 不相关的常用词应该去掉,比如连词、代词、数词 等,不然会影响挖掘结果。 对所选取的结果集进行分词、去除常用词后, 最终得到一个词集S,对于S中每一个词t ,都需 要计算其与关键词q的相关度support( )。但并 不是词集S中的每个词都与关键词q概念相关,因 此要设定一个阈值S,相关度support( )大于或等 于阈值S的,认为t 与关键词q概念相关,support ( )小于S,则认为ti与关键词q无关。研究目的是 将相似的查询关键词进行聚类,以聚类结果向用户 提供个性化的搜索建议,这些搜索建议都是在已提 交的关键词的基础上增加了和该词有关系的概念。 3查询聚类算法 查询聚类的目标是,将相似需求的查询表达式 聚为一类,从中选取关键词个数较多的作为一类需 求的表达。通过对查询表达式进行扩充,从而提高 搜索的准确率。聚类就是将一个对象的集合通过 某种算法分成几个类,分类后不同类中的对象是不 相似的,同一个类中的对象是相似的[7]。如果对于 一个查询,用户点击了某一个链接,就认为该查询 和该链接是相关的。虽然用户的点击可能会不准 确,这种相关性可能不成立,但是在大多数情况下, 用户的点击一般是相关的。有实验表明,82 的点 击所涉及到的查询是和页面相关的L9]。如果把不 同的查询看做一个顶点集,页面集合看做另外的顶 点集,点击作为联系查询和页面顶点的边,由二分 图的定义可知,查询一链接符合二分图结构_8]。基 于链接的二分图聚算法认为只要两个不同的查询 关键词有相同链接点击,那么说明这两个词有相同 或相似的语义,它们应该聚类到一起。但是,用户 输入的查询关键词一般很短,只有一个或两个单词, 使得查询词存在多种语义,基于链接的二分图聚类 算法不能很好的解决这种情况,有可能会把不同语 义的查询关键词聚类到了一起。二分图(Bipartite Graph)又名为二部图,是图论中的一种特殊模型_1 。 基于概念的二分图聚类算法能够解决上述问 题,而且能够达到较好的聚类效果。与查询链接二 分图不同的是,一个点击关联的是查询关键词和目 标页面所涉及的概念。基于概念的二分图模型比 基于链接的二分图模型有更好的相关性。在得到 查询概念二分图后,可以利用聚类算法对相似的查 询和相似的概念进行聚类。对于两个查询关键词 的相似度,可以利用如下公式: sim(x, )=:= ,女口果 圳№)『>。(2) l0, 其他 其中N(z)是节点z的相邻节点集合,N( )是节点 Y的相邻节点集合。直观的理解,若两个查询所涉 及的概念的交集大,则两个查询的相似度就高。 基于概念的二分图聚类算法主要有两个步骤: 利用抽取的概念构造二分图;利用相似度公式对查 询关键词进行聚类。利用抽取出的概念和点击数 据,可以很容易的建立二分图。如果两个查询,即 使它们是相同地关键词,但如果是不同用户提交 的,为了体现个性化那么它们不应该作为一个节 2014年第3期 计算机与数字工程 477 点,而是应该分为两个节点。我们通过在查询节点 加入用户标签来实现相同关键词不同用户的辨别。 的查准率高于概念聚类,这是因为概念聚类的二分 图当参数a=0时,低相关度的查询被聚到一类,导 致查准率降低;从概念聚类的折线变化可以看出, 当参数 较大时,概念聚类的查准率平稳保持在较 高的范围内,明显高于链接聚类的查准率,这是因 为较高的参数 剪掉了低相关度的查询概念联系, 只保留了较高的联系,使得查询之间的区分度更加 4实验与结果 本系统基于Google搜索引擎,抓取Google搜 索引擎的搜索结果。搜索结果的质量直接影响聚 类结果的评价,Google搜索引擎与其他搜索引擎 相比,搜索质量较高,而且搜索结果页面格式规整, 便于数据的预处理。Google搜索引擎采用了Pag— eRank算法,在搜索结果中,排名靠前的网页内容 与查询关键词相关度较高,而且质量较好。用户一 般只会浏览搜索结果的前3页,因此,在实验中只 对搜索结果的前100条数据做收集并存储。抓取 的搜索结果包含标题、摘要和超链接。 对搜索引擎返回结果的评价一般用查准率 (precision)和查全率(recal1)。查准率是衡量检索 系统信号噪声比的一个指标,它的值是检索出的相 关文档与检索出的全部文档的比值;查全率是衡量 检索系统从文档集合中检索相关文档成功度的一 个指标,它的值是检索出的相关文档与全部相关文 档的百分比。设用户的查询为q,查准率和查全率 的标准定义如下。 prPcisi。 (q)一—Iev a ntQre1———— ̄Qre trieved]————一](3) _。—厂l ̄refrzevea I rPfnll(q)一—IQrelev a nt———T ̄ Qret rieve—————dI (4) 一 i ̄dretewant 其中,Qrelevant是检索出的与查询q相关的集合, Qretrieved是检索到的集合。另外一种常用的评 估方法是F-measure,记为F,其定义如下 F一 L 十 ) ㈣ pre czsz on recall 由F-measure的定义可知,F-measure是查准率和 查全率的调和平均值,两个数的调和平均值更加接近 于两个数中较小的那个,所以,要使得F-measure的值 比较高,查准率和查全率必须同时较高才可以。 为了收集数据以测试系统的个性化效果,实验 模拟了20个用户的查询,每个用户分别提交五个 查询关键词。测试的查询是多义的,比如”ap— pie”、”Java”、”Canon”等。对一个多义的查询,使 其每一个语义都分别有用户感兴趣并产生点击。 系统根据测试数据集产生查询聚类和概念聚类,并 优化查询语句,产生搜索建议。实验将对由测试数 据集所得到的搜索结果进行分析评价。 图1和图2是链接聚类和概念聚类的查准率、 查全率对比图。 在图1中,当聚类结束参数盯==:0时,链接聚类 明显,有利于查询的聚类质量。综合比较可知,概 念聚类使用概念建立用户兴趣模型,个性化的查询 比链接聚类效果更好,查准率更高。在图2中,当 参数 较小时,概念聚类的查全率高于链接聚类的 查全率。这是因为参数 较小时,概念聚类形成的 聚类相对较大,损失较少,形成的概念集比较全面, 有利于查全率的提高;而当参数 较大时,概念聚 类的查全率较低,这是由于较大的参数 形成的概 念聚类更加细致,筛选掉更多的搜索结果,导致了 查全率的降低。综合比较发现,概念聚类的查准率 整体优于链接聚类,这是由于查询概念二分图以概 念相似度对查询进行聚类,相比链接相似度计算方 法,概念相似度更能表现查询之间的语义相关性, 产生的聚类更加全面。 图1查准率比较 图2查全率比较 表1给出了链接聚类和概念聚类的最佳F- measure值及对应的查准率和查全率,F-measure 能够评估检索质量的平均性能。可以看出,概念聚 类平均优于链接聚类。 表1两种聚类评估比较 5 结语 搜索引擎给人们获取信息资源带来了极大的 便利,但是现阶段的搜索引擎在个性化搜索方面并 不理想。在本文中通过研究web数据挖掘的相关 理论和方法,提出了一种基于概念的查询聚类算 法,根据该算法实现了个性化的搜索。在对基于链 接的二分图查询聚类算法进行详细分析时,针对这 (下转第516页) 516 潘忠英:基于OpenGL的三维可视化方法研究 第42卷 and its application in 3D seismic interpretation[J]. ence Edition),2007,23(4):38—39. Computer Engineering,2003,29(5):139—141. E8]张桂芝,姚迪.基于vc和OpenGL三维图形的开发 [53陈建春.Visual C++开发GIS系统开发实例剖析 [J].齐齐哈尔大学学报,2002,18(4):58—59. EM].北京:电子工业出版社,2001:46—49. ZHANG Guizhi,YAO Di.The development of 3D CHEN Jianchun.Visual C++develop GIS system— graph based on VC and OpenGLl,J].Journal of Qiqihar Analysis of development example[M].Beijing:Pub— University,2002,18(4):58—59. lishing House of Electronics Industry,2001:46—49. [9]张二华,高林,马仁安,等.三维地震数据可视化原理及 [6]朱炜.在Windows环境中设置基于VC++的OpenGL 方法[J].CT理论与研究现状,2007,16(3):2O一27. 图形接口EJ].计算机与网络,2007(8):173—174. ZHANG Erhua,GAO Lin,MA Renan,et a1.3D seis— ZHU Wei.SetVC++OpenGL Graphic Interface mic data visualization principle and method1,J].the the— Based on Windows[J].The computer and network, ory and the status of CT,2007,16(3):2O一27. 2007(8):173—174. [-101刘增平.三维地震勘探资料解释方法[J].山东煤炭科 [7]高恩婷.基于VC++的OpenGL三维应用程序的设计 技,2004(1):23—24. [J].苏州大学学报(自然科学版),2007,23(4):38—39. LIU Zengping.3D seismic data interpretation method The design of OpenGL 3D applications based on VC+ FJ].Shandong coal science and technology,2004(1): +[J].the Journal of Soochow University(Natural Sci— 23—24. 乖 不 乖 乖 希 希 乖 乖 乖 乖 希 希 铞 乖 不 乖 不 不 不 不 币 矫 旆 ;. (上接第477页) 种方法的不足,提出了一种改进的二分图,改进后 2003,3l(3):7O一72. 的二分图描述查询和概念的联系。在对该算法进 -I5]王和勇,郑杰,姚正安,等.基于聚类和改进距离的LLE 行研究时,解决了查询概念二分图中查询相似度的 方法在数据降维中的应用[J].计算机研究与发展, 计算、用户兴趣模型的融入等问题。设计并实现了 2006,43(8):1485—1490. 基于概念聚类的个性化搜索建议模型,并对链接聚 WANG Heyong,ZHENG Jie,YAO Zheng,et a1.Ap— 类和概念聚类的实验结果进行分析比较;通过对系 plication of Dimension Reduction on Using Improved LLE Based on Clusteringl,J].Journal of Computer Re— 统输入特定的查询以检验系统的个性化效果。实 search and Development,2006,43(8):1485—1490. 验表明,基于概念的用户兴趣模型能够较好地反应 [6]Jiawei Han,Micheline Kamber.数据挖掘概念与技术 用户的兴趣,有利于高质量的查询聚类结果;基于 [M].范明,孟小峰,等译.第2版.北京:机械工业出版 聚类结果形成的查询能够达到较好的查准率和查 社,2007. 全率,实现了个性化搜索的目标。 Jiawei Han,Micheline Kamber.The Concept and Technology of web Mining[M].Translated by Fan 参考文献 Mint and Meng Xiaofeng.the second Edition.Beij ing: Mechinical Industry Press,2007. [1]F.Tao,F.Murtagh,M.Farid.Weighted Association [7]吴湖,王永吉,王哲,等.两阶段联合聚类协同过滤算法 Rule Mining using Weighted Support and Significance EJ].软件学报,2010,21(5):1042—1054. Framework1,C].SIGKDD,2003. wU Hu,WANG Yongji,WANG Zhe,et a1.Two—Phase r2]R.Forsati,M.R.Meybodi,A Ghari Neiat.Web oCllaborative Filtering Algorithm Based on Co-Clustering Page Personalization based on Weighted Association EJ].Journal of Software,2010,21(5):1042—1054. RulesI C l//ICECT,2009. I-8]Gui-Rong Xue.Optimizing Web Search Using web [3]B.Mobasher,H.Dai,T.Luo,et a1.Using Sequen Click-through Data[C]//Intemational Conference on tial and Non-Sequential Patterns in Predictive Web Us— Information and Knowledge Management,2004. age Mining Tasks[C]//IEEE International Conference [9]M.Sulaiman Khan,Maybin Muyeba,Frans Coenen. on Data Mining,2002. A Weighted Utility Framework for Mining Association [4]李酷,王仁超,楮春超.数据挖掘中的数据预处理与维 Rulesl,J].Computer Modeling and Simulation,2008. 度优化[J].东北林业大学学报,2003,31(3):70—72. [1o]c.Antunes,Arlindo L.Oliveira.Sequential Pattern LI Zhe,WANG Renchao,CHU Chunchao.Data Pre— Mining Algorithms:Trade-offs between Speed and processing and Dimensionality Optimization in the Data Memory.2nd Workshop on Mining Graphs,Trees Mining1.J ̄.Journal of Northeast Forestry University, and Seq,2004.