VocationalEducationandEconomicResearchVol.5 No.2Jun.,2007
网页自动分类技术概念分析
张 莉
(西南科技大学,四川 绵阳 621000)
摘 要:首先介绍和分析自动分类的种类和作用。然后在分析网页特征的基础上介绍两种常用的网页识
别方法并研究其在网页分类应用中的现状,列举几种常用的特征提取方法并比较其在网页分类应用中的优劣,分析各种分类算法在网页分类的适用性并研究其发展和改进,简述分类评价指标。最后分析现有系统的特点。
关键词:自动分类;网页识别;特征提取;分类算法
中图分类号:TP393 文献标识码:A 文章编号:(2007)02-0058-04AnalysisofWebDocumentsClassificationTechniques
ZHANGLi
(SouthwestUniversityofScienceandTechnology,Mianyang Sichuan 621000)
Abstract:Thekindsandfunctionsofautomaticclassificationareanalyzed.Afteranalyzingthefea2
turesofwebpages,twokindsofrecognitionmethodsareintroducedandtheapplicationonwebclassi2ficationisstudied.Severalkindsoffeatureselectionmethodsarelistedandtheeffectsofapplicationonwebclassificationarecompared.Theapplicabilityonwebofclassifyingalgorithmsareanalyzedandthedevelopmentandimprovementofalgorithmsarediscussed.Evaluatingindicatorsarelisted.Thepaperendswiththeanalysisofthesystem’scharacteristics.
Keywords:automaticclassification;recognitionofwebpages;featureselection;classifyingalgo2
rithms
互联网飞速发展,网页数据量急剧增长,搜索引擎一般向用户提供两种查询途径,一是关键词检索,二是分类检索。关键词搜索引擎存在诸如查准率低、信息冗余大等缺点。分类检索是以分类目录浏览方式提供信息查询途径,即网络分类目录,把各网站分门别类放入分层类目下,用户层层点击,逐渐缩小范围找到所需的网站。目前目录搜索引擎大多采用人工分类,如以分类著称的YAHOO,还有新浪、搜狐等门户网站。虽然查准率提高了,却存在时效性差、分类结果不一致、数据库规模小等弊端。针对以上问
据中国互联网信息中心2007年1月发布的《中国互联网络发展状况统计报告》,中国网页总数有44.7亿个,与去年同期相比增加
20.7亿个,增长率为86.3%,人们已经步入一
个信息资源丰富的时代。如何有效查找到所需资源成为人们关注的问题,搜索引擎应运而生。搜索引擎是除收发邮件、浏览新闻之外的第三大网民经常使用的网络服务,51.5%的网民经常使用搜索引擎。
收稿日期:2007-03-20
作者简介:张莉(1982-),山东淄博人,西南科技大学经济管理学院教师,主要研究方向为信息管理和电子商务。
总第14期 张莉:网页自动分类技术概念分析59
题,网页自动分类作为解决方法之一被提出来,且日益成为研究热点。
1 自动分类种类和作用
主题的描述,URL通常出现跟网页类别相关的关键字,超链接周围文本通常是其指向网页的描述。
目前多数研究纯文本分类技术实现网页分类,有两种基本的识别方法:一是用纯文本表示方法表示网页,二是组合文本分类器表示方法
[3]
自动分类是计算机系统代替人工对文本,网页等对象进行分类。从实现途径进行划分,自动分类分为自动聚类和自动归类。自动聚类是从待分类对象中提出特征,然后将提出的全部特征进行比较,再根据一定的原则将具有相同或相近特征的对象定义为一类。自动归类是分析被分类对象的特征,并与事先定义好的各种类别具有的共同特征进行比较,然后将对象化归为特征最接近的一类并赋予相应的分类号
[1]
。
[4]
从使用的文本位置、多少和不同内容的重要性等方面,纯文本表示方法可以有很多种
。介
绍了三种网页自动标引方案,优选出一种方案,采用词频加权统计法对网页标题,超文本标记,正文首段、文摘、关键词等,段落首句,网页其余正文按顺序重要性依次降低加权[5]
。。指出超链
网页自动分类可总结为两大作用,其一,可建立分类信息资源,为用户提供分类目录;相对人工分类,自动分类有覆盖面广、速度快、节省人力物力等优点。其次,网页自动分类系统可应用于单个或元搜索引擎,现在应用较多的是自动聚类。根据应用的时机不同,在对数据库中网页进行索引的时候,自动聚类将网页按类分别建立相应的数据库,再对分类数据库进行搜索,来提高查全率和查准率;或在搜索引擎返回结果之后,将结果进行聚类处理,提高网页相关性,这种情形下用于元搜索引擎比单个搜索引擎效果要理想
[2]
接、超文本标记的重要作用,提出基于“超链接森林”和“超文本标记加权”信息提取方法,并考虑关键词与网页主题隶属程度。国外研究者对只使用网页局部文本,或用指向该网页所有链接周围的文本、链接所在段落的标题以及上级标题文本,或局部文本和跟它链接网页的文本表示网页,没有一致的结论
[6]
。在Hoovers和WebKB
数据集上的研究给出较客观的解释:网页集中是否存在规律及能否利用这些规律对算法性能起关键作用,因此应根据这些规律设计网页表示方式和分类算法。
用组合网页分类器的方法进行网页分类
[7]
。,
2 网页识别
其中一个分类器用网页中的纯文本、标题和子标题表示网页,另一个分类器用指向该网页所有链接周围的文本
[8]
Web之前人们研究过文本分类的方法,形成;提出一种用朴素贝叶斯协调分
了各种文本自动分类(AutomaticTextClassifica2
tion,ATC)技术,例如特征抽取、分类算法等。网
类器综合网页纯文本和其它结构信息的分类方法;试验结果证明组合后的分类器性能都有提高。用不同方式表示网页然后组合分类器的方法能够综合利用网页特征,但各个分类器性能难以估计,使用什么组合策略难以确定。
3 特征提取
页分类是在ATC技术上发展起来的,但网页特征决定了网页识别的特殊性和多样性。网页不同于普通文本,是超文本标记语言编写的、半结构化文本文件。网页格式灵活,多种格式并存;网页包含丰富的结构信息,能否合理利用这些信息,必然影响分类器的性能。其中TITLE和Hn标注网页标题和段落子标题,B、I、U标记起强调作用,META标记中的KEYWORD字段是对网页
特征提取在分类中起着重要作用,提取算法的优劣直接影响到分类的效果。假设特征是独立的,特征提取就是抽取特征项,然后根据特征
60职教与经济研究总第14期
评估函数计算各个特征的评分值,然后按评分值排序,选取若干个评分最高的作为特征词。特征提取的常用的评估函数有文档频率(DF)、信息期望交叉熵(expectedcrossentropy)、术语强度
(TS)等。
可显著提高平均精度。NB和KNN都是根据计算向量间的距离决定其归属,而未能考虑向量模型中各特征向量间的相互影响,分类精度不很理相互关系,模拟人的分类过程并考虑无用特征对距离计算产生的干扰及核心概念词和其关联词之间的联系,有较高的分类精度。
SVM有较好的区分性,但对于网页大规模
增益(IG)、、互信息(MI)、开方拟和检验(CHI)、想。而概念推理网利用关键概念和其他概念的
由于网页识别的多样性,不同的识别方法对不同的评估函数效果各异
[9]
。为中文文本分类
器选择特征抽取方法提供指导,相关结论也适合
CHI和MI。发现利用类别信息的提取方法在不
数据集,需训练的例子多和较长训练时间。针对网页分类器,减少部分反例,降低SVM在训练中时间高耗费问题,在识别过程中结合UC的高效性和准确性,取得较好的结果。样本可分情况下文本数据是线性可分的,一般采用线性支持向量机(LSVM)算法,试验结果显示,系统查全率较低,而查准率较高,且被拒识样本大部分集中在其实际所属类别所对应的最优分类面附近出进行改进。
KNN被认为是VSM理论下最好的分类算
[12]
其它语种。考察常用的特征提取方法:DF、IG、此问题,提出SVM和无监督聚类(UC)相结合的加以修正的情况下并不适合中文文本分类。原因在于利用类别信息的提取方法对低频词的倚重和特征空间维数远远高于英文。分析矫正措施包括增大训练语料规模和采用组合的特征提取方法,后者更实用。进而的实验结果表明组合提取方法不但提高分类精度,还显著缩短分类器训练时间。
4 自动分类算法
。
由此利用训练文档中拒识样本信息对分类器输
现有自动分类技术主要基于知识库(基于专目前常用的是词典法,即通过已知类别的训练集构造出分类函数或模型(分类器),并利用此模型将未知的文档映射到给定的类别空间。分类关键是如何构造分类器,将未知文档与类别模板进行匹配。目前有许多种分类器的构造方法,如统计方法、机器学习方法、神经网络方法等。目前主流是基于关键词匹配的机器学习算法
[10]
法
[13]
,但也有不足:若选取特征词过多,将导致
家系统)方法和归纳学习(基于词典法)方法。向量维数很高,增加计算开销;太多的维对类别
无足够的区分能力,而单纯减少特征词又会丢失分类的重要信息;向量距离不涉及各特征的相互影响,各特征相互独立平均用力,使得距离计算不精确,影响分类精度。针对KNN的问题,提出
WAKNN加权方法
[14]
,在给每个特征词加权时,
[15]
逐一尝试权值,直到找到最有效的。此法取得一定效果,但计算代价也大幅增加
;主要考虑文
,
主要有SVM(支持向量机)、KNN(k-近邻算
LLSF算法等。上述算法都采用向量空间模型
[11](VSM),而完全抛弃VSM提出基于语义的概
档间特征词关联属性与“共现”对相似度,用匹特征向量
[16]
法)、NaiveBayes算法、神经元网络算法(Nnet)、配系数调整两文档距离,但未改进特征词选取和
;针对KNN等VSM模型各特征项孤
立处理问题,提出用特征聚合方式改进。聚合对分类贡献有相同作用的特征词,使用共同的分类贡献模式代替传统算法单个词对应向量一维的方式,强化稀有词和关联词的分类效果、并降低向量维数
[17]
念推理网模型,通过机器学习和数据挖掘等技术进行知识获取并最终形成若干个概念推理网。
比较SVM、KNN、NB,SVM分类精度最高,其次是KNN;但运算时间最短的是NB,其次是
KNN。算法受训练集规模影响显著,扩大训练集
。
提出基于粗糙集的决策表约简的增量式学
总第14期 张莉:网页自动分类技术概念分析61
习网页分类算法并实现网页分类器,实验表明分类器性能良好
[18]
做出的决策是正确的概率。通常还将召回率和准确率用某种方式组合成单一的度量,以便于进行比较。F1度量是常用的组合方式:F1=2RP/
(R+P)。
6 现有系统性能分析
。通过分析中文网页的特点,
提出新的中文网页自动分类算法,主要利用字间相关信息、词频及页面标记信息等,提取网页特征,并计算可调的词频加权参数,然后通过本类和非本类训练,建立专家数据库。实验表明,该算法可以获得80%以上的网页分类准确率。
5 网页自动分类评价体系
自动分类是实现知识管理的必要条件。从网页自动分类实现来看,现存关键字分类和自然语义智能分类两种分类机制。现在国内大部分系统采用关键字分类,是以用户设置关键字作为分类标准,运用布尔逻辑建立关键字规则来实行分类。该分类机制分类速度快、效率高、使用灵活,不需要事先进行机器学习等。关键字设置完成后即可直接使用,能随时进行修改并立即生效。自然语义智能分类自动生成模型作为分类标准。
通用的性能评价指标:召回率R(Recall)、准确率P(Precision)和F1评价。对于某一特定的类别,召回率定义为被正确分类的文档数和被测试文档总数的比率,即该类样本被分类器正确识别的概率。准确率定义为正确分类的文档数与被分类器识别为该类的文档数的比率,即分类器系统名称研发单位主要技术特点描述
以最先进的智能V变换为核心的关键技术解决传统手
工文本分类问题,如周期长、费用高、效率低,且需具有专业知识的人员才能胜任等,此技术不同于基于统计方法的分类技术,而是在向量变换基础上加入人工智能的动态分析。该技术已成功的应用到大规模Internet网页处理。 具有关键字分类和自然语义智能分类两种分类机制,可提供灵活准确的分类结果。用户可以选用其中一种分类机制,或者将两种组合使用。
在选定的监控网站范围内,自动获取关注的各语种文本,并实现信息的自动分类、共享展示。根据用户个性化需求定制,可实现对内部文本信息的自动分类管理。各种语种文本分类,也用于Email、Pdf等格式文档的自动分类。
自动分类系统
(I-sort)
北京中搜在线软件有限公司(原慧聪软件公司)
百度电子政务信息共享解决方案
百度公司
(Baidu.com,Inc)
知识通代理
北京冠融泰科软件有限责任公司
信息搜索器
浩州信息产业集团 提供智能分类训练器,用户可以按照本行业业务要求重新定义分类,可适用于各行各业对信息自动分类的要求。
62职教与经济研究
(18):219-2411
总第14期
7 结 语
[7]ChoonY.Classificationofworldwidewebdocuments[D].
Pittsburgh:CarnegieMellonUniv,2000.
[8]范焱,郑诚等.用NaiveBayes方法协调分类Web网页
[J].软件学报,2001(9)1
[9]代六玲等.中文文本分类中特征抽取方法的比较研究
[J].中文信息学报,2001(01):26-321
[10]臧国全.虚拟图书馆中网页的自动分类研究[J].图书
网页自动分类成为搜索引擎实现分类查询的关键,网页自动分类对网页进行有序的组织,可以在一定程度上改善搜索引擎的性能,帮助用户更好地搜索、过滤和管理所需的网络资源,提高网络信息利用率。但在网页分类实现方面还存在诸多问题,例如用纯文本识别网页效果不好,还要兼顾网页的结构信息,使用组合分类器识别比单个分类器效果佳,但组合策略难以确定;分类算法多种多样,各种改进算法各有所长,若能实现各种方法比较、互通和融合将更有利于算法的发展。
(责任编辑:刘康民)馆自动化,2002(03):28-311
[11]李晓黎.概念推理网及其在文本分类中的应用[J].计
算机研究与发展,2000(9):1033-10381
[12]贺海军,王建芬.基于决策支持向量机的中文网页分类器[J].计算机工程,2003(2)1
[13]YangY,LiuX.Are-examinationoftextcategorization
methods[A].Proceedings,22ndAnnualInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval(SIGIR’99)[C].Berkelry:ACMPress,1999:42-491
[14]HanEH,GergeK,VipinK.Textcategorizationusing
参考文献:
[1]成颖,史九林.自动分类研究现状与展望[J].情报学
weightadjustedk-nearestneighborclassification[R].TechnicalReport#00-046,UniversityofMinnesota,20001[15]孙丽华,张积东,李静梅.一种改进的KNN方法及其
报,1999(01)1
[2]曹树金,杨涛.自动分类在搜索引擎中的应用[J].情报
在文本分类中的应用[J].应用科技,2002(2):25-271
[16]张晓辉,李莹,王华勇,赵宏.应用特征聚合进行中文
科学,2004(02)1
[3]孙建涛,沈抖等.网页分类技术[J].清华大学学报(自
文本分类的改进KNN算法[J].东北大学学报(自然科学版),2003(03):229-2321
[17]李涛,王俊普,徐杨.一种基于粗糙集的网页分类方法
[J].小型微型计算系统,2003(3):520-5221[18]张俐等.中文网页自动分类新算法[J].清华大学学报
(自然科学版),2000(01):39-421
然科学版),2004(01):65-681
[4]仲云云等.网页自动标引方案的优选及标引性能的评
测[J].情报科学,2002(01):1108-11101
[5]吕津,赵明生.对因特网上自动信息提取的研究[J].数
据通信,2000(01):05-081
[6]YangY,SlatteryS,GhaniR.Astudyofapproachestohy2
pertextcategorization[J].JIntelligentInfoSync,2002
因篇幅问题不能全部显示,请点此查看更多更全内容