您的当前位置:首页正文

基于入侵检测的特征提取方法

2022-10-11 来源:步旅网
第27卷第6期 2010年6月 计算机应用与软件 Computer Applications and Software VolI 27 No.6 Jun.2010 基于入侵检测的特征提取方法 朱笑荣杨德运 (泰山学院信息科学技术学院 山东泰安271021) 摘要 利用核主成份分析对入侵检测的训练样本进行特征提取,有效地提取出样本的分类信息,降低了维数。在此基础上,进 一步将简约支持向量机RSVM(Reduced SVM)方法应用到非线性的PSVM中,降低了核矩阵的计算量。两种方法相结合提高了训练 速度和入侵检测的分类效果,并且一定程度上还改善了分类的正确率和误报率,数值试验证明算法的有效性。 关键词 RSVM PSVM特征提取 FEATURE EXTRACTIoN METHoD BASED oN INTRUSIoN DETECTIoN Zhu Xiaorong Yang Deyun (Department of Information Science and Technology,Ta ̄han College,Taian 271021,Shangdong,China) Abstract In the paper we use the kernel principal component analysis to extract features from intrusion detection training samples.The method extracts features and reduces the dimensions very effectively.In addition,we further make use of RSVM method to nonlinear proximal SVM(PSVM)and this reduces the computation complexity of kernel matirx.The combination of the above two methods improves the training speed and the classiifcation effect of intursion detection.Besides,it meliorates the correction rate and flase alarm rate of the classiifcation to certain extent,numerical test also attests the validity of the algorithm. Keywords Reduced support vector machine(RSVM)PSVM Feature extraction 0 引 言 1 KPCA方法 用SVM方法解决入侵检测问题时,维数高、数量大的数据 KPCA是PCA方法的非线性推广形式。它在任意维数的特 集导致核矩阵的计算量很大,使得SVM方法难以应用于此类数 征空间中起到类似于PCA的作用,并且当核函数取线性核函数 据集上。这就需要一种简化数据的方法,对数据进行特征提取, 时,KPCA等价于PCA。KPCA方法并不是直接计算样本协方差 消除数据的相关性和噪声,提取样本信息的主元,降低样本空间 矩阵的特征向量,而是将其转化为求核矩阵的特征值和特征向 的维数,在这些新特征上应用数据挖掘的算法。主成份分析 量问题,避免了在整个特征空间上求特征向量。与其它非线性 PCA(Principal Component Analysis)为输入数据由高维降为低维 特征提取方法相比,它不需要解非线性优化问题,本质上它与 提供了一个很好的方法,但现实中变量之间的关系往往是非线 PCA一样是一个线性代数问题。图1形象地说明了PCA和KP. 性的,KPCA 作为一种非线性的PCA方法可以有效地提取输 CA的特征提取过程。 入数据的非线性信息。文献[2]表明经过特征提取之后的SVM 分类算法具有更好的分类精度和分类速度,并且KPCA特征提 取后的效果明显优于PCA和独立成份分析ICA(Independent Component Analysis),在达到同样分类性能的前提下,KPCA所 需的主元个数要少于PCA。 当样本数量很大时,仅使用KPCA的SVM方法仍难以应用 于大数据量的问题 』。因此在输入数据由高维降为低维以后, 若在样本数量方面进一步进行约简,并能在不影响分类性能的 前提下仅使用一部分样本代替整个样本来进行计算,则可以进 一步减少计算量提高计算速度。 本文研究了入侵检测的特征提取方法,利用KPCA方法进 图1 KPCA特征提取 行了特征提取,并在此基础上提出了将RSVM方法应用到非线 性的PSVM中去的方法,进一步地提高了训练的速度,并且一定 程度上还改善了分类的正确率和误报率,数值试验证明算法的 收稿日期:2009—07—22。国家自然科学基金(60872161)。朱笑 有效性。 荣,硕士,主研领域:优化方法与应用。 第6期 朱笑荣等:基于入侵检测的特征提取方法 31 2 Reduced SVM方法 PSVM 方法通过对标准SVM方法在目标函数以及约束函 数上的进一步改进,使原来的优化问题从一个不等式约束问题 转化为等式约束问题,从而使问题简单快速地得以解决。其中, 非线性PSVM解如下问题: 4数值实验 实验在Windows平台下Mat]ab 7.1上进行,计算机CPU为 Pentium4 2.80 GHz,内存256M。实验中核函数选用常用的高斯 核函数K( ,Y)=exp(一 一Y /2v )。对预处理后的数据 集,利用KPCA进行核主成分分析,有效地提取出原来数据各属 f 予 +寺(u +y2) f11 性的非线性关系。表1在样本个数取不同值情况下,对标准PS— VM方法,应用KPCA和RSVM的PSVM方法按照入侵检测分类 l .£.O(K(A,A,)D 一e )+ :e 分类超平面为K( ,A )Du一 =0。 假设训练样本矩阵 是一个m x 的矩阵,则核矩阵K( , A )是一个m×m的矩阵。Reduced SVM技术 用一个训练集 的很小的子集A代替 (』4,A )中的第二个A,即用K(A,A )代替 (A,A ),A是随机选择的整个样本集 的一个子集,通常只占 A的1%到10%,相应地用与A相对应的D和“代替(1)式中约束 函数括号内的 和“。这样核矩阵的计算由m x m大小变成m ×m大小,而约束仍然是m个。此时分类超平面相应地变为K ( ,A )Du— :0。即一旦训练得到了分类超平面,就不必再 存储整个样本集A,这样既降低了内存需要又减少了判断新样 本类别的计算时间。 A是随机选择的整个样本集A的一个子集,通常只占A的 1%到10%。用 (A,A )代替 (A,A )可以理解成一种基于实 例的学习,即通过在原始数据集A与约简后的数据集A之间形 成核函数K(A,A ),使A从A中进行学习,数值实验证明了此种 方法是非常有效的。与其形成鲜明对比的是,如果用 (』4,A ) 代替K(A,A ),方法对A的选择很敏感,而且测试集准确率很不 理想。这实际上相当于只用m个样本进行训练,效果肯定不如 Reduced SVM所采取的方法。 3改进的PSVM方法 采用RSVM技术后式(1)变为: ari n号II ̄:I +吉(一u'u+2) (2) ts.t.D(K(A,A )D M—ey)+ =。 记K= ( ,A ),式(2)的Lagrange函数为: ( , , ,/3)=÷ l l+÷lI( , )l I一 卢 (D(KD“一 y)+ 一e) (3) 由KKT充要条件,可得: u=DK =一e =— (4) D(KD M—ey)+ =e (5) 将式(2)一式(4)代入式(5),可得: =( ,+GG )一e 其中G=D[K—e]通过求解出 ,得到了“、 ,进而得到最终的非 线性分类面K(x.A )Du— =0。 假设训练集有m个样本,当m非常大时,在引入了核函数 K(A,A )后就将一个m×m大小的核矩阵缩减为一个大小为m x 的小很多的核矩阵,提高了计算速度。 器的检测率DR(Detection Rate)、误报率FP(False Positive Rate)、训练时间Tr(Training Time)进行了对比。参数C指非线 性PSVM目标函数中的惩罚参数,参数 指核函数中的参数, ‘——’指计算量已超出内存,rr即reduced rate,指Reduced SVM 方法中子集A的样本个数与整个集合A的样本个数的比如表1 所示。 表1 KDDCUP99的实验结果 PsVM KPCA+RSVM Linear PsVM Nonlinear PsVM Linear PS、M Nonlinear PSVM 样本数 DR DR DR DR 参数 FP FP 参数 FP FP (e) TI" 参数 1Tr (c) Tr 参数 Tr 91.37 l0o 92.33 C=1oo 94 52 c:l000 354 l00 l5.oo 8.00 1oo 12 14 v=2 23 5 m v:2 23 0.004 0 07 0 O02 1T=1 0 o6 89.52 97 28 92 8O C=100 98 l3 C=lo00 70o l7.40 16.06 1o0o 14 2O v=2.23 l0 32 1000 v=2 23 O.【)1 2 98 O 0o6 1T=0.3 2 7O 85 53 93.叭 C=0.2 96.21 l6o0 l4 40 0 5 14.52 v=1.5 8.89 0 5 0.22 O.21 IT=0.2 5 43 86.25 9l 0l C:0 l 97 25 310o l4 3O 13.80 v=l 8.34 O.1 0.1 0.23 0 23 H=0.1 12 31 82.O5 9o 56 C=0.5 98 67 8lo0 0 l 13.40 O.1 l2 O1 v=1.5 6.68 0 29 0 28 IT:0.05 38.32 通过实验结果可以发现,与标准的PSVM方法相比,不论线 性情况还是非线性情况,应用KPCA进行特征提取后检测的检 测率和误报率都进一步得到改善。而当样本个数达到1000时, 在近40维的数据集上,传统的非线性PSVM方法将溢出内存, 而应用了RSVM技术的PSVM方法则可以大大地降低对内存的 要求。 经过KPCA方法有效的特征提取以及RSVM对样本个数的 约简,再结合快速的PSVM方法,最终的SVM方法不论在速度 还是在准确率上都有了显著的改善。 参考文献 [1]Bernhard Sch ̄lkopf,Alexander J.Smola,Klaus.Robert Mailer.Kernel Principal Component Analysis[J].Neural Comput,1998,12(10): 1299—1293. (下转第94页】 94 计算机应用与软件 2010皇 Spageld+(1一a) V) //判断是否加入当前会话 {stmpset.addlog(1og[rindex]); log[rindex].flag=true; findex=rindex; V=(V+(10g[rindex].accessTime—log[1ogid].access— Time))/2} //平均访问时间阈值 else {if(NewSessionlndex=0) NewSessionlndex:rindex;} rindex++;} SSet=SSetu stmpset; //将当前用户会话合并到会话集合中 Iff NewSessionIndex≠0) {logid=NewSessionIndex; NewSessionIndex=0:} else logid=rindex;}}} 3 实验 实验的关键为两个时间阈值权值比例的确定,即“访问时 间<=n×s…+(1一n)× ”中。的取值为多少最为合理;实 验比较本算法与其他基于访问时间算法会话识别的差异。 实验之前首先要对Web日志进行预处理。 1)数据清理从Et志中清理图像文件请求记录及Web Robot的浏览记录、出错记录等。 2)识别用户 对于清理之后的数据使用基于日志/站点的 方法,使用IP地址识别出每个访问网站的用户。 3)会话识别 在进行了用户识别之后的数据集之上进行 会话识别。首先,为确定页面时间阈值权重a的最佳值,依次取 a从0.1开始以0.1为增量进行实验,计算会话识别的准确率 确定页面时间阈值权重a的最佳取值后,记录下实验数据,再用 同样的样本数据,采用传统的对所有页面使用单一的先验阈值 进行会话识别的方法来划分会话,这种方法设置的上限闯值为 10rain;并对结果进行比较。 实验中的13志文件是浙江万里学院网上课堂http://wsjx. ZWH.edu.cn 61.153.150.31)日志文件。为研究学生假期学习情 况,选取暑假第二周日志进行分析,经过数据清理后的日志数据 有18384条。 设访问时间阈值初始值10rain,表1列出了当a为0.1、0.5 和0.9时的实验数据。 表1不同页面时间阈值权重下会话识别情况 页面时间 会话识别情况统计 阈值权重 (识别出的会话)M (真实会话)N N:M% a=0.1 3022 2537 83% a=0.5 3l25 2934 93% a=0.9 2896 2628 90% 从表1中可以看出,在会话识别准确率上a取值为0.5时 最高,此时识别出的会话数也最多。经详细分析所有实验数据, 发现0.6为会话识别准确率临界点。为进一步精确a的合理取 值,设a从0.6开始至0.7以0.01为增量进一步实验,实验发 现a取0.65时Session—T2算法会话识别准确率为最高,可 达95%。 对于相同的样本数据,笔者同时也进行了对所有页面使用 单一的先验阈值法来划分会话,取时间阀值为10rain,单一的先 验阈值法识别出的会话有2915个,其中真实会话有2563个。 Session_T2算法当a取0.65,访问时间阈值初始值为lOmin时 发现的会话有3160个,其中真实会话有3002个。通过手工检 查样本数据,单一的先验阈值会话识别方法会话识别效率为 79%,Session一12算法会话识别效率为85%。 从上述实验结果可以看出,Session—T2算法相对于固定时 间阈值的识别方法,能够识别出更多的会话,从而有效地提高了 会话识别的质量,保证了会话的全面识别。 4结束语 会话识别是Web日志挖掘数据预处理的重要环节。本文提 出的会话识别算法Session_T2,考虑了不同用户的个体差异和页 面的差异,在会话识别效率和正确率上相对其他基于时间的会话 识别算法有较大的提高,但它同样存在着不足,在站点有较大变 动时需要重新计算页面时间阀值集合,要求日志比较完整等。 参考文献 [1]Spiliopoulou M,Mobasher B,Berendt B,et a1.A framework for the evaluation of session reconsturction heuristics in Web usage analysis [J].Informs Journal of Computing,Special Issue on Mining Web Based Data for E-Business Applications,2003,15(2):171—190. [2]Chen M S,Park J S,Yu P S.Data mining ofr path traversal patterns in a Web environment[C]//Proceedings of the 16th International Confer- enee on Distirbuted Compute System.Hong Kong:IEEE Press,1996: 385—392. [3]蔡浩,贾宇波,黄成伟,等.Web日志挖掘中的会话识别算法[J]. 计算机工程与设计,2009,30(6):1321—1323. [4]方元康,胡学钢,夏启寿.一种改进的Web日志会话识别方法[J]. 计算机技术与发展,2008,18(11):214—216. [5]殷贤亮,张为.Web使用挖掘中的一种改进的会话识别方法[J]. 华中科技大学学报:自然科学版,2006,34(7):33—35. (上接第3l页) [2]郭辉,王玲,刘贺平.基于核主成份分析与最小二乘支持向量机结 合处理时间序列预测问题[J].北京科技大学学报,2006,28(3): 303—306. [3]CAO L J,CHUA K S,CHONG W K.A Comparison of PCA,KPCA, and ICA for Dimensionality Reduction in Support Vector Machine[J]. Neuro—computing,2003,55(2):321—336. [4]FUNG G,MANGASARIAN O L.Proximal Support Vector Machine Classiifers[R].Data Mining InstituteTeehnieal Report O1-02,Februray 2001.Proceedings of KDD-2001,San Francisco,August 26—29,.As— sociation for Computing Machinery,New York,2001:77—86. [5]LEE Y J,MANGASARIAN O L.RSVM:Reduced Support Vector Ma・ chines[R].Data Mining Institute Technical Report 00—07,July 2000.Proceedings of the First SIAM International Conference on Data Mining,Chicago,April 5—27,2001,SIAM,Philadelphia,CD—ROM Proceeding. 

因篇幅问题不能全部显示,请点此查看更多更全内容