您好,欢迎来到99网。
搜索
您的当前位置:首页改进贝叶斯分类算法在DDoS攻击检测系统中的研究

改进贝叶斯分类算法在DDoS攻击检测系统中的研究

来源:99网
第27卷第3期 2010年6月 贵州大学学报(自然科学版) Journal of Guizhou University(Natural Sciences) 、r01.27 N0.3 Jun.2010 文章编号1000—5269(2010)03—0084—04 改进贝叶斯分类算法在DDoS攻击 检测系统中的研究 胡 滨 ,代昆玉,王 翔 (贵州大学计算机科学与信息学院,贵州贵阳550025) 摘要:本文在朴素贝叶斯分类算法的基础上,提出了一种利用未标记数据提高贝叶斯分类器性 能的方法。该方法从被监控网络采集的数据中提取网络流量特征设计检测系统,较好的解决了 网络流量分析中数值属性特征的分类问题。实验表明,该方法能够提高攻击检测系统准确率和 效率。 关键词:贝叶斯分类;DDoS攻击检测;网络安全 中图分类号:TP393.08 文献标识码:A DDoS(分布式拒绝服务)攻击通过在很短时间 段内,多个傀儡主机向被攻击目标发送很多的数据 包,阻塞网络带宽,耗尽其系统资源,迫使其中断服 务。研究表明,DDoS攻击已成为当前计算机网络 安全中最难解决的问题u儿 。DDoS攻击检测系统 用于监控网络中进出数据、识别DDoS攻击行为、 为后期防御DDoS攻击提供参考信息。在数据量 庞大而又复杂的网络流量中,正确识别其中含有的 DDoS攻击行为特征,并有效的提高检测精度都是 当前急需解决的问题。 在DDoS攻击检测系统中,为了提高系统的性 能,包括降低误报率和漏报率,缩短反应时间等,学 者们引入了许多方法,如专家系统、神经网络、遗传 算法和数据挖掘中的聚类、分类等各种算法l3]。 其中,朴素贝叶斯分类算法由于简单实用、计算高 效,在攻击检测中可以建立良好的用户模型,并具 1 DDoS攻击检测系统设计 当前多数攻击检测系统是基于Dorothy Den— ning的攻击检测模型,这种模型分为误用检测和异 常检测 J。与误用检测方法相比,异常检测的明 显优点是能够检测出新的攻击类型。 实际应用时,基于误用DDoS攻击检测必须和 基于异常DDoS攻击检测联合使用才能达到理想 效果,这就产生了基于混合模式DDoS攻击检测。 它是将误用检测和异常检测两种方式混合一起使 用。在基于混合模式的攻击检测系统中,可以使用 数据挖掘技术,由异常检测发现攻击,从发现的攻 击中摘录特征放入误用模式特征库中,再利用误用 检测的方法检测DDoS攻击。 本文的DDoS攻击检测系统采用了基于混合 有坚实的数学理论基础和丰富的概率表达能 力 ],被广泛地应用到攻击检测系统中 ]。但是 由于该算法比较简单,所以它不可避免地有一些限 模式的检测方法。系统采用流量监控获得网络的 相关数据,并将采集到的数据存储到数据库中。利 用贝叶斯分类器获取对该网络的访问规律,将相应 的规律放人到DDoS攻击检测系统中,实时监控网 络中相关数据量的变化,一旦发现DDoS攻击就迅 制和不足。文中首先介绍朴素贝叶斯分类算法,分 析了它存在的主要和不足,提出利用未标记数 据来弥补它的不足之处。对算法实现过程进行了 细致描述,并通过算法分析来说明该策略的可行 性。该策略全面提高了朴素贝叶斯分类算法的性 能。 速做出相应处理。系统分为数据获取模块、数据预 处理模块、标记模块、数据挖掘模块、攻击检测模块 5个部分,如图1所示。 上图中,数据获取模块包括监控网络和SNMP 收稿日期:2010—04—07 基金项目:贵大白青基合字(2009)028号 作者简介:胡滨(1977一),男,贵州安顺人,讲师,硕士,研究方向:计算机网络安全,Email:csuhubin@yahoo.conr.crl ・通讯作者:胡滨,Email:csuhubin@yahoo.tom.cr1. 第3期 胡滨等:改进贝叶斯分类算法在DDoS攻击检测系统中的研究 ‘85・ 图1基于贝叶斯分类DDoS攻击检测系统体系结构 网络管理系统两个部分;数据预处理模块负责对数 据获取模块采集的数据进行预处理,以便把它们转 换为连接记录的形式。标记模块的作用是对训练 数据进行标记,以便区分出正常记录和攻击记录。 一般来说,标记都是通过手工来完成的。数据挖掘 模块中包括自适应模型,该模型通过数据的积累, 运用自学习的方法产生自动更新的新检测模型;攻 击检测模块由攻击检查和知识库组成。 2朴素贝叶斯分类算法 2.1算法描述 每个数据样本用n维向量X={X1,X2,…, Xn}表示,分别描述对n个属性A1,A2,…,An的 样本的n个度量 。在DDoS攻击检测系统中,是 从审计记录或网络数据流中提取的参数,包括登录 频度、会话时间、CPU和I/0的利用量等等 。 先假定有m个类别C={c1,C2,…,Cm},在 攻击检测系统中一般令m=2,即C1=异常,C2= 正常。现给定一个未知的数据样本x(即没有类标 号),通过当前已有类别标签的样本集,预测出X属 于具有最高后验概率(条件x下)的类 .9]。即<,x ={x1,x2,…,xn},ci)(1≤i≤m),当且仅当类型 支持概率 J: P(ci Ix)>P(cjIx),1≤j≤m,j≠i 其中甘 n,l、P(ci)×P(,尸(c I )= { 』 J^  I ci) P(ci)×毋P( I C ) —............. ..... ........ .... . !:. ...............:...........一 一 P( ) 2.2朴素贝叶斯分类算法的缺陷 朴素贝叶斯分类算法由于简单实用、计算高 效,在攻击检测中可以建立良好的用户模型,并具 有坚实的数学理论基础和丰富的概率表达能力,所 以被广泛地应用到攻击检测系统中,但朴素贝叶斯 分类算法存在一个比较明显的缺陷,数据训练集问 题。 样本集s分为已有类别标签的训练集D和没 有类别标签的测试集T.朴素贝叶斯分类算法就是 根据先验概率(从训练集D中得到)来预测后验概 率,得出测试集T中的实例类别标签。如果训练 集D没有良好的数据完备性,那么预测的测试集T 中实例类别标签就可能不准确。在正常情况下,有 限大小的训练集D不可能具有完备的数据,因此 可通过扩大训练集来提高分类器的检测率。但是 该方法并没有我们想象的那样容易。训练集中的 连接记录必须事先经过标记,而这种标记必须由人 手工完成,这是一项费时费力的工作。因此,应该 寻求一种解决方法,使得通过训练少量带标记的连 接记录数据就可以获得较好的检测率。 3算法改进 3.1利用未标记数据提高贝叶斯分类器性能的基 本思想 本文提出的基本思想是:设有两类数据CN (正常类)和CA(入侵类),首先用少量的带标记的 训练数据(数据集D1)对贝叶斯分类器进行训练, 得到分类器c,然后依次将大量的未带标记的数据 (数据集D2)输入给C,由C对每条未带标记的连 接记录r进行分类,因为贝叶斯分类的原理是计算 r分别属于CN和CA的概率,设r属于CN的概率 为PN,属于CA的概率为PA,如果PN大于PA,则 认为r属于CN,否则认为r属于CA.为此,我们的 思路是,设定一个阈值,对于连接记录r,如果PN/ PA>e,即r属于类CN的概率远大于r属于类CA 的概率,则将r归为类CN;如果PA/PN>e,即r属 于类CA的概率远大于r属于类CN的概率,则将r 归为类CA;如果PN和PA不符合上面两个条件, 即不能判断r明确属于哪个类,这时通过人工干预 进行判断,确定r的明确归属。通过这种方式给大 量未带标记的数据进行自动标记,然后继续对贝叶 斯分类器进行训练,以得到检测性能更好的分类 器。 3.2利用未标记数据提高贝叶斯分类器性能的算法 根据上述利用未标记数据提高贝叶斯分类器 性能的基本思想,本文设计利用未标记数据提高贝 叶斯分类器性能的算法是: ・86・ 贵州大学学报(自然科学版) 第27卷 利用未标记数据提高贝叶斯分类器性能的算 法。 条连接记录r,用C对其进行分类(也可能需要人 工干预),然后根据分类结果训练分类器C,得到新 的C和K. 输入:未训练的贝叶斯分类器C;判断概率差 的阈值;带标记的训练数据集D1;未带标记的训练 数据集D2; 输出:训练好的贝叶斯分类器C;知识库K. 算法: (1)用带标记的数据集D1对贝叶斯分类器进 行训练,得到分类器c和知识库K; (2)for(D2中的每一条连接记录r) (3)用C和K对r进行分类,计算PN和PA; (4)如果PN/PA>e,则r为正常数据,TC中相 应计数器加1; 4实验及结果分析 为了验证该DDoS攻击检测系统的有效性,使 用SNMP不同时段和不同网络环境从真实的网络 环境下采集背景数据。使用DDoS攻击软件 TNF2K LAND—BASED、SYNFLOOD、PINGFLOOD、 SMURF产生了5种不同的DDoS攻击数据样本,通 过数据预处理后形成数据集D。在实验中,首先选 取训练数据集T1对朴素贝叶斯分类器c1进行训 练,然后用训练好的C1对测试数据集E进行分 类。然后根据改进算法选取训练数据集D1,D2对 贝叶斯分类器c进行训练,同时确定阀值e=2.4, 然后用训练好的分类器C对测试数据集进行分 类。其中T1、D1、D2、E和D之间满足以下关系: T1 CD,IT1 l=10,000 D1=T1 (5)否则,如果PA/PN>e,则r为人侵数据, TC中相应计数器加1; (6)否则,r需人工判断,将r保存于人工判断 数据集D3,转(7)计算新的c和K; (8)end for; (9)for(D3中的每一条连接记录r) (10)人工判断r属于何种类型数据; D2CD,ID2I=100,000 D1 CD2 (11)计算新的C和K; (12)end for; (13)return C和K. ECD,IEI=100,000 其中D2中每条记录都是未标记的记录。 实验的最后的输出为贝叶斯分类器C1和C 该算法首先用带标记的数据集D1对贝叶斯 分类器进行训练,得到分类器C,然后将分类器C 的检测准确率、遗漏率和误报率。具体实验结果如 表1所示。 作用于未带标记的训练数据集D2,对D2中的每一 表1不同DDoS攻击类型的检测结果 从表1中可以看出,改进后的分类器C的检 测率要好于未改进的c1.以上的实验表明:利用未 标记数据提高贝叶斯分类器性能的方法是有效的, 检测系统中的性能,仍然是目前一个比较重要的课 题。本文在朴素贝叶斯分类器的基础上提出了一 在使用少量带标记的训练数据对贝叶斯分类器进 行训练的基础上,通过对大量未带标记的训练数据 进行自动标记从而继续对其进行训练,可以提高贝 叶斯分类器的分类性能,从而较好地解决了训练数 据集问题。 种利用未标记数据提高贝叶斯分类器性能的方法, 较好地解决了训练数据集问题,实验表明,这种方 法取得了很好的效果。 参考文献: [1]薛静锋,曹元大.基于贝叶斯分类的分组入侵检测技术研究 [J].计算机科学,2005,32(8):60—63. [2]Ab嘶H.IP Traceback:A New Denial一0f—service Deterrent 5结束语 如何改善朴素贝叶斯分类算法,提高其在入侵 [J].Security&PrivacyMagazine,2003,l(2):24-31. 第3期 胡 滨等:改进贝叶斯分类算法在DDoS攻击检测系统中的研究 ・87・ [3]Lee Wenke,Stolfo S J,Mok K W.A Data Mining Framework for [6]高能,冯登国.一种基于数据挖掘的拒绝服务攻击检测技术 Building Intrusion Detection Models[C]//Proceedings of the 1999 [J].计算机学报,2006,29(6):944—951. IEEE Symposium on Security and Privacy.Los Alamos,CA:IEEE [7]Hart Jiawei,K ̄llber M.数据挖掘概念与技术[M].范明,孟小 Computer Societ Y Press,1999:120—132. 峰,等译.北京:机械工业出版社,2005. [4]Firedman N,Geiger D.Bayesian network classifier[J].Machine [8]张琨,徐永红,王珩,等.用于入侵检测的贝叶斯网络[J].小型 Learning,1997(29):103—130. 微型计算机系统,2003,24(5):913-915. [5]张王番.多种策略改进朴素贝叶斯分类器[J].微机发展,2005, [9]YagerRR.An extension oft he naiveBayesian classiifer[J].Info ̄ 15(4):35—37. mation Sciences,2006(176):577—588. Research of Improved Bayesian Arithmetic in DDoS Attack Detection System HU Bin‘,DAI Kun-yu,WANG Xiang (College of Computer and Information,Guizhou University,Guiyang 550025,China) Abstract:An algorithm using unlabeled data to improve the capability of the classifier is proposed based on the naive Bayesian classiifer.It extracts trafifc patterns from network data to generate detection modeh and is used to group the quantitative attributes in network traffic.Using this method,the accuracy and efficiency of the attack detection system are improved. Key words:Bayes clsasiifcation;DDoS Attack detection;network security (上接第83页) Gait Recognition Via Static and Dynamic Feature Fusion UN Min’.ZHENG Ji-shao (Putian Universiyt Electronics and Ensineering,Putian 35 1 100,China) Abstract:A gait recognition algorithm Wills proposed based on the fusion of static shape feature and dynamic fea- ture.Firefly,modiifed Hu moments Was used to describe body contour as the static feature of gait sequence ima- ges.Secondly,according to the knowledge in body anatomy,the coordinates of joints of lower limbs was compu— ted then the stride of feet Was obtained as the dynamic feature of gait sequence images.Finally these features were fused.Experimental results demonstrate that the algorithm has efficient recognition performance. Key words:gait recognition;Hu moments;stride;feature fusion 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 99spj.com 版权所有 湘ICP备2022005869号-5

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务