Computer Engineering and Applications计算机工程与应用 2008,44(35) 203 基于粗糙集和支持向量机的高速公路事件检测 郭 倩,黄林 GUO Qian,HUANG Lin 西北农林科技大学信息工程学院,陕西杨凌712100 Department of Information Engineering,Northwest Agriculture and Forest University,Yangling,Shaanxi 712100,China E—mall:liangqian1984@126.con GUO Qian,HUANG Lin.Freeway incident detection algorithm based on Rough Sets and Support Vector Machine.Com- purr Engineering and Applications,2008,44(35):203—205. Abstract:Against of the limitations of current expressway incident detection algorithm,a trafifc incident detection algorithm based on Rough Sets(RS)theory and Support Vector Machine(SVM)is proposed.On the basis of introducing the principle of Rough Sets theory and Support Vector Machine,the detection algorithm method is given.Further,variety of algorithms simulation and performance comparison is done with Matlab.Simulation results show that freeway incident detection algorithm based on RS and SVM has such advantages as high detection rate,fast training ability and good generalization.It is found to be potentially applicable in practice. Key words:Rough Sets(RS);Support Vector Machine(SVM);freeway;incident detection 摘要:针对目前高速公路事件检测算法存在的局限性,提出基于粗糙集理论和支持向量机的高速公路事件检测算法。在介绍粗 糙集理论和支持向量机原理的基础上,给出了检测算法的实现方法,并用Matlab对多种算法进行了仿真和性能对比。仿真结果表 明,基于粗糙集理论和支持向量机的事件检测算法具有检测准确率高,训NN-N#2,泛化能力好等优点,具有良好的应用前景。 关键词:粗糙集;支持向量机;高速公路;事件检测 DOI:10.3778/j.issn.1002—8331.2008.35.061 文章编号:1002—8331(2008)35—0203—03 文献标识码:A 中图分类 ̄":TP39 l引言 很好的学习泛化能力和分类性能日,但处理包含冗余信息的大 高速公路交通事件是指非周期性发生且使某段道路通行 量数据存在训练时间长、速度慢的缺点。粗糙集理论(Rough 能力下降的事件。高速公路交通事件的发生会严重影响交通安 Sets,RS)则可以对数据进行约简,在保持分类能力不变的条件 全与畅通,造成交通混乱及延误,而且容易引发二次事故。近年 下,删除其中不相关或不重要的冗余知识,获得数据的核心知 来,随着我国高速公路建设里程的增加和交通流量的增大,交 识 。将两算法充分融合,提高了SVM处理速度,同时保持了 通事件也随之增多。据统计,近年来我国每年由高速公路交通 较好的分类效果。 事件造成的经济损失要达到300亿元_1J,因此对高速公路交通 事件的监控显得尤为重要。如何准确、快速地检测和确定事件 2粗糙集和支持向量机 发生的时间、地点和性质是对交通事件进行控制的关键。 2.1粗糙集基本原理 事件检测实质上是有事件交通模式和无事件交通模式的 粗糙集理论是一种处理模糊性与不确定性的软计算基础 分类问题。从20世纪60年代,人们已经开始了事件检测技术 理论,在保持分类能力不变的前提下,通过垂直约简,消除样本 的研究,目前,形成了多种自动检测算法,主要包括直接检测算 的冗余,通过属性约简,导出问题的决策或分类规则 。 法和间接检测算法两大类日。直接检测算法,主要通过视频和图 粗糙集理论把对象世界抽象为一个信息系统,表示为s= 像处理的方法完成对目标的跟踪、识别及交通流检测,成本较 ( ,cuD, 厂),其中u表示对象的集合;C表示条件屙性集,D 高,且受气象条件影响较大;间接检测算法,主要根据事件对交 表示决策属性集,令A=cuD;V表示所有属性可取值的集合, 通流的影响来检测事件的存在,成本低、简单易操作,但是存在 厂.UxA— 是一个信息函数,该函数指定u中每一个对象的属 检测率低,误报率高等问题。 性值,例 ̄nf(u.,a)= 表示记录u 在属性a上的取值为 针对目前高速公路事件检测算法存在的问题,提出了一种 粗糙集理论主要基于 中对象的不可区分关系的思想。 基于粗糙集理论和支持向量机的事件检测算法。支持向量机 某属性子集BC_A, ,Y∈U为两个数据实体。如果有Va∈B, (Support Vector Machine,SVM)算法基于统计学习理论,具有 f(x,。)=厂(,,,。)那么仅仅根据属性集 提供的信息,无法将 作者简介:郭倩(1984一),女,硕士,主要研究领域为:基于网络的计算机应用;黄林(1951一),女,教授,主要研究领域为:基于网络的计算机应用。 收稿13期:2008—07—28 修回13期:2008—09—26 204 2008.44(35) ,Compu ̄r Engineering and Applications计算机工程与应用 Y区别开来,这时就称 ,Y在属性集日上是不可分辨的,定 肋(B)={( ,Y)E UxU:V口∈曰 ( ,0)鼍厂(,,,0)l (1) 义如下: 3基于粗糙集和支持向量机的高速公路事件检测算法 3.1算法原理 运用粗糙集理论对交通流数据进行预处理,去掉样本数据 中的冗余属性,并消除噪声和冗余对象,然后以处理过的样本 数据作为支持向量机的输入,实现最终的决策分类。具体步骤 如下: 粗糙集理论对数据的分析主要基于“上近似集”和“下近似 集”两个重要的概念。设集合X U为域的任一子集, 是U上 的等价关系,其“上近似集”和“下近似集”分别定义如下: RX={x∈ : k nX≠ ) RX={x∈U:M C_Xl (2) (3) —(1)把样本数据表示成决策表形式。决策表中每一行描述 个对象,每一列对应对象的一种属性。 是根据R判断可能属于 的U中的元素组成的集合; 是根据矗判断肯定属于 的u中的元素组成的集合。集合 关于尺的近似质量定义为: card(R X) OtR( )=—— card(RX) (4) (2)连续屙陛离散化。将条件屙陛划分为若干个子区间,每 个区间用不同的代码如1,2…等表示,以此区间来代替原有实 值,从而使决策表泛化。 (3)决策表形成。采用量化后的条件属性和决策属性值形 成一张二维表格。 如果 ( ):1,则 相对于 是精确的;否则, 相对于 R是粗糙的。 (4)对离散化的决策表进行约简。按照以下规则进行约简: 删除符合知识约简概念的属性列;删除表中的重复样本;对冲 突样本进行统计,保留相应数量最多的作为训练样本,去除其 中的冲突样本信息。根据约简得到决策表的核。 (5)支持向量机训练。选定支持向量机的核函数及其参数。 将粗糙集得到的样本作为支持向量机的训练集对支持向量机 进行训练。使用测试样本对支持向量机模型进行检验,若不能 达到预定要求,则重复步骤(2)一步骤(5)。 (6)事件检测。将采集到的交通流数据按照本文提出的算 法进行处理,然后输入到训练好的支持向量机进行分类,最终 得到是否为交通事件的结果。 在许多实际数据的分析中各属性之间可能存在着依赖性, 给定属性子集JR和P,如果舢(P) ,ⅣD( ),则R依赖于P, 用严叫e表示。消除这种依赖性,就可以在不影响分类的近似 质量时,以较小的属性集表达整个信息系统。 2.2支持向量机分类原理 支持向量机产生于模式识别问题,原理就是要寻找—个满 足要求的分割平面,使训练集中的点距离该平面尽可能地远, 目标是构造—个函数将两类模式尽可能分开7- ol。 在线陛可分的情况下,存在—个超平面使训练样本完全分 开,超平面可描述为: W・X+b=0 (5) 3.2算法实现 采用Vissim软件仿真高速公路的交通数据进行了算法实 现和性能测试。仿真以一段单向双车道的高速公路为模拟目标 路段,对不同交通条件下的交通流状况进行模拟,模拟数据为 各检测点的车流速度、占有率和流量等交通流参数。共获取 500组事件模拟数据和500组正常交通模拟数据,将这些数据 混合后随机抽取其中的800组作为训练样本,剩余的200组作 为测试样本。 3.2.1交通流数据的粗糙集预处理 其中 是输入向量, 是垂直于分类面的向量,b为常数。最优 超平面应使两类样本的分类最小距离为最大,可以通过解二次 优化问题来获得: airn咖(∞)=— 1 l lctJ ll‘ (6) 满足约束条件: Y.(W・ +6)≥1, Vi=1,2,…,n (7) 采用拉格朗日乘子法引入乘子求解该二次规划问题,可以 得到最优超平面分类函数: )一gH[X置 +6] … 对于线性不可分的情况,可以把样本 通过非线性映射 函数映射到—个高维的线性属性空间日,将分类问题转化到属 (8) 辆平均速度;车辆密度;路段是否为事件多发路段;天气状况; 是否在集会场所附近等17个。决策属性D为交通事件标识。 将获取的交通数据表示成决策表形式。决策表的条件属性 C包括:下游t时刻、t-1时刻和£一2时刻的交通流量;上游t时 刻、卜1时刻和£一2时刻的交通流量;下游 时刻、t一1时刻和t一 2时刻的占有率;上游 时刻、t一1时刻和 一2时刻的占有率;车 部分决策表属性数据如表2所示, 表示上£游时刻交通流量, 性空间进行,如果选用适当的映射函数,输入空间的线性不可 日。表示上游t时刻占有率。 分问题在属性空间将转化为线性可分问题。这种非线性映射函 表2部分决策表数据 数就是核函数K(X・X o常用的核函数如表1所列。 表1常用核函数 因此可以得到输入空间的分类判别函数为: f(x)-sgn[L o 1 tlYiK(Xi"X)+6]j (9) 有率属性中的0 ̄0.2,0.2~0.3,0.3~0.4,0.4~0.5,>0.5,平均速度属 属性离散化,将条件属性划分 为若干个子区间,每个区间用不同的代码如1,2…等表示。交通 流量属性中的0-400,400~600,600~800,800—1000,>1000,占 郭 倩,黄林:基于粗糙集和支持向量机的高速公路事件检测 2008,44(35) 205 性中的<16.7,16.7~22.2,22.2~27.8,27.8~33.3,>120;车辆密度属 表4检测结果对比 性中的0 ̄400,400—600,600~800,800~1 000,>1 000分别用0、 1、2、3、4表示;而路段是否为事件多发路段;是否受天气状况 影响;是否在集会场所附近,是否为交通事件的属性值分别用 0和1表示。表2中的部分决策表数据经过连续属性离散化处 理后如表3所示。 从表4可以看出,与神经网络和单纯的支持向量机相比,本 表3离散化的部分决策表数据 文提出的算法探测率和误报率都优于其它两种算法,同时算法 平均速度 车辆密度 天气状况 多发路段 集会场所 是否事件 检测速度也得到了提高。 4结论 提出了一种基于粗糙集预处理的支持向量机高速公路事 件检测算法,利用粗糙集理论对样本数据进行约简,减少了表 达信息的属性个数,消除了冗余信息,使得到的数据更具代表 然后对决策表进行约简,首先根据公式(4)计算关于不同 性,构建的支持向量机分类模型,对处理后的样本数据进行了 属性集合的近似质量,如果去掉属性集合中的某个属性后,该 训练。从仿真结果可以看出,这种算法减小了支持向量机的训 屙『生集合的近似质量没有改变,那么就可以约简掉该属性。通 练负担,提高了检测速度和准确性,具有较好的应用价值。 过计算可以得出“车辆密度”依赖于“占有率”,去掉条件屙陛 “车辆密度”后获得的屙I生集的分类质量并没有下降,因此,可 以去掉“车辆密度”这一条件属性。其他条件屙I生相对于决策属 参考文献: 性都是不可缺少的;同时可以对决策表中的重复样本和冗余样 [11梁新荣,】刘智勇,孙德山,等基于支持向量机的高速公路事件检测阴. 本按照算法步骤(4)进行约简。 计算机工程与应用,2006,42(14):212—213. 3.2.2支持向量机模型建立 【2】王兆华,刘志强舰频检测技术在交通安全中的应用【J1.交通运输工 在对支持向量机进行训练之前,首先要选择判别函数(9) 程与信息学报,2005(3):100—103. 中的核函数,表1中的高斯径向基核函数自身参数不多,有利 [3]李国正,王猛.支持向量机导论【M】.北京:电子工业出版社,2005. 于其他参数的确定,因此选用了此核函数。 是径向基核函数 [4]谢川,倪世宏.基于粗糙集理论的飞行数据模式特征提取叨.计算机 工程,2005,31(6):169—171. 的宽度参数,此参数直接影响着模型的推广能力,控制了核函 [5】张文修.粗糙集理论与方法【M] E京:科学出版社,2001. 数的径向作用范围,用“试算法”进行搜寻,不断调整精度误差 【6]张敬磊,王晓原.交通事件检测算法研究进展[J】.武汉理工大学学 和宽度参数,可以提高支持向量机的测试精度,经多次尝试确 报:交通科学与工程,2005,29(2):215—218. 定宽度参数取值为3。将经过粗糙集预处理的数据作为支持向 [7】Ahmed S A,Cook A R.Application of times-series analysis teeh- 量机的输入向量,对支持向量机进行训练,然后输入测试样本 niques for freeway incident[J].Transportation Research,1989(2):103- 对算法进行验证。 113. 3.3算法性能分析 [8】张良春,夏利民,石华玮.基于模糊聚类支持向量机的高速公路事件 交通事件检测算法的评价指标包括:误报率、检测率和平 检测[J1.计算机工程与应用,2007,43(17):206—208. 均检测时间。在Matlab环境下进行仿真实验,分别采用多层前 [9 Cort9]s C,Vapnik V.Support vector networks[J].Machine Learning, 向神经网络、SVM和本文算法对同一组数据进行训练和检验, 1995(2O):273—297. 各算法的评价指标对比见表4。 [1 o]边肇祺,张学工.模式识别[M].2版.北京:清华大学出/Ig ̄ ̄,2000. (上接199页) 版社,1981. [10】Tsumoto S.Mining hierarchical decision rules from clinical [14]Tsumoto S.Mining diagnostic rules from clinical databases using databases using rough sets and medical diagnostic model[CJ,, rough sets and medical diagnostic model ̄].Information Sciences, LNCS 2431:Proce of the 6th European Conference on Prinei— 2004,162:65—8O. pies of Data Mining and Knowledge Discovery,2002:423-434. [1 1】Pawlak Z.Rough sets:theoretical aspects of reasoning about data[M]. [15】陈文彬,王友赤.诊断学[M].5版.北京:人民卫生出版社,2002. Dordreeht:Kluwer Academic Publishers,1991. 【16】叶山东,朱禧星.临床糖尿病学[M】.安徽:安徽科学技术出版式社, 【12】刘清.Rough集及Rough推理【M].北京:科学出版社,2001. 20o5. [13】左孝凌,李为箍,刘永才.离散数学[M】.上海:上海科学技术文献出 [17】欧阳钦.临床诊断学[M】.北京:人民卫生出版社,2005.