您好,欢迎来到99网。
搜索
您的当前位置:首页基于PCIM的告警分析处理方法

基于PCIM的告警分析处理方法

来源:99网
基于PCI M的告警分析处理方法 薛尤贵 (广东省电信规划设计院有限公司,广g,l’I 51 0650) 摘 要告警管理是综合集中告警系统的核心功能模块,是网络运行维护人员监控网络并发现网络故障的有效工具。 本文在研究PCIM策略核心信息模型的基础上提出了告警管理的策略信息模型和策略框架,并实现了基于策 略的告警管理系统原型,并成功运用于中国电信集团公司综合告警系统项目。 关键词告警管理;PCIM策略模型;描述语言;网络事件;告警压缩 TN915 文献标识码A 文章编号 1008—5599(201 1)07 0068—05 中图分类号目前,电信运营商运维人员每天都会处理大量的各 何管理、分配和控制资源的业务规则,这些规则描述了 专业网络故障告警信息,这些网元网管、专业网管和专 业综合网管中的告警很多是没有过滤分析的原始告警, 告警量大,专业性强、格式不统一、告警描述晦涩难懂。 大量的告警很容易造成监控人员视觉疲劳,重要的告警 信息被淹没在海量低级别的告警信息中,不利于网络故 障的集中监控和集中处理,导致运营商维护任务日益繁 重,维护成本日益突出。 本文将策略核心信息模型(PCIM,Policy Core Information Mode1)策略管理应用于告警管理模块, 融合了新的管理理念和管理技术,通过策略将管理行为 的控制和具体执行分隔开来,在不需要关心具体业务细 节的情况下,提供通用的管理功能。 在特定的条件下系统应采取那些动作。策略对管理目标 和管理行为进行了抽象和概括,具有可重用性和灵活性。 当基于策略的管理系统所监控的环境发生变化时,往往 不需要对整个系统作出重大修改,只需要调整相应的策 略,系统就可以迅速的适应新的情况。 1.2策略信息模型 基于策略的管理系统需要两部分内容支持,分别是 策略信息模型和策略框架。策略信息模型定义了策略的 组织形式;策略框架规定了系统如何使用策略。二者相 互联系构成完整的系统,而它们又是相互的,一个 策略信息模型并不指定具体的策略框架,在应用中,要 视实际情况而定。 Ponder是Sloman教授及其研究小组设计的策略 1基于策略的管理 1.1策略的概念 “策略”是一个抽象的概念,是一套指导和决定如 收稿日期:201 1—05一】8 描述语言。由于其具有良好的可扩展性和灵活性,并完 全公开,因此,已经成为目前最具有代表性的策略描述 语言。 PCIM是IETF策略框架工作组根据通用信息模型 68 ・2011年第7期・ (CIM)扩展而成的模型。主要的研究内容是将策略信 息转换成面向对象的形式表示的模型。该策略模型主 中重新定义事件告警级别,系统定义的告警级别包括: 紧急告警、主要告警、次要告警、警告告警、不确定告 警和清除告警。 (3)对事件进行规则处理,基于规则,格式化各类 网络故障:定制、丰富故障信息,增加故障信息的可读性, 方便网管人员发现和解决问题。 要定义了两个层次的类框架:表示策略信息和策略控 制的类,另一个是表示策略信息类和策略控制类之间 联系的类。 1.3 IETF策略框架 IETF RAP工作组为完善IETF综合服务体系中 的访问控制部分,提出了框架结构。该结构中,进行 策略控制的两个主要元素是策略执行点(PEP,Policy (4)自动压缩及相关性处理:对故障进行有效的过 滤处理,保证高效管理。 2.1.2告警处理功能 Enforcement Point)、策略决定点(PDP,Policy Decision Point)。PEP一般位于网络节点上,负责执行 策略决定;PDP一般位于存放策略的策略服务器上,负 责做出策略决定。两个元素间的交互作用由PEP开始。 告警处理功能完成对采集事件的条件过滤、合并、 延时、确认、清除等操作,对重复告警、类似告警、关 联告警、瞬间告警根据预定规则进行处理,从而实现 告警事件的压缩,有效的解决网管系统产生的告警风 暴问题。 2告警管理系统的PCIM 2.1告警管理系统的策略需求 综合集中告警系统管理范围包括交换、传输、数据、 动环、移动、IT等专业的告警和性能事件,大客户及 2.2告警管理系统策略信息模型 告警管理系统需要提供组织、使用、维护策略信息 的机制。这种机制对于大量使用规则的系统来说是非常 重要的,有效的规则管理机制能够简化系统开发过程; 提高系统的扩展性;促进业务和程序分离。 2.2.1可重用策略条件与单独使用策略条件 其使用的电信产品(业务)数据。一个稳定、高效、 可扩展的告警管理系统能够及时收集网络中的各种告 警事件,并通过各种处理手段从多种多样的事件中找 到网络故障的真正原因,它必须对纷繁复杂的网络事 当存储和使用策略条件类或策略动作类时,要记住 它可能被单独使用,也可能被重复使用。区分单独使用 条件和可重用条件,需要依据与之关联的聚合的情况, 或者依靠条件命名规则。 (1)单独条件:当单独使用条件与告警规则进行关 件进行一些逻辑处理过程一告警预处理,以提供网络 故障处理所需的有效数据,并最终实现网络故障的定 位和排除。 2.1.1告警采集功能 联时,关联类采用一对一的对应关系,即策略条件单独 使用。 告警数据采集功能采用探针的方式从专业网管系 (2)可重用条件:当可重用条件与告警规则进行关 联时,关联类采用一对多的对应关系,即策略条件可以 被多个策略规则所使用。 2.2.2策略角色 一统、网元管理系统中采集网络的告警及性能事件,并根 据探针上的预处理规则,对事件进行重定义、格式转换 等操作,然后将预处理后的事件发送到上层处理模块。 采集部分的主要功能如下。 (1)将来自专业网管系统或应用系统的事件信息转 换成统一的事件格式。 个策略管理者将一个被管对象分配到一个或多个 角色,同时,他又为这些角色制定专门的策略,策略管 理人员不直接对网络中成千上万的被管对象进行重复的 (2)告警事件重定义:在进行事件格式转换的过程 配置、修改动作,而这些动作是通过角色来实现。策略 ・2011年第7期・ 69 框架负责配置与一个特定角色相关联的被管对象,通过 这种方法,配置由与角色相关联的策略来进行。当网络 行为需要改变是,策略管理者只需要对角色的策略进行 简单的修改,策略框架将保证所有与角色相关的被管对 3.1监控规则 根据DXC设备的端口状态,来决定设备状态,具 体映射规则如下。 3.】.1 Lucen ̄板卡状态与告警级别映射 象的配置发生改变。 角色的一个更加规范化的定义如下: 一通过SNMP协议,轮询设备的MIB—II管理信息 库中的Interface接口组对象ifOperStatus和ifAdmin 个角色是一类属性,它从可用的策略中选择一个 Status,根据表l组合确定设备端口的告警级别。 表1 组合确定设备端口的告警级别 IfOperStatus IfAdminStatus Up(1) Down(2) Down(2) Testing(3) Up(1) Up(1) Down(2) Testing(3) 含义 告警级别 0 或多个关联到一组实体或组件。 角色可以进行组合。角色组合的定义如下: 一个角色组合是一组属性集合,这些属性用于从更 Normal正常运行 正常Abnormal 失败 警报 3 Down Testing 关闭 严重 4 测试中 警报 1 多可用的策略中选择一个或多个特定的策略关联到一个 实体或组件。 2.2.5策略时间周期 High(4) 其他组合 High(4) High 温度高 警报 3 策略时间周期是对策略规则何时有效,何时无效的 规定。在PCIM中,策略时间周期通过“策略事件周期 条件”类的实例来实现。每一个策略规则都有一个策略 时间周期与之相关联,当策略规则执行时,系统首先会 检查运行时间是否在策略时间周期内,如果时间有效则 规则被执行,否则,规则无效。 2.2.4关联与聚合 Unknown不确定 不确定2 5.】.2板卡状态与告警级别映射 设备状态不能直接从MIB变量轮询中得到,而是 根据该节点所属全部端口的状态来确定,具体映射关系 如表2所示。 表2映射关系 端口状态 设备告警 级别 说明 在PCIM模型中,策略规则、策略条件、策略动 作都是以类的形式定义的,因此,需要提供一种关联机 设备板卡正常 正常0 设备正常工作 制,通过这种机制可以在它们之间建立联系,以实现“IF Condition=TRUE THEN Action”这种策略规则语 义。实现这种联系有许多方案,PCIM为了模型一致性 和管理统一性,使用与策略元素相一致的“类”概念来 建立策略元素之间的联系。 所有板卡均为测试 不确定1 设备在调试或有未知原因 中或不确定 有1个板卡处于警 警报 2 有时设备会有一个1个板卡做 报3状态 警报3状态 测试状态,不影响设备状态 重告警级别 大干1个板卡处于 严重 5 设备在非预期状态运行,为严 3.2监控规则的文字描述(如图1所示) 3模型的一个应用实例 在中国电信集团公司综合告警系统中,设备供应商 朗讯公司(Lucent)希望告警管理模块提供对其DXCII 数字交叉连接设备状态进行监控的功能。如果设备状态 不正常,则生成当前告警,向告警呈现层汇报,以便网 络管理人员了解网络状态,采取处理措施。 70 3.3用策略模型来描述监控规则 按照PCIM来描述监控模型,需要如下一些模型元 素实例。 (1)首先定义一系列策略变量与策略值; (2)定义一系列简单策略条件和简单策略动作; (3)再通过这些简单策略条件和动作的组合成复合 条件及动作; ・2011年第7期・ TELECOM ENGINEERING TECHNICS AND STANDARDIZATION——— WCDMA网络升级后版本问题及规避方法 王晓龙 (中国联通福建分公司,厦门;561 008) 摘要通过对RNc版本升级后的异常现象的发掘,找出了系统本身的一个BuG,对问题进行了详细分析后,使用现 有手段进行了合理的规避,但彻底地解决还需要进行版本的进一步升级。 关键词WCDMA;测量控制;迁移;掉话 文献标识码A 文章编号1008—5599(201 1)07—0072—03 中图分类号TN929.5 通信网络的升级一般是对一些新业务有需求或者 解决一些网络问题时会进行,但升级后因为算法、软件 使用版本和功能的变化,或者由于没有经过特殊场景的 1 测量控制导致掉话问题及规避方法 1.1问题现象 厦门3G网络在2010年8月RNC版本从RIO升级 到了R12,之后路测过程中发现在进行跨RNC时出现 掉话问题,掉话时测量控制消息没有下发,与激活集中 验证,一些非常隐蔽的问题才会暴露出来。本文就是对 3GRNC升级后出现的一些异常现象的分析中发现的一 个系统本身的BUG。 收稿日期:2O11 01—1 9 一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一 PCIM policy model based on the alarm analysis processing XUEYou-gui (Guangd0ng Planning and Designing Institute ofTelecommunications Co.,Ltd.,Guangzhou 510630,china) Alam management is a comprehensive function of the integrated alarm system,it's an effective tool fo network monitoring and maintenance people to find and solve network failure.Based on the sudyitng PCIM policy information mode1.the paper proposed the policy information model and policy framework Abstract of a1arm management and implemented the policy-based alarm management system prototype・This prOtype has been successfully applied to China Telecommunications Corporation integrated warning system project. Keywords alarm management;PCIM strategy model;description language;network event;alarm compression 一72 ・2011年第7期・ 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 99spj.com 版权所有 湘ICP备2022005869号-5

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务