自智网络维护阶段:告警监控

下面内容来自通信人工智能赋能自智网络白皮书

随着移动通信网络发展,2/3/4/5G 无线网、传输网与核心网等网络设备现网运行中产生大量告警信息,需要投入大量人力进行处理。AI 技术可以通过对大量历史数据进行挖掘、分析和学习,并结合虚拟网元间的网络拓扑及虚拟化层间的拓扑情况,训练得出 RCA 规则。系统根据 RCA 规则对实时告警分析即可获取根因告警。

为了解决上述问题,按照工作流五步法将高等级自智网络告警监控工作任务

分解如下:

故障管理系统应支持多维规则的可视化管理和应用

支持标准化规则:根据各个厂家的各个专业的告警梳理表为基础数据,应用规则把原始告警标准化后入库,以便统一管理和监控。

支持关联规则:AI 技术挖掘的告警主次关联规则为主,人工设置的关联规则为补充,形成关联规则库,采集到的告警实时匹配规则,实时关联压缩告警,输出根因主告警,节省运维成本。

支持衍生规则:根据运维经验设置一个可以由一个工单处理的告警集群特征描述,比如高频告警,在一段时间内只需要派发一个工单处理即可。

支持预处理规则:根据运维经验设置故障预处理规则,尝试在人工处理故障前,以维护指令集为动作主体解决故障。

支持派单规则:根据运维经验设置以主告警为主体的工单派发规则,以便及时解决故障。

支持工程屏蔽规则:比如设备升级造成的告警不做处理。

涉及到的核心 AI 技术和算法

在告警监控场景中,面对海量告警数据挖掘告警相关性的技术称为告警根因 分析(RCA)。根据应用场景的不同,告警根因分析算法可分为有网络拓扑的告警根因分析算法和无网络拓扑的告警根因分析算法两种。人工智能关联挖掘算法通常用来解决告警根因分析问题,经典算法包括:Apriori 算法、Eclat 算法、FP算法等。告警根因分析的基本处理流程可分为四个主要步骤

1) 针对历史告警数据进行特征工程,获取算法所需的告警关键特征和网元 间拓扑关系(可选)。

2) 根据不同告警间的时间相关性和空间相关性(可选)分析,挖掘告警二元 相关项,告警间主次规则。

3) 对于全部告警主次规则的支持度、置信度、提升度进行统计分析,生成主 从告警关联规则库。

4) 结合告警关联规则库和网络拓扑关系(可选)构建故障传播图,并通过计 算最大树形图进而定位故障的根因。

告警根因分析技术能够实现自动发现潜在的告警主从关系,生成告警关系规则库,快速定位根因告警并支撑告警收敛和压缩,缓解告警风暴,提高派单准确率。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容