【大话运维 第9期】 运维大数据日记:故障根源分析之关联规则挖掘

殷己森,勤智(北京)科技有限公司数据挖掘工程师,数学与应用数学硕士,5年工作经验,在勤智运维研发中心ITBA部门从事建模、数据分析与大数据开发工作。


当运维工程师每天面对来自不同监控系统中数量庞大、类型复杂的故障告警时,是否感到心有余而力不足呢?

当这些故障告警来自各个不同的厂家设备且类型不一,需要你对各种异构设备都非常了解且完全凭借个人经验时,你是否变得无所适从?

当你从应用系统预警追查到其所在服务器,从中间件服务追查到数据库集群,再从某个数据库节点的缓存命中指标降低追查到是因为存储磁盘的IOPS指标出现了瓶颈,才导致应用所涉及的设备都产生不同程度告警时,你是否曾经祈祷过——当应用系统因访问过慢预警时,上帝能否直接告诉我,就是存储磁盘的IOPS指标出现了问题呢?

答案是肯定的。ITBA运维大数据分析——“故障根源分析”为你揭开神秘的面纱。

在实际运维过程中,现场各种专业监控工具多达十余种,在每天产生纷繁复杂的告警数据中,存在大量的冗余告警信息,它们之间隐藏着一些具有强关联性的告警规则,也就是说某些设施的某些指标告警是由于别的指标告警引起的。

不同类型的设备与设备之间,设备的指标与指标之间,都存在着这样的关系,我们只有找到产生告警的根本原因,才能快速、有效地排除故障,确保业务系统安全稳定运行。

告警关联分析通过融合并转化多条有联系的告警,将它们转换成一条或少量几条包含更多故障信息的告警,以此达到降低活动告警的种类和数目,减轻运维人员的工作压力,提高故障精确定位效率,使系统运行更快恢复正常。

关联规则挖掘是在给定数据集中搜索反复出现的联系。“故障根源分析”旨在发现“告警事务”中“有趣”的相关联系。什么是“告警事务”?所谓事务就是几乎在同一时刻同时发生的事情,我们把几乎在同一时刻发生的告警集合当作一个告警事务,由于告警的产生以及告警数据的传输都会存在一定的时间滞后或者误差,所以把某一“时间窗”(如10分钟)内产生的告警近似为同一告警事务。何为“有趣”的联系呢?我们主要对那种常常(置信度高)在同一事务中出现,并且在历史事务中出现频率较高(支持度大)的指标告警数据感兴趣,其数学描述如下阐述。

关联规则是形如下图的蕴涵表达式,其中x和y是不相交的项集,即关联规则的强度可以用它的支持度和置信度度量,支持度(s,support)和置信度(c,confidence)这两种度量的形式定义如下:


N为历史时间段内总的事务数,为支持度计数,表示x和y在N次事务中同时出现的次数。置信度实际上是一个条件概率,表示事件x已发生的条件下事件y发生的概率。

关联规则的发现,给定事务的集合T,发现满足最小支持度阈值Minsup的所有项集(频繁项集),并从频繁项集中提取所有满足最小置信度阈值Minconf的规则。从大型数据集中挖掘频繁项集的主要挑战是,这种挖掘常常产生大量满足最小支持度(Minsup)阈值的项集,当Minsup设置得很低时尤其如此,一个宽度为100的项集产生可能的频繁项集个数为,频繁项集的复杂度是指数级的。

ITBA关联分析采用的是Apriori算法(Agrawal和R.Srikant于1994年提出),通过限制候选产生发现频繁项集,如果一个项集是频繁的,则它的所有子集也是频繁的(先验原理),若{a,b,c}是频繁项集,那么{a,b}、{a,c}、{b,c}都是频繁项集。Apriori算法的核心思想是根据先验原理的逆否命题(如果一个项集是非频繁项集,那么它的超集也不是频繁项集)来进行候选频繁项集的剪枝。

【图】关联指标拓扑图

当我们从所有历史告警数据中挖掘出形如A->B,B->C,C->D这样的强关联规则时,我们可以把这三条规则合并为一条规则,随着时间的推移,告警数据量越来越大,且上述关联规则依然有效时,我们就有充分的理由认为告警D是由告警A引起的,而不必去关心告警B和C,从而大大减轻运维人员的工作量,提高了排查故障的准确率和时效性。

【图】关联指标组排查

随着ITBA运维大数据分析平台的广泛推广和深入应用,不同用户、不同业务系统发现的告警关联规则可以逐步提炼为知识,对IT运维具有深远的指导意义。


推荐阅读


【大话运维·第7期】电力行业和公安行业隔离墙技术方案

【案例】东省千佛山医院:智能化监控运维和服务外包管理

【案例】大庆炼化公司运维管理平台



阅读原文:http://mp.weixin.qq.com/s?timestamp=1509436212&src=3&ver=1&signature=Wv2HJoWVfaIbXJIE8SrI9BGvQAAiHJOZDq2*YEtm7WWzQaX4v60WMtRb*inV-ROq1EMnzknYRATjudW8syvX8nsoR9qcbTKh4zv54zz4SClU8ySP5oQC23o4bbqKZpltgYmR94XnquFRba4vywczcficbew9tkbVdLrEu02SleI=&devicetype=Windows-QQBrowser&version=61030004&pass_ticket=qMx7ntinAtmqhVn+C23mCuwc9ZRyUp20kIusGgbFLi0=&uin=MTc1MDA1NjU1&ascene=1
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,734评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,931评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,133评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,532评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,585评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,462评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,262评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,153评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,587评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,792评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,919评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,635评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,237评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,855评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,983评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,048评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,864评论 2 354

推荐阅读更多精彩内容