现网出故障了怎么办？

问：现网出故障了怎么办？
答：木有不出故障的现网，遇到报障，首先需要的是冷静，然后有一套解决思路（包含安抚客户），尽最快的能力修复问题，给客户一个能接受的合理的理由。

问：处理现网故障需把握住哪些点？
答：态度积极友好、回复一致合理

1: 态度
在没有定位清楚原因前，不和客户争辩/推卸责任。
非我方原因时也需要积极配合其他方定位问题。
2: 给客户一致且合理的回复
在和客户解释故障原因时最好有指定的回复人，其他成员保持沉默，切记多个人和客户说出多个原因。

问：怎么解决故障？
答：定位、分析、方案、修复、升级。

本文着重讲解定位和分析，且非功能Bug的故障。

定位故障的前提
定位故障需要有两个前提，一个是熟悉环境/业务，另一个是有正常情况的峰值数据。

前提一：定位者熟悉网络部署、逻辑部署、业务/功能流程、应用配置。
首先能立马判断出功能缺陷？还是性能问题。
其次在定位前排查时不需要任何人的指导，就能快速去验证他的猜测和所想。
切记：不要找一个对以上四个方面都不熟悉的纯技术牛人来主导定位，纯技术牛人适合做协助，而不是把他放在一个陌生的环境让他来主导整件事情。
因为他什么也不熟悉，他要更快的定位问题，就会问N个问题，等他问完一堆问题，时间也就悄然流逝啦。

前提二：有正常情况的峰值数据。
有数据对比能立马找到异常点，可省却很多猜测后的验证工作。

定位问题第一步---确认资源使用情况
需要资源使用资源有Cpu、Memory、IO、Network。

确定资源使用情况.jpg

和正常情况时的峰值数据比较，找出明显升高的地方。
不同类型的服务器(数据库服务器、应用服务器、图片服务器)，各检查一台。
可以得到的结果：在某一类型服务器上某一资源使用率过高。
确定案发现场-定位异常起始点
3.1 以JAVA应用为例
倘若通过资源使用情况判断出是应用服务器有问题。
Cpu消耗高
jstack [-l ]<pid> | tee -a jstack.log

Java应用.jpg

找自己公司程序代码即可
Memory消耗高
显示java进程内存使用的相关信息
jmap pid #打印内存使用的摘要信息
jmap –heap pid #java heap信息
jmap -histo:live pid #统计对象count ，live表示在使用
jmap -histo pid >mem.txt #打印比较简单的各个有多少个对象占了多少内存的信息，一般重定向的文件
jmap -dump:format=b,file=mem.dat pid #将内存使用的详细情况输出到mem.dat 文件
kill -3 #可以看到在catalina.out中看到新生代、年轻代、老年代分配情况。
ps: jmap -dump 和jmap -histo:live消耗大，会使得jvm处在假死状态的，造成服务中断，因此建议在服务瘫痪时使用它。

3.2 数据库服务器的问题
倘若通过资源使用情况判断出是数据库服务器有问题。

数据库.jpg

awr的使用详见-Oracle AWR的使用
3.3 中间件的问题
以Tomcat为例，可用probe监控
主监控内存使用情况、线程使用情况、响应时间、请求量。

分析异常点
通过第3步的确定案发现场已找到了异常出没的地方，接下来就是具体问题具体分析啦。
如是JAVA程序的问题，不管是代码本身问题，还是架构设计上的问题，都需要CTO带着研发出解决方案。
如是中间件的问题，Tomcat中间件可改的内存+线程，还是解决不了问题扩展更多的Tomcat，升级Tomcat版本。
如是数据库的问题，以MySQL慢为例

数据库慢.jpg
总结
当接收到现网报障时，首先不要慌，耐心听客户描述完问题，安抚客户情绪（如客户有情绪时），诚恳跟客户说马上处理-不推卸问题，然后是真的马上安排人处理-不拖拉问题。
在定位问题时，首先确认服务器资源使用情况，定位是哪类型服务器出问题-圈定问题的范围，然后去具体服务器上查异常点，拿到具体异常点后，就该找谁找谁啦。
如果不能定位到具体的异常点，你就需要找一群人来帮忙，比如:DBA、开发、网络管理员。先不说找一群人来所需的时间和能不能都找到的问题，假设都一喊到位了，你需要跟他们解释现象，然后排任务，沟通成本蹭蹭蹭就上去，同时时间也过去了，客户的电话说不定也就再次过来了...。
最好的情况是你在问题出苗头的时候就问题，将问题扼杀在摇篮中，这个需要运维监控工具，现网是必须有一套的。
如没有监控工具，那你自己就需要有一定故障定位能力，确认问题后，你才能更快找到人来解决问题。
总之：你自己要强大。

最后编辑于：2017.12.03 04:24:48

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 222,865评论 6赞 518
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 95,296评论 3赞 399
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 169,631评论 0赞 364
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 60,199评论 1赞 300
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 69,196评论 6赞 398
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 52,793评论 1赞 314
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 41,221评论 3赞 423
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 40,174评论 0赞 277
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 46,699评论 1赞 320
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,770评论 3赞 343
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,918评论 1赞 353
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 36,573评论 5赞 351
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 42,255评论 3赞 336
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,749评论 0赞 25
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,862评论 1赞 274
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 49,364评论 3赞 379
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,926评论 2赞 361

现网出故障了怎么办？

推荐阅读更多精彩内容