后台服务特别慢排查流程(运维摘记)

现象

打开一个后台的测试页面刷新需要好几秒~ 简直就是慢!!虽然是测试环境但是配置不低,不应该出现这种问题,借此机会边记录边查询问题所在,过程就是记录几个工具的使用。

思路

问题解决后,我觉得有必要写一下当时怎么想的,虽然问题很2:
1.我排查了load,内存等基础信息,为啥?
当时发现网页卡就一门子钻进测试服务器里了,因为我是运维哈哈,平时机器装的东西可能比较多,所以怀疑压力可能比较大了,内存、负载一顿看,发现有问题但不至于卡顿

2.检查了数据库的压力,因为只是在页面查询的时候才出现这个问题,索性看看数据库

3.借助软件跟进了查询期间的负载情况,下方介绍细节,发现每次查询cpu、内存都在一瞬间出现吃紧的情况,貌似占用确实很大

4.借助浏览器查看发现了问题所在
以下的服务器排查就是为了记录而记录,完全和结果没啥关系,只不过记下来走的弯路,有时候往往简单的问题却被自己搞得很复杂,本次排查就是某个网页访问很慢引起的,下面是过程。

  • top先看看情况
    如图,可以分析出来在我刷新一项功能的时候,cpu占用非常高,而不操作的时候cpu很清闲。
图片.png
  • vmstat 近一步分析一下
    procs
    r 列表示运行和等待cpu时间片的进程数,如果长期大于1,说明cpu不足,需要增加cpu。
    b 列表示在等待资源的进程数,比如正在等待I/O、或者内存交换等。
    如上面的解释,手动测试一下,看到r选项偶尔出现大于1的情况,那就是每次点击后台页面发生的,可以说明这个操作发生时cpu吃紧出现排队情况。
[root@mailvip ~]# vmstat   1
procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu-----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
 0  0      0 304684 859444 5030496    0    0    12     0  736  756  0  0 100  0  0
 0  0      0 304684 859444 5030512    0    0    24     0  638  762  0  0 100  0  0
 1  0      0 270088 859452 5030524    0    0    16    60 1136  843  3  0 96  0  0
 1  0      0 163432 859460 5030544    0    0    20     0 3019 1153  7  1 91  0  0
 1  0      0 167896 859464 4644588    0    0    24    16 1987  861 10  4 86  0  0
 1  0      0 166036 859472 4644412    0    0   296    12 1802  850 13  0 87  0  0
 1  0      0 162192 859468 4550304    0    0    32     0 1831  856 12  1 87  0  0
 2  0      0 163700 859628 4512828    0    0   188   160 3400 1242 16  7 77  0  0
 0  0      0 816628 859628 4515496    0    0   132     0 1822  835  6  1 92  0  0
 0  0      0 817124 859644 4515632    0    0    16    64 1495  810  2  0 98  0  0
 3  2      0 815512 859672 4515684    0    0    84     4 4282 1450 24  3 71  2  0
 0  0      0 876908 859684 4453164    0    0   152     0 2240 1050  8  2 89  1  0
 0  0      0 876660 859692 4453300    0    0    84   124  645  721  0  0 100  0  0
 0  0      0 876892 859696 4453096    0    0    16     0  885  831  0  0 99  0  0
 0  0      0 876260 859708 4453372    0    0    16   144 3079 1640  9  7 85  0  0
 0  0      0 876852 859712 4453124    0    0    12   140 1058  874  0  1 99  0  0
 0  0      0 876904 859720 4453136    0    0    12     0 1060  910  0  0 99  0  0
 0  0      0 876804 859720 4453168    0    0    36     0  897  835  0  0 100  0  0
 0  0      0 876484 859800 4453228    0    0    20     0  657  755  0  0 100  0  0
 1  0      0 876484 859804 4453248    0    0    20     0 1231  819  5  0 95  0  0
 1  0      0 695460 859804 4453264    0    0    16     0 2917 1229  6  2 92  0  0
 1  0      0 388080 859808 4453268    0    0     4     0 1851  773 10  3 87  0  0
 1  0      0 387592 859836 4453252    0    0    16  7736 1754  811 13  0 87  1  0
 1  0      0 328144 859836 4453292    0    0    12     4 1682  754 10  2 87  0  0
 1  0      0 338192 859848 4507284    0    0    20     0 2167 1021  8  6 87  0  0
 5  0      0 822920 859852 4507108    0    0     8     0 2648 1032 13  1 86  0  0
  • strace分析服务器进程占用
    brk是负责内存分配的,我服务器内存占用确实存在一些问题,但不是目前的问题所在。
[root@mailvip ~]# strace -c -p $(pgrep -n php-fpm)
Process 18550 attached
% time     seconds  usecs/call     calls    errors syscall
------ ----------- ----------- --------- --------- ----------------
 57.89    0.041970         139       302           brk
 14.14    0.010252           1     16174           sendto
 13.63    0.009881           1     18138           poll
  6.65    0.004818           0     17419           recvfrom
  3.59    0.002603           3       912           read
  1.23    0.000891           4       240         3 lstat
  0.79    0.000573           1      1107       307 stat
  0.66    0.000479           1       745           write
  0.51    0.000369           3       125        78 connect
  0.18    0.000133           1       127           getcwd
  0.17    0.000120           0       736           gettimeofday
  0.15    0.000106           1       161           open
  0.11    0.000083           1       151           fstat
  0.07    0.000054           1        43           lseek
  0.06    0.000047           0       351           fcntl
  0.06    0.000046           1        60           chdir
  0.06    0.000041           0       125           socket
  0.05    0.000034           1        30           rt_sigprocmask
  0.00    0.000000           0       316           close
  0.00    0.000000           0        96           mmap
  0.00    0.000000           0        96           munmap
  0.00    0.000000           0        30           rt_sigaction
  0.00    0.000000           0        47           ioctl
  0.00    0.000000           0        22        22 access
  0.00    0.000000           0       134           setitimer
  0.00    0.000000           0        30           accept
  0.00    0.000000           0        60           shutdown
  0.00    0.000000           0       180           setsockopt
  0.00    0.000000           0        47           getsockopt
  0.00    0.000000           0        11           unlink
  0.00    0.000000           0        60           times
  0.00    0.000000           0        11           utime
  0.00    0.000000           0       180           clock_gettime
------ ----------- ----------- --------- --------- ----------------
100.00    0.072500                 58266       410 total
  • 浏览器分析,直接看图
    如图:一个html,大小居然达到了60多MB,不慢就怪了..
    发现问题后,查看源代码保存本地查看,发现里面获取了很多测试数据,这个数据量特别大,导致加载本地页面的时候,会去数据库查询这些数据,找研发修复这个问题,加了判断条件后就恢复了。


    image.png

    图片.png
  • 解决
    恢复后:虽然还有点大,但是已经明显有所下降,这个页面本来数据就很多


    image.png
总结:

在排查一些网站很慢的情况不一定要去服务器里面查问题,有时候页面上告诉你的问题也许会更直观,可以直奔主题参考网页访问哪里占用较高,根据此处来判断。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,185评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,445评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,684评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,564评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,681评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,874评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,025评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,761评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,217评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,545评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,694评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,351评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,988评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,778评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,007评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,427评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,580评论 2 349

推荐阅读更多精彩内容

  • Swift1> Swift和OC的区别1.1> Swift没有地址/指针的概念1.2> 泛型1.3> 类型严谨 对...
    cosWriter阅读 11,093评论 1 32
  • 今天看到一位朋友写的mysql笔记总结,觉得写的很详细很用心,这里转载一下,供大家参考下,也希望大家能关注他原文地...
    信仰与初衷阅读 4,726评论 0 30
  • java 接口的意义-百度 规范、扩展、回调 抽象类的意义-乐视 为其子类提供一个公共的类型封装子类中得重复内容定...
    交流电1582阅读 2,215评论 0 11
  • Android四层架构经典图 开局一张图,内容全靠编 自上而下分为四层: 应用程序层(application):最...
    mobile墨白阅读 1,283评论 0 1
  • 一则关于林散之先生的轶闻:1982年,吴冠南到南京看望林散之。林散之刚从北京参加活动回来,吴冠南问起北京之行,林散...
    小妇阿达阅读 240评论 0 0