谷歌SRE理论读书札记:toil

遥想我刚开始工作,做的是一份令我感到十分厌恶的运维工作,为什么呢?因为所有事情几乎都要靠手动去执行,没有什么dashboard或自动化工具能分担工作负担(word load)。这让我一开始对运维工作的印象是消极的,同时也让我意识到运维开发是大有可为的。
那么今天就看看谷歌的SRE是怎么看待工作中这类繁琐、重复的工作。

定义

不仅是我不喜欢做的工作(the work I don't like to do)

和一般管理性工作或者grungy工作不同,这类工作是仁者见仁的,有些人甚至比较享受这种重复、完全手动的工作。那么toil到底是什么工作呢?这里有这么几个词
manual,repetitive,automatable,tatical,devoid,enduring value,linearly grows

  1. manual,不像是导航失控之后必须切换成手动控制,而是本可以通过一个script来解决,但仍要使用手动的方法(个人觉得这里应该加个前提:操作人员有脚本化的能力与意愿)
  2. repetitive 这里的重复是有一个前提,比如这件工作一个月执行两次,每次耗时5分钟,然后自动化可能需要1~2小时(并且可能还需要进行验证),那么可以不称这种工作是重复的
  3. automatable 这个词虽然含义是自动化,但注意,其实原文的意思是,如果一件工作,它不是以依赖人的判断(这里偏重经验),那么它就是automatable的。比如生产线上的机器人,它的工作结果是有图纸这种非人类经验判断为基准的,那么它就是可自动化的
  4. tatical 这个解释,我觉得是SRE中对toil定义非常重要的一点,不同于什么机械重复这种耳熟能详的词汇,toil工作有一个特点,就是它是会打断你的工作流且让你必须做出及时回应的工作,而不是策略驱动的(strategy-driven,这里策略驱动的意思就是提前计划好的)
    我觉得这里非常给人以启发,其实好的站点稳定性运维工作,最理想的状况就是变成类似windows的事务管理器那样,我可以设定好策略,我每小时、每天、每周都要做什么,我又能将突然的toil集中到一起进行临时性的处理
  5. no ending value
    这个概念也很新颖,简单来说,如果这件工作对未来并没有好处,或者没有明显的好处,那么它也是toil。怎么理解呢?满足你对命令行敲命令的快感并不是好处,真正有意义的工作,需要能整个服务、项目的发展上,起到积极作用。
    比如你突遇某偶发bug,花费若干小时替换了所有项目都会使用的一个中间件,这个中间件可以提升25%的请求鉴权效率,那么它就不是toil,因为它有长期意义。
    再比如你把某数据库引擎的缺陷整理称文档并输出,这也不算是toil。

O(n) with service growth
随着服务规模的增长线性增长
这里还是没有把“共性”进行提取,将一些工作的成果进行“复用”
比如我新增服务之后,会自动下发任务按照配置好的模板部署监控服务,那么这一块就不是线性增长的(当然需要考虑,处理告警这块的开销也有做到非线性增长吗)

为何toil少了就好

谷歌SRE的标准是,toil工作不能超过SRE工程师50%的工作时间。其实从这个数字可以看出,即便是技术标杆的谷歌,toil工作也不少,不然也不可能定这个数字。
书中讲到,首先我们需要明白一点的是,这种工作是无法绝对杜绝的,这和技术没关系,也业务类型也没关系。我们需要做的就是守住这个红线,因为一旦超过这个数字,这类工作就会像缓存雪崩一样恶化,占比迅速增长到每个工程师每天所有时间都要处理这类工作。

工程

这小节我觉得应注意一下,我们很多岗位,很多title都带有工程师的字样,但是我们很多人并不理解什么是工程师。工程师脱胎于工程,而工程是需要人类判断的(human judgement),所谓工程能给你的提供的服务带来持续的提高(improvement),让这些服务能被策略所指引。它是非常需要创造性和创新性的。
我们将我们所有SRE(站点运维)活动归为四类:
1,软件工程
如编写自动化脚本,编写相关工具、框架,新增服务特性(service feature,就是版本变更点),增强服务的伸缩性和可靠性,使基础设施更加健壮
2,系统工程
如配置生产环境、修改配置、编写相关文档、构建系统负载均衡等
3,toil
上文的那些工作
4,overhead
管理型工作,和你负责的软件服务无直接关联的工作,比如HR paperwork, 小组、公司会议、个人评估、培训等

然后再次强调,toil不能超过总量的50%(这里感觉谷歌SRE形似我们的业务运维,但是相比业务运维,又有更多工程师的成分)

toil总是不好的吗?

直接答案:不是

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,076评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,658评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,732评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,493评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,591评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,598评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,601评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,348评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,797评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,114评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,278评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,953评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,585评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,202评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,442评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,180评论 2 367
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,139评论 2 352

推荐阅读更多精彩内容