数据研发:Scribe系列之一 特点结构简述

    近期在回顾这近两年做数据研发的收获,将写一系列数据研发相关技术的日志,也算留作自己温习的资料。其中一些内容之前早已随意写在有道云笔记。现在整理成成文日志,均发布到简书这个平台上。

    由于是做数据研发,因此从数据收集、数据处理、数据存储及数据展示均有涉及,固暂且列个计划依次写一系列的日志,将工作中所用到的技术手动都做一下介绍。

    首先是数据采集。各种用户数据、服务数据会产生在用户手机、服务器等设备上,而生产中做数据分析,需要把各种分散的数据最终集中到存储上来,因此需要借助数据采集系统来做数据收集。常用的技术方案有cloudera开源的flume和facebook开源的scribe。我的公司大环境采用scribe,因此对scribe了解的比较深入,本文就对scribe做一个比较慨括的描述。

    什么是scribe呢?英文直接翻译过来是抄写员的意思,这和他的实际功能非常贴近。Scribe是由著名的美国互联网公司facebook开源的日志采集系统。我们天朝因为有墙不能用facebook,但我们牛逼的程序员们可不管什么墙不墙的,系统好用就直接翻过去拿。可能有的同学要提问题了,为撒搞个日志还要用什么系统,不就是看看log吗。这就要从我们真正的互联网软件生产说起了。实际生产里面,可能有权限控制,分布式服务很多情况,需要方便的把好多机器上的日志都收集到一起来进行分析处理,一台台的机器直接去看log,累死了都找不到问题。牛逼的程序员很懒的人,能写代码快速搞定的,绝不手动去搞。Scribe的特点就是适应刚才所说的分布式,他可以部署在每个需要收集日志的机器上。同时,他又支持c/s结构能把不同机器上收集的日志,汇总到中央服务器上。这样我们从中央服务器直接看日志就能省很多事。


scribe特点


    下面,给大家介绍一下使用scribe的系统架构图

scribe的总体结构分为三部分,日志服务器、中心服务器和存储服务器。结构如下图所示


    为了收集日志,每一台用户业务服务器上都会部署一个scribe客户端,它包含两个模块:agent和local_server。其中agent的作用就是以tail读文件末尾的方式读取本地目录下的日志文件,并将数据写到本地的local_server,然后local_server通过zookeeper定位到center_server,并将数据发送给远端的center_server

    center_server其实和local_server是同一套程序,只是配置文件不一样,它们通过thrift进行通信。center_server收到数据后,根据配置将各个category的数据发向不同的方向,比如写到HDFS、发到Kafka集群等等。

    存储服务器:日志被收集到存储服务器以后,就可以进行离线/实时的统计分析了。比如,HDFS是用来永久存储日志,并给MapReduce提供离线数据的;Kafka则是给Storm集群提供实时数据流,以实时地统计分析

在Scribe中传输的每个基本数据单元都包含一个category和一个message,category作为message的标识符,用于给message分类,以避免数据在传输过程中混淆在一起。

通过上图的传输结构,我们通过可以采用scribe将各个设备上收集的日志,统一传输至文件存储系统中以进行后续的计算或者分析。

本文仅介绍了scribe的概念和结构。大概搜了下网上现有的中文scribe资料,都比较分散,概念介绍和使用流程不统一。所以我想做一个系列,从介绍到安装使用配置都做一个详细的介绍,以便大家能比较方便了解和使用。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,634评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,951评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,427评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,770评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,835评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,799评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,768评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,544评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,979评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,271评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,427评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,121评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,756评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,375评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,579评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,410评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,315评论 2 352

推荐阅读更多精彩内容