常见大数据系统架构方案

业务流程图
业务流程图

首先业务流程图镇楼,常见的大数据系统结构如上图所示,主要由这么几个部分构成

  1. 数据采集 - flume收集业务方上报的数据;
  2. 数据存储层 - 依赖HDFS提供的强大的分布式数据存储方案,主要是使用Hbase进行数据存储;
  3. 协调&调度层面 - 常见的就是zookeeper,主要是用于分布式系统中的资源协调;
  4. 实时处理框架(计算框架) - 用于海量数据的计算,常见的分析框架由spark、storm或者samza;
  5. 数据分析层 - 企业大数据系统必然是基于业务并且反哺业务的,提供简单易用的数据分析功能给到业务方也是必然要求。
一、数据采集

数据分析的基础是数据采集,flume提供了从分散的或者集中的数据源采集、聚合和传输海量日志的能力。这里通过一个实际的案例介绍数据采集的重要性以及flume具备的一些能力。
例:播放器内常见的数字专辑业务,业务方需要通过数据优化购买转化率,就可以通过以下方案进行处理
定义数据:总转化率 = 购买用户/进入业务中的用户;单步转化率 = 下一步用户/进入业务中的用户
埋点收集数据:通过flume收集web或者客户端通过SDK上报的数据,并经过简单整理后将数据传输至存储层;

二、数据存储

依据对一致性(consistency)要求的强弱不同,分布式数据存储策略可分为ACID和BASE两大阵营。其中ACID类型的数据对一致性的要求比较强,数据库的事务处理结果必须使得数据库从一个一致性状态变更为另一个一致性状态;BASE类型则以牺牲强一致性,获得基本可用性和柔性可靠性,并要求达到最终一致性。

这里提一下BASE类型里的HBase,HBase设计理念来源于谷歌的BigTable,是目前商用场景下使用最多的数据存储方案,提供了毫秒级别的查询,百亿级别的数据也能提供较高效率的处理;

三、协调&调度层
  1. 调度器 - 主要用于分布式系统中的一些资源的调度,例如计算能力、延迟等,例如YARM;
  2. 协调器 - 在分布式系统中主要用于协调服务和进行状态管理。

提一下结构图中的zookeeper,zookeeper是apache hadoop框架中的分布式应用的协调程序,主要为分布式应用提供一致性服务,主要包括以下功能:配置维护、域名服务、分布式同步、组服务等。简单来说,就是将复杂的、易出错的关键服务封装好,提供简单易用的接口、功能的稳定给用户。

四、计算框架

常见的数据处理方案有以下两种

  1. 流处理 - 一般用于处理连续不断的数据流,注重数据处理的时效性;
  2. 批处理 - 实时性较差,一般用于处理大规模数据集,例如业务方累计的历史数据。

典型的批处理系统就是Hadoop 提供的MapReduce。而常见的流处理系统有Apache Storm,Apache Samza。还有一种系统,同时具备批处理与流处理的能力,这种称为混合处理系统,比如Apache Spark,Apache Flink。

商用场景下,最常使用的计算框架是Spark,它是一个基于内存计算的开源的集群计算系统;主要优势是数据分析速度更快,内存计算框架适合各种迭代算法和交互式数据分析,能够提升大数据处理的实时性和准确性,国内的阿里巴巴、网易均是其用户。

五、数据分析层

数据分析层中的工具,涵盖范围很广,从诸如SQL的声明式编程语言,到诸如Pig的过程化编程语言,均有涉及,同时数据分析层支持常见的数据挖掘和机器学习算法,这些类库可拿来即用,可以极大的提高使用效率;

这里提一下Phoenix,它是 HBase 的 SQL 驱动,可以将普通的SQL查询转成 HBase 的扫描及相应的动作。作为产品或者数据分析师,建议熟练掌握SQL


Hive:Hive是一个建立于 Hadoop 上的数据仓库基础构架。它用来进行数据的提取、转化和加载(即Extract-Transform-Load ,ETL),它是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,290评论 6 491
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,107评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,872评论 0 347
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,415评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,453评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,784评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,927评论 3 406
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,691评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,137评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,472评论 2 326
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,622评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,289评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,887评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,741评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,977评论 1 265
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,316评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,490评论 2 348

推荐阅读更多精彩内容

  • “总有一天你会懂得, 不管你有多不舒服, 还是要在领导敬酒时,一饮而尽; 不管你有多不愿意, 还是要接受一些不属于...
    风中细雨阅读 104评论 0 1
  • 2017.9.15 星期5 累并快乐着 欣赏自己:好久没有喝过酒了,今天真的是情到深处自然醉!和优秀的人在一起这种...
    霞霞姐魔姝创始人阅读 182评论 0 0
  • 不能想起来昨天梦到了什么 金也要去sjc吗 既然找到了 看来也不是那么难觅 天疯这本书 虽然是编的 但是我觉得还是...
    gptsgtormf阅读 93评论 0 1
  • js 在插入元素时,可以直接插入,也可以先把元素存入文档碎片,在进行插入,但是文档碎片只是在理论中可以提高操作性能...
    发光驴子阅读 462评论 0 0