Kylin#Apache Kylin 应用案例分析(九)

1. 小米集团

背景

小米公司内部的业务种类异常繁杂,各业务团队为了具备多维数据分析能力而各自建立了独立的OLAP分析系统。这些OLAP引擎大多采用指标数据先进入MySQL,再在前端展示的方法,而这样一来就会面临以下问题:

  1. 基于MySQL的架构,在大数据上的查询效率低下
  2. 业务间OLAP引擎不统一,数据管道冗长,数据复用率极低,开发工作周期变长,维护成本增加
  3. 缺乏统一的维表和事实表,同主题下的数据统计口径不一致
  4. 新增业务需要投入较大的成本才能获得基础的OLAP能力

各业务团队的基础需求主要包括以下四点

  1. 报表能力
  2. 提供OLAP查询接口,支持各种即席分析
  3. 尽可能降低使用门槛(ETL及查询的门槛)
  4. 初级阶段只需支持离线分析需求即可
利用Apache Kylin构建定制化OLAP解决方案
  1. 可满足大多数需求,支持常见的算子,以及数据的摄入、查询速度足够快
  2. 保证良好的SLA
  3. 使用门槛相对较低
unionSQL技术架构

SQL计划器会对用户的查询进行解析与重排,而SQL转发器则会把改写后的结果分发给不同的引擎。
在引入Apache Kylin作为OLAP引擎之后,就可以将需要进行分析的数据抽象成星形模型,其优势如下:

  1. 只需维护最细粒度的事实分析数据,进行简单的ETL处理
  2. 数据流变得更清晰
  3. 维护成本进一步降低
Kylin在小米的三类主要应用场景

一般情况下,业务团队的OLAP需求可大体分为三类——用户画像、数据运营、数据分析。

2. 美团点评

美团点评的数据场景特点

第一个特点是数据规模和模型。从数据规模上来讲,事实表一般在1亿到10亿量级,甚至有千万量级的维表,也就是超高基数的维表。而对于数据模型,是团队最初遇到的最大的困难。因为所使用的Kylin最初的设计是基于一个星形模型的,但很不幸,由于各种原因,实际很多数据都是雪花模型
第二个特点是维度。维度最理想的情况是固定的,每天变化的只是事实表。但实际上维度经常会变,这可能和行业特点有关,比如组织架构,相关的维度数据可能每天都会发生变化。除此之外还可能要用今天的维度去关联所有的历史数据,因此要重刷历史数据,相应的开销也比较大。(缓慢变化维???)
第三个特点是数据回溯的问题。比如发现数据生成有问题,或者上游出错了,此时就需要重跑数据。这也是和经典理论模型有区别的。

接入Apache Kylin的解决方案

最重要的是第一点,就是采用宽表。所有非标准星形的数据模型都可以通过预处理先拉平,做成一个宽表来解决。只要能根据业务逻辑把这些表关联起来生成一张宽表,然后再基于这张表在Kylin里做数据的聚合就可以了。宽表不只能解决数据模型的问题,还能解决维度变化、超高基数的维度等问题。
第二点是表达式指标的问题。这个问题也可以通过预处理解决,把表达式单独转成一列,再基于该列做聚合就可以了。实际上,宽表和表达式变换的处理可以用Hive的view,也可以生成物理表。
第三点是精确去重的问题。目前的方案是基于Bitmap。

Kylin的优势
  1. 第一,性能非常稳定。因为Kylin依赖的所有服务,比如Hive、HBase都是非常成熟的,Kylin本身的逻辑并不复杂,所以其稳定性有很好的保障。
  2. 也是特别重要的一点,就是精确去重计算的要求。
  3. 从易用性上来讲,Kylin也有非常多的特点。首先是外围服务,不管是Hive还是HBase,只要用Hadoop系统的话基本上所有外围服务都有了,不需要做额外的工作。

3. 携程

选择Kylin的原因
  1. 百亿数据集支持
  2. SQL支持
  3. 亚秒级响应
  4. 高并发
  5. HBase的技术储备
  6. 离线分析多
Kylin在携程的应用情况

4. 4399小游戏

背景

Hadoop为4399大数据平台提供了数据管理功能,但是现有的业务分析工具(如Tableau、Microstrategy等)存在很大的局限性,如难以进行水平扩展、无法处理超大规模数据、缺少对Hadoop的支持等。

Kylin部署架构
部署架构图
Apache Kylin在4399的价值
  1. 提供ANSI-SQL接口,使统计分析由繁杂变得简单
  2. 解决口径不一致问题
  3. 增加维度或指标时,大大降低了工作量

5. 国内某Top 3保险公司

背景

企业期望通过一系列业财系统建设,打通业财两类数据间的壁垒,融合业务、财务、战略三大流程,支持更广泛的经营结果和财务分析,促进费率厘定、保险营销、保险核保、保险理赔等环节的优化提升

主要痛点
  1. 业务层面缺少对业务质量进行分析和挖掘的工具,无法实现在各种维度口径下对保单综合成本率的灵活精细分析
  2. 财务分析受限于维度、指标、维度口径、指标明细、数据挖掘性等因素,无法有效成为业务信息触点以通过数据对业务进行指导
  3. 各业务条线独立运维数据仓库和报表平台,存在数据孤岛问题;报表繁杂,模块分散;Cognos Power Cub查询性能差,数据构建周期长,运维复杂
Kylin带来的改变
  1. 无缝集成Cognos BI或其他前端展现工具,业务应用无须改变,只是底层数据源实现快速切换
  2. 显著降低Cube设计的复杂度,节省了大量重复的开发和运维人力成本,将IT资源聚焦到更多有价值和创新的技术和业务上
  3. 提供智能化方法敏捷迁移现有Cube,实现业务分析体验和效率的提升,大大缩短了项目部署周期
  4. Cube日增量构建通常能在1小时内完成,大大提升了从数据到业务结果呈现的时效性
  5. 基于PB级数据,无须IT团队事先准备汇总场景,用户可进行灵活拖放、筛选过滤、钻取等自助分析操作,提供更好的用户体验,加速了业务获得数据的效率
  6. 支持读写分离架构,提供稳定的并发性能,满足大量用户同时访问的需求,赋能企业将数据分析和决策能力渗透到企业各个层级
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,640评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,254评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,011评论 0 355
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,755评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,774评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,610评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,352评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,257评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,717评论 1 315
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,894评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,021评论 1 350
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,735评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,354评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,936评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,054评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,224评论 3 371
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,974评论 2 355

推荐阅读更多精彩内容

  • 夜莺2517阅读 127,720评论 1 9
  • 版本:ios 1.2.1 亮点: 1.app角标可以实时更新天气温度或选择空气质量,建议处女座就不要选了,不然老想...
    我就是沉沉阅读 6,896评论 1 6
  • 我是黑夜里大雨纷飞的人啊 1 “又到一年六月,有人笑有人哭,有人欢乐有人忧愁,有人惊喜有人失落,有的觉得收获满满有...
    陌忘宇阅读 8,536评论 28 53
  • 兔子虽然是枚小硕 但学校的硕士四人寝不够 就被分到了博士楼里 两人一间 在学校的最西边 靠山 兔子的室友身体不好 ...
    待业的兔子阅读 2,603评论 2 9