Kylin

为什么需要Kylin？

Hadoop帮助我们解决了海量数据的存储。

早期使用Hadoop的MapReduce计算模型，太慢了，只能做离线计算，无法做实时计算与迭代式计算。

Spark应运而生，并带动了Scala语言的发展，Spark的MapReduce计算模型比Hadoop的MapReduce计算模型性能提升了数十倍。

在现今的企业发展中，数据的增量是每日以百MB、G为单位的增长，面对如此之大的规模性数据增长，及运营成本、硬件成本、响应速度等各方面影响下，Spark也够呛。

在这种情况下，企业查询一般分为即席查询和定制查询。

即席查询：Hive、SparkSQL等OLAP引擎，虽然在一定程度上降低了数据分析的难度，但他们只用于即席查询的场景，优点就是用户根据自己的需求，自定义、灵活的选择查询条件，与普通查询最大的区别在于普通查询时根据应用定制的开发查询条件，但随着数据量和计算复杂度的增长，响应数据无法得到保证。

实时查询：多数情况下是对用户的操作做出实时反应，Hive等查询引擎很难满足实时查询，一般只能对数据库中的数据进行提取计算，然后将结果存入MySQL等关系型数据库，最后提供给用户进行查询，随着后面海量数据的递增，这种方式的代价很大。

Kylin不同于大规模并行处理的Hive等架构，Kylin是预计算的模式，我们提前定义好查询的维度，Kylin就会帮助我们进行计算，并将结果存储到Hbase，当我们在去查询海量数据和分析时，提供亚秒级返回。

Kylin很明显采用的是空间换时间的策略，先将定义好的各个字段进行交叉查询，将这些查询好的数据放到数据库中，当我们去查询时这个时候数据量也少了，如果查询语句和预计算的语句是一样的，那样则可以直接返回，因此Kylin查询速度很快。

阅读以下内容前，请先阅读：https://blog.csdn.net/Su_Levi_Wei/article/details/89501304

什么是Kylin？

ApacheKylin（Extend OLAP Engine For Big Data）中文名为麒麟，是Hadoop生态圈的重要成员，是一个开源的分布式分析引擎，最初是由eBay开发的，提供了Hadoop之上的SQL查询接口及多维分析（OLAP）功能，支持高并发处理TB至PB级别的大规模海量数据，能够在亚秒级查询巨大的Hive表。

Kylin在2014年10月在Github开源，2014年11月加入Apache，2015年11月成为顶级项目，也是第一个完全由中国团队设计开发的Apache顶级项目，2016年3月Kylin核心开发成员成立了Kyligence公司来推动项目和社区的发展。

Cube & Cuboid

Cube可以说是Kylin的核心，Kylin就是通过构建Cube，进而达到亚秒级的海量数据搜索。

在构建Cube前，要先进行数据仓库的设计和架构，进而确定好要分析维度和指标（度量），根据定义好的维度和指标（度量）就可以构建Cube了。

Cube是对于一个给定的数据模型的所有维度进行组合、计算。

对于N个维度来说，组合的可能性共有2的N次方，对于每一种维度的组合，将指标（度量）做聚合计算。

其中每一种维度组合称为Cubeid，一个Cubeid包含一种具体维度组合下所有指标的值。

如下图，是一个四维的Cube构建过程。

假设有一个点上的销售数据集，其中的维度包括时间、商品、地点、供应商四个维度，指标为销售额，那么所有维度的组合就有2的4次方，刚好对应下图。

如果提前计算好，那么在写SQL连表操作时，一下子就出来结果了。

Cube & Cuboid构建过程

Kylin的核心思想是预计算，即对多维分析可能用到的指标（度量）进行计算，将计算好的结果保存成Cube，供查询时，直接访问，把高复杂度的聚合运算、多表连接等操作转换成对预计算结果的查询，这决定了Kylin能够拥有很好的快速查询和高并发的能力。

进而Kylin提供了一个称为Layer Cubing的算法来构建Cube，这个算法是按照维度（Dimension）数量从大到小的顺序，从Base Cuboid开始，依次给予上一层的结果进行再次聚合，每一层的计算都是一个单独的MapReduce任务。

这里面的Map和Reduce还是比较简单的，Mapper以上一层Cuboid的结果作为输入，由于Key是由各维度值拼接在一起，从其中找出要聚合的维度，去掉它的值成新的Key，并对Value进行操作，然后把新Key和Value输出，进而对所有新Key进行排序，洗牌（Shuffle），再Reduce，Reduce的输入是一组有相同Key的Value集合，对这些Value做聚合计算，再结合Key输出就完成了一轮计算。

每一轮的计算都是一个MapReduce任务，而且是串行执行，一个N维的Cube，至少需要N次MapReduce

Job。

Kylin是把MapReduce的计算结果最终保存在HBase中，对于跨度查询（年、季度、月等）Kylin是使用Cube的Data Segment分区存储管理解决。

而HBase中每行记录的RowKey由维度（Dimension）组成，Cuboid的指标会保存在Column Family中映射为Value，为了减少存储的代价，这里会对维度和指标进行编码。

查询阶段利用HBase列存储的特性就可以保证Kylin有良好的快速响应和高并发。

Kylin技术架构

数据源

Kylin支持多种数据源，默认的数据源是Hive。

存储引擎

Kylin采用预计算的方式，默认的预计算结果存储引擎是HBase。

REST Server

RESTServer是一条面向应用程序开发的入口点，此类应用程序可以提供查询、获取结果、触发Cube构建任务、获取元数据及用户权限等，还可以通过Restful接口实现SQL查询。

Query Engine（查询引擎）

当Cube准备就绪后，查询引擎能够获取并解析用户查询的语句，并与其他组件交互，返回用户对应的结果。

Routing（路由）

将解析SQL生成的执行计划转为Cube缓存查询，Cube通过预计算缓存在HBase中，用户查询时，利用router查询算法和优化的HBase Coprocessor解决。

Metadata（元数据）

管理保存在Kylin中的所有元数据，包括Cube元数据，其他的组件都是以此为基础，Kylin的技术元数据和业务元数据都是存储在HBase的。

Cube Build Engine（任务引擎）

处理并协调所有离线任务，包括Shell脚本、JavaApi、MapReduc任务等。

Cube 三种构建

KylinCube构建分为三种，全量构建、增量构建、流式构建。

全量构建：每次都对Hive表进行全表构建，但这种构建方式在实际环境中并不常用，只有在初始化时用的较多，因为大多数业务场景下，事实表的数据是不断的增长的。

增量构建：使得Cube每次只构建Hive表中新增的部分数据，而不是全部数据，因此降低了构建成本，Kylin将Cube分为多个Segment，每个Segment用起始时间和结束时间来标识。

增量构建的方式解决了业务数据动态增长的问题，但是却不能满足分钟级近实时返回结果的需求，因为增量构建他们使用的是Hive作为数据量，Hive中的数据由ETL定时导入（如每天一次），数据的时效性对于数据价值的重要性不言而喻。

增量构建和全量构建的区别：

1.创建Model时需要制定Partition Date Column（分区日期数据列），用日期对Cube进行分割。

2.创建Cube时需要制定Partition Start Date，即Cube默认的第一个Segemnt的起始时间。

官方文档：http://kylin.apache.org/docs20/tutorial/create_cube.html

http://kylin.apache.org/docs20/tutorial/cube_build_job.html

流式构建：为了解决数据实时增长的问题，流式构建使用Kafka作为数据源，构建引擎定时从Kafka中拉取数据进行构建，这个设计和Spark Streaming的定时微批次很类似，这个是在Kylin 1.6版本后存在的。

Kylin特性

SQL接口

Kylin主要对外的接口是以SQL的形式提供的，SQL简单易用的特性极大的降低了Kylin的学习成本。

支持海量数据集

不论是Hive、SparkSQL、还是Impala，它们的查询时间都随着数据量的增长而线性增长，而Apache Kylin使用预计算技术打破这一点，Kylin在数据集规模上的局限性主要取决于维度的个数和基数（维度表内的数据量），而不是数据集的大小，所以Kylin能更好的支持海量数据集的查询。

亚秒级响应

Kylin是采用预计算的技术，所以查询速度非常快，因为复杂的连接、聚合等操作都在Cube的构建过程中已经完成了。

水平扩展

ApacheKylin同样可以使用集群部署方式进行水平扩展，但部署多个节点只能提高Kylin处理查询的能力，而不能提升它的预计算能力（算法）。

可视化集成

Kylin提供与BI工具整合的能力，如Tableau、PowerBI/Excel、MSTR、QlikSense、Hub、SuperSet等。

构建多维立方体（Cube）

用户能够在Kylin里为百亿级以上数据集定义数据模型并构建立方体。

Kylin服务器模式

Kylin实例是无状态的，运行时状态（元数据）是存储在HBase（由conf/kylin.properties中的kylin.metadata.url指定）中的metadata中，因此在表结构中共享统一个状态（job状态，Cube状态等）。

每一个Kylin实例在conf/kylin.properties中都有一个Kylin.server.mode entry，指定运行时的模式。

job：在实例运行中job engine负责管理集群中的jobs

query：只运行query engine，负责接收和回应SQL查询。

all：在实例中即运行job engine，也可以运行query engines。

注：默认情况下只有一个实例可以运行job engine（all或job模式），其余需要query模式，类似Master/Slave模式。

Kylin操作

Kylin是需要依赖Hive和HBase的。

民生流量池的项目也是用JDBC连接Kylin发送SQL做操作的。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 229,362评论 6赞 537
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 99,013评论 3赞 423
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 177,346评论 0赞 382
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 63,421评论 1赞 316
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 72,146评论 6赞 410
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 55,534评论 1赞 325
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 43,585评论 3赞 444
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 42,767评论 0赞 289
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 49,318评论 1赞 335
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 41,074评论 3赞 356
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 43,258评论 1赞 371
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 38,828评论 5赞 362
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 44,486评论 3赞 347
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 34,916评论 0赞 28
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 36,156评论 1赞 290
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 51,993评论 3赞 395
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 48,234评论 2赞 375

Kylin

推荐阅读更多精彩内容