新致云:如何实现大数据BI技术与传统BI领域的大融合

大家好,我是来自新致金融云大数据团队MATRIX的架构师:汪勇。在互联网高速发展的今天,大数据技术越来越频繁地被应用于我们的日常开发中。而大数据BI对于跨系统、非结构化的数据处理能力以及处理量级也使其逐渐走进了软件开发商的视野。伴随BI的发展,BI的应用范围越来越广,而大数据BI恰恰可以实现一些传统的BI工具实现不了的数据结果分析,可这是否就意味着大数据BI的出现会就此将传统BI逼入绝境呢?其实不然,传统BI在中小型数据的处理领域中依然占据着无可替代的地位,但是我们是否可以将大数据BI技术中的一些思考运用到传统BI技术开发中呢?

接下来,我将简单介绍新致金融云运用大数据技术帮助一家大型上市保险集团公司解决传统BI技术瓶颈从而提升客户体验度的实际案例。

客户场景

在客户实施的数据类项目中,用户经常向我部反馈系统查询速度慢,而这种现象主要集中在运营监管、数据分析等数据集中项目中。这具体是怎么回事呢?通过对相关项目的调研,我们了解到该系统:

1、已有数据存量接近或超过1亿

2、若干常用的查询条件字段增加了索引

3、按分公司分区,限制用户不能跨分公司查询

4、查询规则相对复杂,包括多项选择、模糊匹配、表达式匹配等。

5、单次查询的速度就在20秒左右,多用户情况下系统响应速度更慢。

需求分析

因该系统的用户查询范围大,且具有不确定性,故将其定义为数据探查场景。

在数据探查场景中,最终用户的一个想法需要快速通过业务数据进行验证,其特点是查询方式灵活、数据范围大、周期短甚至是一次性的。

需求听起来不复杂,但与海量数据一结合,技术实现就变得非常不简单。常用的索引、分区分表等设计期优化方案,经过实践证明都无法起到太好的效果,不是跟不上运行期用户灵活要求,就是极大制约了用户的查询行为。而人工提数则存在理解偏差、工作量大、成本高等问题。

那么是否存在最佳解决方案?答案是肯定的。新致金融云结合其20余年丰富的行业经验与多年大数据技术积累,积极思考如何将大数据技术融入到实际业务场景中,以此得出结论,大数据探查场景会是一个好的切入点。

系统目标

1、数据探查由最终用户自行操作,减少中间环节;支持日访问量1万用户。

2、提供基于全库数据量,支持亿级数据规模。

3、提供灵活、快速的查询功能,响应时间控制在3秒以内。

4、能够通过硬件水平扩展,有效应对数据规模的持续扩容。

5、能与已有应用系统无缝整合,无需做大改造。

技术分析

1、物理层

选择支持高可用、分区容错性强的分布式存储系统。在大数据领域不得不提到hadoop hdfs,也包括基于hadoop或仿效hadoop原理的存储产品。在企业内部定制实施大数据平台,服务器数量不可能动则成千上万,因此我们需要在有限的资源条件下,最大化提升硬件利用率。

2、逻辑层

逻辑层是性能优化的关键。早期的大数据技术,通过强大的硬件性能暴力扫描数据的做法,适合大量日志、平面文件处理的简单场景。而当面对复杂数据访问过程,且在资源有限条件下,优化逻辑存储结构及算法支撑便显得尤为重要。

反向索引技术,是先从源数据中提取关键字字典,每个关键字对应一组数据行号列表。

结合有限状态机压缩算法,进一步减小查询时内存使用量。

使用跳跃表技术,同时扫描多个字段索引,加快组合查询速度。

从物理层加载某几列数据时,列式存储是顺序读取、行式存储是随机读取,列式存储明显具有速度优势。

3、用户层

大数据查询平台采用独立部署模式,对外提供json数据接口。任何web架构的应用系统均可无缝接入大数据查询平台 。

实施过程回顾

我们自今年五月份开始在相关项目中采用大数据技术解决数据探查问题。经过多次POC实践论证,及项目团队反复讨论与修改,在六月底正式部署生产环境,并于七月中旬通过客户测试进行试运行。

大数据探查系统经过loadrunner压力测试,在100并发用户的压力下,平均响应时间不超过1秒,比原来的查询速度提高几十倍以上。相对硬件设备投入,只有4台普通IBM服务器,每台配置8核cpu.32G内存500G硬盘。投入产出比预期高很多,获得甲方充分肯定。

由上述实践案例可见,虽然大数据BI与传统BI在不同量级的数据处理环节中各展所长,但是两者的数据处理技术依然具有相互借鉴的价值。目前新致金融云主要将大数据BI技术集中应用于该系统的返回清单数据支持功能,在后续我们还将根据客户要求进一步整合系统多维度聚合功能,届时,新致云将继续与大家分享大数据BI技术在传统BI领域中的应用与融合。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,194评论 6 490
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,058评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,780评论 0 346
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,388评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,430评论 5 384
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,764评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,907评论 3 406
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,679评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,122评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,459评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,605评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,270评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,867评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,734评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,961评论 1 265
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,297评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,472评论 2 348

推荐阅读更多精彩内容