基于Flink的实时计算平台的构建

一、系统架构

系统架构

1. 接入层

Canal、Flume、Kafka

针对业务系统数据,Canal监控Binlog日志,发送至kafka;

针对日志数据,由Flume来进行统一收集,并发送至kafka。

消息队列的数据既是离线数仓的原始数据,也是实时计算的原始数据,这样可以保证实时和离线的原始数据是统一的。

2. 计算层

Flink

有了源数据,在计算层经过Flink实时计算引擎做一些加工处理,然后落地到存储层中不同存储介质当中。

3. 存储层

HBase、Kafka、ES、Mysql、Hive、Redis

不同的存储介质是通过不同的应用场景来选择。

4. 数据应用层

风控、模型、图谱、大屏展示

通过存储层应用于不同的数据应用,数据应用可能是我们的正式产品或者直接的业务系统

二、技术实现

1. 计算引擎

实时计算引擎的功能要求

提供高级 API,支持常见的数据操作比如关联聚合,最好是能支持 SQL

具有状态管理和自动支持久化方案,减少对存储的依赖

可靠的容错机制,低延时,最好能够保证Exactly-once

Flink的优势

Flink的API、容错机制与状态管理都满足实时数仓计算引擎的需求

Flink高吞吐、低延时的特性

端到端的Exactly-once

WaterMark&Event Time的支持

Flink 不仅支持了大量常用的 SQL 语句,还有丰富的数据类型、内置函数以及灵活的自定义函数,基本覆盖了我们的开发场景

2. 存储引擎

根据不同的业务场景,使用最适合的存储引擎:

Kafka主要用于中间数据表的存储

ES主要针对日志数据的存储和分析

HBase、Redis可用于维表存储

Hive用于数据校验

Mysql可以用于指标计算结果的存储

三、数据分层

数据分层

数据源:目前数据源主要是Binlog,通过Canal监控各个业务系统的Mysql,将binlog发送至kafka。

ODS层:主要将Binlog数据存储至Kafka,这一层不对数据进行任何操作,存储最原始的数据,Binlog 日志在这一层为库级别,即:一个库的变更数据存放在同一个 Kafka Topic 中。

DWD层:主要对数据进行简单的清洗。拆分主题,将库级别的主题拆分为表级别;打平数据,将data数组格式打平。

DWS层:主要根据不同的业务的需求,将该需求所涉及到的表进行join所得。

APP层:根据指标计算需求,对数据进行处理后,存储HBase,为了方便模型查询,主要将表存储为索引表和明细表,直接对数据进行指标计算后,将计算结果存储到HBase。

四、数据监控及校验

1. 数据监控

目前数据的监控的架构是pushgateway + Prometheus + Grafana

数据监控主要是接入Flink的Metric,通过Grafana对Flink系统指标及自定义指标进行图形化界面的展示,对关键指标进行监控报警

2. 数据校验

目前数据的监控的架构是Grafana + Mysql

Grafana用于监控指标的展示及相关阈值数据的报警,Mysql主要用于监控数据的存储

将每个服务的source收到的数据、sink发出的数据,根据表的不同将数据关键字段写入mysql中,通过统计各个阶段各个表中的数据条数,对数据完整性进行监控校验,若出现数据缺时,先查找原因,然后指定时间戳重启服务

五、系统管理

元数据管理

表,字段元数据管理,实时感知元数据的变化,大幅度降低使用数据的成本。

系统配置

对应用启动参数及相关配置参数的管理,对任务进行灵活配置及管理。

血缘管理

主要是梳理实时计算平台中数据依赖关系,以及实时任务的依赖关系,从底层ODS到DWD再到DWS,以及APP层用到哪些数据,将整个链度串联起来。

六、问题及解决方案

1. 数据倾斜

由于要拆分主题,要以table为key对数据进行keyBy,但是由于每个表的数据量相差较大,会出现数据倾斜

解决方案:

加盐,给key加前缀

前缀不能随便加,为了保证同一id的数据在相同的分区中,所以根据id_table进行keyBy

2. 数据重复

任务在进行自动或手动重启时,为了保证数据不丢失,数据会出现重复计算的问题,如果下游只是对数据进行HBase存储的话,由于幂等性,这种重复可以解。但是,如果下游要对数据进行聚合,这样会导致数据被计算多次,影响计算结果的准确性

解决方案:

上游在对数据进行发送时,对kafka producer 进行 exactly once的设置

在对数据统计时进行数据去重

3. 数据延时

由于所处理的数据表的大小不一样,处理大表时,会出现数据延时的问题。

解决方案:

针对大表数据增加并行度

4.数据乱序

由于Flink kafka producer默认是根据hash对数据进行随机分区,kafka consumer在对数据进行消费时,每个分区消费速度不同,这样最终在存储数据时,就会出现乱序即相同的id会出现老数据覆盖新数据的问题

解决方案:

对kafka每个阶段进行自定义分区,将id相同的数据分到同一个分区,保证同一id的数据的有序性

由于整个数据处理过程中可能会出现shuffle,导数数据重新乱序,所以在对数据存储前对数据进行排序

对数据进行排序的关键点时要保证每条数据的唯一性,即要有标记数据先后顺序的字段

5 . 数据唯一标记(很重要)

由于要对数据进行去重或者排序,所以要保证数据的唯一性

解决办法:

使用时间戳不可以,因为数据量很大的情况下,同一时间会处理上百条数据

在最初发出数据的时候,为数据打上标记,使用 partition + offset + idx 的组合来确认数据的唯一性及顺序性

6. 数据可靠性

我们对服务重启或对服务升级时,可能会出现数据的丢失

解决方案:

结合Flink 的checkpoint及savepoint机制保证数据的可靠性

开启Flink的checkpoint机制,服务进行自动重启时,会自动读取上次保存在checkpoint中offset,或者我们指定offset进行数据消费

对服务进行升级时,先将服务的状态保存至savepoint中,重启时指定savepoint进行服务启动,保证数据不丢失

7. 无感升级

由于我们目前数据量比较庞大,且在对服务进行升级时,耗时较长,会影响调用方的使用。

解决办法:

在对服务进行升级时,将数据写入备用库,等数据追上且服务稳定运行后,再将存储库进行切换

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,692评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,482评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,995评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,223评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,245评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,208评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,091评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,929评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,346评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,570评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,739评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,437评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,037评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,677评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,833评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,760评论 2 369
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,647评论 2 354

推荐阅读更多精彩内容