2018年08月17日 11:38:25 列国周游 阅读数:284
版权声明:著作权归作者所有。 商业转载请联系作者获得授权,非商业转载请注明出处。 https://blog.csdn.net/ffjl1985/article/details/81775019
Flink是最接近于谷歌Dataflow大数据分析平台的设计的开源分布式计算引擎,其核心设计理念与Spark有很大的不同。
从设计出发点,Flink是一个流计算处理计算引擎,把批处理视为无限流计算的一种特例,Spark是批处理计算引擎,把流处理视为迷你批处理,因为设计上的差异,导致在对处理时延要求高的场景中,Flink更加合适。
从生态上来说,二者都有SQL、机器学习、图计算等基本的组件,但是Spark在丰富程度、成熟度方面比Flink有优势。
关于Flink的资料已经相当多了,笔者就不做画蛇添足写了,要掌握Flink的精妙,必须要了解其底层的基本原理,以下是必读的资料:
理解Flink的设计原则
Google Stream 101越了批处理的流处理世界
Google Stream 102超越了批处理的流处理世界
Flink原理和实现
Flink的架构和拓扑概览
理解 Flink 中的计算资源
Flink如何生成ExecutionGraph及物理执行图
Flink 生成StreamGraph
Flink Window的实现原理
Flink中的状态管理
Flink中的反压Back-Pressure
Flink Operator Chain原理
Flink内存管理
Flink异步快照机制-Failover
Flink SQL
Flink SQL的大部分代码实现是阿里巴巴的Blink团队贡献给Apache的。
Flink SQL 核心功能解密
Flink SQL维表Join和异步优化
Flink SQL 异步IO设计
Flink SQL数据去重的技巧和思考
Flink SQL TOP N的挑战与实现
Flink SQL 流计算“撤回(Retraction)”案例分析
Flink SQL 解决热点问题的大杀器MiniBatch
Flink CEP复杂事件处理
Flink-CEP论文与源码解读之状态与状态转换
Flink之CEP-API简介
Flink之CEP案例分析-网络攻击检测
Flink-CEP之NFA
Flink-CEP之NFA编译器
Flink-CEP之模式流与运算符