FLink Checkpoint 介绍 前提假设 这一篇主要整理下Lightweight Asynchronous Snapshots for Distributed Dat...
全局一致性快照机制 网上文章已经很多了,这里只做以前阅读paper的总结。 如何确定分布式系统中事件的先后顺序 这个问题要解决的是如何决定快照是属于哪一时间范围的,那么在fl...
SQL优化器详解 无论calcite还是antrl,在sql到物理执行计划的过程中,过程基本一致,这里只以calcite进行介绍。 SQL计算引擎是如何实现的? calcit...
Logical Clock 这里首先简单回顾下分布式系统以及分布式计算概念和特性。 什么是分布式系统? 什么是分布式计算? 如何决定分布式系统中事件的先后顺序? 在分布式系统...
问题 window是解决流计算中的什么问题? 怎么划分window?有哪几种window?window与时间属性之间的关系? window里面的数据何时被计算? window...
FLINK有两种比较好的调试方式 第一种,直接通过IDEA WINDOWS调试 前提是Flink所有依赖已经导入,直接在Test中打断点,然后直接Debug。 第二种,远程调...
用sparkstreaming写hive table如何才能保证exactly once呢?比如ds.foreahRD{ rdd => rdd append to table1,insert into table hivetable from select table1}之类的,这个如何才能保证写入hive的没有重复呢
Spark Streaming Crash 如何保证Exactly Once Semantics这篇文章只是为了阐述Spark Streaming 意外Crash掉后,如何保证Exactly Once Semantics。本来这个是可以直接给出答案的,但是我还是啰嗦的讲...
这里主要转载一篇李呈祥的文章,觉得讲的非常不错,容易理解,备份下用于自己学习深入理解Apache Flink核心技术
Flink on yarn的启动流程可以参见前面的文章 Flink on Yarn启动流程,下面主要是从源码角度看下这个实现,可能有的地方理解有误,请给予指正,多谢。 -->...
Flink On Yarn 架构 前提条件首先需要配置YARN_CONF_DIR, HADOOP_CONF_DIR ,HADOOP_CONF_PATH其中一个用来确保Flin...
实时计算的一个方向 实时计算未来会成为一个趋势,基本上所有的离线计算任务都能通过实时计算来完成,对于实时计算来算,除了性能,延迟性和吞吐量这些硬指标要求以外,我觉得易用性上面...
Structure Stream访问方式 code examples 结论 basedir = /home/testhdfs支持:mv file to basedir(/ho...