Windows是处理无穷无尽的流计算的核心。
stream
.keyBy(...) <- keyed versus non-keyed windows
.window(...) <- required: "assigner"
[.trigger(...)] <- optional: "trigger" (else default trigger)
[.evictor(...)] <- optional: "evictor" (else no evictor)
[.allowedLateness(...)] <- optional: "lateness" (else zero)
[.sideOutputLateData(...)] <- optional: "output tag" (else no side output for late data)
.reduce/aggregate/fold/apply() <- required: "function"
[.getSideOutput(...)] <- optional: "output tag"
Non-Keyed Windows
stream
.windowAll(...) <- required: "assigner"
[.trigger(...)] <- optional: "trigger" (else default trigger)
[.evictor(...)] <- optional: "evictor" (else no evictor)
[.allowedLateness(...)] <- optional: "lateness" (else zero)
[.sideOutputLateData(...)] <- optional: "output tag" (else no side output for late data)
.reduce/aggregate/fold/apply() <- required: "function"
[.getSideOutput(...)] <- optional: "output tag"
方括号[]中的是可选项。窗口相关的函数使的flink允许你自有定义的。
Window Lifecycle
概括来说 ,当第一个属于这个窗口的元素到达窗口时窗口就被建立了,当时间(event时间或者processing时间)超过了(窗口结束时间+允许的最大延迟时间)窗口就会完整的移除 。Flink只保证会移除基于时间的窗口,比如 global window(参考Widow Assigners)。比如,5分钟为为周期基于事件时间的不重叠窗口(tumbling翻滚窗口)策略以及允许最小1分钟延迟。如果它的时间是Flink窗口时间在12:00和12:05之间,第一个消息到来的时候timestamp刚好落在这个区间,当水位线到达12:06的时候,这个窗口将会移除。
另外,每个窗口可以有一个Trigger(参考Trigger)和一个function(ProcessWindowFunction,ReduceFunction,AggregateFunction or FoldFunction)(参考Window Function)。Function有一个计算窗口内容的方法applied,Trigger可以指定一个condition条件在什么时候可以确定function运行applied方法。一个Trigger的策略有点类似“当窗口中的元素个数大于4个”或者“当水位线超过了窗口的结束点”。一个trigger也可以决定清洗一个窗口的内容在开始创建和结束的任意时间内。清洗只会关联window里面的元素,不会关联window元数据。这就意味着,新数据可以持续添加到窗口中。
除了以上,你可以指定Evictor (参考Evictor章节),它可以清除窗口内的数据在triger发生之后并且function applied发生的前面或者后面。
Keyed vs Non-Keyed Windows
第一件事需要明确的是你的stream需要keyed或者不需要。这个必须要窗口定义前确定。使用keyBy(...)将会把你的无尽的stream切割成逻辑的keyed stream。比如 keyBy(...)没有被调用,你的stream将不会keyed。
在已经keyed stream中,你写进来的事件任意属性attribute可以使用key。由于使用了keyed stream可以允许你的windowd 计算在并行的多任务的模式下运行,每一个逻辑的keyed stream可以相互独立的运行而相互没有影响。所有具有相同key的元素会被发射到相同的并行任务上执行。
如果在non-keyed streams中,你原有的stream不会分割成不同的逻辑stream并且所有的window逻辑只会执行在一个单独的任务上使用并发度为1。(也就说所有的数据会汇总到一个task上执行)
PS:最大并行度=container个数 * 每个container上最大slot数