1. 为什么要流式计算 业务需求:业务需要更及时计算结果,而流数据处理可以获得更低的延时 数据特点:海量的无边界数据在现代企业中越来越普遍,而流数据处理系统就是为此而生的 硬...

1. 为什么要流式计算 业务需求:业务需要更及时计算结果,而流数据处理可以获得更低的延时 数据特点:海量的无边界数据在现代企业中越来越普遍,而流数据处理系统就是为此而生的 硬...
这一章节继续深入讲解数据处理模式,介绍鲁棒的去数据乱序数据的核心概念,这些概念的应用是流式系统超越批系统的关键所在。 路线图 第一章中讲述了两个重要的概念 事件时间VS处理时...
书中主要分为两个大部分,每个大部分包含独立的4个小节。 Part1 Beam Model Beam Model(1~4小节),高阶流批一体模型,最初是Google开发的Dat...
Flink run方式提交 对于yarn session方式需要先启动一个集群,然后在提交作业。对于Flink run直接提交作业相对比较简单,不需要额外的去启动一个集群。 ...
解决两个核心问题:-. RDBMS的查询太慢。-. 支持灵活的查询分析能力。 Druid的三个设计原则 快速查询:部分数据的聚合(Partial Aggregate) + 内...
题目描述 返回字符串 text 中按字典序排列最小的子序列,该子序列包含 text 中所有不同字符一次。示例 1: 题目解析 详细描述一下题目,要求是字符串中所有字母均要出现...
题目描述 给定 N,想象一个凸 N 边多边形,其顶点按顺时针顺序依次标记为 A[0], A[i], ..., A[N-1]。 假设您将多边形剖分为 N-2 个三角形。对于每个...
题目描述 有一堆石头,每块石头的重量都是正整数。 每一回合,从中选出任意两块石头,然后将它们一起粉碎。假设石头的重量分别为 x 和 y,且 x <= y。那么粉碎的可能结果如...
题目描述 你有一套活字字模 tiles,其中每个字模上都刻有一个字母 tiles[i]。返回你可以印出的非空字母序列的数目。 示例 1: 题目解析 以每次拿出完一个字母后,剩...
题目描述 给出整数数组 A,将该数组分隔为长度最多为 K 的几个(连续)子数组。分隔完成后,每个子数组的中的值都会变为该子数组中的最大值。 返回给定数组完成分隔后的最大和。示...
JVM内存结构 虚拟机栈:其中的数据为Stack Frame 栈帧,属于线程私有的内存空间。栈用于存放局部变量表、操作栈、动态链接和方法出口等信息。一个方法的执行过程就是对栈...
Serial收集器 单线程收集器,收集时会暂停所有工作线程(Stop The World),虚拟机运行在Client模式时的默认新生代收集器。 最早的收集器,单线程进行GC ...
在这行Spark的应用程序时,Spark集群会启动Driver和Executor两种JVM线程,前者为主控进程,负责创建Spark上下文,提交Spark作业(Job),并将作...
1. shuffle原理 概述:Shuffle描述着数据从map task输出到reduce task输入的这段过程。在分布式情况下,reduce task需要跨节点取拉取其...
术语理解 什么是streaming流式计算一种被设计用于处理无限数据集的数据处理引擎 什么是无界数据一种不断增长的本质上无限的数据集 window在streaming计算中承...
Graph StreamGraph 根据用户代码生成最初的图 表示程序的拓扑结构 在client端生成 JobGraph 优化streamGraph 将多个符合条件的Node...
题目描述 附近的家居城促销,你买回了一直心仪的可调节书架,打算把自己的书都整理到新的书架上。 你把要摆放的书 books 都整理好,叠成一摞:从上往下,第 i 本书的厚度为 ...
问题:在长度为n的数组中找出重复次数超过n/2的数(假设一定存在)。 存在O(n)的时间复杂度和O(1)的空间复杂度的解法,即摩尔投票法 摩尔投票法 摩尔投票法基于这样一个事...
题目描述 这里有 d 个一样的骰子,每个骰子上都有 f 个面,分别标号为 1, 2, ..., f。我们约定:掷骰子的得到总点数为各骰子面朝上的数字的总和。如果需要掷出的总点...