叫我不矜持 - 简书

IP属地：河北

Flink中实用的小知识点整理
目录 1、Flink使用WaterMark处理乱序事件2、累加器和计数器3、Window使用4、流的切分和合并5、任务链6、Flink消费kaf...

0.9 1790 0 8
Flink中指定Key的几种方式
前言在Flink中比如某些算子（join,coGroup,keyBy,groupBy）要求在数据元上定义key。另外有些算子操作，例如redu...

0.3 11143 0 3

决策树与随机森林及其在SparkMllib中的使用
一.概念决策树和随机森林：决策树和随机森林都是非线性有监督的分类模型。决策树是一种树形结构，树内部每个节点表示一个属性上的测试，每个分支代表...

0.6 1380 0 3
Spark任务输出追踪器MapOutputTracker详解
一.什么是shuffle MapOutputTrancker用于跟踪map任务的输出状态，此状态便于reduce任务定位到map输出结果所在的节...

0.7 1393 0 3
Spark消息通信原理
一.NettyRpcEnv主要组件子组件TransportConf，Dispatcher，TransportClientFactory，Tra...

2.7 714 0 4
Spark中RangePartitioner的实现机制分析
一.分区器的区别 HashPartitioner分区可能HashPartitioner导致每个分区中数据量的不均匀。 RangePartitio...

2.6 4594 0 4
Apache Kylin 从零开始构建Cube(含优化策略)
前言 Apache Kylin采用“预计算”的模式，用户只需要提前定义好查询维度，Kylin将帮助我们进行计算，并将结果存储到HBase中，为海...

2.9 2880 0 7

Spark的数据本地化和延迟调度策略
一.概述 Spark数据本地化即计算向数据移动，但数据块所在的Executor不一定有足够的的计算资源提供，为了让task能尽可能的以最优本地化...

1.2 957 0 5
Hive中语法规则大全，建议收藏
一、创建/删除/修改/使用数据库二、创建/删除/截断表 1.创建表 2.截断表和删除表 3.改变表/分区/列三、创建/删除/更改视图四、创...

0.5 586 0 3