大数据学习笔记 - 文集

56篇文章 · 47281字 · 4人关注

Flink实时ETL练习项目
一、需求背景针对算法产生的日志数据进行清洗拆分 1、算法产生的日志数据是嵌套json格式，需要拆分打平 2、针对算法中的国家字段进行大区转换 ...

0.6 1460 0 5
SparkCore TopN练习题
1、需求：计算每天【点击】，【下单】，【支付】次数排名前十的品类注意：就是二次排序，当点击次数一样多的时候，比较下单次数，下单次数一样多的时...

605 0 0

编译flink-shaded-hadoop-2-uber.jar包
编译flink-shaded-hadoop-2-uber.jar包从Flink 1.10开始，flink-shaded-hadoop-2-ub...

0.1 7621 1 1
PySpark的使用
Spark中使用Python实现WordCount业务 PySpark中的DataFrame DataFrame类似于Python中的数据表，允...

0.1 3199 0 3
Flink的Window窗口机制
1.1 Window概述聚合事件（比如计数、求和）在流上的工作方式与批处理不同。比如，对流中的所有元素进行计数是不可能的，因为通常流是无限的（...

0.3 881 0 2
Flink的时间类型和WaterMark机制
1.1 需求背景需求描述：每隔5秒，计算近10秒单词出现的次数。 1.1.1 TimeWindow实现 1.1.2 ProcessWindow...

0.1 1150 0 1
Flink数据的处理
1.1 Flink之数据源 1.1.1 source简介 source是程序的数据源输入，你可以通过StreamExecutionEnviron...

1.2 3181 0 7

Flink核心概念
Apache Flink is a framework and distributed processing engine for statef...

0.2 786 0 2
Flink的API操作
1、Flink简介官网[https://flink.apache.org/zh/] Apache Flink® - 数据流上的有状态计算 Ap...

0.4 2371 0 2