大数据工具包 - 专题 - 简书

投稿

大数据工具包

收录了3篇文章 · 1人关注

Spark小文件异步合并工具类
简介由于Spark应用写数据到Hive表时，容易因为shuffle数过多导致生成过多小文件，影响集群存储利用率；故需要一个能避免读写冲突的小文...

0.1 0o青团o0 0 1
Structured Streaming自定义MySQLSink
1.foreachBatchspark2.4以后可以直接使用foreachBatch调用sparksql支持的jdbc批量写mysql,如下： ...

0.1 0o青团o0 1 1

Structured Streaming自定义MySQLSink-威力增强版
之前使用过foreach单条处理的MySQLSink，可能导致连续开关连接，性能较差，故通过prepareStatement的addBatch批...

0o青团o0 0 0

专题公告

大数据开发相关工具类
语言:包括Scala和Java