山间浓雾有路灯

IP属地：四川

Datax日志压缩并定期清理
背景 DataX 是一个进程一个日志,不同于其他日志一天一个日志,合并到一个日志中进行压缩在查看日志时有一定的不便,可以通过脚本的方式对目录进行...

2282 0 0
为什么会是Flink
Flink的具体优势有以下几点: 1.同时支持高吞吐、低延迟、高性能 Flink是目前开源社区中唯一一套集高吞吐、低延迟、高性能三者于一身的分布...

574 0 0

解决DataX自定义kuduWriter无法解析Blob类型字段的问题
在之前的文章中分享如何在DataX中定义kuduWriter组件,在最近的工作中发现从oracle读取blob类型的数据到kudu时,数据不是期...

1577 0 0
DataX中的数据交互源码探究
因为工作的原因,需要排查数据源端到目标端的数据是否丢失,正好有机会研究一下datax的源码.这里我们探索的oracleReader和kuduWr...

565 0 0
Kudu使用最佳实践以及踩坑记录
Kudu表结构设计最佳实践 1.字段设计字段数量最好不要超过300个除主键外,其他字段可以为空每一个字段均可以设置自己的编码以及压缩方式 ...

0.2 9239 0 2
如何用DataX自定义KuduWriter插件
如何用DataX自定义KuduWriter之前，先了解一下什么是DataX，它能做什么事 DataX DataX 是阿里巴巴集团内被广泛使用的离...

0.2 5115 3 3
Alibaba之jvm-sandbox初体验
前言在开始之前，我们先来模拟一下以下的场景：小李：“小明，你的接口没有返回数据，麻烦帮忙看一下？”小明：“我这边的数据也是从别人的服务器中拿到...

1.1 4613 3 8

Hive相关优化
map优化优化并发个数减少map数，合并小文件set mapred.max.split.size=100000000;单位b,代表一个map...

0.8 650 0 1
Hive
是什么 Hive是一个SQL解析引擎，将SQL语句转译成MapReduce Job，然后在Hadoop平台上运行，达到快速开发的目的。 Hive...

446 0 0