在开发过程中,需要从HDFS中导入数据到clickhouse中,探索了几种方式,以及一些坑与大家分享;
-
Waterdrop 参考大神的文章,实现快速的安装,和相关配置如何快速地把HDFS中的数据导入ClickHouse
因为waterdrop是通过spark的RDD方式,能够实现数据的快速导入;
基本配置如下
spark { spark.app.name = "Waterdrop" spark.executor.instances = 2 spark.executor.cores = 8 spark.executor.memory = "2g" } input { hive { pre_sql = "sql " table_name = "temp_table" } } filter { } output { clickhouse { host = "IP:port database = "dwst" table = "tb_name" fields = ["partition_id" ~~"] username = "username" password = "pwd" } }
配置非常简单,1千万的数据量,能够在10分钟以内只能导入;使用该方法消耗内存较大,成本较大;
csv 文件导入到clickhouse当中
第一步 生成csv文件
选择合适的分隔符;大部分情况下,会选择逗号或者hive的默认分隔符\001 ,可以参考文件 详解hive的列分隔符和行分隔符的使用
情况一:由于存储中可能含有分割符,导致分割列的时候,会多出几列的情况;比如说本来是5列的情况,但是却分割出来6列的情况,就是因为数据中含有分隔符的情况,所有如果出现该情况,需要对于可能出现情况的列进行特殊处理
regexp_replace(t.column_name,'\t|\n|\001','') as column_name,
特别注意 列中的换行符以及tab符号,需要处理掉,否则也会出现一些问题;
情况二 :clickhouse中不能出现null需要对所有可能的列,进行如下处理
ifnull(tm.column_name,0) as column_name,
情况三:因为hive导出之后,原来的bigint,会出现10.0的情况,在有些情况下,需要进行截断
情况四: hive中的列的属性,和clickhouse中列的属性不一致会出现问题;对于clickhouse多列的情况下,一定要细致,一个个列的属性进行校验
Float-->bigInt出现错误
int8--->Uint8之间转换错误;
第二步 csv导入到clickhouse当中;
csv导入clickhouse的方式,常见的有两种方式;通过clickhouse的jdbc执行sql和使用clickhouse的clickhouse-client客户端的方式,数据量大的情况下,切记不要用第一种方式,一定要切记;切记
方式一: 写一个Python脚本,pandas,以及整合了csv的写入的实现,数据量不大的时候,小于500百万,列在50列左右的时候,可以使用
方式二:
//需要加入列名,推荐使用
cat ~/csv_fileName.csv| clickhouse-client --host=ip --port=19000 --user=username --password=pwd --format_csv_delimiter=$'\001' --query="INSERT INTO table_name FORMAT CSVWithNames"
//真正的数据
cat ~/csv_fileName.csv| clickhouse-client --host=ip --port=19000 --user=username --password=pwd --format_csv_delimiter=$'\001' --query="INSERT INTO table_name FORMAT CSV"
常见错误:
Code: 27. DB::Exception: Cannot parse input: expected , before:
- clickhouse列的属性和hive不匹配,包括类型和列的个数
- clickhouse 时间类型