hive导入到clickhouse的几种方式总结

在开发过程中，需要从HDFS中导入数据到clickhouse中，探索了几种方式，以及一些坑与大家分享；

Waterdrop 参考大神的文章，实现快速的安装，和相关配置如何快速地把HDFS中的数据导入ClickHouse

因为waterdrop是通过spark的RDD方式，能够实现数据的快速导入；

基本配置如下

spark {
  spark.app.name = "Waterdrop"
  spark.executor.instances = 2
  spark.executor.cores = 8
  spark.executor.memory = "2g"
}
input {
    hive {
        pre_sql = "sql "
        table_name = "temp_table"
    }
}
filter {
   
}
output {
    clickhouse {
        host = "IP:port
        database = "dwst"
        table = "tb_name"
        fields = ["partition_id" ~~"]
        username = "username"
        password = "pwd"
    }
}

配置非常简单，1千万的数据量，能够在10分钟以内只能导入；使用该方法消耗内存较大，成本较大；

csv 文件导入到clickhouse当中

第一步生成csv文件

选择合适的分隔符；大部分情况下，会选择逗号或者hive的默认分隔符\001 ,可以参考文件详解hive的列分隔符和行分隔符的使用

情况一：由于存储中可能含有分割符，导致分割列的时候，会多出几列的情况；比如说本来是5列的情况，但是却分割出来6列的情况，就是因为数据中含有分隔符的情况，所有如果出现该情况，需要对于可能出现情况的列进行特殊处理

regexp_replace(t.column_name,'\t|\n|\001','') as column_name,

特别注意 列中的换行符以及tab符号,需要处理掉，否则也会出现一些问题；

情况二：clickhouse中不能出现null需要对所有可能的列，进行如下处理

 ifnull(tm.column_name,0) as column_name,

情况三：因为hive导出之后，原来的bigint，会出现10.0的情况，在有些情况下，需要进行截断

情况四： hive中的列的属性，和clickhouse中列的属性不一致会出现问题；对于clickhouse多列的情况下，一定要细致，一个个列的属性进行校验

Float-->bigInt出现错误

int8--->Uint8之间转换错误；

第二步 csv导入到clickhouse当中；

csv导入clickhouse的方式，常见的有两种方式；通过clickhouse的jdbc执行sql和使用clickhouse的clickhouse-client客户端的方式，数据量大的情况下，切记不要用第一种方式，一定要切记；切记

方式一：写一个Python脚本，pandas，以及整合了csv的写入的实现，数据量不大的时候，小于500百万，列在50列左右的时候，可以使用

方式二：

//需要加入列名，推荐使用
cat ~/csv_fileName.csv| clickhouse-client  --host=ip --port=19000 --user=username --password=pwd --format_csv_delimiter=$'\001' --query="INSERT INTO table_name FORMAT CSVWithNames"
//真正的数据
cat ~/csv_fileName.csv| clickhouse-client  --host=ip --port=19000 --user=username --password=pwd --format_csv_delimiter=$'\001' --query="INSERT INTO table_name FORMAT CSV"

常见错误：

Code: 27. DB::Exception: Cannot parse input: expected , before:

clickhouse列的属性和hive不匹配，包括类型和列的个数
clickhouse 时间类型

最后编辑于：2020.06.15 21:32:13

hive导入到clickhouse的几种方式总结

csv 文件导入到clickhouse当中

第一步 生成csv文件

第二步 csv导入到clickhouse当中；

第一步生成csv文件