spark数据导入踩坑记

最近公司有不少关于数据同步的业务需求,比如需要将mysql表同步到hive中或者同步为parquet等格式存放在HDFS中,这种类型的需求一般不是简单的同步,而是需要将mysql的数据进行处理,然后将结果表的数据放入指定的数据源中。得益于威廉大哥开发的Streamingpro这一利器,同步数据,数据处理,最后放入指定的数据源中,这一连串的工作变得十分简单,只需要一个json格式的配置文件即可轻松搞定,实在是大大的提高了工作效率。关于streamingPro的使用请参考威廉的简书相关的文章,下文主要介绍遇到的一些问题:

mysql timestamp类型转换错误

需求是要将mysql的表数据同步至hive中,利用streamingPro是很容易实现的,只需要配置一个输入源,一个处理SQL语句,配置文件大概如下:

{
  "chinaDrug2hive": {
    "desc": "",
    "strategy": "spark",
    "algorithm": [],
    "ref": [],
    "compositor": [
      {
        "name": "batch.sources",
        "params": [
          {
            "url": "jdbc:mysql://localhost :3306/DB?user=username&password=password",
            "dbtable": "mysqlTableName",
            "driver": "com.mysql.jdbc.Driver",
            "path": "-",
            "format": "jdbc",
            "outputTable": "tableName"
          }
        ]
      },
      {
        "name": "batch.sql",
        "params": [
          {
            "sql": "drop table db.hivetableName",
            "outputTableName": "-"
          }
        ]
      },
      {
        "name": "batch.sql",
        "params": [
          {
            "sql": "create table if not exists db.hivetableName as select * from tableName",
            "outputTableName": "-"
          }
        ]
      }
    ],
    "configParams": {
    }
  }
}

关于mysql相关的配置参数的配置,其实就是spark访问mysql需要配置的几个参数。上面的示例中,考虑到与mysql表解耦,即当mysql表结构由于业务或其他原因发生变化,配置文件不需要发生任何变化,故而用到了create table as select 语句,而没有用insert into语句。本来跟容易搞定的事情,因为mysql表中有字段类型是datetime,且未设置为not null。在运行时,会出现:
Cause: java.sql.SQLException: Value '0000-00-00 00:00:00' can not be represented as java.sql.Timestamp。
解决的办法是在URL中添加一个参数:zeroDateTimeBehavior=convertToNull
问题得到解决。

tinyint类型自动转换成boolean类型

datetime类型得到了解决,数据也顺利写到hive表中了,原以为大功告成了。使用hive表的数据进行测试时,同事反应,tinyint类型的被转换成了boolean型。导致原本写好的SQL脚本不能运行,tinyint中存储的也不只有0和1两个值,所以转换成boolean类型是会导致错误的。解决此问题的方法也是在URL添加一个参数:tinyInt1isBit=false,再次运行重新同步数据,问题得到解决。

分区表问题

这是在使用streamingPro将表数据存为parquet文件,但是结果表是按日期进行分区的分区表。这种情况可以分为两种情况来考虑:
如果分区列本身就是表中列,那么可以使用如下方法:

{
        "name": "batch.outputs",
        "params": [
          {
            "name": "outName",
            "format": "parquet",
            "inputTableName": "inputTableName",
            "path": "/user/zhang/Data/inputTableName",
            "partitionBy":"hp_stat_date",
            "mode": "Overwrite"
          }
        ]
      }

如果分区列不是表的中列,那么只需要将路径通过参数动态传入:

YESTERDAY=$(date -d "@$i" "+%Y-%m-%d")
HiveOutputTable=/user/zhang/Data/tableName/hp_stat_date=$YESTERDAY
spark-submit   \
--class streaming.core.StreamingApp \
--master yarn-cluster \
--num-executors 4 \
--executor-memory 12G \
--executor-cores 1 \
--driver-memory 10G \
--name result_table \
/home/zhangzl/streamingpro/streamingpro-spark-0.4.14-SNAPSHOT.jar \
-streaming.name result_table    \
-streaming.platform spark \
-streaming.jobs XXX \
-streaming.enableHiveSupport true \
-streaming.sql.params.YESTERDAY $YESTERDAY \
-streaming.sql.out.outName.path $HiveOutputTable \
-streaming.job.file.path /user/zhang/test.json

在tableName的文件夹路径下,会生成
hp_stat_date=$YESTERDAY一系列的子目录。以上的提交命令中包含了如何向streamingPro中添加参数,-streaming.sql.params.YESTERDAY $YESTERDAY
代表在SQL语句中传入参数,-streaming.sql.out.outName.path $HiveOutputTable \表示的是在输出中添加参数。更多关于streamingPro的文章,请参看威廉的的简书,里面还有大量Spark,ES等相关的优质文章,满满的干货。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,347评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,435评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,509评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,611评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,837评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,987评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,730评论 0 267
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,194评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,525评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,664评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,334评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,944评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,764评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,997评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,389评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,554评论 2 349

推荐阅读更多精彩内容