Sqoop数据导出一致性问题

    Sqoop在导出到Mysql时,使用4个Map任务,过程中有2个任务失败,那此时MySQL中存储了另外两个Map任务导入的数据,此时老板正好看到了这个报表数据。而开发工程师发现任务失败后,会调试问题并最终将全部数据正确的导入MySQL,那后面老板再次看报表数据,发现本次看到的数据与之前的不一致,这在生产环境是不允许的。


官网描述

–staging-table方式

通过—stage -table选项指定一个staging表来克服这个问题,—stage -table选项充当一个辅助表,用于对导出的数据进行分段。阶段数据最终在单个事务中移动到目标表。(相当于使用一张临时表做了事务处理,如果成功则从临时表导出数据,如果失败则重新导入临时表)

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 1/列出mysql数据库中的所有数据库sqoop list-databases -connect jdbc:mys...
    时待吾阅读 2,759评论 1 5
  • 1/列出mysql数据库中的所有数据库sqoop list-databases -connect jdbc:mys...
    时待吾阅读 1,368评论 0 0
  • Apache Sqoop 概述 使用Hadoop来分析和处理数据需要将数据加载到集群中并且将它和企业生产数据库中的...
    和心数据阅读 1,342评论 0 8
  • ORA-00001: 违反唯一约束条件 (.) 错误说明:当在唯一索引所对应的列上键入重复值时,会触发此异常。 O...
    我想起个好名字阅读 5,453评论 0 9
  • 今天是什么日子 起床:6:20 就寝:23:00 天气:晴 心情:平静 纪念日:没有 任务清单 今日完成的任务,最...
    雪山牧场阅读 209评论 0 2