Hadoop 集群间使用DistCp同步数据(高可用)-相同版本

版本：Hadoop2.7.7

一、关于集群间数据同步

集群间数据同步，可以从原集群推送数据到目标集群，此时会为会占用原集群 yarn 中的资源；
集群间数据同步，也可以从目标集群发起作业，主动拉取原集群的数据，此时消耗的是目标集群的YARN资源；
如果原集群是生产集群，一般在目标集群执行命令hadoop distcp来发起作业，通过拉的方式来同步数据，此时不会消耗原集群即生产集群的YARN资源；
当原集群和目标集群大版本不同时，（比如在 hadoop 1.x 跟 hadoop 2.x 之间同步数据），需要使用 webhdfs 协议，即通过以下格式指定远端集群：webhdfs://<namenode_hostname>:<http_port>；（当然，既可以从原集群推数据，也可以从目标集群拉数据）;
当原集群和目标集群大版本相同时，（比如都是 hadoop 2.x或都是hadoop 3.x），推荐使用 hdfs 协议，此时性能比 webhdfs 更好；
如果 webhdfs 配置了 SSL 加密，则需要使用协议 “swebhdfs://” ；

二、前提条件：

源集群和目标集群的 NameNode 都是高可用的，且在不同的服务器上运行。
源集群和目标集群都已经安装了 Hadoop，并配置了相应的参数和组件，例如 HDFS、YARN、MapReduce 等。
迁移之前需要把两个集群的所有节点都互通/etc/hosts文件（重要，包括各个数据节点）
源集群和目标集群之间的网络连接可靠，且支持 SSH 和 RPC 等通信协议。同时需要确保端口号设置和防火墙策略等安全措施符合要求。
在进行数据复制和同步操作前，应该进行一次充分的测试，并检查日志和错误信息，以确保操作的正确性和完整性。
由于迁移数据运行了mr任务，对集群资源有一定的消耗。

具体的端口：

使用 DistCp 工具进行 Hadoop 集群之间的数据复制和同步，需要保证以下端口的互通：

HDFS 端口：DistCp 使用 HDFS 协议来读取和写入数据，因此需要确保 HDFS 端口在不同的集群之间可用，并允许相应的数据传输操作。

默认为 8020（NameNode RPC 端口）或者 9000（HDFS 系统文件对外访问端口）

SSH 端口：默认情况下，DistCp 通过 SSH 远程执行复制任务。这意味着，在两个集群之间复制数据需要确保 SSH 端口的可用性和连接权限设置。

默认为 22。

MapReduce 端口：如果要使用兼容模式进行数据复制和同步，则还需要确保 MapReduce 端口在两个集群之间可用，并允许相应的作业提交和执行操作。

MapReduce 的每个组件都有不同的端口，其中 JobTracker 和 TaskTracker 组件使用的端口如下，默认情况下 JobTracker 端口为 54311，TaskTracker 端口为 50060。

因此，在使用 DistCp 工具进行 Hadoop 集群之间的数据复制和同步操作时，需要确保以上端口的互通和设置，以避免因网络连接或配置不当而导致的数据传输失败或异常

四、关于开启了 kerberos 安全认证后的数据同步

如果原集群和目标集群都启用了kerberos认证 (hadoop.security.authentication=kerberos)，需要首先做 kerberos 的 realm 互信，然后才能通过推或拉的方式执行 dictcp 进行数据同步；
如果原集群与目标集群一个启用了kerberos认证，另一个没有启用kerberos认证，为简单起见，可以在启用了kerberos认证的集群中执行distCp，通过推或拉的方式进行数据同步;

五、具体命令：

如果两个 Hadoop 集群的 NameNode 都是高可用的，可以使用 DistCp 命令进行数据复制和同步。具体命令如下：

hadoop distcp [OPTIONS] <srcurl> <desturl>

其中，[OPTIONS] 是可选的参数，<srcurl> 和 <desturl> 分别是源和目标文件系统的 URL。

假设源集群名称为 src_cluster，目标集群名称为 dst_cluster，则可以使用以下命令复制源集群中的数据到目标集群：

hadoop distcp -update -skipcrccheck -delete -bandwidth 50 -m 100 -mapredSudo hdfs://src_cluster/user/hadoop/example hdfs://dst_cluster/user/hadoop/backup

命令中使用了以下参数：

-update：只复制更新时间较新的文件；
-skipcrccheck：跳过 CRC 校验；
-delete：删除目标集群中比源集群中旧或不存在的文件或目录；
-bandwidth 50：限制最大带宽，以避免过多的网络流量阻塞；
-m 100：设置最大 mapper 数量；
-mapredSudo：启用兼容模式。

六、集群名称之间识别配置：

在使用 DistCp 进行跨集群数据复制和同步时，需要确保源集群和目标集群之间可以相互访问并识别。通常情况下，需要在源集群和目标集群的 Hadoop 配置文件中进行相应的配置，以便于两个集群之间建立连接。

具体来说，可以将目标集群的 NameNode 或 ResourceManager 的 IP 地址和端口号添加到源集群的 core-site.xml 和 hdfs-site.xml 配置文件中。例如，在源集群中添加目标集群的 NameNode 地址和端口号的配置如下：

<property>
  <name>fs.defaultFS</name>
  <value>hdfs://src_cluster:8020,hdfs://dst_cluster:8020</value> 
</property>

<property>
  <name>dfs.namenode.rpc-address.dst_cluster</name>
  <value>node2:8020</value>
</property>

<property>
  <name>yarn.resourcemanager.hostname.dst_cluster</name>
  <value>node2</value>
</property>

上述示例中，

fs.defaultFS 属性为源集群和目标集群的 NameNode URL。
dfs.namenode.rpc-address.dst_cluster 属性指定了目标集群的 NameNode 地址和端口号。
yarn.resourcemanager.hostname.dst_cluster 属性则指定了目标集群的 ResourceManager 主机名。这些参数可以根据实际情况进行相应的修改和调整。
在配置好集群之后，可以通过 hdfs dfsadmin -report 命令来检查 HDFS 的状态，并查看集群是否能够正常运行并连通。
如果所有组件都正常启动，则可以使用 DistCp 命令进行跨集群数据复制和同步操作。

七、DistCp优势特性

带宽限流

DistCp是支持带宽限流的，使用者可以通过命令参数bandwidth来为程序进行限流，原理类似于HDFS中数据Balance程序的限流.

增量数据同步

对于增量数据同步的需求，在DistCp中也得到了很好的实现.通过update，append 和 diff 2个参数能很好的解决.官方的参数使用说明:

Update: Update target, copying only missing files or directories

Append: Reuse existing data in target files and append new data to them if possible.

Diff: Use snapshot diff report to identify the difference between source and target.

第一个参数,解决了新增文件目录的同步;第二参数,解决已存在文件的增量更新同步;第三个参数解决删除或重命名文件的同步.

这里需要额外解释一下diff的使用需要设置2个不同时间的snapshot进行对比，产生相应的DiffInfo.在获取快照文件的变化时，只会选择出DELETE和RENAME这2种类型的变化信息。

高效的性能

执行的分布式特性
高效的MR组件

八、DistCp 的底层工作机制

新版 DistCp 底层有以下组件，其各自的职责如下：

DistCp Driver：负责解析 DistCp 的命令行参数，并编排协调具体的拷贝任务(首先调用 copy-listing-generator 获得需拷贝的文件列表，然后配置并提交 Map-Reduce 拷贝任务，最后根据配置项返回 MR 任务句柄并推出，或等待 MR任务执行结束；）
Copy-listing generator：负责解析给定的 source-paths（目录或文件，可以包含通配符），生成待拷贝的文件/目录列表，并输出到一个 SequenceFile；
Input-formats 和 Map-Reduce：负责读取 Copy-listing generator 生成的 SequenceFile 中的待烤包的文件列表，并执行实际的文件拷贝；

九、DistCp 的重要参数讲解

DistCp 提供了多种参数，来控制拷贝任务的各种细节，经常使用到的关键参数有 -update, -delete, -overwrite, -m, -bandwidth，-diff，-p，-i 等：

-m <num_maps>：控制 map 任务的最大个数；（实际的 map 任务数，不会大于待拷贝的文件的个数；更多的 map 数不一定会提升整体IO吞吐）；
-bandwidth：控制每个 map 任务可用的最大带宽，单位 MB；
-p[rbugpcaxt]：控制是否保留源文件的属性，rbugpcaxt 分别指：replication number, block size, user, group, permission,checksum-type, acl, xattr,以及 tiemstamp；
-skipcrccheck：控制检查源和目标文件差异以生成待拷贝文件列表时，是否跳过 CRC 校验；
-update: 拷贝目标目录下不存在而源目录下存在的文件，或目标目录下和源目录在文件大小/块大小/checksum 上不同的文件；
-overwrite: 覆盖目标目录下的同名文件。（如果某个 map 任务执行失败且没有指定 -i 参数，则所有的待拷贝的文件，包括拷贝失败的文件，都会被重新拷贝）；
-i：忽略拷贝过程中某些 MAP 任务的错误，继续执行其余的 map拷贝任务，而不是直接失败整个作业；（默认情况下，如果有某个 map 任务失败的次数达到了 mapreduce.map.maxattempts，则未完成的 map 任务都会被 kill；）；
-delete: 删除目标目录下存在，但源目录下不存在的文件；该参数只能和 -update 或 -overwrite 配合使用；
- -diff 和 -rdiff：控制是否结合使用快照机制，会基于两个快照的差异（snapshot diff)来确定待拷贝的文件列表，以下要点需要注意：
- -diff 和 -rdiff，需要配合选项 -update 一起使用；
- -diff 和 -rdiff，不能和 -delete 一起使用，否则会报错：java.lang.IllegalArgumentException: -delete and -diff/-rdiff are mutually exclusive. The -delete option will be ignored；
- 该命令的前提条件：需要源目录下有指定的两个快照 from_snapshot 和 to_snapshot;
- 该命令的前提条件：需要目标目录下有快照 from_snapshot；
- 该命令的前提条件：需要目标目录在前期制作了 from_snapshot 快照后，没有新的文件写操作 (create, rename, delete)；
- 该命令执行完毕后，目标目录下并不会自动创建快照 to_snapshot，如果后续还需要基于快照来做增量同步，需要手工在同步完毕后对目标目录制作快照 to_snapshot，为后续基于快照的同步（hadoop distcp -diff -update）做好准备；

十、易踩的坑 - skipcrccheck

参数 -skipcrccheck 的意思是 “Whether to skip CRC checks between source and target paths.”，即是否跳过原路径和目标路径下文件的 crc 校验（CRC：Cyclic Redundancy Check）。
如果指定了该参数，会跳过crc校验，同步作业速度会快些；
但指定该参数后，由于不校验 crc，而是通过文件名和文件大小来发现哪些文件需要进行同步，在极端情况下，可能会漏掉某些需要同步的小文件，比如某些只有少数几条记录的小文件，从而造成数据不一致；

某两个 hive orc 表都只有1条记录，对应的 HDFS 文件也比较小且都是 154 BYTE, 指定参数 skipcrccheck 执行同步操作时，就遗漏了该文件，造成了源目录与目标目录数据的不一致：“sudo -u hdfs hadoop distcp -update -delete -skipcrccheck -pugpb hdfs://cluster/user/hive/warehouse/vin_vin.db/test_user_scp hdfs://cluster/user/hive/warehouse/vin_vin.db/test_user_scp2“：

十一、常用命令总结

执行数据同步操作时，需要停止对目标目录的其它写操作；
当没有对原目录的写操作时（即停止了对源目录的写操作），可以使用以下命令来跨集群同步数据：hadoop distcp -delete -update -pugpb -m 10 -bandwidth 5 hdfs://xx.xx/ hdfs://yy.yy/
当有对原目录的写操作时（即有对原目录的并发写操作），需要结合快照机制来同步数据：hadoop distcp -diff <from_snapshot> <to_snapshot> -update -pugpb
结合快照机制来同步数据时，有以下前提要求：
需要源目录下有指定的两个快照 from_snapshot 和 to_snapshot;
需要目标目录下有快照 from_snapshot；
需要目标目录在前期制作了 from_snapshot 快照后，没有新的文件写操作如 create/rename/delete (即要求目标目录的当前状态跟原目录的from-snapshot一致）；
该命令执行完毕后，目标目录下并不会自动创建快照 to_snapshot，如果后续还需要基于快照来做增量同步，需要手工在同步完毕后对目标目录制作快照 to_snapshot，为后续基于快照的同步（hadoop distcp -diff -update）做好准备；

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 211,817评论 6赞 492
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,329评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,354评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,498评论 1赞 284
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,600评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,829评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,979评论 3赞 408
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,722评论 0赞 266
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,189评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,519评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,654评论 1赞 340
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,329评论 4赞 330
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,940评论 3赞 313
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,762评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,993评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,382评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,543评论 2赞 349

Hadoop 集群间使用DistCp同步数据(高可用)-相同版本