HDFS原理分析

微信公众号: Spark大数据

1、HDFS有什么作用

HDFS是Hadoop Distribute File System 的简称，也就是Hadoop的一个分布式文件系统。
1）高容错：提供较高的容错率，因为数据有备份，通过机架感知策略，namenode会尽量将数据的复本放到不同的机架上，所以小规模的宕机不影响数据的存储。
对于网络的就近原则，先近再远，如果有多个机架，会在多个机架建立副本。

宕机：操作系统无法从一个严重系统错误中恢复过来，或系统硬件层面出问题，以致系统长时间无响应，而不得不重新启动计算机的现象。

2）成本低：可以使用低成本的硬件搭建一个分布式文件系统。

3）规模大：能提供大规模的数据存储，上TB、PB级的规模。

4）高吞吐：高吞吐的数据访问，获得一个完整的数据可以从多个机器上同时读取。

5）读取方式多样：计算时数据读取的方式多采用本地化方式，如果本地化方式不满足则采用临近网络的方式，这也是通过机架感知策略。

2、机架感知策略的实现机制

默认情况下，Hadoop机架感知是没有启用的，需要在NameNode机器的hadoop-site.xml里配置一个选项，例如：

<property>  
    <name>topology.script.file.name</name>
    <value>/path/to/script</value>
</property>

这个配置选项的value指定为一个可执行程序，通常为一个脚本，该脚本接受一个参数，输出一个值。接受的参数通常为datanode机器的ip地址，而输出的值通常为该ip地址对应的datanode所在的rackID，例如”/rackid1”。

Namenode启动时，会判断该配置选项是否为空，如果非空，则表示已经启用机架感知的配置，此时namenode会根据配置寻找该脚本，并在接收到每一个datanode的heartbeat时，将该datanode的ip地址作为参数传给该脚本运行，并将得到的输出作为该datanode所属的机架，保存到内存的一个map中。

3、HDFS的系统结构

HA：高可用

namenode：大领导，管理数据块映射；处理客户端的读写请求。一般有一个active状态的namenode，有一个standby状态的namenode，其中，active状态的NameNode负责所有的客户端操作，standby状态的NameNode处于从属地位，维护着数据状态，随时准备切换。

journalnode：负责两个状态的namenode进行数据同步，保持数据一致。

ZKFC：作用是HA自动切换。会将NameNode的active状态信息保存到zookeeper。

datanode：干活的，负责存储client发来的数据块block；执行数据块的读写操作。

namenode和datanode之间的关系：

1）datanode启动时要在namenode上注册，当datanode改变时，也要通知namenode。datanode 会定期向NameNode发送心跳，告知NameNode 该节点的datanode是活着的。

2）datanode之间可以相互传输数据。

4、数据块——block

1）数据块是基本的数据存储单位，一般大小为64M/128M/256M，一个大文件根据数据块的大小，将文件分为若干个块。NameNode存储的文件对应的block映射信息；而datanode存储块信息对应的数据。

2）块越小读取的速度就越快，但是整体占用namenode的空间就越大，因为不管块大小一个块所占用的namenode内存存储空间为一般为150字节。

3）一个大文件会被拆分成一个个的块，然后存储于不同的机器。对于大规模的集群会存储在不同的机架上，如果一个文件少于Block大小，那么实际占用的空间为其文件的大小。

4）数据块也是基本的读写单位，类似于磁盘的扇区，每次都是读写一个块。读写多个块就合成了一个文件。

5）为了容错，文件的所有数据块都会有副本，也就是说复制的是数据块而不是单独的一个文件被复制了，默认复制3份，可以在hdft-site.xml里进行配置。

6）副本的数据的存储规则：

① 若client为DataNode节点，那存储block时，规则为：副本1，同client的节点上；副本2，不同机架节点上；副本3，同第二个副本机架的另一个节点上；其他副本随机挑选。

② 若client不为DataNode节点，那存储block时，规则为：副本1，随机选择一个节点上；副本2，不同机架节点上；副本3，同第二个副本机架的另一个节点上；其他副本随机挑选。

5、 namenode

1）namenode是整个集群的中心，负责安排管理集群中数据的存储并记录存储文件的元数据和负责客户端对文件的访问。

2）存储文件的元数据（metadata），主要包括整个文件系统的目录树、文件名与blockid的映射关系、blockid在哪个datanode上。

3）在运行时把所有的元数据都保存到namenode机器的内存中，所以整个HDFS可存储的文件数受限于namenode的内存大小。

4）一个block 在namenode中对应一条记录。

5）namenode的元数据的镜像文件（fsimage）会保存到本地磁盘，但不保存block具体的位置信息，而是由DataNode注册和运行时进行上报维护。

6）namenode崩溃了，那整个HDFS也就崩溃了，所以要采用冗余的方案来保证NameNode的高可用性。

7）元数据fsimage的保存不及时，如果namenode要是宕机了怎么办？
可以通过HDFS的操作日志记录文件（editlog）来恢复，如果元数据fsimage完整就直接恢复，不完整再用editlog进行补余。

6、datanode

1）保存block块对应的具体数据；给NameNode发送心跳；负责数据的读写和复制操作。

2）datanode启动时会向namenode报告当前存储的数据块信息，也会持续的报告数据块的修改信息。

3）datanode之间会进行互相通信，来完成复制数据块的动作，以保证数据的冗余性。

7、HDFS数据的写入过程

1）客户端发起数据写入请求，告诉namenode要写入的文件信息；
2）namenode根据你的情况（client端所在位置、文件大小）分配给你分配写入数据的位置也就是写到那几个机器上；
3）向datanode写入数据；
4）datanode复制数据；
5）复制完成之后，各数据节点向namenode上报block信息；
6）datanode通知客户端已完成；

8、HDFS数据的读取过程

1）客户端发起读数据的请求；
2）告诉namenode要读那个文件；
3）namenode返回block信息列表（包括要读取的数据在那个机器上）；
4）到指定的机器上读取具体的数据；
5）datanode根据block信息找到数据的存储位置并返回数据给客户端；
6）客户端读完数据之后告诉namenode我已经读取完成；

关注微信公众号：Spark大数据或许更多内容