【读书笔记】《大数据技术体系详解:原理、架构与实践》03.分布式文件系统

在大数据场景中,大量数据是以文件形式保存的,典型代表是行为日志数据(用户搜索日志、购买日志、点击日志,以及机器操作日志等)。
这些文件形式的数据具有价值高、数据大、流式产生等特点,需要一个分布式文件系统存储它们,该文件系统应具有良好的容错性、扩展性和易用的API,而HDFS(Hadoop Distributed File System)便是一个较为理想的解决方案。

HDFS

HDFS是一种块级别的分布式文件系统。
块级别的分布式文件系统系统核心思想是将文件分成等大的数据块,并以数据块为单位存储到不同节点上,进而解决文件级别的分布式系统存在的负载均衡和并行处理问题。
HDFS采用了主从架构,如下图所示:
主节点被称为NameNode,只有一个,管理元信息和所有从节点;
从节点称为DataNode,通常存在多个,存储实际的数据块。
HDFS是一种块级别的分布式文件系统。
块级别的分布式文件系统系统核心思想是将文件分成等大的数据块,并以数据块为单位存储到不同节点上,进而解决文件级别的分布式系统存在的负载均衡和并行处理问题。

HDFS采用了主从架构,如下图所示:
主节点被称为NameNode,只有一个,管理元信息和所有从节点;
从节点称为DataNode,通常存在多个,存储实际的数据块。


HDFS基本架构.png

1. NameNode

NameNode是HDFS集群管理者,负责管理文件系统元信息和所有DataNode。
1.管理元信息:NameNode维护着整个文件系统的目录树,各个文件的数据块信息等。
2.管理DataNode:DataNode周期性向NameNode汇报心跳以表明自己活着,一旦NameNode发现某个DataNode出现故障,会在其他存活DataNode上重构丢失的数据块。

一个HDFS集群中只存在一个对外服务的NameNode,称为Active NameNode,
为了防止单个NameNode出现故障后导致整个集群不可用,用户可启动一个备用NameNode,称为Standby NameNode,为了实现NameNode HA(High Availability,高可用),需解决好两者的切换和状态同步问题。
1.主/备切换:HDFS提供了手动方式和自动方式完成主备NameNode切换。
1)手动方式是通过命令显式修改NameNode角色完成的,通常用于NameNode滚动升级(滚动发布:一般是取出一个或者多个服务器停止服务,执行更新,并重新将其投入使用。周而复始,直到集群中所有的实例都更新成新版本);
2)自动模式是通过ZooKeeper实现的,可在主NameNode不可用时,自动将备用NameNode提升为主NameNode,以保证HDFS不间断对外提供服务。
2.状态同步:主/备NameNode并不是通过强一致协议保证状态一致的,而是通过第三方的共享存储系统。
1)主NameNode将EditLog(修改日志,比如创建和修改文件)写入共享存储系统,备用NameNode则从共享存储系统中读取这些修改日志,并重新执行这些操作,以保证与主NameNode的内存信息一致。
2)目前HDFS支持两种共享存储系统:NFS(Network File System)和QJM(Quorum Journal Manager)QJM能够构建在普通商用机器之上,比NFS更加廉价,因此受众更广。

2. DataNode

DataNode存储实际的数据块,并周期性通过心跳向NameNode汇报自己的状态信息。

3. Client

用户通过客户端与NameNode和DataNode交互,完成HDFS管理(比如服务启动与停止)和数据读写等操作。
此外,文件的分块操作也是在客户端完成的。当向HDFS写入文件时,客户端首先将文件切分成等大的数据块(默认一个数据块大小为128MB),之后从NameNode上领取三个DataNode地址,并在它们之间建立数据流水线,进而将数据块流式写入这些节点。

随着数据块和访问量的增加,单个NameNode会成为制约HDFS扩展性的瓶颈,为了解决该问题,HDFS提供了NameNode Federation机制,允许一个集群中存在多个对外服务的NameNode,它们各自管理目录树的一部分(对目录水平分片),如图6-4所示。需要注意的是,在NameNode Federation中,每个主NameNode均存在单点故障问题,需为之分配一个备用NameNode。


启用NameNode Federation的HDFS架构.png

HDFS关键技术

1.容错性设计

❑ NameNode故障:NameNode内存中记录了文件系统的元信息,这些元信息一旦丢失,将导致整个文件系统数据不可用。HDFS允许为每个Active NameNode分配一个Standby NameNode,以防止单个NameNode宕机后导致元信息丢失和整个集群不可访问。
❑ DataNode故障:每个DataNode保存了实际的数据块,这些数据块在其他DataNode上存在相同的副本。DataNode能通过心跳机制向NameNode汇报状态信息,当某个DataNode宕机后,NameNode可在其他节点上重构该DataNode上的数据块,以保证每个文件的副本数在正常水平线上。
❑ 数据块损坏:DataNode保存数据块时,会同时生成一个校验码。当存取数据块时,如果发现校验码不一致,则认为该数据块已经损坏,NameNode会通过其他节点上的正常副本重构受损的数据块。

2.副本放置策略

❑ 客户端与DataNode同节点。这是一种常见的场景:上层计算框架处理HDFS数据时,每个任务实际上就是一个客户端,它们运行在与DataNode相同的计算节点上(HDFS和YARN同节点部署)。在这种情况下,三副本放置策略如下:第一个副本写到同节点的DataNode上,另外两个副本写到另一个相同机架的不同DataNode上;
❑ 客户端与DataNode不同节点。当HDFS之外的应用程序向HDFS写数据时,通常会出现这种情况,典型的场景有Flume Sink,用户通过独立客户端shell命令行将文件上传到HDFS等。在这种情况下,HDFS会随机选择一个DataNode作为第一个副本放置节点,其他两个副本写到另一个相同机架的不同DataNode上。


HDFS副本放置策略.png

3.异构存储介质

HDFS支持多种常用存储类型。异构存储介质的引入,使得HDFS变成了一个提供混合存储方式的文件系统,用户可以根据数据特点,选择合适的存储介质满足你应用需求。
❑ ARCHIVE:高存储密度但耗电较少的存储介质,通常用来存储冷数据。
❑ DISK:磁盘介质,这是HDFS默认的存储介质。
❑ SSD:固态硬盘,是一种新型存储介质,目前被不少互联网公司使用。
❑ RAM_DISK:数据被写入内存中,同时会往该存储介质中再(异步)写一份。


HDFS异构存储介质示意图.png

4. 集中式缓存管理

HDFS允许用户将一部分目录或文件缓存在off-heap内存中,以加速对这些数据的访问效率,该机制被称为集中式缓存管理。
HDFS提供了API和命令行两种方式,让用户管理集中式缓存系统中的文件和目录,用户可以根据需要将一个文件增加到缓存中,或从缓存中移除。

数据收集组件

1. Flume

Flume提供了HDFS Sink,能够将收集到的数据直接写入HDFS中,且自带了灵活的配置参数、支持压缩、按时或按大小切分文件等。

2. Sqoop

Sqoop允许用户指定数据写入HDFS的目录、文件格式(支持Text和SequenceFile两种格式)、压缩方式(支持LZO, Snappy等主流压缩编码)等。

SequenceFile:Hadoop用来存储二进制形式的[Key,Value]对而设计的一种平面文件(Flat file)。

小结

HDFS是一个分布式文件系统,具有良好的扩展性、容错性以及易用的API。

它的核心思想是将文件切分成等大的数据块,以多副本的形式存储到多个节点上

HDFS采用了经典的主从软件架构,其中主服务被称为NameNode,管理文件系统的元信息,而从服务被称为DataNode,存储实际的数据块,

DataNode与NameNode维护了周期性的心跳,为了防止NameNode出现单点故障,HDFS允许一个集群中存在主备NameNode,并通过ZooKeeper完成Active NameNode的选举工作。

HDFS提供了丰富的访问方式,用户可以通过HDFS shell, HDFS API,数据收集组件以及计算框架等存取HDFS上的文件。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,383评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,522评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,852评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,621评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,741评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,929评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,076评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,803评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,265评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,582评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,716评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,395评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,039评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,027评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,488评论 2 361
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,612评论 2 350

推荐阅读更多精彩内容