Hadoop介绍——HDFS

Hadoop作者Doug cutting，就职Yahoo期间开发Hadoop项目，目前在Cloudera 公司从事架构工作。

•Hadoop简介：hadoop官网

–分布式存储系统HDFS （Hadoop Distributed File System ）POSIX

• 分布式存储系统

• 提供了高可靠性、高扩展性和高吞吐率的数据存储服务

–分布式计算框架MapReduce

• 分布式计算框架（计算向数据移动）

•具有易于编程、高容错性和高扩展性等优点。

–分布式资源管理框架YARN（Yet Another Resource Management）

•负责集群资源的管理和调度

1.hadoop的分布式文件系统（HDFS）

•架构模型：

–文件元数据MetaData，文件数据

•元数据

•数据本身

–（主）NameNode节点保存文件元数据：单节点 posix

–（从）DataNode节点保存文件Block数据：多节点

–DataNode与NameNode保持心跳，提交Block列表

–HdfsClient与NameNode交互元数据信息

–HdfsClient与DataNode交互文件Block数据

HDFS架构

文本放置思想

•存储模型：

HDFS存储模型

NameNode：

•NameNode持久化

–NameNode的metadate信息在启动后会加载到内存

–metadata存储到磁盘文件名为”fsimage”

–Block的位置信息不会保存到fsimage

–edits记录对metadata的操作日志。。。redis

DataNode：

HDFS的优点：

优点

缺点

HDFS是比较常用的分布式文件系统，适合大文件的存储，如果文件过小会造成寻找不同文件所带了的时间和空间的麻烦！！

Secondary NameNode：

–它不是NN的备份（但可以做备份），它的主要工作是帮助NN合并edits log，减少NN启动时间。

–SNN执行合并时机

•根据配置文件设置的时间间隔fs.checkpoint.period 默认3600秒

• 根据配置文件设置edits log大小 fs.checkpoint.size 规定edits文件的最大值默认是64MB 。

SNN帮助NN合并edits log的过程

Block的副本放置策略：

副本存放策略

HDFS写操作：

由客户端写文件到HDFS

由于block是固定大小的，不能调整期其大小，所以hdfs不支持文件修改。
HDFS读操作：

HDFS读操作

•HDFS读流程

–Client：

•和NN获取一部分Block副本位置列表

•线性和DN获取Block，最终合并为一个文件

•在Block副本列表中按距离择优选取

client写，读操作过程

HDFS文件权限

–与Linux文件权限类似

•r: read; w:write; x:execute

•权限x对于文件忽略，对于文件夹表示是否允许访问其内容

如果Linux系统用户zhangsan使用hadoop命令创建一个文件，那么这个文件在HDFS中owner就是zhangsan。

安全模式

总结

•HDFS安装

–伪分布式安装

–完全分布式安装

•下载

•解压 tar -zxvf 压缩包路径

•检查java和ssh的免密码登陆

–环境变量JAVA_HOME

–. /etc/profile 最后记得source下profile文件或者 ~/.bashrc 都是设置环境变量的文件

-免密登陆（通过一个结点可以登录集群的所有的结点）

–ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa （生成本节点的授权码）

–cat ~/.ssh/id_dsa.pub >>~/.ssh/authorized_keys （添加到authorized_keys中）

–scp ~/.ssh/id_dsa.pub root@node02:`pwd`/node01.pub （拷贝到别的结点中）

–cat node01.pub >> ~/.ssh/authorized_keys （添加到其他结点的authorized_keys中）

•修改core-site.xml

•修改hdfs-site.xml

•修改masters文件和slaves文件 slaves文件主要配置datanode节点列表

•格式化namenode 命令为：hdfs dfs namenode -format 格式化主要是为了fsimage，version的统一化。

•Start-hdfs.sh启动

具体搭建环境参考Hadoop的指导手册，不同的版本略有差异。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 218,122评论 6赞 505
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,070评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,491评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,636评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,676评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,541评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,292评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,211评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,655评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,846评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,965评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,684评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,295评论 3赞 329
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,894评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,012评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,126评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,914评论 2赞 355

Hadoop介绍——HDFS

1.hadoop的分布式文件系统（HDFS）

推荐阅读更多精彩内容