6月01日第二十三次早课

1.hdfs是属于什么架构

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。

2.hdfs部署后进程哪些?按启动顺序说

NN DN  SNN

3.一个文件180M,请问实际存储多少,多少块?多少map task?(副本为3)

540M  6块  6mp  假如文件是压缩的,那么正好压缩不支持分割,那么就一个map task

4.副本放置策略,来说说看

HDFS默认数据放置策略

系统默认为每一个数据块存放3个副本,按照布署在NameNode上的默认机架感知策略存放数据块副本。其中:

第一个block副本放在client结点所在机架的datanode里(如果client不在集群范围内,则这第一个node是随机选取的,当然系统会尝试不选择哪些太满或者太忙的node)。 

第二个block副本放置在与第一个datanode节点相同的机架中的另一个datanode中(随机选择)。  

第三个block副本放置于另一个随机远端机架的一个随机datanode中。 

如果还有更多的副本就随机放在集群的node里。 

将第一、二个block副本放置在同一个机架中,当用户发起数据读取请求时可以较快地读取,从而保证数据具有较好的本地性。

第三个及更多的block副本放置于其他机架,当整个本地结点都失效时,HDFS将自动通过远端机架上的数据副本将数据副本的娄得恢复到标准数据。

Hadoop的副本放置策略在可靠性(block在不同的机架)和带宽(一个管道只需要穿越一个网络节点)中做了一个很好的平衡。下图是备份参数是3的情况下一个管道的三个datanode的分布情况。


5.snn职责是什么

SecondaryNameNode: 当HA时,SNN不存在了

         存储: 命令空间镜像文件fsimage + 编辑日志editlog

作用: 定期合并 fsimage +editlog 为新的fsimage,推送给NN,称为检查点 checkpoint

参数: dfs.namenode.checkpoint.period 3600s

//www.greatytc.com/p/5d292a9a8c86


6.hadoop fs命令和什么命令一样

hdfs dfs 

7.shuffle,说说你们的理解

在map和repuced中间 进行重组 洗牌操作

8.yarn的进程哪些?

NodeManager,ResourceManager

9.jps命令,谈谈你们的理解

查看java进程及其对应信息

10.hdfs yarn界面的默认端口分别多少?假如让你们修改这个端口号,会不会?

hdfs 50070

yarn  8088

11.查看进程哪个占系统资源较多的命令是什么

top

12.查看系统负载,1分钟 5分钟  15分钟 的命令是什么

top右上角 load average: 0.09, 0.05, 0.01

三个数分别代表不同时间段的系统平均负载(一分钟、五 分钟、以及十五分钟)

13.说说你们对top,还能够看啥?

查看系统的CPU、内存、运行时间、交换分区、执行的线程等信息

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 翻译: http://hadoop.apache.org/docs/stable/hadoop-project-d...
    金刚_30bf阅读 821评论 0 2
  • 认识HDFS HDFS的特点: 高容错性高吞吐量故障的检测和自动快速恢复流式的数据访问大数据集一次写入,多次读写 ...
    Bloo_m阅读 3,305评论 6 8
  • 我的天空里没有太阳总是黑夜但并不黑暗因为有东西代替了太阳。虽然没有太阳那么明亮但对我来说已经足够了凭借着这份光我便...
    彼年上旋阅读 1,384评论 10 43
  • 天边有一座高楼 无数人攀沿而上 我坐在夕阳旁边,冷眼而看 谁会做那第一名 谁会受不住痛,半途而废 夕阳终会落下 留...
    云牧1阅读 140评论 0 0
  • 要求:用半个小时的时间对第二篇进行检视阅读。 一、检视阅读过程记录 1、阅读前:准备了三张卡片,分别是《检视阅读五...
    暖暖的高效慢生活阅读 348评论 0 0