1.hadoop是什么
狭义指hadoop本身,广义指hadoop生态圈
2.hadoop三大组件,分别做什么
hdfs分布式文件系统,存储数据,mr计算,YARN资源调度
3.hdfs默认块大小多少
128MB
4.副本三份,块128M,一个文件260M,多少块,实际存储多少
3块,260M
5.hdfs的nn snn dn启动顺序是什么
nn dn snn
6.hdfs的读流程 ,那幅图有印象没
7.同之,hdfs的写流程,是不是所有块的第一个副本写完,再统一去写第二个副本
写顺序在不出错的情况下,是管道内顺序把每个块写到指定数量的副本里,然后再继续下个块
8.hdfs读写谁是input 谁说out
写数据到hdfs是input,从hdfs读数据是out
9.NN节点是做什么的?
存储元数据
10.snn是做什么的
冷备份,定时合并镜像和日志文件
11.副本放置策略,那幅图有没有印象?
当前节点--》同机柜节点--》跨机柜节点--》跨机房节点
12.hdfs dfs命令和什么命令一样
hadoop fs
13.mr提交流程,来简单说说(我是面试官)
客户端提交job给 Applications Manager 连接Node Manager去申请一个Container的容器,这个容器运行作业的App Mstr的主程序,启动后向App Manager进行注册,然后可以访问URL界面,然后App Mastr向 Resource Scheduler申请资源,拿到一个资源的列表,和对应的NodeManager进行通信,去启动对应的Container容器,去运行 Reduce Task 和 Map Task (两个先后运行顺序随机运行),它们是向App Mstr进行汇报它们的运行状态, 当所有作业运行完成后还需要向Applications Manager进行汇报并注销和关闭
14.hdfs yarnweb界面默认端口号多少
50070 8088
15.知不知道,windows也有hosts这个文件?
有