文章内容输出来源:拉勾教育Java高薪训练营
学习心得
课程介绍
第四阶段 大型分布式存储系统架构进阶
模块五 Hadoop分布式文件系统HDFS、海量列式存储数据库HBase
本模块对大数据的基石HDFS进行系统讲解,对HBase 性能提升策略与读写速率优化提出解决方案。
作业内容
作业一:
hdfs 集群安装成功展示页面(需要展示 hdfs 和 yarn 两 个页面) Hdfs 搭建成功,需要打开 hdfs 的 http 服务页面,展示效果:
打开 namenode 节点的 50070 端口:
比如我的 namenode 安装在 teacher1 节点: http://teacher1:50070/dfshealth.html#tab-datanode 可以看到机器有哪些节点
Yarn 的管理页面:需要看http://teacher2:8088/cluster/nodes中nodes list 跟集群安装是否一致
课程目录及观看建议
2倍速模式
***
必看
**
建议看
*
可不看
- 课程介绍(09:54)
- 大数据概述(22:31)
- hadoop入门(11:47)
*
- hdfs和yarn架构概述(15:11)
*
- MapReduce概述(20:06)
- 大数据组件介绍(17:22)
- hadoop集群搭建(44:24)
***
- hadoop集群配置(35:47)
***
课程时间:1小时
作业时间:2小时
作业说明
软件版本
最好和课程内容版本保持一致,否则会遇到版本冲突问题
CentOS 7.7
JDK 1.8
Hadoop 2.7.2
注意事项
分发ssh秘钥时,需要复制到所有节点,包括当前机器的hostname,否则集群启动时无法访问。
如需要显示调试信息,可在
hadoop-env.sh
中添加以下内容:
export HADOOP_ROOT_LOGGER=DEBUG,console
- 解决启动hadoop集群时看不到DataNode问题(需要清空不同步的数据)
yarn-site.xml
中的内存设置不要小于1024,否则在1024M内存虚拟机中启动NodeManager后会立即关闭,导致yarn页面中无法看到相应节点信息。推荐安装步骤为先装1台主节点的虚拟机,然后克隆出另外的从节点虚拟机,最后再生成ssh秘钥并分发到各个节点。这样安装效率最快。
格式化文件分区前最好创建虚拟机镜像,方便随时回退,避免因环境受损而重新安装。
作业步骤
参看课程内容