材料:《大数据技术原理与应用》《Hadoop集群程序设计与开发》《Spark编程基础》
另:
1 虽然标题是关于hadoop的学习,但其实需要搭建一个框架,这个框架不只有hadoop,还有spark、hbase、hive,学习的内容也还有scala语言、机器学习等。
2 hadoop的生态系统主要是HDFS和MapReduce,还有HBase、Hive、Pig、Mahout、Zookeeper、Flume、Sqoop、Ambari,其中,HDFS和MapReduce是hadoop的两大核心,hbase、hive、zookeeper、flume、sqoop是记忆里听到比较多,原谅我上课没怎么听,现在来复习了。
3 (补整体框架的图上来)
需要用到的知识:
1 Java语言基础
2 Linux基础知识
3 虚拟机基本应用知识
另:比较常用到的是前两项,要用JAVA来编程,用Linux的shell命令操作一些文件。
目录
大数据与hadoop(书中第一章)
hadoop基础知识(书中第二章)
hadoop的各模块;hadoop1和hadoop2;RPC、MapReduce、HDFS、YARN的工作原理
hadoop开发环境配置与搭建(书中第三章)
单机模式;伪分布式模式;全分布式模式;基于hadoop的eclipse开发环境搭建
hadoop分布式文件系统(书中第四章)即HDFS
HDFS工作原理(读、写、删除、恢复数据过程);HDFS命令行;Web浏览HDFS文件;HDFS API
hadoop的I/O操作
压缩;I/O序列化类型;基于文件的数据结构
MapReduce编程基础
MapReduce编程过程、Mapper输入、Shuffle、Combiner、OutputFormat输出(理论和WordCount案例)、MapReduce类型
MapReduce高级编程
计数器;最值;全排序;二次排序;连接;
HBase
Hive
第一章
1 分布式系统:一个其组件分布在联网的计算机上,组件之间通过传递消息进行通信和动作协调的系统。(由独立的服务器通过网络松散耦合组成)
2 三个主要特征的解释:
并发性:分布式系统中的多个节点并发地操作一些共享的资源。
副本:分布式系统提供的一种容错机制,分为
数据副本:在不同节点上持有同一份数据,当一个借点上的数据丢失时,可以从其他节点的副本上读取该数据。
服务副本:多个节点提供同样的服务,每个节点都有能力接受来自外部的请求并进行相应的处理。
可扩展性:多台服务器协同工作,完成单台服务器无法处理的任务。
3 hadoop与大数据:Hadoop是一个对大量数据进行分布式处理的软件架构。框架最核心的设计是:为海量数据提供了存储的HDFS技术、为海量数据提供了计算的MapReduce技术。特点是低成本、高可靠性、高吞吐量。
第二章
未完待续...