hadoop技术数群简介
HDFS
概念:分布式文件系统,是hadoopdeb基石,具有高容错、可拓展的特性,可以提高数据的访问的吞吐量
YARN
概念:hadoop资源调度工具,弥补了上一代hadoop的namenode工作瓶颈和兼容性差的问题
MAPRECUDE
概念:hadoop的数据计算模型,将数据处理分为map和reduce两个过程进行拆分和计数,用户可以通过接口用javap、Python等对数据进行计算
SPARK
概念:新一代的计算框架,对迭代计算很有优势,与mapreduce相比性能提升明显,可以与yarn集成,支持sparksql
HBASE
概念:分布式、面向列族的开源数据库,适合对大数据U进行随机实时读写
HIVE
概念:hadoop数据仓库工具,以sql的方式对数据进行访问
FLUME
概念:海量日志采集、聚合、传输系统,可定制数据接受和发送格式
SQOOP
概念:结构化数据与hadoop数据互转工具
KAFKA
概念:分布式消息订阅系统,具有分布式高可用的特性
hdfs
概念:
分布式文件系统(hadoop distributed file system) ,hadoop的基石,非常适合在廉价的硬件集群上做海量数据的存储
特点:
廉价硬件
海量数据
流式数据访问
缺点:
实时访问弱
大量小文件
不支持多用户操作
HDFS核心节点:
namenode:是hdfs主从结构中主的角色,是hdfs的大脑,维护hdfs的目录树完整
datanode:hdfs中从的角色,在namenode的知道下完成io任务,根据需要存储和检索数据块
secondary:hdfs数据完整性的辅助守护进程,定期保存数据快照,定期对数据快照和操作日志进行整合
安装流程:
1.安装包选择:
jdk:jdk-8u91-linux-x64.tar.gz
cdh:hadoop-2.6.0-cdh5.15.1.tar.gz
2.java环境变量配置
vim /etc/profile 编辑环境变量
export JAVA_HOME=/home/hadoop/app/jdk1.8.0_91
export PATH=$JAVA_HOME/bin:$PATH
source /etc/profile 环境变量立即生效
3.hadoop安装
创建hadoop用户,adduser hadoop
1)在hadoop根目录下创建文件夹 app、data、lib、shell、software
app:软件安装目录
data:数据存放目录
lib:引用包目录
shell:shell命令存放目录
software:软件存放目录
2)将安装包hadoop-2.6.0-cdh5.15.1.tar.gz 拷贝至服务器 并解压至app目录
3)hdfs环境变量配置
export HADOOP_HOME=/home/hadoop/app/hadoop-2.6.0-cdh5.15.1export PATH=$HADOOP_HOME/bin:$PATH
source /etc/profile 环境变量立即生效
4)配置core-site.xml 配置文件
vim app/hadoop-2.6.0-cdh5.15.1/etc/hadoop/core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop000:8020</value>
</property>
</configuration>
5)配置hdfs-site.xml
vim app/hadoop-2.6.0-cdh5.15.1/etc/hadoop/core-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/app/tmp</value>
</property>
</configuration>
6)启动hadoop
app/hadoop-2.6.0-cdh5.15.1/sbin/start-dfs.sh
7)查看是否启动成功
jps:成功如下
2258 NameNode
2531 SecondaryNameNode
2677 Jps
2362 DataNode