hadoop是什么
- hadoop是一个由Apache基金会所开发的分布式系统基础框架
- hadoop实现了一个分布式文件系统,hdfs
- hadoop实现了一个分布式计算系统,mapreduce
- hadoop实现了一个资源管理系统,yarn
hadoop的特点
- 高可靠性。hadoop按位存储和处理数据的能力值得人们信赖。
- 高扩展性。hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可以方便的扩展到数以千计的节点中
- 高效性。hadoop能够在节点之间动态的移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
- 高容错性。hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
- 低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本低。
hadoop hdfs核心组件
** hdfs有两个核心角色:name node、data node **
Name Node仅有一个,提供元数据服务;Data Node为hdfs提供存储块。
Name Node的职责:
- 管理文件系统名称空间和控制外部客户机的访问
- 负责元数据的信息管理
Name Node的职责:
- 负责数据存储
- 定期向Name Node汇报存储的文件信息
mapreduce核心组件
mapreduce是什么
MapReduce是一种编程模型,用于大规模数据集(大于1T)的并行运算。
mapreduce能解决什么问题
逐渐消亡,被cloud dataflow代替
mapreduce计算模型
job tracker 和 task tracker
大数据技术生态体系
- hadoop(hdfs, mapreduce, yarn):最基础的数据处理框架,擅长离线数据分析。
- zookeeper: 分布式协调服务基础组件
- hbase:分布式海量数据库,基于hdfs,离线分析和在线业务
- hive sql:数据仓库工具,使用方便,功能丰富,基于MR,延迟大
- sqoop:数据导入导出工具,关系数据库和hdfs的数据桥梁
- flume:数据采集框架
- storm:实时流式计算框架
- spark:基于内存的分布式运算框架,一站式处理。