原文地址:http://www.cnblogs.com/zhangyinhua/p/7647334.html
注:本系列为Hadoop学习笔记,非原创
大数据基础
一、什么是大数据?
(1) 一种规模大到在获取、存储、管理、分析方面都大大超 过传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低的四大特征。
(2)大数据技术的战略不在于掌握庞大的数据信息,而在于对含有意义的数据进行专业化处理。
二、大数据的基本特征?
容量(Volume)、种类(Variety)、价值(Value)、速度(Velocity)
三、大数据的架构
四、大数据处理平台
五、大数据的几个概念
集群(Cluster)、数据密集型(DIC)、计算密集型(CIC)
向上扩展(Scale-up):对硬件的扩展。主要是对cpu、内存、磁盘的扩展。
向外扩展(Scale-out):通过计算机群的方式来提高计算能力。主要是对服务器个数的扩展。
机器学习(Machine Learning)
云计算(Cloud Coumputing):通过互联网来提供动态易扩展且虚拟化的资源
Hadoop概述
一、什么是hadoop?
(1)一种分布式系统基础框架;
(2)核心设计:分布式文件系统HDFS和分布式处理框架MapReduce。HDFS为海量数据提供分布式存储,MapReduce为海量数据提供分布式计算;
二、Hadoop发展历程
三、Hadoop生态圈
(1)核心项目
Hadoop common(如系统配置工具Configuration、远程过程调用RPC序列化机制、抽象文件系统FileSytem等)
MapReduce、HDFS
(2)其他项目
面向具体领域或应用:mahout、X-Rime、Crissbow、lvory等
数据交换、工作流等外围支持系统:Chukwa、Flume、Sqoop、Ooize等
Hbase:
1、一个分布式的面向列的数据库;
2、构建在HDFS之上;
3、适用于Hadoop应用需要实时读写随机访问非常大型数据集。
Zookeeper:
1、一个分布式服务框架,解决分布式计算的一致性问题(如统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等);
2、其他Hadoop相关项目的主要组件。
Apache Pig:
1、一种数据流语言和运行环境,用于检索非常大量的数据;
2、运行于HDFS和MapReduce集群上。
Apache Hive:
1、最早Facebook设计,建立在Hadoop基础上的数据仓库框架;
2、管理HDFS中存储的数据,并提供SQL语言查询数据。
Apache Flume:
1、一个高可用、高可靠、分布式的海量数据采集、聚合和传输的系统,经常用于日志采集器。
Apache Sqoop:
1、SQL-to-Hadoop的缩写,主要用于结构化数据存储和Hadoop间的数据转换;
2、一种在数据库和HDFS间高效传输数据的工具。
mahout:
1、一个机器学习和数据挖掘的库,用于聚类、回归测试和统计建模等常见算法的MapReduce的实现。
Ambari:
1、Hadoop管理工具,用于监控、部署、管理集群。