Hadoop软件栈(生态系统)

图片发自简书App


Hadoop是Apache开源项目,是一个分布式大数据处理系统。Hadoop由Doug Cutting和Mike Cafarella在2005年创造。现在已经重构到Yarn(Hadoop2.0)!Mapreduce是一个批处理框架用于大数据集的计算,它简单而且强大!使用Hadoop系统可以简单的实现对大量数据的有效管理!新版的YARN的核心组件包括job tracker, resource management(资源管理器),job scheduling(资源调度器) 和monitoring(监控器)。HDFS(分布式文件系统)作为后台文件系统。Mapreduce成为一个独立的组件,YARN也可以集成Apache PIG, Apache Hive,HBase(列值数据库)等其他的处理组件。其他组件:

Oozie,它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大型的任务。

Sqoop,实现SQL数据库与HDFS的双向交互。

Tez 一个新的分布式执行框架,支持DAG作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能。它并不直接面相最终用户,但如果HBASE,HIVE等产品使用Tez将大幅提高速度!

Spark 传统Hadoop的替代者,使用内存计算提高了近100倍的速度,可以简单的执行复杂的计算,而且很好的支持机器学习。它可以容易的集成到YARN中!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容