1.通过flume,实时收集服务器上的日志信息,sink到hdfs 2.使用mapreduce对数据进行清洗和校验,规整出可建表的数据,进而创建贴源表 3.由hive创建贴源...
IP属地:天津
1.通过flume,实时收集服务器上的日志信息,sink到hdfs 2.使用mapreduce对数据进行清洗和校验,规整出可建表的数据,进而创建贴源表 3.由hive创建贴源...
分布式基础理论 1.1)、什么是分布式系统? 《分布式系统原理与范型》定义: “分布式系统是若干独立计算机的集合,这些计算机对于用户来说就像单个相关系统” 分布式系统(dis...
一. 概念 所谓HA,即高可用(7*24小时不中断服务) 实现高可用最关键的是消除单点故障 hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的...
一.MAPREDUCE框架结构及核心运行机制 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;Mapreduce核心...