#数据平台实战 #1配置maven,tomcat,cbord的过程略 #2.在node01 启动mysql mysql -h192.168.18...
第一部分:Stream程序设计原理 #SparkStreaming设计动机 很多重要的应用要处理大量在线流式数据,并返回近实时的结果 • 社交网...
i:10010#SparkSQL概述及原理 提供了两种操作数据的方式? SQL查询? DataFrame和DataSet API1提供了非常...
#启动Spark JobHistoryServer第一步:修改yarn-site.xmlyarn.log.server.urlhttp://19...
(一)本地模式启动在node01上cd ~/apps/spark2.2 bin/spark-shell定义变量val rdd = s...
Flume 日志收集系统 #安装 在node01下 在hadoop用户下 cd ~/apps 在此路径下 解压后是 flume-1.8.0 ll...
Kafka 定义topic 类似于一个表 存储相同格式,有顺序的数据,传到kafka里面的数据叫消息。 按照磁盘顺序来读写数据 通过多分区,多副...
快乐大数据第5次课 hive(1)工作原理Hive的执行入口是Driver,执行的SQL语句首先提交到Drive驱动,然后调用compiler解...
快乐大数据第四课 Mapreduce的优化 1.Shuffle的过程 (1)每个Mag Task把输出结果写到内存中的环形缓冲区;当内存环形缓冲...