在进行以下操作前,以经在虚拟机中安装了Hadoop集群环境。 下载解压 将spark下载解压到虚拟机中: 修改配置文件 以下命令进入spark配...
在进行以下操作前,以经在虚拟机中安装了Hadoop集群环境。 下载解压 将spark下载解压到虚拟机中: 修改配置文件 以下命令进入spark配...
一、安装虚拟机 点击从光盘或映像中安装,选择创建虚拟机的镜像 继续下一步,点击自定设置,修改虚拟机的名称 打开虚拟机设置菜单打开虚拟机设置菜单....
一些命令:ifconfig命令:查看与配置网络状态命令ifconfig eth0 192.168.0.200 netmask 255.255.2...
Source API 以下scala代码展示了几种source类型: flink从kafka获取源数据 首先pow文件需要添加如下依赖: 以下代...
Scala编写批处理和流处理wordcount 这部分,我们在idea上使用Maven编写Scala程序实现批处理wordcount功能。 po...
环境搭建 1、测试Hadoop集群环境 首先我们已经成功部署安装了一个hadoop集群,然后本地可以连接到集群的Master节点。假设集群Mas...
概述 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将...
MySQL的安装和部署 MySQL下载 hive的元数据一般存储在MySQL中,所以我们需要先安装一个MySQL: 如果centos报如下错误:...
什么是数据漂移 通常我们把从源系统同步进入数仓的第一层数据称为 ODS或者staging层数据,接入层 。数据漂移是接入层数据的一个顽疾。 数据...
概念 消费者和消费组 kafka消费者是消费组的一部分,当多个消费者形成一个消费组来消费主题时,每个消费者会接收到不同分区的消息。假设有一个T1...
专题公告
分享我的大数据博客