一、报错信息 SparkSql代码写入Mysql逻辑如下,代码会自动生成目标Mysql表,报错如图: 报错信息: 二、解决方案 原因:代码自动生成的目标表字段和表编码为lat...
一、报错信息 SparkSql代码写入Mysql逻辑如下,代码会自动生成目标Mysql表,报错如图: 报错信息: 二、解决方案 原因:代码自动生成的目标表字段和表编码为lat...
一、报错 在进行SparkSql代码调试时,代码确认无误执行报如下错误:Exception in thread "main" java.lang.IncompatibleCl...
一、报错 在进行SparkSql代码调试时,不同的项目相同的pom.xml依赖相同的代码,其中一个项目正常执行,另一个项目报错如下:Exception in thread "...
一、Maven依赖 二、Spark代码
一、广播变量 1、广播变量的优点 不需要每个task带上一份变量副本,而是变成每个节点的executor存一份副本。这样的话, 就可以让变量产生的副本数量大大减少。 2、广播...
一、Mysql数据样例 数据表为job_details,数据样例如下: 需求1:求取每个搜索关键字search_key下的职位数量,并将结果入库mysql,注意:实现高效入库...
一、MapReduce完整流程 MapTask工作机制 ReduceTask工作机制 MapTask工作机制: (1)Read阶段:MapTask通过用户编写的RecordR...
一、测试数据 该数据采用json格式存储:id:代表当前用户微博的id;ids:代表当前微博用户关注其他微博用户的id列表;total_number:关注微博用户的总量。 {...
一、说明 近期工作中需要对Excel维护的数据库表表结构进行Oracle的DDL整理,故编写如下脚本。该脚本识别固定Excel文件,读取每个sheet页的数据库表结构信息后拼...
一、MapReduce编程指导思想 MapReduce的开发一共有八个步骤其中map阶段分为2个步骤,shuffle阶段4个步骤,reduce阶段分为2个步骤。 1. Map...
系统信息 date 显示系统日期 关机 (系统的关机、重启以及登出 ) 文件和目录 文件搜索 挂载一个文件系统 磁盘空间 用户和群组 文件的权限 文件的特殊属性 打包和压缩文...
前言 昨天我们已分享过一篇高质量HiveSQL优化的文章:HiveSQL优化方法与实践[http://mp.weixin.qq.com/s?__biz=Mzg3NjIyNjQ...
正文目录 1、表层面 1.1 利用分区表优化 1.2 利用分桶表优化 1.3 选择合适的文件存储格式 1.4 选择合适的压缩格式 2、HQL层面优化 2.1 执行计划 2.1...
思想和方法论: 如何建设数仓,如何构建主题域 缓慢变化维 几种处理方式 什么是维度建模,星型模型与雪花模型的区别 数仓的好处 分层的好处 怎么做数据质量,怎么保证及时性和准确...
补充一句: msck == Hive's MetaStore Consistency checK
问题整理 一、大数据环境配置 1.windows本地安装配置hadoop后,cmd执行"hadoop"后报错:ERROR:JAVA_HOME is incorrectly s...
题目: 现有城市网吧访问数据,字段:网吧id,访客id(身份证号),上线时间,下线时间规则1、如果有两个用户在一家网吧的前后上下线时间在10分钟以内,则两人可能认识规则2、如...
问题: 假如 max.request.size 大于 batch.size,那么该条消息会不会分多个 batch 发送到 broker? 回复: 如果一个 ProducerR...
题目: Employee 表包含所有员工。Employee 表有三列:员工Id,公司名和薪水。 请编写SQL查询来查找每个公司的薪水中位数。挑战点:你是否可以在不使用任何内置...
1 持续让数据用起来的价值框架 数据中台作为整个企业各个业务所需数据服务的提供商,通过自身的平台能力和业务对数据的不断滋养(业务数据化),会形成一套高效可靠的数据资产体系和数...