IP属地:辽宁
Spark并行度指在Spark作业中,各个Stage中task的数量,也就代表了Spark作业在各个阶段的并行度。合理设置并行度可以从以下几个方...
@TOC[Spark%E8%B8%A9%E5%9D%91vlog-%E6%8E%A8%E6%B5%8B%E6%89%A7%E8%A1%8Cspa...
背景 在项目开发中对流式数据使用Spark Structured Streaming进行处理,处理流程为:消息中间件(source) -> Sp...
背景 前段时间做的是一个流式项目里,场景为:对于流式数据,使用过滤规则进行实时过滤并产出结果数据。流式数据为源源不断的IP,筛选出在合格IP集合...
业务背景 项目中将两个表进行join,一个大表,一个小表,在平时200 executor-core * 20G executor-memory的...
背景 此次需要将10张表[A、B、C、D、E、F、G、H、I、J]的数据union与表∂中的一个字段进行join,以达到筛选数据的目的;其中表A...