IP属地:湖北
描述 针对kafka0.8.2的API,Spark Streaming有两个版本的Source,Receiver和DirectAPI,其中Rec...
1.创建与使用udf udf有两种使用方法,一是通过sparkSession注册,在sql中直接使用;二是在dataset中通过Column使用...
spark streaming的checkpoint目的是保证长时间运行的任务在意外挂掉后保证数据不丢失,checkpoint包含两种数据:me...
背景 在博客网站发布markdown格式的博客越来越方便,但发现好多个人博客的样式大都一样,研究发现好多都是使用github+hexo+个人域名...
概述 spark使用metrics的包路径为:org.apache.spark.metrics,核心类:MetricsSystem。可以把Spa...
Source源码调用 Structured Streaming在Source阶段的调用过程如上图 1.在start时会启动StreamExecu...
一、监控指标 使用sparkMetricSink监控的指标 二、考虑问题 spark自带的sink使用io.dropwizard.metrics...