SparkStreaming 的代码在哪里运行

由于实习做的一个项目用 SparkStreaming 计算全量实时更新的数据,产生了对任务运行过程中代码运行位置的困惑( Driver 端执行还是 Executor 端执行?)做了以下测试。
得出的结论有:

  • 在 Driver 端定义的变量如果不广播,则在 Executor 端为 null,即使变量类型为分布式的 DataSet
  • transform,foreachRDD 算子中的代码在 Driver 端运行,所以 Driver 端的变量对其是可以使用的,但是对于细化到 RDD 的算子中的运算如 map,foreachPartition,则是在 Executor 端运行
  • 在 Driver 端定义的变量若为 DataSet,则再使用 map 算子是在 Executor 端运行的
object sqlWordCount {

  private var product_skuDataSet:Dataset[Row] = null
  private var kafkaParams :Map[String,Object] = null
  private val mysql_url = ""

  def getDimensionRDD(spark:SparkSession, url: String, table: String): Dataset[Row] = {
  // 打印在 driver
    System.err.println("get dimensionRDD")

    var rowRDD: Dataset[Row] = null
    val prop: util.Map[String, String] = new util.HashMap[String, String]
    prop.put("url", url)
    prop.put("dbtable", table)
    prop.put("driver", "com.mysql.jdbc.Driver")
    rowRDD = spark.read.format("jdbc").options(prop).load.coalesce(1)
    rowRDD
  }
    def main(args: Array[String]) {

      val sparkConf = new SparkConf().setAppName("SqlNetworkWordCount")

      if(args.length>0) sparkConf.setMaster("local[4]")

      val ssc = new StreamingContext(sparkConf, Seconds(5))

      kafkaParams = Map[String, Object](
        "bootstrap.servers" -> "kafka1:9092,kafka2:9092",
        "key.deserializer" -> classOf[StringDeserializer],
        "value.deserializer" -> classOf[StringDeserializer],
        "group.id" -> "want",
        "auto.offset.reset" -> "latest",
        "enable.auto.commit" -> (false: java.lang.Boolean)
      )

      val topics = Array("test")
      val lines = KafkaUtils.createDirectStream[String, String](
        ssc,
        PreferConsistent,
        Subscribe[String, String](topics, kafkaParams)
      )

      val words = lines.map(record => record.value).flatMap(_.split(" "))
      words.transform(rdd =>{

        val spark = SparkSessionSingleton.getInstance(rdd.sparkContext.getConf)

        if (product_skuDataSet == null ) {
          System.err.println("get product_sku from mysql")
          product_skuDataSet = getDimensionRDD(spark, mysql_url, "product_sku")
        }

        import spark.implicits._

        val wordsDataFrame = rdd.map(w =>{
          /**
            * 打印在 executor 端
            */
          System.err.println("execute map here:"+ Thread.currentThread().getName)

          /**
            * executor 无法获得变量的引用,即使这个变量是dataset
            * 报 NullPointException
            */
//          product_skuDataSet.createOrReplaceTempView("product_sku")

          Record(w)
        } ).toDF()

        product_skuDataSet.limit(100).coalesce(2).map(row => sku(row.getLong(0),row.getString(1)))
            .foreachPartition(iterator =>{
              while(iterator.hasNext){
                val sku = iterator.next()
                /**
                  * 在 executor 端输出
                  */
                System.err.println("run in:"+Thread.currentThread().getName)
                System.err.println(sku.id+": "+sku.sku_code)
              }
            })

        wordsDataFrame.createOrReplaceTempView("words")

        val wordCountsDataFrame = spark.sql("select word, count(*) as total from words group by word")
        /**
          * driver 端打印
          */
        wordCountsDataFrame.show()

        rdd
      }).foreachRDD(rdd =>{})

      ssc.start()
      ssc.awaitTermination()
    }
  }


/** Case class for converting RDD to DataFrame */
case class Record(word: String)

case class sku(id:Long , sku_code:String)

/** Lazily instantiated singleton instance of SparkSession */
object SparkSessionSingleton {

  @transient
  private var instance: SparkSession = _

  def getInstance(sparkConf: SparkConf): SparkSession = {
    /**
      * driver 端执行
      */
    if (instance == null) {
      System.err.println("init sparkSession here")
      instance = SparkSession
        .builder
        .config(sparkConf)
        .getOrCreate()
    }
    instance
  }
}
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,639评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,277评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,221评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,474评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,570评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,816评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,957评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,718评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,176评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,511评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,646评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,322评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,934评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,755评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,987评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,358评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,514评论 2 348

推荐阅读更多精彩内容