Spark-Streaming Windows开发环境案例搭建运行(图文)

前言

最近在专注Spark开发,记录下自己的工作和学习路程,希望能跟大家互相交流成长
具体代码可参考本人GitHub地址:
https://github.com/guofei1219/RiskControl
本文章对应代码地址:
https://github.com/guofei1219/RiskControl/tree/master/src/main/scala/clickstream
具体代码实现以及思路请参考笔者之前发布的文章:
//www.greatytc.com/p/ccba410462ba
鉴于文章篇幅有限,关于Maven/InteliiJ IDEA/Scala等知识请自行补充
本文章发布后会及时更新文章中出现的错误及增加内容,欢迎大家订阅
QQ:86608625 微信:guofei1990123

背景

Spark运行模式有 local/standalone等等,为了方便开发测试开发过程中使用Local模式运行

本地开发环境介绍

开发工具:IntelliJ IDEA 2016.1.2
打包工具 : apache-maven-3.3.9
Spark版本:1.3.0
JDK版本:jdk1.8.0_66
Scala SDK版本:2.10.4
Kafka版本:kafka_2.10
系统版本:Windows 10旗舰版
本机IP:192.168.61.1

实现思路及部分代码

  1. 模拟一个Kafka消息生产者往对应 Kafka Topic写数据,核心逻辑如下:
val topic = "user_events"
val brokers = "hc4:9092"
val props = new Properties()
props.put("metadata.broker.list", brokers)
props.put("serializer.class", "kafka.serializer.StringEncoder")
val kafkaConfig = new ProducerConfig(props)
val producer = new Producer[String, String](kafkaConfig)
while(true) {  
// prepare event data  val event = new JSONObject()  
event
.put("uid", UUID.randomUUID())//随机生成用户id 
.put("event_time", System.currentTimeMillis.toString) //记录时间发生时间    
.put("os_type", getOsType) //设备类型    
.put("click_count", click) //点击次数  
// produce event message  
producer.send(new KeyedMessage[String, String](topic, event.toString))  
println("Message sent: " + event)  
Thread.sleep(200)
}
  1. Spark-Streaming程序消费对应 Kafka Topic中数据并做相关业务逻辑操作
    Streaming程序消费Kafka数据核心逻辑如下:
// Kafka Topic
val topics = Set("user_events")
// Kafka brokers
val brokers = "hc4:9092"
val kafkaParams = Map[String, String](  "metadata.broker.list" -> brokers,  "serializer.class" -> "kafka.serializer.StringEncoder")
// Create a direct stream
val kafkaStream = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topics)
  1. 统计结果存储
    结果数据保存HBase核心逻辑代码:
  /**
        userClicks.foreachRDD拿到的是微批处理一个批次数据
        rdd.foreachPartition拿到的是一个批次在Spark各节点对应的分区数据
        partitionOfRecords.foreach拿到对应分区的每条数据
    */
userClicks.foreachRDD(rdd => {
  rdd.foreachPartition(partitionOfRecords => {
    //Hbase配置
    val tableName = "PageViewStream"
    val hbaseConf = HBaseConfiguration.create()
    hbaseConf.set("hbase.zookeeper.quorum", "hc4:9092")
    hbaseConf.set("hbase.zookeeper.property.clientPort", "2181")
    hbaseConf.set("hbase.defaults.for.version.skip", "true")

    partitionOfRecords.foreach(pair => {
      //用户ID
      val uid = pair._1
      //点击次数
      val click = pair._2
      System.out.println("uid: "+uid+" click: "+click)
      //组装数据  create 'PageViewStream','Stat'
      val put = new Put(Bytes.toBytes(uid))
      put.add("Stat".getBytes, "ClickStat".getBytes, Bytes.toBytes(click))
      val StatTable = new HTable(hbaseConf, TableName.valueOf(tableName))
      StatTable.setAutoFlush(false, false)
      //写入数据缓存
      StatTable.setWriteBufferSize(3*1024*1024)
      StatTable.put(put)
      //提交
      StatTable.flushCommits()
    })
  })
})

具体执行

  1. 运行Kafka生产者模拟器(KafkaMessageGenerator)
    附加:程序打包到Linux环境执行使用
//java -classpath ./spark-streaming-1.0-SNAPSHOT-shaded.jar guofei.KafkaEventProducer
java -classpath Jar包路径  KafkaMessageGenerator类全路径
IntelliJ IDEA.jpg
  1. 运行Spark-Streaming主程序(PageViewStream),浏览器打开Spark UI界面,下图为Job运行情况,URL地址:
    http://本地IP:4040/jobs
SparkUI.jpg
  1. 通过hbase客户端(hbase shell)查看对应表统计的数据
hbase shell
scan 'PageViewStream'
HBase Cli.jpg

FAQ

  1. 运行Streaming主程序报找不到 hadoop二进制文件
Failed to locate the winutils binary in the hadoop binary path

Streaming本地运行模式需要本地装有配置好 HADOOP_HOME的hadoop环境
解决:解压window平台下编译的hadoop组建,配置环境变量HADOOP_HOME并重启IDEA

  1. 权限验证失败
SecurityManager: authentication disabled; ui acls disabled; users with view permissions: Set(hc-3450); users with modify permissions: Set(hc-3450)
Exception in thread "main" java.lang.NoSuchMethodError: scala.collection.immutable.HashSet$.empty()Lscala/collection/immutable/HashSet;

原因:Scala SDK版本与Spark和Kafka内置Scala版本不一致
解决:Scala SDK换成Spark和Kafka对应的Scala版本

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 196,583评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,669评论 2 374
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,684评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,682评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,533评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,396评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,814评论 3 387
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,458评论 0 255
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,745评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,789评论 2 314
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,565评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,410评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,828评论 3 300
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,050评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,342评论 1 253
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,793评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,010评论 2 337

推荐阅读更多精彩内容