240 发简信
IP属地:四川
  • spark-rpc部分源码走读

    RPC体系结构 spark1.6中的RPC体系结构大致如下: RpcEnv相当于容器,有host、port已及注册其中的RpcEndpoint,...

  • spark应用开发-streaming&kafka

    之前一段时间通过SparkStreaming+Kafka处理上网日志数据的一些记录,做个备忘。 KafkaUtils.createDirectS...

  • spark应用开发-日常监控

    运行监控对系统的重要性不言而喻,尤其是分布式环境中,程序运行是否正常,在哪些节点上运行,每个节点处理的数据量是否均匀,每个任务的处理时间是否大致...

  • 朴素贝叶斯算法

    算法描述 朴素贝叶斯算法是监督学习中分类算法中的一种。需要先通过学习一批分类正确的训练数据集得出模型才能进行分类,算法大致如下: 假设待分类的数...

  • spark应用开发-开发工具篇

    概要 目前Spark官方提供Java,Scala,Python三种语言的API。因为Spark是用Scala开发,而Scala本身是基于JVM的...

    0.1 5408 6 13