240 发简信
IP属地:上海
  • 一个Spark DataFrame操作的例子

    1 定义数据库连接 2 读取两个表 3 连接 使用join,默认是left out join。条件判断是相等。然后删除掉一个重复的列card_i...

  • 使用bind架设内网dns

    在之前的spark on yarn集群配置中,感觉最麻烦的就是各个机器之间的网络配置了,一直想简化这部分的工作。一开始的办法是一台机器一台机器的...

  • Resize,w 360,h 240
    Spark On Yarn部署

    本文使用的软件环境同第一篇,另增加了hadoop的环境: Linux 4.4.0-62-generic #83-Ubuntu x86_64 GN...

  • 使用Spark KMeans对地点发生重量进行聚类

    聚类 Spark的机器学习库分成两类,一类是针对RDD的,在org.apache.spark.mllib包下,另一类则是针对DataFrame的...

  • Resize,w 360,h 240
    使用Zeppelin代替spark-shell

    部署 把下载的bin-all.tgz上传到服务器,解压放到自己常用的目录下。为了使用spark.read.jdbc功能,需要上传一份mysql ...

    0.1 2761 0 10
  • Resize,w 360,h 240
    Spark性能调优

    尽可能的过滤原始数据在上次实践中,我们使用 过滤并读取了数据库。如果我们要多加几个过滤条件,要小心一个陷阱,Array[String]参数并不是...

  • Spark连接JDBC数据源

    在实际的项目环境中,成熟的技术体系对关系型数据库的依赖远远超过hdfs,而且对大数据运算的结果,实践中也倾向于保存到数据库中,以便进行多种方式的...

  • Spark RDD与本地容器交互

    今天要从之前的数据中找出每个地点的一段时间内的产品发生率,即某地点有产量的天数/总天数。 在此之前,为了输出的可读性,我们需要用地点别名代替地点...

  • 使用Docker建立Mysql集群

    软件环境介绍 操作系统:Ubuntu server 64bit 14.04.1Docker版本1.6.2数据库:Mariadb 10.10(Ma...