240 发简信
IP属地:山西
  • Resize,w 360,h 240
    Hive、Spark SQL任务参数调优

    动态分区 参数说明hive.exec.dynamic.partition是否开启动态分区,默认是false。如果要开启动态分区,就设置为true...

  • Resize,w 360,h 240
    常用Spark算子总结

    RDD的创建和保存1.1 textFile从HDFS中读取一个文本文件1.2 makeRDD、parallelize都会创建一个新的Parall...

  • Spark入门学习

    注:这篇博客讲的是自己对Spark的初步认识和学习,可能会有错误。参考资料是厦门大学的Spark学习基础,对应网址上有关于Spark运行机制的6...

  • 记录Spark中使用coalesce遇到的坑

    场景:   读取2g大小的文件,做一些简单的处理并将保存结果,为了方便的下载我将结果数据分成2个分区,分区方式是.coalesce(2).sav...

  • 记录使用gson碰到的问题

    这里我主要是记录在Scala中使用gson.JsonParser时碰到的一些问题,假设我已经创建了一个JsonParser类,即val pars...

  • Resize,w 360,h 240
    《推荐系统实践》第八章学习笔记

      本章讲的是评分预测问题,也就是如何通过已知的用户历史评分记录预测未知的用户评分记录。 评测算法 1. 平均值   取平均值作为预测结果是最简...

  • Resize,w 360,h 240
    《推荐系统实践》第七章学习笔记

      本章主要讲了如何设计一个真实的推荐系统。前面几章都是从理论上讲述了什么是推荐系统?如何利用用户和物品的信息来设计和优化推荐算法?但推荐算法毕...

  • 《推荐系统实践》第六章学习笔记

      第6章的标题是“利用社交网络数据”,为什么要用社交网络数据?答:好友的推荐对于增加用户对推荐结果的信任度非常重要。  社交网络定义了用户之间...

  • 《推荐系统实践》第五章学习笔记

      本章主要讲了利用用户的上下文信息进行更加个性化的推荐。上下文包括用户访问推荐系统的时间、地点、心情等,本章主要是讲如何利用时间信息和地点信息...

个人介绍
机器学习入门选手