动态分区 参数说明hive.exec.dynamic.partition是否开启动态分区,默认是false。如果要开启动态分区,就设置为true...
RDD的创建和保存1.1 textFile从HDFS中读取一个文本文件1.2 makeRDD、parallelize都会创建一个新的Parall...
注:这篇博客讲的是自己对Spark的初步认识和学习,可能会有错误。参考资料是厦门大学的Spark学习基础,对应网址上有关于Spark运行机制的6...
场景: 读取2g大小的文件,做一些简单的处理并将保存结果,为了方便的下载我将结果数据分成2个分区,分区方式是.coalesce(2).sav...
这里我主要是记录在Scala中使用gson.JsonParser时碰到的一些问题,假设我已经创建了一个JsonParser类,即val pars...
本章讲的是评分预测问题,也就是如何通过已知的用户历史评分记录预测未知的用户评分记录。 评测算法 1. 平均值 取平均值作为预测结果是最简...
本章主要讲了如何设计一个真实的推荐系统。前面几章都是从理论上讲述了什么是推荐系统?如何利用用户和物品的信息来设计和优化推荐算法?但推荐算法毕...
第6章的标题是“利用社交网络数据”,为什么要用社交网络数据?答:好友的推荐对于增加用户对推荐结果的信任度非常重要。 社交网络定义了用户之间...
本章主要讲了利用用户的上下文信息进行更加个性化的推荐。上下文包括用户访问推荐系统的时间、地点、心情等,本章主要是讲如何利用时间信息和地点信息...