因为之前做的评分卡模型主要基于lr,xgboost。先做一个鸢尾花数据集的逻辑回归例子,熟悉spark ml机器学习流程。
1
先读取hdfs中文件到rdd中,再转换为dataframe.这里利用反射机制推断RDD模式,也可以使用使用编程方式定义RDD模式。
除此之外,如果是规整的csv等文件(比如逗号分割的),直接用spark.read.csv简单导入到dataframe.
2
设计pipline,管道的流程。这里的流程为 label转索引编码-》features转索引编码-》lr模型-》预测结果索引编码转string
3 然后就是模型评估了,可以自己写代码评估,也可以用 spark的ml库提供的对模型的摘要总结(summary)
结果error值0.03,roc_auc值0.96。效果还不错
总结:整个流程使用下来,可能在数据的特征工程这块差别较大,后面实现一下数据预处理,离散,证据权重,iv值等。