9月12号到10月18号期间,参加了公司举办的两个数据挖掘比赛,广告转化率预估和金融违期率预估,广告最终第六,金融最终第三。
特征是模型的上线,线下和线上不一样,线下特征可以做的粗糙,但是泛化能力和覆盖面一定要广。意思就是可以挖的特征都应该加上,宁可多,不可少。
不同比赛,对特征挖掘的方法大不一样,一定要结合比赛的背景知识进行挖掘,没有统一的标准。
模型要尝试不一样的空间表达能力的模型。树模型,lightgbm,xgboost是必选的,dnn也是必选,ffm表达能力也不错。
单模型的预测能力,xgboost不比dnn差,dnn并不是万能的。在数据量少的情况下,dnn的预测能力更弱。
模型融合能力很强大,xgboost和dnn结果简单的加权融合,效果非常好。
不同比赛,融合算法也不一样。广告的,最终用验证机训练融合模型很有效;金融的,做stack有效。
初赛,不要过早的做融合,不优化单模型效果。因为过早融合,会及早透支你的最好结果。复赛时候,看着别人蹭蹭的往上涨,自己后续乏力。两个比赛,初赛都是在前三,复赛都被后面的人追上来了。
在咖啡馆写过代码,在地铁中写过代码,早上七点起床第一件事看模型结果,晚上十二点才回家等等,也许这些只能在比赛中才会出现。短期有目的的做一件事,是享受,也是折磨。
比赛贵在坚持,但是个人不太喜欢这种hack形式的比赛,很费心智,还是喜欢平平静静的写代码思考问题,也许这是第一次也是最后一次参加比赛吧。
数据挖掘大赛
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- //我所经历的大数据平台发展史(三):互联网时代 • 上篇http://www.infoq.com/cn/arti...
- 机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1) 注...