surprise!

日常

最近两个月一直在搞一个数据挖掘的项目,因为之前从来没有搞过这方面的东西,而且自己也只有python的语法基础,只能从零开始学习。这个数据量很大,刚开始给的是一个800兆的数据,后来2.0的版本就升级到了8.5G,真是让人头疼。

本来是一个三人的团队,刚开始的时候大家还在一起讨论怎么建立宽表,怎么分工合作,后来突然要做另一个项目,两个队友就被拉去做java开发了。剩我一个人在研究各种机器学习有关的算法,在这个阶段我是真的感觉到数学基础差对学计算机影响有多大了。像各种算法各种公式我是完全看不懂,我能怎么办,并没有人能教我这些,我只能一个一个百度,看太多的博客了,心酸。

还有各种库,像pandas,numpy,matplotlib,还有sklearn。学习它们我也记不清看多少视频了。

终于我把各种算法原理搞明白了,我就去催学姐给我做数据,学姐看了两天spark,帮我做出来一个缺少字段的数据,30多万条,我就开始我的first try了,过程很曲折,我用了一个决策树,我看到准确率挺高,以为成功了。其实就是lable为0的比例本来就特别大,测试一些数据基本上全是错的。

第二次尝试,我使用的是logistic回归,为了得到一个系数程序跑了两个多小时,因为数据量实在是太大了。最后的效果呢,recall值很高,达到了90%左右,但是误杀了将近1/3,因为最后评判标准是F1-score,所以一折合就感觉这个模型简直就是在瞎蒙。

这个时候真的是绝望,因为这是一个比赛,最后是有提交时间的,所以导师就天天催我,见我一次就问我怎么样了,能不能改进了,总得交点东西上去吧。。我也不知道该怎么办,直到上上周我在车上突然有了一个思路,我马上告诉学姐,让她帮我做一份更完整的数据,学姐答应周日晚上给我。然后上周我感觉五天全部都在补作业,很多很多,没干成活,导师又催我了,我说这个周末尝试重新建立一个模型。

我就想呀,问题肯定出在前期对数据的处理上,于是我就重新整理思路,开始了第三次尝试。

一,对于异常值的处理,我直接把那些空的和NaN的数据删掉,没有用的时间字段也删掉。

二,我做了一个“连续变量离散化”,对每个字段都排序然后分为八组,一~八组重新赋值为1~8。这一步我花了一下午,就是因为刚开始理解错了,以为离散化就是分成0和1。

三,计算每个分组变量与因变量的信息值IV。这里就出现了一个IV公式,很绝望,又看了好多博客。结果出来以后发现预测力挺不错,不敢相信,真的不敢相信,当时只是觉得自己的代码有问题,不过我还是接着建模了。

IV公式

四,由于lable为1的比例大概是1%,所以将所有的lable为1的数据取出,我用的大概有160条,然后将其他数据随机取出1600条,这样lable为1的比例就下降到10%。然后切分训练集和测试集,我是七三分。

五,我还是用了一个逻辑回归,但是我加上了梯度下降的策略。

就是本着试一试的心态,这时候已经到了周日下午,但是我是真的没想到F1–score达到了惊人的95%,也就是说我的模型非常准,当时我高兴的直接从椅子上蹦起来了,哈哈。

两个月的努力没有白费,继续加油!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,657评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,662评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,143评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,732评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,837评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,036评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,126评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,868评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,315评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,641评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,773评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,859评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,584评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,676评论 2 351

推荐阅读更多精彩内容

  • 因为去年是在幼儿园过的圣诞节,有位有的孩子害怕圣诞老人,所以老师告诉他们圣诞老人是假的,从那以后她都告诉我圣诞老人...
    暄妈食尚阅读 185评论 0 1
  • 最近看到后台有粉丝留言,让我推荐些好看的书,或者问怎么才能坚持做到每天看书,该怎么才能提升阅读能力等等这类的问题。...
    逸小文阅读 316评论 0 2
  • 词五首•云南游记(二) 词五首•云南游记(二) 徐宏 云南是一个美丽富饶的地方,被称为动植物王国。...
    sunxuhong阅读 587评论 4 8
  • 返回 <创业之书> 目录 《精益创业》
    加菲寻阅读 513评论 0 1
  • 项目用到的库 okhttp目前最流行的Http请求库 crashlyticsbug 收集工具 ViewPagerI...
    寒冬_腊月阅读 141评论 0 1