天池精准医疗大赛-血糖值预测

近一个月的努力,最终却没能进入复赛,心里难受的很,写点东西记录下能好受点吧。原本是没有想写文章的,毕竟成绩不是很好。

比赛经过一个月的时间对我而言确实是一个挑战,以往玩比赛基本上两个星期就不在坚持了,这次比赛算是坚持的时间最长的,当然也是最煎熬的。比赛过程中尝试了很多方法,比如:预测空值、gbdt特征、指标正常范围、指标组合得出特定的疾病(血脂)、暴力特征生成、聚类、分类、构造新特征等等。

尝试了这么多方法,最终有效的却很少(或许是被A榜给迷惑了吧),很多方法在本地的CV中都有一定的提升,但是提交线上后A榜都明显降低,最后B榜也就没有使用。

总结下有用的东西吧:

(1)空值填充,这里我也去尝试了:随机森林预测空值、均值、中位数,随机森林线下提升效果不是很明显(应该是因为我只处理了几个字段,其他的还是用了均值),线上却降了;尝试中位数是因为考虑到很多异常指标的异常值非常大,如果直接取均值可能已经偏离了正常范围(一般没有做改项检测,我认为是没有必要检查,应该是正常的)。

(2)暴力特征生成:都原始特征进行暴力组合或普通的转换,如特征间加减乘除等运算,然后在使用lgb进行特征重要度筛选,保留有效特征;因为生成的特征较多,无法都提交线上测试,只做了本地cv验证,效果也是有提升,具体数据也不想找记录了。最终也是线上暴跌了。

(3)特征字段分析:通过对特征数据分布分析,计算偏度、峰度,发现有部分字段偏离标准整体分布较为严重,使用log转换即可。对这些字段做log转换之后又去看了和标签变量的相关系数,部分字段的相关系数直接涨了10%。(线上线下是能够同步降低的)

var = "甘油三酯"

tmp["%s"%var] = np.log1p(tmp[var])

var ="*天门冬氨酸氨基转换酶"

tmp["%s"%var] = np.log1p(tmp[var])

var = "*丙氨酸氨基转换酶"

tmp["%s"%var] = np.log1p(tmp[var])

var = "*碱性磷酸酶"

tmp["%s"%var] = np.log1p(tmp[var])

var = "*r-谷氨酰基转换酶"

tmp["%s"%var] = np.log1p(tmp[var])

var = '白球比例'

tmp["%s"%var] = np.log1p(tmp[var])

(4)构造新特征:根据业务去创造特征当然是最合适的,我从指标以及体检报告分析,发现以下指标可以直接计算得到,且体检报告中也有这些指标(说明这些指标是有医学参考意义吧)。线上线下能够保持同步改进。

d_data["中性粒细胞"] = d_data["白细胞计数"]*d_data["中性粒细胞%"]

d_data["单核细胞"] = d_data["白细胞计数"]*d_data["单核细胞%"]

d_data["嗜酸细胞"] = d_data["白细胞计数"]*d_data["嗜酸细胞%"]

d_data["嗜碱细胞"] = d_data["白细胞计数"]*d_data["嗜碱细胞%"]

d_data["中间细胞%"] = d_data[['单核细胞%', '嗜酸细胞%', '嗜碱细胞%']].apply(lambda x: np.sum(x),axis=1)

d_data["中间细胞"] = d_data["白细胞计数"]*d_data["中间细胞%"]

(5)目标分析:做了分布分析,同样偏度、峰度不符合标准正太分布,做log转换,再看转换后的目标与各特征字段间的相关性有不同程度的提高。极值分析:考虑到这题的问题是高血糖对mse评测结果影响特别大,所以只丢弃了极高值(取了血糖<20)。

(6)模型融合:使用mlens融合(之前一直使用加权平均,但是权重很难调整,同事推荐了mlens包,挺简单的容易上手,kaggle上也有人用);在使用多模型融合之前一定要先看看各个子模型之间预测结果的相关性(相关性太高,融合的效果越不明显),最终从结果相关性、算法原理去挑选子模型。(可惜的是A榜使用融合方案却不如lgb单模型,导致后来B榜没有使用多模型,但实际B榜使用多模型比单模型好0.02,排名相差了100,融合模型在B榜可以到0.6245)

def createModel():

    ensemble = SuperLearner(scorer=fevalMSE, random_state=2017, verbose=2)

    ensemble.add([

                Ridge(),

                lgb.LGBMRegressor(boosting_type='gbdt',learning_rate=0.01,max_depth=10,num_leaves=51,n_estimators=850),

                  GradientBoostingRegressor(),

                  BayesianRidge()

                  ])

    ensemble.add_meta(LinearRegression())

    return ensemble

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,951评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,606评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,601评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,478评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,565评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,587评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,590评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,337评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,785评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,096评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,273评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,935评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,578评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,199评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,440评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,163评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,133评论 2 352

推荐阅读更多精彩内容