写在前面:我是一个机器学习的初学者,在做项目的过程中遇到了一些问题,解决了一些问题,获得了一些感悟。在此处做记录并分享,只是为了多一些和大家交流的机会。如有错漏,请不吝赐教。欢迎在评论区交流。
-
问题描述
检测样本中病原微生物的丰度,并以病原微生物的丰度为特征,结合其他特征构建机器学习分类模型。在数据预处理的过程中发现有很多空值,如下表:
sampleid | species0 | species1 | species2 | ... |
---|---|---|---|---|
s1 | x1 | x2 | ||
s2 | x3 | x4 | ||
s3 | x5 | |||
... | x6 |
那么,用 0 填充空值是否合理?
-
问题分析
首先,没有检测到病原本身就可以视为丰度为 0。另外数据标准化时,StandardScaler()
本身为线性变换,只会将数据进行线性地缩放和平移,而不会改变数据的形状。