在实际项目中,噪声总是会存在,消除噪声需要付出额外的代价(机器,人力)。并且有时候,噪声也并不是那么好识别,那么噪声在真实工业界场景中的影响到底如何?
从一些项目中可以发现,有的模型,可以在噪声水平较高的水平下,得到跟去噪后差不多的效果。而有的模型则非常容易受到噪声影响,会显著降低其准确率。(去除噪声的方法有很多,大部分也跟具体应用场景以及研发人员对数据的解读有关。所以在此不进行过多延伸。)
从现象观察来看,噪声影响其作用大小的一个比较主要的因素是 :【噪音对于不同label的数据是否均匀分布】,在均匀分布的情况下,模型能承受一定比例的噪声,而在有明显的倾斜时,会对预估结果造成比较大的影响。
其次是,受到【模型本身预估能力】的影响。在模型本身预估能力较强的情况下,受到噪声的影响也较小(可以理解为有较强的信号给予模型进行预估)。
在噪声的对抗中,低秩的假设,能对数据进行一定的去噪的优化。参考图像去噪声的Low-Rank Matrix Approximation方法.(目前LRMA主要有鲁棒主成分分析robust PCA, RPCA)、矩阵补全(matrix completion,MC)和低秩表示(low-rank representation,LRP)等三类模式。[1]
PS:在工科领域,理论作为引导,设计具体实验仍是鉴定其效果的最直接方法。
[1]: 原blog:http://blog.sina.com.cn/s/blog_bfb629e50102xhsw.html