题目的要求是:
已知且仅知全国所有城市距今千年来的每天(包括今天)最高最低气温,阴晴雨雪和风力风向,要预测明天北京的最高气温,请详述如何构造样本点和几大类特征会使得预测会很准已知且仅知全国所有城市距今千年来的每天(包括今天)最高最低气温,阴晴雨雪和风力风向,要预测明天北京的最高气温,请详述如何构造样本点和几大类特征会使得预测会很准确。
我们首先从业务系统来去考虑,天气系统这样的强时序性系统最本质的特点其实是有很大的时空局限性和相互作用的局域性,时间和空间以及地域都会对天气的预测产生很大的影响.而我们要去做一个很好的预测其实最主要的就是去减少variance,而使用深度神经网络(比如CNN)就会有这样特别好的特点,因为CNN本身就是线性微分迭代.如果是用过去一段时间的统计来订正预报的话,是可以的。鉴于天气预报的特点,训练期在45天是比较合适的.
而从业务本身来看,我们需要的参数会很多,因此必须要加入修正项,而修正项一定会有未知参数,当未知参数会很多,这样就变成了神经网络的调参,另一个方面,我们现在已经知道的参数尽管可能很全面,但是还是可能不够完整的描述系统,因此我们还要加入隐变量,这样就跟RNN很相似.而在处理参数上,的确是需要对样本进行变换,进行重新构造,比如温度保持不变,天气是离散的,而这样就需要映射成向量或者变量,风力不变,风向也是类似的映射.
其实我自己有一个很大胆的想法,就是用周志华教授的随机深林算法,样本无需进行任何处理,直接上.效果我觉得应该还OK.
PS:想到之前看到的一篇论文,这样的天气预测其实可以算是一种时空序列预测问题(spatiotemporal sequence prediction),而这篇论文可以将CNN和LSTM去结合起来,然后专门处理时空序列问题,其实也可以搭建神经网络去解决天气预测问题.
PSP:最后强调一下,统计推断并不代表可以不考虑物理了,实际上统计推断是在有物理知识下seeking alpha;如果你觉得不需要物理那么你一定做错了
参考资料:
微软在KDD的关于用神经网络预测天气的论文
http://erichorvitz.com/weather_hybrid_representation.pdf
ConvLSTM