原本计划的预算在两万的历史数据,在半开源的数据共享平台找到了平替方案,折算下来,只花了预算的一成不到,由于是平台服务,就当打赏了。
金融数据领域的开源平台,我所了解的有tushare 、AKShare等,这些都仅供自己研究分析使用。当然某宝、某富也有二手数据供应,价格也不贵。
两年的期权历史数据,一个ETF期权品种,CSV格式,将近六个G,不大不小。但要做好数据清洗、计算衍生指标、做成宽表,数据量就大了。所以在基于python预言的空间效率及读写性能的考虑后,选择了以parquet的格式做这里存储。这种存储方式,相比CSV格式,压缩效率提高十倍,读写速度也能提高二三成。当然还有其他比如H5或者数据库等格式,综合以往总是因为共享、网络、掉电等导致的问题因素后,决定采用这个在大数据应用使用较广的parquet格式。
历史数据总算有了,接下来就是数据清洗、合成业务宽表。由于张总那边的各种卡壳,资源不足,就自己开始各个环节,亦步亦趋的往前吧。