周日的深夜,适合静心读paper。。。在大数据,时空这两个维度其实缺一不可。空间数据管理 【Geospatial Data Management】是一个古老而又重要的课题。【本人夫人的博士导师的导师是Ralf Hartmut Güting,这位算是空间数据管理的超级大牛,扯远了】Apache Spark自身对Geospatial Data Management其实缺乏原生的支持,但是社区以Spark为基础,做了各种第三方library【Spark的生态实际上是社区最宝贵的财产】。
今天主要介绍一下GeoSpark 这个库。它扩展了Spark来支持range query, range join query, distance join query, K Nearest Neighbor query。并且提供R-tree, Quad-Tree这样的index, 也提供Uniform grids and KDB-Tree这样的partitioning。对细节和理论有兴趣的。大家可以读2018发表的journal paper Spatial data management in apache spark: the GeoSpark perspective and beyond
今年四月,项目的作者会在澳门的ICDE 2019会议上给大家演示,有机会可以去现场听听 Geospatial Data Management in Apache Spark: A Tutorial
以下是Tutorial对Spark的各个Geospatial data management system的总结。