探索和学习MySQL中GIS相关功能和特性
探索流程:
这里记录了学习和了解MySQL中GIS特性相关内容的过程。
- 配置了一台用于测试的MySQL Server 5.7
- 在浏览官网的过程中了解到一个GUI工具:MySQL Workbench,很好玩
- 开始了解GIS相关内容,但是百度不到很详细的介绍和相关内容
- 访问MySQL官方论坛,找到了很多很好的内容,但是都TM是英语。
- 了解到需要用到测试数据,都推荐OpenStreetMap,遂前往了解。OSM官网可以下载部分地图数据或者打包下载中国数据,数据格式不同。中国数据.PBF使用上较繁琐,区域数据.OSM可是通过记事本打开(其实可以当作XML文件内容即可)。
- 了解到地图数据大多采用一些像PostgreSQL、PostGIS、MongoDB等或Redis之类的NoSQL存储地理位置信息和检索,此类数据库多有GIS相关的处理函数和方法。
- 了解到地理位置信息的数据结构多采用OSM的通用数据结构。但是也可以变通。
- 在MySQL官方论坛找到一个例子,了解到可以用过一个数据导入脚本将OSM的数据直接导入MySQL数据库,并且此脚本会自动根据经度和纬度生成geometry列,并能对此列添加spatial index。但是这玩意儿需要Perl语言,WTF。
- 下载Perl并安装,这玩意儿分为官网版和所谓社区版,官网版就是全部的开源和商业功能的安装包,社区版又叫草莓,是完全的开源功能的安装包,抱着试试看的态度,直接下载草莓传送门。安装成功后,CMD输入
perl -v
有输出版本信息表示安装成功。 - 下载网友自行修改的OSM导入脚本传送门,用RAR解压,将OSM目录放置到Perl的安装目录下的
perl\site\lib\
下即可。 - 在修改了导入脚本
osmdb.pm
后终于成功导入了osm数据。
开始正式学习:
测试数据已经导入成功,下面开始对GIS相关函数和GEOHASH进行了解和体验;
geometry(几何类型)
mysql中geometry类型的简单使用
MySQL空间数据类型
经纬度信息存储在geometry格式的字段中,该字段必须非空。
MySQL8.0前按照longitude-latitude的顺序存储位置
MySQL8.0前按照longitude-latitude的顺序存储位置
MySQL8.0前按照longitude-latitude的顺序存储位置
插入数据时候可使用如下语句:
使用geomfromtext()内置函数可将字符串的位置点转换为geometry格式存入到数据库中,例如:
insert into XXTABLE values (XX,XX,XX, st_geomfromtext('point(108.949871515 34.25416521),XX,XX)
- 建立geometry的空间索引,便于之后的查询:
- 创建按geom列的索引,索引类型选择
spacial
即可; - 创建虚拟列geomhash,精度为8位,表达式为
st_geohash('GEOM列名',8)
; - 创建虚拟列geomhash的索引。
Geometry数据组成:
MySQL存储geometry信息的方式采用了25bytes,相比WKB的21bytes,多了4bytes的坐标系表示,组成部分如下:
- 4bytes整形,表示SRID(空间引用标识符,坐标系WGS84,GCJ02等)
- 1byte整形(同WKB),表示字节顺序
- 4bytes整形(同WKB),表示数据类型(点、线、面等)
- 8bytes双精度(同WKB),表示X坐标
- 8bytes双精度(同WKB),表示Y坐标
ST_GeomFromText
WTF字符串格式说明
select ST_GeomFromText(WTF格式字符串);
WKT(Well-known text)是一种文本标记语言,用于表示矢量几何对象、空间参照系统及空间参照系统之间的转换。通过WTF字符串生成geometry的方法:
点:POINT(x y)
线:LINESTRING(x1 y1, x2 y2, x3 y3...)
多边形:POLYGON((0 0, 10 0, 10 10,0 10,0 0),(5 5,7 5,7 7,5 7,5 5))
多点集:MULTIPOINT(0 0, 20 20, 60 60)
或MULTIPOINT((0 0),(5 5),(5 0))
多线集:MULTILINESTRING((10 10, 20 20), (15 15, 30 15))
多多边形集:MULTIPOLYGON(((0 0,10 0,10 10,0 10,0 0)),((5 5,7 5,7 7,5 7, 5 5)))
例如两点一线组成的几何集:GEOMETRYCOLLECTION(POINT(10 10), POINT(30 30), LINESTRING(15 15, 20 20))
MySQL中Geometry的格式约定:
A geometry is syntactically well-formed if it satisfies conditions such as those in this (nonexhaustive) list:
- Linestrings have at least two points
- Polygons have at least one ring
- Polygon rings are closed (first and last points the same)
- Polygon rings have at least 4 points (minimum polygon is a triangle with first and last points the same)
Collections are not empty (except GeometryCollection)
其他ST_XXXXFromText函数
更多内容参见
ST_PointFromText('POINT(X Y)');
ST_LineStringFromText('LINESTRING(0 0,1 1,2 2)');
ST_PolygonFromText('POLYGON((0 0,10 0,10 10,0 10,0 0),(5 5,7 5,7 7,5 7,5 5))');
ST_GeomCollFromText();
其他ST_XXXXFromWkb函数
MySQL独有的创建Geometry函数
参见
Point(x,y)
LineString((x1,y1),(x2,y2)...)
Polygon(LineString(),LineString()....)
查询和转换Geometry:
参见
ST_AsText()
ST_AsBinary()
ST_AsWKT()
通用属性函数:
参见
ST_Dimension(geom)
:返回geom的维度(-1,0,1,2)
ST_Envelope(geom)
:返回geom的最小外接矩形(MBR)
ST_GeometryType(geom)
:返回geom的类型
ST_IsEmpty(geom)
:该函数并不能真实的判空,当geom为任何有效的几何值时返回0,无效的几何值返回1;
ST_IsSimple(geom)
:当geom无任何异常几何点返回1(如自相交和自切线等),否则返回0
ST_SRID(geom)
:返回geom的坐标系ID
Point属性函数:
参见
ST_X(Point)
:获取Point的X值
ST_Y(Point)
:获取Point的Y值
LineString属性和MultiLineString属性函数
参见
ST_StartPoint(linestrng)
: 线的起点
ST_EndPoint(linestring)
:返回线的最后一个点
ST_IsClosed(linestring或multilinestring)
:线是否闭合(若为线,则判断起点与终点是否一致;若为线组,则判断组内每个元素是否符合闭合线)
ST_Length(linestring)
:返回线的长度,若入参为线集,则返回集合内所有长度的和
ST_NumPoiints(linestring)
:返回点的数量;
ST_PointN(linestring,N)
:返回第N个点(从1开始)
Polygon属性和MultiPolygon属性函数:
参见
具体不在一一列举,主要有计算多边形面积、中心点、最小外接圆,最大内接圆等函数,列举几个可能会用到的:
ST_Area(Poly|mPoly)
:返回双精度的面积或面积的和
'ST_Centroid(Poly|mPoly)':返回数学上的中心点
ST_ExteriorRing(Poly)
:返回外接圆
Spatial Operator Functions
参见
ST_Buffer说明
不再列举,主要有:ST_Buffer(不懂干啥用),ST_ConvexHull(geom)凸包,ST_Dfference(g1,g2)比较差异,ST_Intersecton(g1,g2)交叉点,ST_SymDifference(g1,g2)对称差分,ST_Union(g1,g2)连接、合并等。
Spatial Relatiion Functions
检查geometry Objects之间的空间关系的方法。
通过Object自己的形状进行关系检查:
参见
计算两个Object之间的空间关系的函数,有两个间距离、相交、不相交,包含、相等、相切、重叠、接触、在内等等空间关系。下面列举几个可能会常用的方法:
ST_Contains(g1,g2)
:g1是否完全包含g2
ST_Within(g1,g2)
:g1是否包含于g2中
ST_Distance(g1,g2)
:返回g1和g2之间的距离,已坐标单位计算的
ST_Equals(g1,g2)
:返回g1和g2是否相等
通过最小外接矩形MBR进行关系检查:
参见
MBRContains(g1,g2)
:g1的mbr是否包含g2的mbr
MBRWithin(g1,g2)
:g1的mbr是否在g2的mbr内
MBRCoveredBy(g1,g2)
:g1的mbr是否被g2的mbr覆盖
MBRCovers(g1,g2)
:g1的mbr是否覆盖g2的mbr
MBRDisjoint(g1,g2)
:g1的mbr,g2的mbr是否不相交
MBRIntersects(g1,g2)
:g1mbr,g2mbr是否相交
MBREqual(g1,g2)
:g1的mbr,g2的mbr的外接是否相等
MBREquals(g1,g2)
:g1的mbr,g2的mbr的外接是否相等
MBROverlaps(g1,g2)
:g1mbr、g2mbr
其他函数请参看原文
GeoHash
geohash字段是把坐标系分成很多小方格,然后将经纬度转化成字符串。GeoHash是把经纬度转成字符串,建表的时候让它转成8位字符,当两个点离得越近时,它生成的geohash字符串前面相同的位数越多,所以在这里先用left()截取前6位字符,前6位相同的误差在±600米左右,然后模糊查询,查出大概符合条件的数据,最后再精确比较,下面是geohash官方文档对geohash长度和距离误差的说明:
length | lat bits | lng bits | lat err | lng err | km err |
---|---|---|---|---|---|
1 | 2 | 3 | ±23 | ±23 | ±2500 |
2 | 5 | 5 | ±2.8 | ±5.6 | ±630 |
3 | 7 | 8 | ±0.70 | ±0.70 | ±78 |
4 | 10 | 10 | ±0.087 | ±0.18 | ±20 |
5 | 12 | 13 | ±0.022 | ±0.022 | ±2.4 |
6 | 15 | 15 | ±0.0027 | ±0.0055 | ±0.61 |
7 | 17 | 18 | ±0.00068 | ±0.00068 | ±0.076 |
8 | 20 | 20 | ±0.000085 | ±0.00017 | ±0.019 |
注意:用geohash 查询会有边界问题,所以查询出来的结果可能不准确,可以用程序(例如java代码)先查出当前点周围8个范围的geohash值,然后再匹配这9个范围的所有数据,这样就解决了geohash 的边界问题。
st_geohash:
MySQL中自带函数st_geohash(longtude,latitude,max_length)
或st_geohash(point, max_length)
即可生成某一点的geohash值。
- 其中max_length的最大值为100,经纬度也不能超出范围,否则报错。
- 设定max_length后产生的hash值也可能会小于此值,即不超过这个长度。
st_LatFromGeoHash,st_LongFromGeoHash
返回一个geohash字符串中的latitude或longitude
st_PointFromGeoHash
返回一个geohash解析出的point数据
geojson
geojson是一个通用的描述位置信息的json格式。具体请参见
st_AsGeoJSON
通过geometry生成一个GeoJSON Object,select st_asgeojson(geometry,max_length,options);
- max_length默认不指定,如果指定则返回小数点后的指定长度
- 其中options参见文档,具体可以是多个选项相加,默认为0
st_GeomFromGeoJSON
通过GeoJSON生成GeoMetry对象。
ST_GeomFromGeoJSON(jsonstring, [options [, srid]])
具体使用方法参见官方文档
Spatial Convenience Functions
官方文档
MySQL中提供的方便空间运算的函数们
ST_Distance_Sphere
select ST_Distance_Spher(geomPoint1,geomPoint2 [, radius]);
此方法用于计算两点或多个点之间的地球上的距离(是地球球面距离而不是直线距离),返回单位为米,
- 默认的radius半径为6370986米,即地球的半径,也可指定其他半径,单位是米
- 入参可为(Point,Point),(Point, MultiPoint),(MultiPoint,Point)
ST_IsValid
select ST_IsValid(ST_GeomFromText('LINESTRING(0 0,1 1)'))
判断入参是否是符合地理位置描述的格式。返回1(符合)或者0(不符);
例如:
返回0:
select st_isvalid(st_geomfromtext('linestring(0 0, -0.00 0, 0.0 0)')
返回1:
select st_isvalid(st_geomfromtext('linestring(0 0,1 1)')
ST_MakeEnvelope
select st_astext(st_makeenvelope(pt1, pt2));
返回两点构成的包络。(此计算是基于笛卡尔坐标系而非球面)
- 如果P1和P2相同,则返沪的是P1
- 如果P1和P2是垂直或者水平线,则返回结果是线段(P1,P2)
- 否则,返回结果是P1和P2作为对角线的多边形包络
例如:
SELECT ST_AsText ( st_makeenvelope ( st_geomfromtext ( 'point(0 0)' ), st_geomfromtext ( 'point(1 1)' ) ) );
返回结果:
POLYGON((0 0,1 0,1 1,0 1,0 0))
ST_Simplify
效果说明
JS抽稀算法
select st_simplify(geometry, max_distance);
用道格拉斯-普克算法(抽稀函数)简化geometry,并返回与原格式相同格式的结果。
- 入参geometry是一个geometry对象(一般为点集合,线)
- max_distance为简化步长
例如,以下点集拟合为直线,步长0.5:
SELECT st_simplify ( st_geomfromtext ( 'LINESTRING(0 0,0 1,1 1,1 2,2 2,2 3,3 3)' ), 0.5 )
返回结果:
LINESTRING(0 0, 0 1, 1 1, 2 3, 3 3)
再如,步长1.0:
SELECT st_simplify ( st_geomfromtext ( 'LINESTRING(0 0,0 1,1 1,1 2,2 2,2 3,3 3)' ), 1.0 )
返回结果:
LINESTRING(0 0, 3 3)
ST_Validate
SELECT ST_Validate(geometry);
验证geometry是符合正确的地理位置信息格式。例如Point(0 0)
是合格的;Linestring(0 0)
是非法的;Linestring(0 0, 1 1)
是合格的
应用与实践
了解了上述MySQL中关于集合对象的功能,下面来实践一下
计算两点之间的距离:
SELECT floor(
st_distance_sphere (
( SELECT geom FROM nodestest WHERE id = '151024809' ),
( SELECT geom FROM nodestest WHERE id = '151027929' )
)
);
查找距离某点【POINT(118.9515 34.4271)】500米范围内的点(ST_Distance_Sphere精确查询)
查找耗时约2.582秒。
SELECT
id,
ST_ASTEXT(geom) point,
FLOOR(ST_DISTANCE_SPHERE(ST_GEOMFROMTEXT('POINT(118.9515 34.4271)'),
geom)) distance
FROM
nodestest
WHERE
ST_DISTANCE_SPHERE(ST_GEOMFROMTEXT('POINT(118.9515 34.4271)'),
geom) < 500
ORDER BY distance;
HASH查找距离某点【POINT(118.9515 34.4271)】500米范围内的点(GeoHash模糊查找后再筛选)
由上面geohash长度-精度对应表可知,前6位表示±610米左右的误差,这里先查询前六位范围之后再用上述方法精确筛选一次即可:
查找耗时约0.016秒
SELECT
t.id,
ST_ASTEXT(t.geom) point,
FLOOR(ST_DISTANCE_SPHERE(ST_GEOMFROMTEXT('POINT(118.9515 34.4271)'),
t.geom)) distance
FROM
(SELECT
id, geom, ST_ASTEXT(geom) point
FROM
nodestest
WHERE
geomhash LIKE (CONCAT(LEFT(ST_GEOHASH(118.9515, 34.4271, 8), 6), '%'))) T
WHERE
ST_DISTANCE_SPHERE(ST_GEOMFROMTEXT('POINT(118.9515 34.4271)'),
t.geom) < 500
ORDER BY distance;
可将上述查询方法封装为MySQL函数方便和简化程序调用.
通过几何关系函数查找距离某点【POINT(118.9515 34.4271)】500米范围内的点
该方法是运用了内置的几何关系运算函数ST_Contains
和ST_MakeEnvelop
来实现的,0.5对应大概500米左右的范围,具体如下;
耗时0.016s
SELECT
id,
ST_ASTEXT(geom),
FLOOR(ST_DISTANCE_SPHERE(POINT(118.9515, 34.4271), geom)) AS distance
FROM
nodestest
WHERE
ST_CONTAINS(ST_MAKEENVELOPE(POINT((118.9515 + (0.5 / 111)),
(34.4271 + (0.5 / 111))),
POINT((118.9515 - (0.5 / 111)),
(34.4271 - (0.5 / 111)))),
geom)
ORDER BY distance
思考与讨论
- 关于社区地理位置的存储,是否可改用Polygon()存储,并建立一列生成列,通过函数ST_Centroid(ST_ExteriorRing(polygon))的方式,把区域的外接圆的中点当作区域的中点,或直接把区域的几何中点作为中点
- 查找附近的小区,可使用哪几种方法?
测试用例和导入脚本可自行下载(比较老了,可能官网早已经更新)
链接: https://pan.baidu.com/s/1cW-kv6DIgtYMw5I3bNFzKA 提取码: jagn