背景
语义信息在智能导航中也起着重要的作用。在现实环境中,由于存在动态目标,传统的基于环境几何的方法很难实现可靠、准确的定位和制图。这些传统的几何方法由于动态物体的存在和结构的变形,往往会产生位置偏移。
本文提出了一种新的基于语义信息的激光雷达SLAM系统,较好地解决了实际环境中的定位和映射问题。该系统通过对激光雷达点云进行语义分割,获得点云级密集语义信息,并将语义信息集成到激光雷达SLAM中,提高了激光雷达的定位和测绘精度。通过基于深度学习的卷积神经网络,我们的方法可以非常有效地对激光雷达“距离像”进行语义分割,并在语义上标记整个激光雷达点云。通过结合几何深度信息,进一步提高了语义分割的精度。基于带有语义标记的lidar点云,我们的方法能够构建一个具有语义信息和全局一致性的稠密surfel语义图。基于语义映射,该算法能够可靠地滤除动态目标,并通过语义约束进一步提高投影匹配ICP的姿态估计精度。我们使用KITTI数据集中的道路数据集和里程计来测试我们提出的语义SLAM系统。这个数据集(特别是基蒂高速公路数据集)包含了大量正在行驶的汽车。实验结果表明,本文提出的语义SLAM方法在实际动态环境中具有较高的定位精度和鲁棒性。我们的lidar语义SLAM系统是开源的。
相关工作
SLAM是机器人技术中的经典话题,很多文章涵盖了大量的相关学科知识。
在这里,我们主要专注于基于学习方法和动态场景的语义SLAM的相关知识。在深度学习和卷积神经网络(CNN)进行场景理解的推动下,有很多语义SLAM技术利用相机来利用这些信息,摄像机+ IMU数据,立体声摄像机或RGB-D传感器。
这些方法大多数仅在室内应用,并且使用对象检测器或摄像机图像的语义分割。相比之下,我们仅使用激光测距数据并利用语义分割中的信息对LiDAR扫描产生的深度图像进行操作。还有大量文献致力于定位和映射变化的环境,例如通过过滤运动对象,考虑残差等匹配,或利用序列信息。
为了实现室外大规模语义SLAM,还可以将3D LiDAR传感器与RGB相机结合使用。关联2D图像和3D点以改进用于检测运动对象的分割。Wang和Kim使用来自KITTI数据集的图像和3D点云来联合估计道路布局,并通过事先应用相对位置来语义上分割城市场景。Jeong等。还提出了一种基于多模态传感器的语义3D映射系统,以在大规模环境以及功能很少的环境中改善基于联合交叉(IoU)度量的分割结果。
Liang等人提出了一种新颖的3D对象检测器,它可以利用LiDAR和相机数据来执行精确的对象定位。所有这些方法都集中在结合3D LiDAR和摄像头以改善对象检测,语义分割或3D重建上。
通过将基于图像的语义信息直接合并到两点云之间的相对转换的估计中,实现云注册算法。实现了结合图像的LiDAR和仅基于LiDAR的语义3D点云配准。两种方法都使用语义信息来改善姿势估计,但是由于处理时间长,因此无法用于在线操作。
与本文提出的方法最相似的方法,他们仅使用单个LiDAR传感器即可实现语义SLAM。Sun等。提出了一种语义映射方法,该方法被表述为序列到序列的编码-解码问题。Dube´等。提出一种称为SegMap的方法,该方法基于从点云中提取的片段,并为其分配语义标签。它们的主要目的是为语义类型非常有限的全局检索和多机器人协作SLAM提取有意义的功能。与它们相反,我们专注于生成具有大量语义类的语义图,并使用这些语义来过滤由动态物体(例如移动的车辆和人类)引起的异常值,以提高映射和里程表的准确性。
作者的方法
我们的语义SLAM方法的基础是基于Surfel的映射(SuMa)管道,通过使用FCN RangeNet ++ 集成由语义分段提供的语义信息来进行扩展,如图所示。
RangeNet ++使用点云的球面投影提供了不错的标签。然后,此信息将用于过滤动态对象并向扫描配准添加语义约束,从而提高SuMa进行姿势估计的鲁棒性和准确性。
- A.坐标系的表示方法
我们用TBA∈R 4×4表示坐标系A中的点pA到坐标系B中的点pB的变换,使得pB = TBApA。令RBA∈SO(3)和tBA∈R 3表示变换TBA的相应旋转和平移部分。我们将时间步t处的坐标系称为Ct。坐标系Ct中的每个变量都通过姿态TW Ct∈R 4×4与世界坐标系W相关联,从而将观察到的点云转换为世界坐标系。
- B.基于Surfel的映射
SuMa首先在时间步t生成点云P的球面投影,即所谓的顶点图VD,然后将其用于生成相应的法线图ND。有了这些信息,SuMa在时间步t -1通过渲染的ICP在渲染的地图视图VM和NM中确定姿态更新TCt-1Ct,从而确定TW Ct,方法是链接所有姿态增量。该地图由surfels表示,其中每个surfel都由位置vs∈R 3,法线ns∈R 3和半径rs∈R定义。
每个surfel还带有两个时间戳:创建时间戳tc和的时间戳tu。通过度量的最新更新。此外,使用二进制贝叶斯滤波器[32]来维持稳定性对数比值比ls,以确定冲浪是否被视为稳定或不稳定。SuMa还执行环路闭合检测以及随后的姿势图优化,以获得全局一致的贴图。
- C.语义分割对于每一帧
我们使用RangeNet ++ 预测每个点的语义标签并生成语义图SD。
RangeNet ++在语义上分割了由每次激光扫描的球形投影生成的距离图像。简而言之,该网络基于Wu等人提出的SqueezeSeg体系结构。并使用Redmon等人提出的DarkNet。通过使用更多参数来改善结果,同时保持方法的实时能力。有关语义分割方法的更多详细信息,
请参阅Milioto等人的论文。传感器视场中逐点标签的可用性还可以将语义信息集成到地图中。为此,我们为每个浏览添加推断的语义标签y和来自语义分割的该标签的相应概率。
- D.完善的语义图由于投射输入
作为RangeNet ++网络内降采样的副产品而产生的类斑点输出,当标签重新投影时,我们必须处理语义标签的错误到地图。为了减少这些错误,我们使用泛洪算法,总结如下
可视化所提出的洪水算法的处理步骤:
(a)原始语义图Sraw,我们首先使用腐蚀来去除边界标签和错误标签的小区域
(b)侵蚀的面具Seroded raw。
(c)我们最终用相邻标签填充渗透标签,以获得更一致的结果SD。黑点表示带有标签0的空像素。
(d)显示深度
(e)带有虚线边框的区域内的细节
动态过滤效果:对于所有数字,我们显示相应标签的颜色,但请注意SuMa不使用语义信息。(a)由Suma (b)作者的方法;(c)移除所有可能移动的物体。
结果
(a)由于汽车在传感器附近的一致运动,没有语义的SuMa无法正确估计传感器的运动。框架到模型的ICP锁定到不断移动的汽车,从而导致地图不一致(以矩形突出显示)。
(b)通过合并语义,我们能够正确估计传感器的运动,从而通过ICP获得更一致的环境图和更好的传感器姿势估计。3D点的颜色是指第一次记录该点时的时间戳。
(c)相应的前视摄像头图像,其中突出显示了交通标志。
(d)每个时间步对应的相对平移误差图。点是每个时间戳中计算出的相对平移误差,曲线是这些点的多项式拟合结果
下表显示了相对平移和相对旋转误差:
结论
作者提出了一种新颖的方法来构建语义图,该方法由不需要任何相机数据的基于激光的点云语义分割实现。利用这些信息可提高在模棱两可和充满挑战的情况下的姿态估计精度。特别是利用扫描和地图之间的语义一致性来过滤出动态对象,并在ICP过程中提供更高级别的约束。这使基于三维激光距离扫描成功地组合语义和几何信息,从而获得比纯几何方法更好的姿态估计精度。
作者在KITTI Vision Benchmark数据集上评估了该方法,显示了与纯几何方法相比,该方法的优势。尽管取得了这些令人鼓舞的结果,但是语义映射的未来研究仍然有几种途径。在未来的工作中,我们计划研究语义在环路闭合检测中的用法以及对更细粒度的语义信息(如车道结构或道路类型)的估计。
论文地址:
http://www.ipb.uni-bonn.de/wp-content/papercite-data/pdf/chen2019iros.pdf
源码地址:
链接:https://pan.baidu.com/s/1gb0FuHfXggxPuxClgOwMSQ
提取码:smj3