slam简介

什么是slam?¶

SLAM是 Simultaneous Localization And Mapping的缩写，一般翻译为：同时定位与建图、同时定位与地图构建。

SLAM的典型过程是这样的：当某种移动设备（如机器人/无人机、手机、汽车等）从一个未知环境里的未知地点出发，在运动过程中通过传感器（如激光雷达、摄像头等）观测定位自身在三维空间中的位置和姿态，再根据自身位置进行增量式的三维地图构建，从而达到同时定位和地图构建的目的。

初步认识slam¶

我们知道现在有不少家用的扫地机器人，可以代替人对室内进行自动清扫。早期的扫地机器人并不智能，它只是具有简单的避障功能，在室内随机游走，遇到障碍物就转弯，这样会导致有很多地方会漏掉，扫地效率非常低。

而现在随着SLAM技术在扫地机器人中的应用，现在的扫地机器人已经变的非常智能，可以通过自身的传感器对室内进行扫描建图，根据当前的定位进行Z字形规划清扫，还能实现自动回充、断点续扫等高级功能。

根据前面介绍，我们总结一下，要想真正实现智能的清扫，扫地机器人至少需要知道以下几件事情：

1、我在哪里？也就是扫地机器人在工作过程中要知道自己在房间的具体位置。对应的术语叫：定位（Localization)。

2、我周围的环境是什么样子？也就是扫地机器人需要知道整个房间的地面结构信息。对应的术语叫：建图(Mapping)。

3、我怎样到达指定地点（充电器）？当扫地机器人电量不足时，如何以最短的路径到达充电器所在位置进行自动充电。对应的术语叫：路径规划（Route Planning）。

有了以上的几个能力，扫地机器人就变的非常智能了，不再像无头苍蝇一样在室内乱跑，而是可以从任意位置出发，按照建立好的地图进行规划清扫。当然房间里的物品摆放也会发生变化，所以扫地机器人每次清扫也会根据当前的定位及扫描情况，在建好的地图基础上对进行更新。随着使用时间的增长，扫地机器人建立的地图会越来越准确，规划的清扫路线越来越高效，变的越来越智能。

看明白了上面的例子，我们给出SLAM的定义。SLAM是指当某种移动设备（如机器人、无人机、手机等）从一个未知环境里的未知地点出发，在运动过程中通过传感器（如激光雷达、摄像头等）观测定位自身位置、姿态、运动轨迹，再根据自身位置进行增量式的地图构建，从而达到同时定位和地图构建的目的。定位和建图是两个相辅相成的过程，地图可以提供更好的定位，而定位也可以进一步扩建地图。需要说明的是，上述扫地机器人例子中，定位和建图是SLAM的基本要求，而路径规划是在此基础上的高级功能，不属于SLAM的讨论范畴。

slam分类¶

类型	适用场景	特点
二维激光SLAM	室内(可解决95%的问题)	成本低
三维激光SLAM	室外	成本高、信息量较大
视觉SLAM	室内室外通用	信息量丰富
声呐SLAM	水下

slam框架¶

通常的slam框架是这样的

先有一个传感器数据的输入，然后是视觉里程计，也成为前端。然后是后端就是优化位姿。最后是建图。其中还涉及到回环检测。

视觉里程计，根据图像定量的估算帧间相机的运动，通过特征点进行特征匹配，跟踪。然后确定他在三维空间中的位置。

后端优化就是通过优化位姿来减少漂移。建图有2D的3D的稠密的，稀疏的。 回环检测 认识自己曾经去过的地方，消除累计误差。

视觉slam¶

视觉slam框架解读¶

1.传感器数据

在视觉SLAM中主要为相机图像信息的读取和预处理。如果在机器人中，还可能有码盘，惯性传感器等信息的读取和同步。

2.视觉里程计

视觉里程计的主要任务是估算相邻图像间相机运动以及局部地图的样子，最简单的是两张图像之间的运动关系。计算机是如何通过图像确定相机的运动的。在图像上，我们只能看到一个个的像素，知道他们是某些空间点在相机的成像平面投影的结果。所以必须先了解相机跟空间点的几何关系。

Vo（又称为前端）能够通过相邻帧间的图像估计相机运动，并恢复场景的空间结构，称它为里程计。被称为里程计是因为它只计算相邻时刻的运动，而和再往前的过去信息没有关联。相邻时刻运动串联起来，就构成了机器人的运动轨迹，从而解决了定位问题。另一方面，根据每一时刻的相机位置，计算出各像素对应的空间点的位置，就得到了地图。

3.后端优化

后端优化主要是处理slam过程中噪声的问题。任何传感器都有噪声，所以除了要处理“如何从图像中估计出相机运动”，还要关心这个估计带有多大的噪声。

前端给后端提供待优化的数据，以及这些数据的初始值，而后端负责整体的优化过程，它往往面对的只有数据，不必关系这些数据来自哪里。在视觉slam中，前端和计算接视觉研究领域更为相关，比如图像的特征提取与匹配等，后端则主要是滤波和非线性优化算法。

4.回环检测

回环检测也可以称为闭环检测，是指机器人识别曾到达场景的能力。如果检测成功，可以显著地减小累积误差。回环检测实质上是一种检测观测数据相似性的算法。对于视觉SLAM，多数系统采用目前较为成熟的词袋模型（Bag-of-Words, BoW）。词袋模型把图像中的视觉特征（SIFT, SURF等）聚类，然后建立词典，进而寻找每个图中含有哪些“单词”（word）。也有研究者使用传统模式识别的方法，把回环检测建构成一个分类问题，训练分类器进行分类。

5.建图

建图主要是根据估计的轨迹建立与任务要求对应的地图，在机器人学中，地图的表示主要有栅格地图、直接表征法、拓扑地图以及特征点地图这4种。而特征点地图是用有关的几何特征（如点、直线、面）表示环境，常见于视觉SLAM技术中。

视觉slam和激光slam区别¶

在业内，视觉SLAM与激光SLAM谁更胜一筹，谁将成为未来主流趋势这一问题，成为大家关注的热点，不同的人也有不同的看法及见解，以下将从成本、应用场景、地图精度、易用性几个方面来进行详细阐述。

1.成本

从成本上来说，激光雷达普遍价格较高，但目前国内也有低成本的激光雷达解决方案，而VSLAM主要是通过摄像头来采集数据信息，跟激光雷达一对比，摄像头的成本显然要低很多。但激光雷达能更高精度的测出障碍点的角度和距离，方便定位导航。

2.应用场景

从应用场景来说，VSLAM的应用场景要丰富很多。VSLAM在室内外环境下均能开展工作，但是对光的依赖程度高，在暗处或者一些无纹理区域是无法进行工作的。而激光SLAM目前主要被应用在室内，用来进行地图构建和导航工作。

3.地图精度

激光SLAM在构建地图的时候，精度较高，思岚科技的RPLIDAR系列构建的地图精度可达到2cm左右；VSLAM，比如常见的，大家也用的非常多的深度摄像机Kinect，（测距范围在3-12m之间），地图构建精度约3cm；所以激光SLAM构建的地图精度一般来说比VSLAM高，且能直接用于定位导航。

4.易用性

激光SLAM和基于深度相机的视觉SLAM均是通过直接获取环境中的点云数据，根据生成的点云数据，测算哪里有障碍物以及障碍物的距离。但是基于单目、双目、鱼眼摄像机的视觉SLAM方案，则不能直接获得环境中的点云，而是形成灰色或彩色图像，需要通过不断移动自身的位置，通过提取、匹配特征点，利用三角测距的方法测算出障碍物的距离。

总体来说，激光SLAM相对更为成熟，也是目前最为可靠的定位导航方案，而视觉SLAM仍是今后研究的一个主流方向，但未来，两者融合是必然趋势。