最大化外围互信息二维前向声纳图像配准

Two-dimensional forward-looking sonar image registration by maximization of peripheral mutual information

在海底附近执行任务期间,监测水下航行器的操作领域至关重要。前视声纳通常是观察周围浑浊水环境的唯一可用传感器。声纳图像配准不仅是全景马赛克的第一步,而且还为车辆自定位和导航提供了初始运动参数估计。在本文中,提出了一种用于声纳图像配准的外围互信息(PMI)最大化方法。外围互信息受到区域互信息 (RMI) 的启发,它利用香农熵的封闭形式解决方案,假设由相邻像素组成的数据向量呈正态分布,该假设忽略声纳中像素之间的相关性图片。为了适应相邻像素由于声学混响和色散而表现出依赖性的事实,在外围互信息中仅使用像素附近的外围信息来计算互信息。实验表明,外围互信息配准函数比区域互信息要平滑得多。二维前视声纳图像配准的进一步实验证明了外围互信息的效率。实验表明,外围互信息注册函数比区域互信息要平滑得多。二维前视声纳图像配准的进一步实验证明了外围互信息的效率。

Ⅰ 介绍

受海底泥沙和海水浑浊的影响,海底环境检测依赖前视声纳设备。而前视声纳设备覆盖范围有限,每帧只能扫描有限区域。需要将局部声纳图拼接成全景声纳图,以支持宏观地理地貌分析。

图像拼接过程通常可以分解为两个步骤,图像对配准和全局误差减少。

考虑水下声纳拍摄到的两张照片f\left({\bf x} \right)g\left({\bf x}\right),如果两张图像有重叠,则它们的变换关系可以表示为:
{\bf x}_2={\bf T}{\bf x}_1\tag{1}
于是我们需要最小化匹配误差来找到最合适的{ \bf T},即
{ \bf T }^* = \arg \min\sum_{{\bf x}_1,{\bf x}_2}\left|f({\bf x}_1)-g({\bf x}_2)\right|\tag{2}
在图像配准中,我们的目标是去优化转换矩阵{ \bf T},由运动参数\Theta决定,包括\Delta x\Delta y\Delta z\theta\phi\psi。有一些方法已经在声纳图像配准中提出:

  1. 基于特征点的提取。通过提取两幅图像的特征点,利用最小二乘法估计运动参数。然而这种方法提取出来的特征点往往包含过多噪声,且Negahdaripour等人提出对于自然、非结构化海床声纳图,很难提取SIFT特征点。
  2. 基于集群或者区域的方法。去除掉噪声较大的特征点,首先对图像进行平滑处理,后处理时去掉梯度超过特定阈值的点。将特征点的空间分布放到标准正态分布中建模,利用梯度下降法跟踪运动参数。
  3. 基于频域的方法。利用傅里叶变换、互功率谱相位差计算图像之间的变换关系。尺度变化和旋转变化可以转化为傅里叶对数幅度谱计算相位差。

在本文中,我们提出了一种通过最大化互信息来估计变换参数的新方法。由于我们的方法使用外围信息来分析计算互信息,因此我们将其简称为PMI。

Ⅱ 方法

图像配准的目的是寻找运动参数\Theta^*使图像f和图像g的互信息I\left(f,g\right)最大,即
\Theta^*=\arg\max I\left(f,h|\Theta\right)\tag{3}
图像f和图像g的互信息由联合概率密度p_{fg}\left({\bf x}_1,{\bf x}_2\right)和边缘密度p_f({ \bf x}_1)p_g( { \bf x}_2 )的Kullback–Leibler散度决定。
I\left(f,g\right) = \sum_{{ \bf x}_1,{\bf x}_2}{p_{fg}({\bf x}_1,{\bf x}_2)\log\frac{p_{fg}({\bf x}_1,{\bf x}_2)}{p_f({\bf x}_1)p_g({\bf x}_2)}}\tag{4}
转化成信息熵,(4)式可以表示成
I(f,g)=H(f)+H(g)-H(f,g)\tag{5}
其中信息熵定义为
H(f)= -\sum_{{\bf x}_1}{p_f({\bf x}_1)\log p_f({\bf x}_1)}\tag{6}
以及联合信息熵为
H(f,g)=-\sum_{{\bf x}_1,{\bf x}_2}{p_{fg}({\bf x}_1,{\bf x}_2)\log p_{fg}({\bf x}_1,{\bf x}_2)}\tag{7}
一般的配准步骤如下:运动参数\Theta可以初始化为\Theta^0,互信息I(\Theta)最大值可以由局部搜索找到。\Theta的值相应的更新,最后通过迭代,当\|\Delta\Theta\|<\varepsilon时最终求解。

区域互信息

当使用马尔可夫随机场对声纳图像进行建模时,会发现像素强度取决于相邻像素。这表明在配准二维声纳图像对时必须包括邻域信息。

在计算互信息时需要考虑相邻像素,(4)式变为
I(f,g) = \sum_{{ \bf X}_1,{\bf X}_2}p_{fg}({\bf X}_1,{\bf X}_2)\log\frac{p_{fg}({\bf X}_1,{\bf X}_2)}{p_f({\bf X}_1)p_g({\bf X}_2)}\tag{8}
其中{ \bf X}表示多维列向量,包括像素及其近邻点。

用多维表示计算的计算量很大,如图1,取{ \bf X } _1{\bf X}_2的长度为9,2D的灰度图需要计算256^9次,联合直方图的大小为256^{18},基于直方图的概率计算的计算量相当大,因此需要一种优化方案。

像素以伪色显示。邻域大小为 3 × 3。

香农信息熵的闭式解只在某种分布下有意义,比如高斯分布时
N({\bf X}|\mu,\Sigma) = \frac{1}{\sqrt{(2π)^D|\Sigma|}}\exp\left(−\frac{1}{2}({\bf X}−μ)^T\Sigma^{−1}({\bf X}−\mu)\right)\tag{9}
信息熵为
H_\Sigma = \frac{1}{2}\log\left(2\pi{\rm e}^D|\Sigma|\right)\tag{10}
将(10)式代入到(5)式中,有
I = \frac{1}{2}\log\left(\frac{∣ \Sigma_{{ \bf X}_1}∣∣\Sigma_{{\bf X}_2}∣}{∣\Sigma_{({\bf X}_1,{\bf X}_2)∣}}\right)\tag{11}
这表明,RMI在假设像素满足特定分别时会极大地减少计算量。

外围互信息

区域互信息的假设是像素周围的强度服从正态分布,但这并不符合实际情况。因此把图像序列看作是关于时间的函数,每个像素在时间序列上满足正态分布,且不同像素之间的时间序列是相互独立的。

下面验证是否是正态分布:

  1. 直方图用混合高斯模型近似:

{\mathscr G}(x) = \sum_{k=1}^K\frac{1}{\sqrt{2\pi}\sigma k}\exp\left(−\frac{(x−\mu k)^2}{2\sigma^2_k}\right)\tag{12}

可以由期望最大化算法计算混合参数,K为高斯分量的数量。
{\rm BIC}=\log(\varepsilon^2)+Q\frac{\log N}{N}\tag{13}
其中\varepsilon为强度直方图与拟合曲线之间的误差,N为数据的大小,Q=3K-1

混合高斯模型拟合声纳图像直方图的示例如下。

声纳图像的高斯近似质量。(a) 图像的直方图(黑色实线)由单个高斯分量(红色虚线)拟合。(b) 高斯分量的数量由 BIC 曲线决定。详情请参阅文本: BIC:贝叶斯信息准则。

BCI在K=3处下降最快,而K=2K=1相差不大,因此用单个高斯分量即可表示。

  1. 独立性检验

在统计学中,利用\chi^2检测来判断变量是否独立。
{\hat F}_{ij} = \frac{F_{ij}}{\max_{k,l=1,\cdots,D}{F_{kl}}}\tag{14}
其中F\chi^2检测中的统计检测量。

中心邻域和二阶邻域、三阶邻域中像素之间的关联。

中心像素X(0,0)和二阶近邻X(0,-1)强对角,说明中心像素与二阶近邻强相关。中心像素X(0,0)与三阶邻域X(-2,-2)随机分散,说明中心像素与二阶近邻的相关性强于三阶近邻,支持马尔可夫假设。

算法如下:

外围互信息算法

Ⅲ 实验

从天然海底获取的 10 个连续声纳帧的配准。(a) 到 (f) 分别对应于 PV、GPVE、RMI ( r = 1)、PMI、FMT 和 NDT。SIFT 方法在这里不可行,因为识别的特征点太少。例如,在(g)中只能提取三个 SIFT 特征点对。请注意,海床距离声纳头 9 m。为简单起见,仅考虑照明区域进行配准。GPVE:广义局部体积估计;RMI:区域互信息;PMI:外围互信息;PV:三线局部体积分布;FMT:傅立叶-梅林变换;NDT:正态分布变换;SIFT:尺度不变特征变换。
图像序列配准残余误差

Ⅳ 结论

在本文中,我们提出了用于配准二维前视声纳图像的 PMI 方法。PMI 受 RMI 的启发,但不同之处在于仅使用最外面的邻居来计算高斯-香农熵。该方法为声纳图像配准问题提供了一种改进的解决方案,其中 RMI 由于违反正态分布假设而无法应用于高阶邻域。

我们的实验结果表明,PMI 不仅表现得比 RMI 方法更好,而且性能也优于传统的基于直方图的互信息方法。此外,PMI 在其他几个方面具有吸引力:

首先,PMI 使用仅依赖于像素之间的协方差矩阵的封闭形式解计算互信息。这意味着不需要构建联合强度直方图,减少了算法的内存需求。另一方面,PMI 只需要计算与最外邻居的协方差矩阵,大大降低了计算成本。

其次,PMI 不需要复杂的插值函数,因为即使是简单的最近邻插值方法也能够获得更平滑的配准函数。

第三,PMI 具有更平滑的配准函数,这意味着它在很大程度上有可能收敛到全局最优。此外,PMI 的配准函数中局部最小值附近的梯度非常陡峭,这意味着它能够以更快的速度收敛。

最后,PMI 可用于注册跨维度传感器数据,这是设计 RMI 方法的动机。从理论上讲,可以注册任何维度的数据,因为 PMI 以非常简单的模式执行:提取图像区域的外围像素及其在另一幅图像中的对应物,计算协方差矩阵和高斯-香农熵。在不久的将来,将报告声光图像配准方面的工作。

水下声纳图像容易出现斑点噪声,缺乏一般的高频信息。互信息最大化为我们提供了一种方法来配准从完全非结构化的水下环境中采样的图像。下一步将重点关注两个方面。一方面,我们将尝试为 PMI 寻找更好的优化策略,以提高其鲁棒性和配准精度。另一方面,我们会尽量减少互信息框架下的累积误差。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容