LAP:具有运动一致性的局部仿射保留遥感图像特征匹配

LAP:具有运动一致性的局部仿射保留遥感图像特征匹配

摘要:

作为遥感和摄影测量领域的一项基础和基本任务,特征匹配致力于在从同一场景的图像对中提取的两组特征点之间建立可靠的对应关系。在本文中,我们提出了一种高效且通用的算法,称为局部仿射保留(LAP)匹配,用于遥感图像的鲁棒特征匹配。我们首先根据精心设计的特征描述符的相似性构建假定的点对应关系,然后专注于从假定的集合中去除错误匹配。 LAP 的关键思想是搜索运动一致的邻域并维护真正假定匹配的局部邻域拓扑结构。为此,我们提出了一种局部几何约束,它利用仿射不变性的性质来衡量邻域拓扑的保存程度,因为该性质仍然在最小拓扑单元的刚性和复杂非刚性变换下保持不变。此外,为了避免异常值的随机分布破坏内点的邻域结构保存,引入了邻域挖掘策略来搜索每个对应点的运动一致邻域。我们将问题表述为优化模型,并推导出具有线性时间复杂度的封闭形式的解决方案。遥感图像的广泛实验结果表明,我们的 LAP 能够比当前最先进的方法实现更好的性能。

关键词:仿射不变性、特征匹配、局部性保留、不匹配去除、运动一致性。

1. 引言

特征匹配旨在在不同时间、从不同角度或由不同传感器 [1]、[2] 拍摄的同一场景的两幅图像之间建立可靠的特征对应关系。鲁棒的特征匹配是基于特征的图像配准的先决条件,也是许多遥感和摄影测量应用[3]-[7]的基本和关键问题,包括变化检测、环境监测、图像拼接、图像融合和地图更新,仅举几例。

特征匹配问题具有组合性质,导致计算复杂度高,例如匹配N个点会导致总共N!排列。为了解决这个问题,流行的想法是采用两阶段策略。在第一阶段,每个点与可以计算描述符的局部补丁相关联,例如,尺度不变特征变换(SIFT)[8],然后,通过相似性标准构建一组假定匹配要求感知图像中的一个点仅与参考图像中与最相似的局部描述符匹配的点。通过这种方式,可能匹配的数量显着减少,但由于局部描述符的模糊性,假定集合包含大量错误匹配(即异常值),尤其是当图像对涉及复杂变换时。因此,在第二阶段,匹配任务归结为识别每个假定匹配的正确性,其目的是尽可能地从假定集合中去除不匹配。

近年来,研究人员研究了多种方法来解决失配消除问题,但由于以下几个困难,设计一种有效且高效的遥感图像匹配算法仍然具有挑战性。一方面,由于地势位移和成像视点变化,低空拍摄的遥感图像经常会出现局部失真[9]。在这种情况下,预定义的全局几何模型不足以估计变换。此外,当成像场景的变换未知时,基于预定义参数模型的方法受到限制。另一方面,大规模遥感图像通常包含许多特征,导致特征匹配方法的计算负担很大,尤其是在非刚性情况下。例如,用于非刚性图像匹配的基于非参数模型的方法 [10]、[11] 通常具有较高的计算复杂度。因此,需要一种更通用、更有效的特征匹配算法。

为了克服上述挑战,我们提出了一种稳健且高效的特征匹配方法,称为局部仿射保留 (LAP),用于遥感图像配准,以准确去除假定集中的异常值。特别是,尽管图像对经历了尺度变化、旋转或非刚性变换,但真正对应的空间邻域拓扑结构(即内点)通常得到很好的保留,从而产生一致的邻域结构。相比之下,错误对应(即异常值)的邻域拓扑将有很大不同。为了表征邻域拓扑,我们定义了一个由中心特征点及其三个邻居组成的最小拓扑单元(MTU),然后为每个对应关系构建邻域中的所有潜在 MTU。通过使用所提出的基于仿射不变性的局部几何约束,可以测量相应 MTU 的保存程度。然而,由于异常值随机分布在整个空间中,异常值的邻域不可避免地受到异常值的污染,从而扰乱了邻域的拓扑结构。因此,我们引入了一种基于运动一致性的邻居挖掘方法来搜索每个对应关系的前 K 个一致邻居。为了进一步消除邻域异常值的干扰,我们评估了每个 MTU 的可靠性,并且仅使用一定数量的 MTU 来检查邻域拓扑对假定对应关系的保存程度。最后,一个对应关系只有在拓扑保持度足够高时才被确定为内点。对各种遥感图像数据集的定性和定量实验证明了我们的 LAP 相对于当前最先进的替代方案的优势。

本文的主要贡献包括以下三个方面。首先,与其他基于局部邻域一致性的方法相比,LAP 具有更强的局部拓扑约束,旨在利用局部仿射保留特性来确定假定匹配的正确性。为此,我们基于每个对应关系的随机组合构建多个 MTU,并且只使用具有更好仿射保留特性的 MTU。提议的构建策略和 MTU 的过滤策略都有助于增强对社区异常值的鲁棒性。其次,为了进一步提高邻域的可靠性,我们提出了一种基于运动一致性的有效邻域挖掘策略来创建邻域。实验表明,新的邻域构建比传统的K-近邻搜索产生的邻域要有效得多。第三,基于局部几何约束,我们开发了一个数学优化模型来消除不匹配并得出一个封闭形式的解决方案。一方面,该模型不需要任何预定义的全局图像变换,因此对于复杂场景(例如局部非刚性失真或高异常值率)更加通用和鲁棒。另一方面,封闭形式的解决方案使LAP能够实现线性时间复杂度,从而在几十毫秒内解决了数千个假定对应的匹配问题,这对于许多大规模和实时的遥感任务是有利的。这项工作是我们之前在 [12] 中工作的扩展。与之前的工作相比,我们改进了运动一致性的测量,附加了反向验证步骤,并提供了更多的实现细节,这使得所提出的方法对不同类型的变换更加鲁棒。

本文的其余部分结构如下。在第二节中,我们简要回顾了遥感图像特征匹配的相关工作。第三节详细介绍了所提出的LAP算法,包括使用运动一致性的可靠邻域构造和基于局部仿射不变性的重构误差计算。随后,在第四节中,我们在不同类型的遥感图像数据集上与几种具有代表性的最先进方法进行了比较,给出了定性和定量的实验评估,然后在第五节中进行了总结。

2. 相关工作

一般来说,特征匹配任务可以转化为一个两阶段的问题。在第一阶段,为每张图像提取显着特征点及其描述符,并通过特征描述符的相似性度量建立假定的点对应关系,包括SIFT [8]、形状上下文[13]、相位一致性[2 ], 等等。其中,类SIFT算法因其对尺度、旋转和光照的不变性而被广泛应用于遥感图像匹配。许多方法改进了传统的 SIFT 算法,使其更适合遥感图像,例如光学到 SAR (OS) SIFT [14]、模式搜索 (MS) SIFT [15] 和双边滤波器 (BF) SIFT [16]。然而,由于特征描述符的局部外观的模糊性,构建的假定集不可避免地受到错误匹配的污染。因此,为了进一步建立更准确的对应关系,引入了第二阶段以通过几何约束从假定的集合中去除错误匹配。在本文中,我们主要关注错配去除问题,下面将错配去除方法分为四类,并对其进行简要回顾。

2.1 基于重采样的方法

随机样本一致性(RANSAC)[17]是最经典的重采样方法,它遵循假设-验证框架:随机抽样一个最小子集以估计一个预定义的参数模型作为假设,然后验证其他数据是否与估计的几何模型。 RANSAC 迭代执行上述两个步骤以获得最小的可能无异常子集。已经提出了几种变体来改进算法,例如 MLESAC [18]、SCRAMSAC [19]、GCRANSAC [20] 和 MAGSAC++ [21]。这些 RANSAC 类型的算法因其有效性而被广泛用于视觉任务,但随机采样的性质导致一些基本缺陷,例如理论运行时间,随着异常值率的增加呈指数增长。

2.2 基于非参数模型的方法

与简单的参数模型相比,非参数模型可以处理更一般的场景,例如非刚性变换。基于非参数模型的方法通常应用平滑和缓慢的先验条件来插值非参数函数。例如,识别对应函数(ICF)[22]通过检查它们是否与估计的对应函数一致来去除异常值。矢量场一致性 (VFC) [10] 将特征匹配问题表述为具有隐藏/潜在变量的贝叶斯模型的最大后验 (MAP) 估计,用于指示假定的匹配是异常值还是内部值。作为 VFC 的一种变体,针对遥感图像提出了局部线性变换 (LLT) [11],它开发了类似于局部线性嵌入 (LLE) 的局部几何约束。然而,这些方法通常具有立方复杂性,导致耗时且不适合实时任务。

2.3 基于学习的方法

近年来,深度学习技术取得了巨大成功,广泛应用于遥感图像处理和分析,如高光谱分解[23]、[24]和多模态图像分类[25]。此外,还开发了许多基于学习的不匹配消除方法。马等人。 [26] 提出了失配消除学习(LMR),它将失配消除问题视为一个二分类问题,并产生一个通用分类器来确定假定匹配的正确性。此外,学习寻找良好对应关系 (LFGC) [27] 是首次尝试引入基于深度学习的技术,该技术遵循类似于 PointNet 的架构来同时去除异常值并恢复相对姿势。随后,开发了几种改进LFGC的方法,包括挖掘可靠邻居网络(NMNet)[28]和顺序感知网络(OA-Net)[29]。尽管这些方法能够实现吸引人的性能,但由于数据驱动的性质,当它们处理训练中未出现的转换时,性能会下降。此外,随着图卷积网络 (GCN) [30]、[31] 的发展,基于 GCN 的特征匹配方法(例如 SuperGlue [32])在社区中出现并取得了令人瞩目的性能。

2.4 基于局部几何先验的方法

与全局几何约束相比,局部几何约束能够更好地处理局部变形,并且在不改变模型的情况下对各种变换具有鲁棒性。由于仿射变换的不变性,空间角序已被广泛应用于特征点匹配。例如,李等人。 [33] 通过找到中心特征对应的 K 近邻 (KNN) 构建灵活的特征模板,然后通过模板之间的空间角度顺序保持度过滤异常值。受限空间顺序约束 (RSOC) [34] 定义了双向空间角度顺序约束和两个决策标准约束来确定异常值。赵等人。 [35] 提出了围绕几何中心 (Bi-SOGC) 的双边 KNN 空间顺序,以删除异常值候选者,并提出一种恢复策略来检索上一步中删除的内点值。随后,提出了空间顺序约束的双边邻居投票(SOCBV)[36],以在内部点的 KNN 包含一些异常点时提高鲁棒性。姜和姜 [37] 也使用空间角阶作为几何约束,但他们结合了基于线描述符的二阶光度约束,并利用 Delaunay 三角剖分来构建邻域。此外,三角形区域表示(TAR)[38]也具有仿射不变性。 Li 和 Ye [39] 提出了一种鲁棒样本一致性判断 (RSCJ) 算法,该算法利用 TAR 的比率来判断样本是否是坏的,并且可以嵌入到大多数假设和测试型鲁棒估计的随机抽样阶段算法。局部仿射不变特征匹配(LAM)[40]利用TAR比率的不变性来构建局部重心坐标(LBC)来区分异常值。 LAM 搜索三个邻居的中心点以形成三个三角形,然后计算每个三角形面积与总面积的比率作为 LBC。然而,仅依靠三个邻居来确定异常值是不够的,因为邻域通常包含异常值,因此仍然保留了错误匹配。相反,为了减轻邻域中异常值的影响,我们提出的方法构建了多个拓扑单元来计算相邻三角形的面积比,并且仅使用具有更好仿射保留特性的部分单元来判断假定对应的正确性。最近,已经开发了许多基于局部运动一致性的匹配方法。局部保持匹配(LPM)[41]是一种具有代表性的方法,它可以通过结合相互KNN的特征数和邻域运动一致性度来快速确定异常值。基于网格的运动统计(GMS)[42]算法将图像划分为网格,并将运动平滑度封装到一个统计框架中,以快速拒绝错误匹配。江等人。 [43] 提出了一种基于运动一致性的空间聚类,称为 RFM-SCAN 以去除异常值。线性自适应滤波(LAF)[44]使用渐进式高斯核卷积运算计算典型运动向量,然后通过检查假定运动向量与其对应的典型运动向量之间的一致性来检测异常值。与上述方法不同,我们提出的方法利用局部运动一致性不是为了构建成本或标准来去除异常值,而是挖掘可靠的邻域以进行 LAP 匹配。

3. 方法

本节介绍一种高效的特征匹配方法,用于在相同或相似场景的两张遥感图像之间建立准确的特征对应关系。为此,我们首先通过判断特征描述符的相似性来构造一组假定的对应关系 S,例如 SIFT [8]。此后,我们提出了一个几何约束来从给定的假定集合中删除错误匹配,从而过滤掉具有不同邻域拓扑的匹配。下面,我们将重点介绍失配消除阶段,并介绍基于 LAP 的具有运动一致性的几何约束。

3.1 问题表述

假设假定集合 S 包含 N 个假定特征对应,即S={(xi,yi)}i=1NS=\{(x_i,y_i)\}_{i=1}^N,其中xix_iyiy_i是表示特征点在感知图像和参考图像中的空间位置的向量,分别。由于特征描述符相似性的模糊性,S 通常被不可避免的噪声和异常值污染。因此,为了建立可靠的特征对应关系,我们的目标是去除假定集 S 中的异常值并找到最优的内点集I\mathcal{I}^*

在很远的范围内拍摄的遥感图像可以近似地视为平面场景[11];因此,这些图像对之间的几何关系可以通过刚性或仿射变换很好地建模。然而,平面场景的假设对于经历地势变化、成像视点变化和局部非刚性几何失真的图像对是不可行的 [45]。当这些变换发生在参考图像中时,感知图像中特征点之间的相对距离会发生变化,但由于物理约束,特征点之间邻域的拓扑结构可能无法自由修改。因此,我们设计了一个局部几何约束来保持点之间的邻域拓扑。具体来说,我们将不匹配消除公式化为优化问题

I=argminIC(I;S,λ)(1)\mathcal{I}^*=\arg\min_{\mathcal{I}}C(\mathcal{I};S,\lambda)\tag{1}

成本函数 C 定义为

C(I;S,λ)=iIc(xi.yi)+λ(NI)(2)C(\mathcal{I};S,\lambda)=\sum_{i\in\mathcal{I}}c(x_i.y_i)+\lambda(N-|\mathcal{I}|)\tag{2}

其中,|·|表示集合的基数,c(xi , yi ) 致力于在不保留邻域拓扑的情况下惩罚这些对应关系,即值越大,(xi , yi ) 为错误匹配的概率越大,反之亦然。成本函数的第二项用于阻止异常值,即保持尽可能多的对应关系。参数 λ> 0 控制这两项之间的权衡。下面,我们将重点设计一个几何约束来定义 c(xi , yi ),它使得离群点的值更大,而离群点的值更小。理想情况下,最优解应该实现零惩罚,即 C 的第一项应该为零。

3.2 使用运动一致性构建邻域

邻域构造对于确定对应关系是否保留邻域拓扑至关重要。如果我们直接搜索每个特征点的 K 近邻,并将它们视为邻域,则内点的邻域会被异常值污染,导致局部拓扑保存不佳。在这种情况下,很难区分异常值和内部值。为此,下面提出了一种基于运动一致性的邻域构建的有效方法。

图1. 运动一致性的示意图。内部值(蓝色)和异常值(红色)分别显示在顶部和底部行中。 (右)运动场中每个箭头的头尾对应于(左)图像对中两个对应特征点的位置。为了可见性,图像对中显示了 300 个随机选择的匹配项,并且所有位移矢量都显示在运动场中。

图 1 显示了在同一位置捕获的图像对上的特征匹配结果。图像对来自 720Yun 数据集。正如我们所见,正确匹配(蓝色位移向量)往往具有相干运动和相邻点共享相似运动,而错误匹配(红色位移向量)倾向于随机分布在图像域。注意,位移向量的相似性主要在于两个方面:长度和方向。基于以上观察,我们定义了运动一致性相似度

μij=12((vi,vj)vivj+1)+ρmin{vi,vj}max{vi,vj}(3)\mu_{ij}=\frac{1}{2}(\frac{(v_i,v_j)}{|v_i|\cdot|v_j|}+1)+\rho\cdot \frac{\min\{|v_i|,|v_j|\}}{\max\{|v_i|,|v_j|\}}\tag{3}

其中v()v_{(\cdot)}是与点对(x(),y())(x_{(\cdot)},y_{(\cdot)})相关的位移矢量。第一项表示方向相似度,取值范围为 0 到 1。第二项用于衡量viv_ivjv_j的长度相似度,取值范围为 0 到$ ρ(·,·) ρ>0表示内积。参数 ρ> 0 控制这两项之间的权衡。\mu_{ij}$的值越大,共识越高。

我们首先搜索感知图像中每个特征点 xi 的 M 个最近邻,然后计算向量viv_i与其相邻位移向量{vj}j=1M\{v_j\}_{j=1}^M之间的运动一致性相似度。最后,选择相似度最高的前 K 个邻居作为邻域Nxi\mathcal{N}_{x_i}。基于假定集合S中的对应关系,可以生成参考图像中的Nyi\mathcal{N}_{y_i}。类似地,我们也可以搜索 yi 的 M 个最近邻,然后选择运动一致性最大的前 K 个邻域作为邻域Nyi^\hat{\mathcal{N}_{y_i}}。同时,通过对应关系得到感知图像中的邻域Nxi^\hat{\mathcal{N}_{x_i}}

图 2 显示了不同邻域构建的四种结果。假定的匹配 (xi , yi ) 是一个内点并用青色标记。第一个示例搜索特征点 xi 的 K 最近邻(K = 10)作为其邻域,该邻域被红色标记的异常值质量所污染。其余三个示例搜索特征点 xi 的 M 个最近邻(M = 25),然后通过测量不同的运动一致性标准选择 K 个邻域作为邻域。参数ρ越大,长度越重要。第二个示例显示了 ρ = 0 的邻域构造,这意味着仅使用方向来测量运动一致性。尽管过滤掉了许多异常值,但邻域仍然是方向相似但长度非常不同的错误对应。类似地,上一个示例中的邻域 (ρ = 2) 保持具有相似长度但方向非常不同的异常值。也就是说,较高和较低的 ρ 值都会导致邻域不可靠。最好选择一个合适的 ρ 来构建邻域,比如第三个例子 ρ = 1。

图2. 使用不同的邻里建设策略的插图。第一个示例搜索特征点 xi 的 K 近邻作为其邻域,而其余三个示例采用基于运动一致性的邻域挖掘策略来构建邻域。在所有这些情况下,(左)显示图像对中的假定匹配,(右)显示运动场,其中每个箭头的头部和尾部对应于两个图像中特征点的位置。

3.3 基于局部仿射不变性的重构误差计算

遥感图像中的非刚性变换通常无法全局建模,但仿射或单应变换可以很好地建模图像内部局部区域的拓扑结构。换句话说,内点的局部拓扑结构可以保持仿射不变,而异常点不能保持。因此,引入了具有局部仿射不变性的几何约束。

对于每个特征点的K(K>3)个邻居,我们随机选择三个邻居来构建一个MTU;因此,有

U=CK3=K!6(K3)!(4)U=C_K^3=\frac{K!}{6(K-3)!}\tag{4}

xi 邻域中的拓扑单元。我们在Nxi\mathcal{N}_{x_i}邻域中找到所有排列,每个排列包含 xi 的三个邻居。每个邻居都有一个指示假定集合 S 中位置的索引,我们将这些**索引记录到矩阵oRU×3o\in\R^{U\times3}**中。因此,oumo_{um}表示第 u 个排列(u ≤ U,m ≤ 3)中第 m 个对应关系的索引。

图3. MTU 的结构示意图。

如图 3 所示,虚线圆圈表示感知图像中xix_i的邻域。我们可以选择xix_i的任意三个邻居,例如xou1x_{o_{u1}}xou2x_{o_{u2}}xou3x_{o_{u3}},来构造一个由三个三角形组成的 MTU。在参考图像中,xix_i的假定匹配点为yiy_i,它可以使用对应的邻居,即you1y_{o_{u1}}you2y_{o_{u2}}you3y_{o_{u3}}来生成对应的 MTU,如图 3 右半部分所示。如果有两个 MTU 之间的仿射变换,则三角形面积的比率将是一致的并满足以下等式:

A(xi,xou1,xou2)A(yi,you1,you2)=A(xi,xou2,xou3)A(yi,you2,you3)=A(xi,xou3,xou1)A(yi,you3,you1)(5)\frac{A(x_i,x_{o_{u1}},x_{o_{u2}})}{A(y_i,y_{o_{u1}},y_{o_{u2}})}= \frac{A(x_i,x_{o_{u2}},x_{o_{u3}})}{A(y_i,y_{o_{u2}},y_{o_{u3}})}= \frac{A(x_i,x_{o_{u3}},x_{o_{u1}})}{A(y_i,y_{o_{u3}},y_{o_{u1}})}\tag{5}

其中,A(,,)A(\cdot,\cdot,\cdot)表示形成的三角形面积。然后,我们定义三个比率,它们是xix_i的 MTU 中三个三角形中任意两个的比率,即

r1(xi,ou)=A(xi,xou1,xou2)A(xi,xou2,xou3)r2(xi,ou)=A(xi,xou2,xou3)A(xi,xou3,xou1)r3(xi,ou)=A(xi,xou3,xou1)A(xi,xou1,xou2)(6)r_1(x_i,o_u)=\frac{A(x_i,x_{o_{u1}},x_{o_{u2}})}{A(x_i,x_{o_{u2}},x_{o_{u3}})}\\ r_2(x_i,o_u)=\frac{A(x_i,x_{o_{u2}},x_{o_{u3}})}{A(x_i,x_{o_{u3}},x_{o_{u1}})}\\ r_3(x_i,o_u)=\frac{A(x_i,x_{o_{u3}},x_{o_{u1}})}{A(x_i,x_{o_{u1}},x_{o_{u2}})}\tag{6}

类似地,yi 的三个比率可以通过下式{rm(yi,ou)}m=13\{r_m(y_i,o_u)\}_{m=1}^3获得。根据局部仿射不变性的性质,如式(5)所示,理想情况下,如果一个 MTU 满足仿射变换,则{rm(xi,ou)}m=13\{r_m(x_i,o_u)\}_{m=1}^3应该非常接近{rm(yi,ou)}m=13\{r_m(y_i,o_u)\}_{m=1}^3。因此,第 u 个 MTU 的拓扑保留程度可以通过

su=m=13(1exp(rm(xi,ou)rm(yi,ou)))(7)s_u=\sum_{m=1}^3(1-exp(-|r_m(x_i,o_u)-r_m(y_i,o_u)|))\tag{7}

其中rm(xi,ou)r_m(x_i,o_u)rm(yi,ou)r_m(y_i,o_u)分别表示 xi 和 yi 的第 u 个 MTU 中的第 m 个比率。sus_u的值越小,本地拓扑的保留越好。虽然利用运动一致性可以获得相对可靠的邻域,但可能仍然存在一些异常值来扰乱内点的拓扑结构,导致保存度较差,即sus_u值较大。为此,我们对{su}u=1U\{s_u\}_{u=1}^U进行升序排序,并选择顶部的 αU MTU 来构造局部几何约束

d(xi,yi)=u=1αUsu(8)d(x_i,y_i)=\sum_{u=1}^{\alpha U}s_u\tag{8}

其中 α ∈ (0, 1] 用于控制 MTU 的数量。d(xi,yi)d(x_i,y_i)旨在使用具有更好拓扑保留的 MTU 来衡量邻域拓扑对假定对应 (xi , yi ) 的保留程度。这样,我们就可以保证离群点的邻域拓扑结构尽可能少受离群点的影响,并尽可能地达到较低的d(xi,yi)d(x_i,y_i)值。同时,由于离群点的邻域拓扑结构不能在变换后保留,它们也没有局部仿射不变性,从而导致大的d(xi,yi)d(x_i,y_i)值。

请注意,上述矩阵 o (邻域索引)是建立在邻域Nxi\mathcal{N}_{x_i}中元素的排列之上的。这些元素来自 xi 的 M 个最近邻,并且与 vi 具有相似的运动。类似地,矩阵o^\hat{o}可以由邻域Nxi^\hat{\mathcal{N}_{x_i}}构造。在矩阵o^\hat{o}的基础上,利用不同的 MTU 来创建另一个局部几何约束

d^(xi,yi)=u=1αUm=13(1exp(rm(xi,o^u)rm(yi,o^u)))(9)\hat{d}(x_i,y_i)=\sum_{u=1}^{\alpha U}\sum_{m=1}^3(1-exp(-|r_m(x_i,\hat{o}_u)-r_m(y_i,\hat{o}_u)|))\tag{9}

其中d^(xi,yi)\hat{d}(x_i,y_i)d(xi,yi)d(x_i,y_i)分别表示基于局部仿射不变性的后向和前向重建误差。内点在前向和后向错误中都应该具有较低的值。因此,(2)的成本函数中的局部约束被定义为

c(xi,yi)=12αU(d(xi,yi)+d^(xi.yi))(10)c(x_i,y_i)=\frac{1}{2\alpha U}(d(x_i,y_i)+\hat{d}(x_i.y_i))\tag{10}

3.4 封闭式解决方案

为了优化目标函数,我们引入了一个 N × 1 二元向量 p 来关联假定的集合 S,其中pi=1p_i=1表示内点,否则表示异常点。因此,(2)等价于以下最小化问题:

C(P;S,λ,τ)=i=1Npic(xi,yi)+λ(Ni=1Npi)(11)C(P;S,\lambda,\tau)=\sum_{i=1}^N p_ic(x_i,y_i)+\lambda\Big(N-\sum_{i=1}^N p_i\Big)\tag{11}

我们可以通过合并与pip_i相关的项来重写(11)的形式,并获得

C(P;S,λ,τ)=i=1Npi(ciλ)+λN(12)C(P;S,\lambda,\tau)=\sum_{i=1}^N p_i(c_i-\lambda)+\lambda N\tag{12}

其中 ci 是 c(xi , yi ) 的缩写。由于特征点之间的邻域关系是固定的,所以可以预先估计{ci}i=1N\{c_i\}_{i=1}^N。因此,(12) 中唯一的未知变量是 pi 。任何与 ci 小于 λ 的假定匹配将导致 (12) 的负项,反之亦然。因此,p的最优解被确定为

pi={1,ciλ0,ci>λ,i=1,...,N(13)p_i= \begin{cases} 1,&c_i\leq \lambda\\ 0,&c_i > \lambda \end{cases},i=1,...,N\tag{13}

最后,最优内点集I\mathcal{I}^*表示为

I={i,pi=1,i=1,...,N}(14)\mathcal{I}^*=\{i,|p_i=1,i=1,...,N\}\tag{14}

我们将提出的特征匹配方法命名为 LAP 匹配,并将其总结在算法 1 中。

该算法采用预定义的阈值来根据重构误差的值来确定推定匹配的正确性。图 4 给出了一个例子来展示所提出策略的有效性,它展示了重建误差相对于图 2 中图像对的假定匹配指数的分布。更具体地说,图像对的假定集包括 318假定匹配,其中异常值由蓝色圆圈表示,异常值由红色圆圈标记。图 4 中的第一个图使用 KNN 创建邻域和所有 MTU 来计算重建误差。我们可以看到,许多内点和异常点的重构误差值是重叠的,无法通过一个阈值很好地区分。这是因为异常值的邻域被异常值污染,导致更大的重建误差。图 4 中的第二个图利用所提出的基于运动一致性和所有 MTU 的邻居挖掘策略来计算重建误差(即 α = 1)。在这种情况下,异常值显然具有较低的重构误差,而异常值具有较高的值。但是,inliers和outliers之间的差距很小,如虚线包围的灰色区域所示,如果在灰色区域使用阈值,则蓝色虚线表示的inliers将被视为异常值。为此,我们重新排列所有MTU的误差,并选择分数最小的αU MTU参与计算。如图 4 的第三幅图所示,inliers 和 outliers 之间的偏差范围明显扩大,蓝色虚线表示的 inliers 的误差明显减小,导致所有匹配都被正确识别。此外,第四节提供了一个消融实验,以显示它们各自对最终结果的重要性。

图4. 三种策略下关于假定匹配指数的重构误差分布。

3.5 计算复杂度

由于假定集合 S 有 N 个特征点对应,使用 K-D 树为每个特征点搜索 M 个最近邻的时间复杂度约为$ O((M + N) log N)。构建可靠邻域的总时间复杂度约为 O((M + M log M)N)cost。 costc_iU的计算包括U重构误差的计算和排序,导致时间复杂度为O((U +U logU)N)$。因此,我们的 LAP 的总时间复杂度接近 O(MlogN+N(logN+M+MlogM+U+UlogU))O(M log N+N(log N+M+M log M+U+U logU))。由于 M 和 U 是常数且小于 N,因此时间复杂度的 LAP 可以简单地写为 O(NlogN)O(N log N)。也就是说,LAP 关于给定假定集合的元素数具有线性复杂度,这对于大规模任务具有重要意义。

3.6 数据预处理

假定的集合 S 可能包含一些重复出现的特征点。如果一个 MTU 包含重复的点,则无法形成三个三角形,导致面积比rmr_m和成本项cic_i无法计算。因此,确保 MTU 中不出现重复点至关重要。假定集合 S 中有两种重复类型。一种是重复对应,例如(xi,yi)(x_i,y_i)(xj,yj)(x_j,y_j)是当xi=xjx_i=x_jyi=yjy_i=y_j时的一对重复对应。另一种是重复点,例如xi=xjx_i=x_jbutyiyjy_i\neq y_j,或yi=yjy_i=y_jbutxixjx_i\neq x_j。我们只在前一种情况下保留一对重复对应中的对应关系,并从假定集合 S 中删除所有后一种情况。

4. 实验结果

在本节中,我们通过定性和定量实验评估我们提出的 LAP 的性能。 LAP 与 RANSAC [17]、MLESAC [18]、GMS [42]、LMR [26]、LFGC [27]、LAF [44]、LPM 等七种具有代表性的最先进的特征匹配方法进行了比较[41],以及之前版本的 LAP [12]。匹配性能由精度、召回率、F-score 和运行时间来表征,其中精度定义为匹配算法保留的匹配项中真实内点的百分比,召回率是保留的真实内点在整个 ground-truth 中的比例inlier set,F-score是precision和recall的调和均值,等于2 * Precision * Recall/(Precision + Recall)。所有实验均在配备 Intel® Core™ i7-5930K CPU、8-GB 内存和 MATLAB 代码的 PC 上进行。

4.1 数据集

为了评估特征匹配性能,我们使用了来自 [44] 和 [46] 的七个遥感数据集。

  1. SAR:数据集包含 18 对合成孔径雷达 (SAR) 图像,尺寸从 256 × 256 到 800 × 800。参考图像和传感图像分别由 RADARSAT II 和无人机 (UAV) 上的 SAR 捕获.
  2. CIAP:数据集包括57对彩色红外航空照片(CIAP),尺寸为700×700。所有图像对都已经过正射校正,但重叠区域很小,通常用于图像拼接任务。
  3. 无人机:该数据集包含 35 对大小为 600 × 337 的无人机图像。这些图像是在一片农田上捕获的,并且由于成像条件不稳定而存在投影失真,可用于自动作物监测任务。
  4. FE:数据集包含 32 对由 FE 相机拍摄的图像,尺寸为 1280 × 1024 或 1088 × 1088。这些图像对由于成像机制而遭受视点变化和严重的非刚性变形。
  5. 720云:数据集涵盖23对图像,分辨率从496×496到800×800。这些图像对来自720云平台拍摄的全景图像,涉及道路、建筑物、梯田等。由于数据采集的过程,每个图像对都会发生非刚性变换。
  6. PAN:数据集由 18 对全色 (PAN) 航空照片组成,大小为 561 × 518 或 600 × 700。图像对是在不同时间捕获的,并经历适度的视点变化,通常用于变化检测任务.
  7. GF-II:该数据集包含 15 对从 GF-II 图像中裁剪的具有刚性变换的图像。所有图像的分辨率均为2048×2048,每对图像的初始匹配数为3896到4827,这会给匹配方法带来巨大的计算负担。

为了建立ground truth,所有真实的对应关系都是通过手动检查每个图像对中每个假定对应关系的正确性来建立的。根据图像对的变换类型,上述数据集分为三组:刚性(SAR、CIAP 和 GF-II)、投影(UAV 和 PAN)和非刚性(720Yun 和 FE)数据集。

4.2 参数设置和消融研究

LAP的未定参数包含初始邻域的大小M、可靠邻域的大小K、拓扑单元数的比值α、以及区分内点和异常点的阈值λ。为了分析 LAP 对参数设置的敏感性,我们在上述 6 个数据集中随机抽取的 40 个图像对上测试了不同参数的 F-score,如图 5 所示。参数 M 越大,要考虑的邻域范围越大。 K和α的值越高,MTU的数量就越多。 MTU 过多或不足都会降低 F 分数。从结果中,我们看到四个参数的性能呈现先上升后下降的趋势。在随后的评估中,我们根据经验将默认值设置为 M = 25、K = 10、α = 0.5 和 λ = 0.7。

图5. 具有不同参数设置的累积分布的 F 分数。曲线上坐标为 (x, y) 的点表示 F-score 不超过 y 的图像对的百分比为 100 × x,图例显示了平均性能。 AF 代表所有 F 分数的平均值。

图 6 显示了 LAP 变体在不同设置下的 F-score 性能,包括有或没有运动一致性邻域 (MCN) 构造以及有或没有 MTU 的过滤机制。更具体地说,没有 MCN 构造的变体被命名为“KNN +”,没有 MTU 过滤机制的变体被命名为“α = 1.0”。可以看出,没有这两种机制的第一个变体表现出最差的性能。第二个和第三个变体分别添加了 MCN 构造和 MTU 过滤。它们都实现了显着的性能提升,这证明了 LAP 两种机制的有效性。

图6. 消融实验。 LAP 的四种变体包括带或不带 MCN,以及带或不带 MTU 过滤机制。

4.3 定性实验

图 7 展示了来自 UAV、GF-II、SAR、PAN、CIAP、720Yun 和 FE 七个数据集的 14 个典型图像对的定性特征匹配结果。每行显示数据集的两个结果示例。可以看出,尽管 UVA 图像对具有高度纹理区域,而 CIAP 图像对具有较小的重叠区域,但我们的 LAP 在前 10 个经过刚性或投影变换的图像对上表现出出色的结果。 LAP 可以达到令人满意的结果,并且仅保留了 Yun 图像对上的一些错误匹配,这些错误匹配来自包含局部几何失真的全景图像。最后两对图像由鱼眼相机捕获并经历了明显的非刚性变形,LAP 仍然可以正确消除大多数不匹配。结果表明,我们的 LAP 可以处理各种图像转换和不同类型的遥感数据。

4.4 定量评价

图 8 显示了使用我们的 LAP 和七种最先进的特征匹配方法进行特征匹配的定量比较,包括 RANSAC [17]、MLESAC [18]、GMS [42]、LMR [26]、LFGC [27 ]、LAF [44] 和 LPM [41] 在三个数据集组上,即刚性、投影和非刚性数据集。此外,我们还比较了以前版本的 LAP,记为 LAP-v1。图 8 的第一行表示这三个数据集上初始内点比率的累积分布,倒数第二行分别显示关于精度、召回率、F-score 和运行时间的统计结果。

图7. LAP 在 14 个代表性图像对上的定性匹配结果。从(上)到(下)和(左)到(右)UAV1、UAV2、PAN1、PAN2、SAR1、SAR2、CIAP1、CIAP2、GF-II1、GF-II2、Yun1、Yun2、FE1 和 FE2。内点比率分别为 0.5285、0.5552、0.4702、0.6037、0.4781、0.7692、0.2083、0.3212、0.6528、0.2555、0.4102、0.5355、0.8593 和 0.7500。运动场中每个箭头的头部和尾部对应于两个图像中特征点的位置(蓝色=真阳性,绿色=假阴性,红色=假阳性,黑色=真阴性)。为了可见性,在图像对中,仅显示了 100 个随机选择的匹配项,并且未显示真阴性。

图8. RANSAC、MLESAC、GMS、LMR、LAF、LPM、LAP-v1、LAP在三个数据集上的定量特征匹配结果,如从(左)到(右)刚体(SAR、CIAP和GF-II),投影(UAV 和 PAN)和非刚性(720Yun 和 FE)。从(顶部)到(底部)相对于累积分布的初始内点比率、精度、召回率、F 分数和运行时间。曲线上坐标为 (x, y) 的点表示有 100 × x 百分比的图像对的初始内点比率、精度、召回率、F-score 或运行时间不超过 y,图例显示了平均性能价值观。

从结果中我们可以发现,我们的 LAP 的精度在 Rigid 和 Projective 数据集中排名第三,在 Nonrigid 中排名第五,但它可以在所有数据集中实现最好的召回率和 F-score。在比较算法中,RANSAC 和 MLESAC 是基于重采样的方法。可以看出,由于参数模型不足以进行非刚性转换,因此它们在非刚性数据集上的 F 分数比在刚性和投影数据集上差。尽管如此,结果表明 MLESAC 在准确性和速度方面提高了 RANSAC 的性能。 GMS 速度快,性能适中,但它需要足够数量的假定匹配。 LFGC 的性能并不令人满意,因为它的精度高但召回率低。 LMR、LAF 和 LPM 是基于局部一致性假设的方法,由于它们可以处理涉及非刚性变换的场景,因此可以获得更好的性能,但它们的性能仍然比 LAP 差,因为它们没有考虑更强的局部拓扑约束。此外,LAP 比之前的 LAP-v1 具有更好的性能,因为它附加了反向验证步骤并修改了运动一致性的度量。总之,与其他最先进的方法相比,LAP 可以在所有这三种类型的数据集上实现精度、召回和运行时间的最佳权衡。

4.5 稳健性测试

最后,我们用三个典型的图像对测试了我们的 LAP 算法的鲁棒性,它们分别经历了刚性、投影和非刚性变换。图 9 说明了以下两种情况下的鲁棒性评估。

图9. 我们的 LAP 算法的鲁棒性测试。 (左)我们固定内点数并改变内点比率来测试三种类型图像对的匹配性能。 (右)我们固定了内部比率并改变了内部数量。误差线表示十次试验的 F 分数平均值和标准偏差。

一方面,假定集合的初始内点率是影响匹配性能的重要因素,内点率越低,匹配挑战越大。因此,我们固定初始内点数,然后以 0.01 的间隔将内点比率从 0.1 更改为 0.5。对于每个内点比率,我们进行十次试验,将异常值随机添加到假定的集合中以满足集合内点比率。然后,我们使用误差线报告十次试验的 F 分数的均值和标准差,如图 9 的左图所示。从结果中,我们看到 LAP 可以很好地工作,即使使用内部比率0.15以下,随着内点比增加到0.25以上,匹配性能变得更好,更稳定。

另一方面,假定集合中的内点数也会影响匹配性能。为了结束这一点,我们将内点比率固定为 0.3,然后以 3 的间隔将内点数从 10 更改为 110。结果报告在图 9 的右图中。我们看到初始内点时结果是稳定的对于刚性和非刚性图像对,数字大于约 30,而对于投影图像对,则大于 70。尽管当假设的内点数较少时性能会出现波动,但所有测试内点数上的三个图像对的 F-score 均高于 0.9,这表明当内点数超过约 10 且具有内部比率为 0.3。

5. 结论

本文基于特征对应的邻域拓扑结构通常得到较好保留的特点,提出了一种有效且高效的遥感图像鲁棒特征匹配去除错配方法LAP。我们将问题表述为数学优化模型,该模型对遥感领域的各种图像变换具有通用性,例如刚性或非刚性变换。模型中提出的局部几何约束利用仿射不变性的性质来衡量邻域结构的保存程度。此外,为了克服之前许多工作中空间 K 近邻作为邻域的缺点,我们提出了基于运动一致性的邻域挖掘策略来构建可靠的邻域。此外,为优化模型推导出了一个封闭形式的解决方案,这使得 LAP 能够实现线性时间复杂度,并在几十毫秒内完成从数千个假定对应关系中去除不匹配。对几个遥感数据集的定性和定量实验证明了我们的方法优于最先进的方法。

然而,要求输入假定集不包含重复对应和点的数据处理过程可能会对 LAP 性能施加限制。将来,我们可以改进提出的局部约束来代替数据预处理的步骤。此外,可以通过添加更多约束或将提出的局部几何约束合并到图神经网络中来增强 LAP。


LAP:具有运动一致性的局部仿射保留遥感图像特征匹配
http://example.com/2022/09/11/LAP:具有运动一致性的局部仿射保留遥感图像特征匹配/
作者
Mr.Yuan
发布于
2022年9月11日
许可协议