MCDM:基于运动一致性驱动概率图形模型的特征匹配
Feature Matching via Motion-Consistency Driven Probabilistic Graphical Model
MCDM:基于运动一致性驱动概率图形模型的特征匹配
摘要
本文提出了一种有效的运动一致性驱动匹配(MCDM)方法,用于从给定的两个特征集之间的暂定对应中去除失配。特别地,我们将每一个通信视为一个假设节点,并将匹配问题表述为一个概率图形模型,以推断每个节点的状态(例如,真或假通信)。通过研究真对应的运动一致性,我们在公式中加入一个一般先验来区分真对应和假对应。最终的推理转化为一个整数二次规划问题,并利用基于FrankWolfe算法的高效优化技术得到其解。在一般特征匹配、基本矩阵估计、相对位姿估计和闭环检测等方面的大量实验表明,该算法具有较强的泛化能力和较高的精度,优于目前最先进的算法。同时,由于计算复杂度低,该方法对于实际的特征匹配任务是有效的。
关键词:特征匹配·概率图形模型·运动一致性·鲁棒估计·离群值
1.引言
特征匹配是指在两个特征集之间建立可靠的对应关系的过程,是计算机视觉的基本问题之一,是许多重要任务的基础,包括三维重建、结构从运动(SfM)、图像配准和融合(Bustos & Chin, 2018;Deng等人,2018;Maet al., 2021;special et al., 2018;Vongkulbhisal等人,2018;周等,2017)。一般来说,匹配问题是病态的,具有组合性质(Wang et al., 2014),例如,将N个点匹配到另M个点(假设M > N),将产生多达MN种不同匹配结果的可能性。幸运的是,匹配问题可以通过两种类型的约束进行正则化(Lin et al., 2018;Ma et al., 2014)。首先,根据相似度约束,通过选择描述符(如SIFT, 2004, ORB, 2011)足够相似的特征点对,构建一个试探性对应集。由于局部描述符的模糊性,这种试验性集合通常包含大量的错误对应(或离群值),特别是当图像质量较低、存在遮挡或重复模式时。因此,需要一个几何约束作为区分离群值和真实对应(或内层)的重要手段,它限制了匹配与底层的几何模型一致。
特征匹配的一个核心问题是利用几何约束去除失配,为此已经开发了许多方法。大多数方法通过拟合一个预定义的变换模型来利用几何信息,该模型可以是参数(例如,相似性,仿射,单应性和极几何Fischler & Bolles, 1981)或非参数(例如,非线性回归求解的非刚体模型)2019a)。然而,这些方法在变换模型未知的情况下通常效果不佳,在场景涉及独立运动时不适用(如图2中的第二行)。或者,不依赖于特定变换模型的图匹配是解决这些问题的一种自然方式(Liu &Yan, 2010;Leordeanu和Hebert, 2005;Leordeanu等人,2009年;周,德·拉·托雷,2016)。然而,图匹配方法主要是为等大小特征集的匹配而设计的,通常在去除失配的准确性和计算成本方面表现出较差的性能。
为了解决上述问题,本文提出了一种通用的、高效的特征匹配方法——运动一致性驱动匹配(MCDM)。我们的MCDM不是假设一个转换模型,而是仅根据先前的运动一致性来确定真正的匹配。这种先验在特征匹配中是普遍存在的,因为物体总是存在物理约束,强制运动的局部一致性。为了利用这一先验,采用了一种基于图形的表示。具体来说,我们采用了概率图形模型(PGM) (Koller et al., 2009)来表述问题,其中每个试探性对应都被视为一个假设节点。从概率论的观点来看,可以精确地捕捉节点之间的关系(如通信),并据此推断节点的状态(如内部或离群)。提出了一种考虑运动一致性和匹配空间分布的交互模型来描述匹配关系。
为了进行推理,我们进一步将MCDM转化为一个整数二次规划(IQP)问题。由于它的NP-hard性质,求精确解几乎是不可能的,所以我们转而求一个近似解。高效的Frank-Wolfe (FW) (Frank & Wolfe, 1956;Jaggi, 2013)基于算法的优化技术被开发出来,每个迭代都有一个封闭的形式的解决方案。虽然FW只是优化的一个启发式方法,但我们证明在大多数情况下,它实际上可以产生令人满意的结果。定性和定量的结果表明,我们的MCDM优于目前最先进的技术。特别是,无论底层转换模型是什么,我们的MCDM都能够在几十毫秒内准确地消除不匹配。
我们的贡献包括以下四个方面。首先,我们提出了一种利用概率图形模型来解决特征匹配问题的新方法,与现有方法相比,该方法具有直观的解释,并允许引入更普遍的先验。其次,从运动场的角度研究了特征匹配问题,提出了一种基于运动一致性度量的有效节点配对交互模型。我们已经证明,这种交互模型对于去除与运动一致性先验的错误对应是必不可少的。第三,将多目标优化问题的推理转化为IQP问题,开发了一种基于FW算法的高效优化技术,在更新过程中得到了一个封闭的优化解。最后,将该方法应用于基本矩阵估计、相对位姿估计和闭环检测任务中,结果表明,由于具有较强的泛化能力,该算法在精度和效率方面都优于目前的算法
2.相关工作
在文献中,特征匹配问题已经被各种方法所解决,包括经典的特征检测器和描述符,如SIFT (Lowe, 2004), SURF (Bay et al., 2006)和ORB (Rublee et al., 2011),以及众多的失配去除方法。在本文中,我们假设特征点和描述符已经给出,并以此构造了一个暂定的对应集,然后我们的方法将重点放在失配去除问题上。现有的失配去除方法大致可以分为五类,即重采样法、非参数拟合法、基于投票法、图匹配法和基于学习法。
重采样方法遵循假设-验证策略,通过重采样迭代寻找无离群值的子集来拟合预定义的参数模型。随机样本一致性(RANSAC) (Fischler & Bolles, 1981)及其变体,如MLESAC (Torr & Zisserman, 2000), PROSAC (Chum & Matas, 2005), LORANSAC (Chum et al., 2003;Lebeda et al., 2012)和DegenSAC (Chum et al., 2005)是这一类别的代表。最近,一些改进性能的先进方法被提出,并被确立为最先进的技术。USAC (Raguram et al., 2013)将文献中的一些重要改进整合到一个统一的框架中。GC-RANSAC (Barath & Matas, 2018)引入了一种基于图切优化的更好策略,用于模型的局部细化。MAGSAC (Barath et al., 2019)和MAGSAC++ (Barath et al., 2020)可以在不需要内部离群值阈值的情况下实现更好的模型估计。VSAC (Ivashechkin et al., 2021)方法最近被提出,它在随机抽样框架的多个方面都具有创新性,在不牺牲精度的情况下显示出更好的效率。当固有变换符合参数化模型时,这些方法执行得相当好。然而,它们对很大比例的异常值很敏感,这通常会使重新采样的有效性降低。
非参数拟合方法可以解决更一般的匹配问题,如变形图像匹配。代表包括识别对应函数(ICF) (Li & Hu, 2010)和向量场共识(VFC) (Ma et al., 2014)。ICF利用SVM回归技术寻找对应函数对,将一幅图像中的点映射到另一幅图像中的对应点,从而剔除离群值。VFC采用混合模型处理异常值,并在重现核希尔伯特空间内进行鲁棒向量场拟合。因此,与恢复的向量场一致的对应被识别为内层。这些方法假设运动场是全局平滑的,但由于场景中存在深度不连续或独立运动,这种假设并不总是正确的。
基于投票的方法,如基于一致性的决策边界(Lin et al., 2018)、基于网格的运动统计(GMS) (Bian et al., 2020)和保持局部匹配(LPM) (Ma et al., 2019b),通常使用邻域支持来有效地过滤不良通信。这些方法通常可以达到较高的精度或较快的速度。然而,投票策略的有效性依赖于大量的内层或较低的离群值百分比,这在现实世界的匹配任务中并不总是如此。
图匹配是解决特征匹配问题的另一种方法。大多数图匹配方法都试图直接构建两个特征点集之间的对应,而不是通过相似约束建立试运行对应集来消除错误的对应(Cho et al., 2010;Leordeanu等人,2009年;Yan等,2016,2018;Zass& Shashua, 2008;周,德·拉·托雷,2016)。请注意,在Zass和Shashua(2008)中,作者也采用了概率解释,但与我们的目标不同,我们的目的也是直接匹配两组特征。这些方法通常计算复杂度高,可扩展性差。由于约束的松弛,也有一组图匹配方法也适用于失配消除任务(Leordeanu & Hebert, 2005;Liu & yan, 2010)。但这些方法通常对尺度变化或严重变形高度敏感,只给出每个对应的相对置信度值。
近年来,深度学习方法在计算机视觉领域的许多任务中取得了显著的进展。对于失配去除,learning to find good correspondence (LFGC) (Yi et al., 2018)被提出作为该任务的首次尝试。在给定一组试探性通信和摄像机固有特性后,LFGC训练了一个基于多层感知器的深度网络。训练后的网络被授权将通信标记为内层或异常值,并恢复相对相机的姿态。然而,就像其他数据驱动的方法一样,它不能保证在训练数据中没有表示的更广泛的场景类别上的性能,并且本质上是无法解释的。这严重限制了它的实际应用价值。这种方法也鼓励了一些后续工作(Choy等人,2020年;Sun等人,2020年;Zhang et al., 2019;赵等,2019)。
另外,SuperGlue (Sarlin et al., 2020)是最近提出的另一个有趣的想法,它利用图神经网络从局部特征生成更精确的对应。然而,它的输出中仍然存在一些异常值。
3. 方法
本节描述了我们提出的方法MCDM。我们将问题描述为PGM框架,该框架与局部运动一致性先验相结合。