锐利边缘如何破？

资讯 4年前

1.48K

多视图立体视觉是计算机视觉领域的重要问题，在三维重建、机器人导航和图形学中都具有重要的应用。而现有的多视图深度估计方法一方面对于无纹理／弱纹理的区域、较细较薄的结构无法很好的重建，同时会在一定程度上丢失三维形状的边角和平面信息，此外对于遮挡区域的深度估计还会存在一定的退化现象。

为了解决这一问题，来自香港大学和马普研究所的研究人员在深度估计模型中引入了融合表面法向量约束来更好地捕捉曲率变化剧烈和平面区域的信息，同时还引入了遮挡注意力策略来进一步提升深度估计的精度。实验表明在这些方法的作用下，大幅度提升了单目多视图的深度估计性能，并在多个测评指标上超过了先前的深度估计方法。

多视图深度估计

本文所要研究的问题是利用单个移动相机获得的多视角视频中估计出场景深度，但从彩色视频序列中估计深度并不简单。传统立体视觉方法无法处理无纹理区域、细薄结构、锐利的形状边缘和非朗伯表面。虽然近年来深度学习方法利用逐像素的深度损失进行端到端的训练得到了较为精确的结果，但还无法有效保持陡峭的边、角、平面结构等主要的形状特征，而这对于场景的理解特别是室内人造物件的重建至关重要。如何解决这些问题，在深度估计过程中保持局部和全局的几何特征就显得尤为重要。

法向量可以编码物体表面的角度信息，对于平面可以利用统一的法向量进行约束，而对于剧烈变化的局部结构也可以利用法向量中包含的角度信息进行约束。所以在深度估计过程中，利用法向量作为深度外的另一个约束可以有效提升模型对于场景全局和细节的重建能力。

此外在多视角重建过程中，特定视角下某些区域会存在明显的遮挡，这会造成不同视角下得到的深度在遮挡区域变换剧烈。同时遮挡和非遮挡区域对于深度估计的贡献也各不相同，有效处理遮挡区域是高精度深度估计的另一个关键所在。

实现方法

为了解决这些问题，本文提出了融合法向量（combined normal map， CNM）作为深度估计任务中的额外约束，同时利用遮挡注意力机制来处理遮挡对深度估计造成的影响，在进一步优化深度结果的同时还能给出遮挡概率图。

下图显示了模型的完整结构，分为单应性变换、代价空间构建、初始深度估计、遮挡注意力的深度优化估计等主要部分。其中输入包含一张位于时间轴中间的参考图像和偶数张源图像。在单应性变换的作用下，每一张源图像与参考图像都可以在采样深度上生成代价空间，而后利用DepthNet进行初始深度估计，并使用CNM和深度的L1损失进行训练。在获取初始深度后，多视角的代价空间进行融合并与预测出的深度图一同送入优化网络中进行处理，在遮挡注意力机制的作用下，提升深度估计的精度，并同时给出遮挡概率图。这一部分训练同时由深度、法向量和遮挡进行约束。

下面我们将利用最简单的三视图情况作为例子来对每一个细节进行深入地探讨。其中中间视图作为参考视图，前后两张则作为源视图。首先需要利用单应性变换将源视图变化到参考视图的坐标下、一系列相互平行的深度采样平面上去，将任意一张源视图变换到给定深度上并与对应位置的参考视图配对，通过计算在不同深度上计算视觉连续连续性来构建出WxHxD的代价空间，其中W，H为图像的长宽，D为深度采样的数量。与先前从图像对中抽取4D的代价空间不同，这种直接基于图像对计算代价空间的方法避免了3D卷积对于计算资源和时间的消耗。

在获取代价空间后，研究人员使用了DepthNet对代价空间进行聚合，以得到初始的深度信息。需要注意的是，这一部分的输入还包含了对应的视图，以便充分利用图像中所包含的上下文信息。最终，模块输出的初始深度图为与参考图像视角下。

为了保留场景更多的局部和全局结构信息，研究人员还引入了CNM来作为基准来监督法向量约束。一方面通过PlaneCNN来抽取场景的平面区域，并利用区域平均法向量来为这一区域赋值；另一方面利用局域法向量计算方法来获取非平面区域的法向量。最主要的目的是利用局部表面法向量来捕捉局部曲率较高的几何结构，而用平均法向量来去除平面区域的噪声保留全局结构。最终在深度的L1损失和融合法相量CNM的约束下得到了效果较好的深度估计结果，下面显示了两部分损失的定义：