作为无人机第一人称视角的辐射场学习者
引言。第一人称视角(FPV)在无人机飞行轨迹的革新方面具有巨大的潜力,为复杂建筑结构的导航提供了一条令人振奋的途径。然而,传统的神经辐射场(NeRF)方法面临着诸如每次迭代采样单个点以及需要大量视图进行监控等挑战。UAV视频由于视点有限和空间尺度变化大而加剧了这些问题,导致不同尺度下的细节渲染不足。作为回应,我们引入了FPV-NeRF,通过三个关键方面来解决这些挑战:(1)时间一致性。利用时空连续性确保帧之间的无缝一致性;(2)全局结构。在点采样过程中结合各种全局特征保持了空间完整性;(3)局部粒度。采用综合框架和多分辨率监控进行多尺度场景特征表示,解决了无人机视频空间尺度的复杂性。此外,由于公开可用的FPV视频的稀缺性,我们引入了一种创新的视图合成方法,该方法使用NeRF从无人机镜头生成FPV视角,增强了无人机的空间感知。在无人机领域,我们的新数据集涵盖了从室外到室内的各种轨迹,与传统的NeRF场景有着显著的不同。通过包括内部和外部建筑结构的广泛实验,FPV-NeRF展示了对无人机飞行空间的上级理解,在我们精心策划的无人机数据集中优于最先进的方法。请浏览我们的项目页面以获取更多信息:https://fpv-nerf.github.io/。
关键词:计算机视觉;空间感知;神经辐射场;第一人称视角;无人机
1 引言
在计算机视觉方面,机器人导航的进步,包括Visual-SLAM和MVS,以及计算机图形学的创新,如Novel视图合成已成为环境监测和灾难响应等应用程序的组成部分。这些需求建立了神经辐射场(NeRF)作为一种新兴的范例,使用多层感知器网络进行场景表示,并擅长从新颖的相机姿势渲染高质量的图像。
尽管NeRF取得了成功,但由于其在训练中依赖于来自像素的单个射线,因此在UAV捕获的多尺度视频中遇到了挑战,从而限制了其有效性。首先,该模型缺乏时间一致性,导致新视图生成过程中序列不平滑。其次,NeRF努力构建一个全面的全球结构,特别是在低纹理区域,如纯色表面或草地。第三,当原始视频视角不足时,特别是在建筑物等结构周围,难以渲染局部细节。因此,当应用于从复杂的无人机轨迹生成新颖的第一人称视角时,例如从外部到内部的缩放(图1),NeRF的质量会下降,突出了其在处理不同场景和视角方面的局限性。
在前面讨论的基础上,我们介绍FPV-NeRF,这是一个为无人机量身定制的第一人称视图合成框架,利用了神经辐射场的力量。配备第一人称视角(FPV)的无人机提供身临其境的视频,提供独特的视角,将观众直接置于行动之中。广泛的研究表明,人类从FPV视频中掌握了全面的空间理解,在第一和第三视角之间进行心理转换,并对环境进行整体把握。如果无人机可以将第三人称视角转换为第一人称视角,那么它就展示了类似于人类的空间认知能力。我们的FPV-NeRF作为无人机的强大和可解释的骨干,在多尺度空间结构识别方面表现出色,同时承认并超越了现有NeRF的局限性。
具体来说,FPV-NeRF将整个空域划分为区域,递归地将它们分解为子区域。这种多尺度空间构造器根据无人机的飞行轨迹动态调整三维模型组成,同时考虑全局和局部视角。与以前的NeRF不同,FPV-NeRF仅依靠MLP层进行颜色预测,优化了估计的UAV飞行空间中所有点的全局局部特征。我们提出的方法包括:I)多尺度摄像机空间估计,集中于使用相邻时间帧来对环境空间建模的轨迹重构。轨迹空间经过划分,根据UAV在相邻帧中的位置和姿态应用不同的坐标畸变函数。II)利用全局-局部场景编码器的第一人称视角视频生成:i)指示每个块的一般特征的可学习的体积嵌入; ii)基于位置提供连续特征的点位置嵌入,利用各种频率分量增强多尺度编码; iii)提供用于分辨率渲染和等级之间的交叉注意的全局特征的等级嵌入。III)对于训练,我们提出了具有三项的综合损失函数,结合了用于视差对准的最优传输和用于相邻区域之间的平滑一致性的有界变化。
从本质上讲,FPV-NeRF体现了几个吸引人的特性:首先,它实现了改进的时间一致性。视频序列中相邻帧之间的鲁棒相关定时机制和空间相干性使FPVNeRF能够构造更连续和平滑的整体结构。第二,它增强了全球结构的完整性。通过对不同分辨率之间的交叉注意力的精心设计和体积特征的获取,每个点的特征的训练都考虑了周围点的上下文,降低了忽略低上下文元素的风险。第三,它在提供本地粒度方面表现出色。将空间细分为具有不同翘曲函数的区域,结合采样点的坐标位置到包括高频分量的高维特征的变换,确保了局部细节的高保真度恢复。FPV-NeRF是一个直观而通用的分类框架;它兼容不同的基于NeRF的第一人称视图生成方法。在§4.3中,FPV-NeRF优于参数化的对等体,即:1.61-7.77的峰值信噪比和0.021-0.145的SSIM。在基于体素的架构下,FPV-NeRF在以前常用的NeRF数据集上的性能也优于SOTA方法,即,NeRF-360-V2数据集的峰值信噪比为0.03-3.07,LLFF数据集的峰值信噪比为0.01-1.65。在§4.4中,我们的多尺度摄像机空间估计方法将UAV数据集性能提高了1.52-5.23 PSNR。此外,我们的全局-局部编码器显著提高了性能(1.124.36 PSNR),并且我们的综合损失的结合进一步提高了性能(1.49-4.85 PSNR)。