CVPR2023 I NeRF-Supervised Deep Stereo：不需ground-truth数据

来源:哔哩哔哩发布时间:2023-05-27 22:51:10

编辑切换为居中

添加图片注释，不超过 140 字（可选）

(资料图片仅供参考)

论文题目：NeRF-Supervised Deep Stereo

作者：Fabio Tosi ；Alessio Tonioni; Daniele De Gregorio等人

作者机构：University of Bologna(博洛尼亚大学)；Google Inc(全球最大的搜索引擎之一)；Eyecan.ai(韩国专注于开发眼动追踪技术的公司)

在公众号「计算机视觉工坊」后台回复「原论文」，可获取对应论文pdf文件。

项目代码：https://github.com/fabiotosi92/NeRF

项目主页：https://nerfstereo.github.io/

本文提出了一种新的深度立体网络训练框架，可以从使用单个手持相机拍摄的图像序列中生成立体训练数据。这种方法利用了神经渲染解决方案提供的立体图像，跳过了基于ground-truth的训练，使用三元组来补偿遮挡和深度图像作为代理标签进行NeRF监督训练。实验结果表明，训练模型的效果比现有的自我监督方法提高了30-40％，在Middlebury数据集中达到了受监督模型的效果，而且大多数情况下在零拍摄泛化方面表现出色。

本文介绍了神经渲染用于构建灵活可扩展训练数据的新范式，该方法可以轻松地训练深度立体网络且无需任何基础知识。该方法使用标准单手持相机在野外收集稀疏的图像序列，并在其上训练NeRF模型。通过NeRF模型，可以从任意视点合成立体对以自我监督的方式训练任何立体网络，其中通过渲染每个对的第三个视图来有效地解决遮挡问题。此外，NeRF渲染的深度作为代理监督完善了我们的NeRF监督训练方法。实验结果表明，相对于现有的自我监督方法和合成数据集方法，所提出的方法在零拍摄泛化方面表现更出色。

本文的主要贡献可以总结为以下几点：

创新的方法来使用神经渲染和一系列用户收集的图像序列来收集和生成立体训练数据。

一个 NeRF-Supervised 训练协议，结合渲染图像三元组和深度图来解决遮挡和增强细节。

在具有挑战性的立体数据集上实现了最先进的零样本泛化结果，且没有利用任何真实立体对或基准。

编辑切换为居中

添加图片注释，不超过 140 字（可选）

本文这部分介绍了立体匹配、无监督立体、零样本泛化和神经辐射场等方面的相关工作。在立体匹配中，介绍了近几年深度学习成为该领域主导技术的情况。然而，这些方法严格要求密集的真实地面实况。在无监督立体中，使用光度损失的策略是常见的，但根据作者的说法，这些策略只适用于单个领域的专业化或适应。在零样本泛化中，将视差估算视为制作立体算法的问题进行改进是一条研究思路。在神经辐射场中，NeRF是主要的方法，其模型可以解决多种问题。作者提出的方法是通过从单个图像生成立体对来学习，不需要在数百万图像上预先训练任何模型或有实况标签，但仍然能取得更好的结果。

本文提出了NeRF-Supervised（NS）学习框架，用于训练立体匹配网络。该框架的步骤主要包括：从多个静态场景中收集多视角图像，适配NeRF以渲染立体三元组和深度信息，最后使用渲染的数据训练立体匹配网络。

编辑切换为居中

添加图片注释，不超过 140 字（可选）

神经放射场（NeRF）是一种将场景中点的 3D 坐标和捕捉该点的相机的视角作为输入，映射到颜色-密度输出的模型。为了渲染 2D 图像，该模型通过将相机光线分成预定义的采样点，并使用 MLP 估计每个采样点的密度和颜色，最终使用体渲染合成 2D 图像。显式表示例如体素网格可以存储其他特征，以加速模型训练和计算。

这部分作者介绍了如何使用NeRF作为数据工厂生成立体图像对以训练深度立体网络。首先，作者通过COLMAP对图像进行预处理，然后为每个场景拟合独立的NeRF，并使用渲染损失进行优化。最后，通过虚拟立体相机参数渲染两个新视图和一个第二个目标帧，创建完美校正的立体三元组。在这个过程中，我作者从渲染深度中提取位移，并用它来辅助训练深度立体网络。

作者提出了一个NeRF-Supervised训练方案，其中利用一个图像三元组通过光度损失和渲染位移损失对深度立体模型进行监督。三元组光度损失通过使用图像重建来对遮挡问题进行补偿。渲染位移损失被过滤以去除不可靠的像素。最终，两个损失被加权平衡后，用于训练任何深度立体网络。

编辑切换为居中

添加图片注释，不超过 140 字（可选）

作者使用移动设备捕获的高分辨率场景进行深度估计的方法。通过收集270个静态场景和渲染三元组来生成训练数据，并使用Instant-NGP作为NeRF engine实现，以实现精确深度估计。此外，还引入了一个提议来提高现有立体算法的性能，并利用普通的相机进行实现。其中，作者采用了准确性和快速收敛的RAFT-Stereo作为主要架构，并使用PSMNet和CFNet进行评估，提高了这些算法的性能。

作者使用KITTI、Middlebury和ETH3D数据集进行评估，计算视差误差指标，并按照立体匹配领域的协议定义验证和测试集。评估采用固定的阈值τ，分别为KITTI固定τ = 3，Middlebury固定τ = 2，ETH3D固定τ = 1。在评估期间，考虑遮挡和非遮挡区域并具有有效的基准视差。

欢迎关注微信公众号「3D视觉工坊」，加群/文章投稿/课程主讲，请加微信：QYong2014，添加时请备注：加群/投稿/主讲申请

作者使用渲染视频生成大规模立体训练数据集的方法，涉及渲染参数选择，标签生成和代理损失的选择方法等。在进行降板研究时，作者发现在他们的数据集上使用L3ρ损失是最佳的，这利用了他们的渲染三重组合产生的三角形几何形状的自监督。本文还介绍了使用虚拟基线对视差分布的影响，评估了渲染图像的分辨率以及收集的场景数量在训练过程中的影响。作者发现，更多的图像及更小的虚拟基线可以提高模型的性能。在最具挑战性的数据集上使用更多场景可以显著提高模型的准确性。

编辑切换为居中

添加图片注释，不超过 140 字（可选）

编辑切换为居中

添加图片注释，不超过 140 字（可选）

编辑

添加图片注释，不超过 140 字（可选）

作者比较了本文的方法和最新的从单一图像生成立体图对方法MfS，并通过训练三种立体网络得出。研究表明，在使用MfS生成方法和使用MfS数据集上训练时，MfS表现较好（A，D和G）。然而，本文的方法在不需要使用大量训练数据的情况下，通过NS范式提供的监督训练的立体网络在大多数情况下表现更好，证明了我们的NS范式实现了更好的性能和更高的预测质量。

编辑切换为居中

添加图片注释，不超过 140 字（可选）

作者针对立体视觉领域的零样本泛化问题，在NS-PSMNet模型的基础上进行了实验评估并与其它先进方法进行了比较。针对不同论文中关于Middlebury数据集评估协议的不一致性问题，本文重新评估了相关方法并建立了一个公共评估协议。通过对比实验结果，本文发现组合使用泛化能力较强的RAFT-Stereo和NS的方法可以在Middlebury数据集上获得最佳结果。同时，在使用全部数据集作为评估标准时，NS-PSMNet模型的表现优于除了PSMNet的其他先进方法。

编辑切换为居中

添加图片注释，不超过 140 字（可选）

NeRF-Supervised Deep Stereo提出了一种新的学习框架，可以轻松地训练立体匹配网络，而不需要任何ground-truth数据，该论文还提出了一种NeRF-Supervised训练协议，该协议结合了渲染图像三元组和深度图，以解决遮挡问题并增强细节，实验结果表明，该模型在挑战性的立体数据集上取得了最先进的零样本泛化结果。

本文提出了一种利用NeRF训练深度立体网络的创新流程，通过单个低成本手持相机捕捉图像进行训练，产生了最先进的零样本泛化，超越了自我监督和监督方法。虽然局限于小规模、静态的场景，而且仍无法处理具有挑战性的条件，但是作者的工作是数据民主化的显著进步，将成功的关键置于用户手中。

原文链接：CVPR2023 I NeRF-Supervised Deep Stereo：不需要任何ground-truth数据

关注知乎「3D视觉工坊」,及时获取每日3D视觉行业最前沿学术研究。

添加小助理微信dddvisiona, 即可加入「NeRF」(https://mp.weixin.qq.com/s/cYCcK7E46RZDa2Z2rMpLtw)微信群。

标签：

CVPR2023 I NeRF-Supervised Deep Stereo：不需ground-truth数据

CVPR2023 I NeRF-Supervised Deep Stereo：不需ground-truth数据

每日精选：我国两项文献遗产新入选《世界记忆名录》

鲜花“仪式感”解锁万亿生意：年轻人需要确定性-今日看点

莫言成名后一个人溜达出门买桃，商贩一眼认出了莫言，说了一句话让莫言当场懵了|焦点速看

今日洛克王国卡拉山脉在哪里_洛克王国卡拉_当前观察

全球快播：海南定安举行2023年媒体日活动

全球百事通！押韵是什么意思有什么好处_押韵是什么意思

风信子怎么水养 风信子的水养方法和注意事项

每日资讯：刘备临终前告诫：子龙不可重用！这是为何？因为他的帝王之心

快讯：*ST红相：您可以通过投资者热线，互动易，指定邮箱和我们沟通，如有其他沟通渠道，公司会在官网公示

C同星董秘回复：公司换热器产品提供给客户应用于液冷服务器中-最新

天天观察：Google Magic Compose测试版上线 使用人工智能来帮助你写短信

第八届青岛市大学生科技节开幕

全国花游冠军赛：“水上芭蕾”集体项目有了“男演员”

全球头条：大金苗小米和普通小米区别，大金苗小米和黄金苗小米的区别

无产阶级解放的历史规律（无产阶级解放斗争的最终目标是）

领益智造(002600)：商业模式向好 有望提升估值|世界新视野

苹果3代手机图片（苹果3代手机图片壁纸）

for是什么意思中文翻译_for是什么意思 天天快播

23江苏债14票面利率为2.7600%-当前短讯

一线视点：监督推动天开园高质量建设高效率运行-世界观速讯

LOL2022妖姬怎么出装（妖姬2022出装顺序）-天天微头条

世界新消息丨blow是什么意思-begin是什么意思

主场是什么意思_主场是什么意思

电焊工证费用_办电焊工证多少钱

全球最大集装箱船停靠比利时安特卫普港 今日报

【环球热闻】智能座舱定义分级及其解读

世界热头条丨《保卫萝卜4》周赛2023.5.26

汇仁肾宝：22味药材药效充分-世界热消息

能量kl是什么意思? 能量kj是什么意思_全球热点

CVPR2023 I NeRF-Supervised Deep Stereo：不需ground-truth数据

编辑切换为居中添加图片注释，不超过140字（可选）论文题目：NeRF-S...

每日精选：我国两项文献遗产新入选《世界记忆名录》

联合国教科文组织日前宣布将64项文献遗产列入其《世界记忆名录》，...

鲜花“仪式感”解锁万亿生意：年轻人需要确定性-今日看点

一场鲜花革命，正在引领行业进入未来的新高地。作者 番茄酱出品 ...

莫言成名后一个人溜达出门买桃，商贩一眼认出了莫言，说了一句话让莫言当场懵了|焦点速看

莫言是中国诺奖第一人，回国后经常被邀请到全国各地演讲。因此，莫...

今日洛克王国卡拉山脉在哪里_洛克王国卡拉_当前观察

1、角色的场景可以获得奖励。2、克莱尔雪人古柏罗罗村速度水果白眉...

风信子怎么水养风信子的水养方法和注意事项

天天观察：Google Magic Compose测试版上线使用人工智能来帮助你写短信

领益智造(002600)：商业模式向好有望提升估值|世界新视野

for是什么意思中文翻译_for是什么意思天天快播

全球最大集装箱船停靠比利时安特卫普港今日报

一场鲜花革命，正在引领行业进入未来的新高地。作者番茄酱出品 ...