CVPR 2023 | 4D雷达场景流的跨模态监督学习

注1:本文系“计算成像最新论文速览”系列之一,致力于简洁清晰地介绍、解读非视距成像领域最新的顶会/顶刊论文(包括但不限于 Nature/Science及其子刊; CVPR, ICCV, ECCV, SIGGRAPH, TPAMI; Light‐Science & Applications, Optica 等)。
本次介绍的论文是:CVPR 2023 | 4D雷达场景流的跨模态监督学习
code: https://github.com/Toytiny/CMFlow

CVPR 2023 | 4D雷达场景流的跨模态监督学习

一、动机

场景流估计旨在获取一个包含静态和动态环境中所有物体相对于传感器的三维运动矢量场。它对自动驾驶的导航安全至关重要,可以为运动分割、自身运动估计等下游任务提供全面的运动线索。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZCOilnog-1691765191035)()]

当前场景流估计方法主要基于深度学习,可分为:全监督学习需要大量手工标注数据;自监督学习完全依赖输入数据中的内在约束,但性能有限。而4D雷达场景流估计面临更大挑战,因为雷达点云稀疏、噪声大,难以进行人工标注或仅依靠自监督信号进行训练。

为解决上述问题,本文提出一种新颖的跨模态监督学习框架,通过整合车载不同传感器提供的冗余信息,为4D雷达场景流估计生成跨模态监督信号,以实现无需人工标注的数据驱动式深度学习。

二、方法

2.1 系统框架

输入:两帧4D雷达 sequentional点云
输出:场景流向量场、自身运动、运动分割

整体管道分两个阶段:

阶段1:Backbone网络提取基本特征,并通过两个头部得到初始场景流以及运动概率估计;
阶段2:基于初始估计的运动/静止点,计算刚体运动;然后精炼静止点的场景流。

2.2 多任务模型

Backbone:基于PointNet的层级SetConv网络,用于点云特征提取。

Initial flow head: 多层感知机,输出每个点的初始场景流向量。
Motion segmentation head: 输出每个点的运动概率。
Ego-motion head: 基于初始场景流和运动概率,用Kabsch算法计算刚体运动。
Refinement: 用刚体运动矫正静止点的初始场景流,得到精炼结果。

模型输出包括场景流、运动分割和刚体运动,相互制约。

三、跨模态监督

关键在于从其它传感器中提取监督信号,无需人工标注。

里程计:提供雷达刚体运动真值,用于约束Ego-motion head的输出。
激光雷达:计算目标运动,生成运动分割和场景流伪标签,用于约束其他head的输出。
RGB摄像头:生成视觉流伪标签,用于约束场景流精炼的输出。

将上述监督信号有效融合,实现端到端的多任务模型训练。

四、实验与结论

在公开数据集上,本方法场景流精度显著提升,优于所有基准。

运动分割和自身运动估计也有很大改进。
使用更多无标注数据进行训练时,性能进一步提升,超过全监督方法。

以上结果验证了跨模态监督学习对4D雷达场景流估计的有效性。本工作为无人车的环境感知提供了一种高效、经济的数据驱动方案。

五、存在问题与未来方向

其他传感器提取的监督信号存在噪声,可研究增强监督信号质量的方法。
可扩展至更多下游任务,如多目标跟踪、点云累积等,探索场景流的更多应用价值。
可探索在线更新模型以处理时变场景,实现真正意义上的生长学习。

本文为场景流估计开辟了一条融合多个模态的新思路,有效利用车载传感器的冗余性和互补性,其思想也可拓展到其他无人系统的感知任务,具有广阔的应用前景。