BEVWorld：通过统一的BEV潜在空间实现自动驾驶的多模态世界模型

摘要

世界模型因其在自动驾驶中预测潜在未来场景的能力而受到越来越多的关注。在本文中，我们提出了BEVWorld，这是一种新颖的方法，它将多模态传感器输入令牌化到统一且紧凑的鸟瞰图（BEV）潜在空间中，用于环境建模。该世界模型由两部分组成：多模态令牌化器和潜在BEV序列扩散模型。多模态令牌化器首先编码多模态信息，解码器能够通过自我监督的方式通过光线投射渲染重建潜在BEV令牌到激光雷达和图像观测。然后，潜在BEV序列扩散模型根据动作令牌作为条件预测未来场景。实验表明BEVWorld在自动驾驶任务中的有效性，展示了其在生成未来场景和惠及下游任务（如感知和运动预测）方面的能力。代码将很快可用。

论文创新点

1. 多模态令牌化器

我们设计了一个新颖的多模态令牌化器，它能够将视觉语义和3D几何信息集成到统一的BEV表示中。这一过程通过自监督的方式实现，确保了BEV表示的质量。

2. 潜在BEV序列扩散模型

我们提出了一个基于潜在扩散的世界模型，它能够同步生成未来多视图图像和点云。这一模型在nuScenes和Carla数据集上展示了领先的未来预测性能。

3. 自我监督学习范式

BEVWorld采用了自我监督学习范式，这使得它能够有效地处理大量的未标记多模态传感器数据，从而实现对驾驶环境的全面理解。

4. 下游任务的验证

我们不仅在理论上提出了BEVWorld，还在实际的自动驾驶任务中验证了其有效性，包括3D检测和运动预测等下游任务。

方法

模型结构

我们的世界模型架构如图1所示。给定一系列多视图图像和激光雷达观测值，目标是预测未来多传感器数据。为了降低学习复杂度，我们提出了一个多模态令牌化器，将多视图图像和激光雷达信息压缩到统一的BEV空间中。

多模态令牌化器

多模态令牌化器由三个部分组成：

BEV编码器网络：采用Swin-Transformer网络提取多图像特征，并将其编码到BEV空间中。

多模态渲染网络：包括图像重建网络和激光雷达重建网络，能够从BEV令牌重建多视图图像和点云。

自我监督重建损失：确保BEV表示中存储了几何和语义信息。

潜在BEV序列扩散模型

我们提出的扩散模型输入多个帧的噪声BEV令牌，生成所有未来的BEV令牌。去噪过程通过时空变换器完成，输入包括条件BEV令牌、噪声BEV令牌和动作令牌。

实验

实验表明，BEVWorld在多个自动驾驶任务中展现了优异性能：

未来预测：在nuScenes和Carla数据集上，BEVWorld的未来预测精度显著高于现有方法。

下游任务：在3D检测和运动预测任务中，BEVWorld的表示能够有效支持后续任务。

自我监督学习：在未标记数据集上，BEVWorld能够准确建模驾驶环境。

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。

转载地址：http://ftrfk.baihongyu.com/

你可能感兴趣的文章