自动驾驶技术正从单一画面生成向更复杂的场景理解与决策支持演进。传统世界模型主要聚焦于预测未来视觉帧或生成新视角,但这类方法无法回答场景中目标的位置、属性及空间关系等关键问题。研究人员提出,自动驾驶系统需要一种既能生成多模态数据,又能支持空间定位和语义查询的统一三维表示框架。
近期发布的GaussianDWM模型尝试将场景理解与生成任务整合到同一架构中。该模型以三维高斯分布作为核心表示形式,通过引入语言特征增强每个高斯基元的语义承载能力。不同于传统方法仅依赖几何参数,新模型将CLIP语言特征与SAM层次语义融入高斯表示,使每个空间单元同时包含位置、尺度和语义信息。为降低计算开销,研究团队采用场景级语言自编码器将512维特征压缩至3维,确保语义信息精准映射到三维空间。
模型架构分为三个协同模块:世界标记器负责构建带语义的高斯场;场景理解模块通过任务感知采样将高斯表示投影至大语言模型空间;多模态生成模块结合低级视觉条件与高级世界知识生成新视角。在采样策略上,全局理解任务采用均匀采样保留场景全貌,视觉定位任务则根据文本查询与高斯特征的相似度进行选择性采样。实验显示,输入大语言模型的4096个高斯标记已能稳定支持复杂场景推理。
在NuInteract数据集的测试中,该模型展现出显著优势。相比传统视觉语言模型,其2D视觉定位mAP提升79.9%,3D定位mAP提升52.8%。这种提升源于三维高斯表示提供的明确空间结构,使模型能更精准地关联视觉元素与语义信息。在nuScenes数据集的空间生成任务中,模型在±1米视角变化下取得8.36的FID分数,±2米变化下为11.27,证明其在维持场景几何一致性方面的有效性。
消融实验进一步验证了各组件的必要性。移除高斯表示后,模型平均指标下降11.1%;仅使用低级视觉条件时,±1米视角变化的FID分数上升21.1%。当视角变化扩大至±4米时,高层世界知识对生成质量的提升作用更加明显,FID分数改善13.2%。这表明在复杂场景中,语义与空间先验对维持生成结果合理性至关重要。
该研究突破了传统世界模型在场景理解方面的局限。通过将三维高斯表示作为连接几何、外观与语义的桥梁,模型实现了从感知到推理再到生成的全链路闭环。在动态场景演示中,系统不仅能生成高质量的多视角图像,还能准确回答关于目标位置、属性及场景关系的查询。这种统一表示框架为自动驾驶系统提供了更接近人类认知方式的场景理解能力,使车辆能够基于对三维世界的完整理解做出决策。






