GaussianDWM：3D高斯模型助力自动驾驶场景理解与多模态生成双突破

时间：2026-06-14 21:46 作者：互联网

自动驾驶技术正从单一画面生成向更复杂的场景理解与决策支持演进。传统世界模型主要聚焦于预测未来视觉帧或生成新视角，但这类方法无法回答场景中目标的位置、属性及空间关系等关键问题。研究人员提出，自动驾驶系统需要一种既能生成多模态数据，又能支持空间定位和语义查询的统一三维表示框架。

近期发布的GaussianDWM模型尝试将场景理解与生成任务整合到同一架构中。该模型以三维高斯分布作为核心表示形式，通过引入语言特征增强每个高斯基元的语义承载能力。不同于传统方法仅依赖几何参数，新模型将CLIP语言特征与SAM层次语义融入高斯表示，使每个空间单元同时包含位置、尺度和语义信息。为降低计算开销，研究团队采用场景级语言自编码器将512维特征压缩至3维，确保语义信息精准映射到三维空间。

模型架构分为三个协同模块：世界标记器负责构建带语义的高斯场；场景理解模块通过任务感知采样将高斯表示投影至大语言模型空间；多模态生成模块结合低级视觉条件与高级世界知识生成新视角。在采样策略上，全局理解任务采用均匀采样保留场景全貌，视觉定位任务则根据文本查询与高斯特征的相似度进行选择性采样。实验显示，输入大语言模型的4096个高斯标记已能稳定支持复杂场景推理。

在NuInteract数据集的测试中，该模型展现出显著优势。相比传统视觉语言模型，其2D视觉定位mAP提升79.9%，3D定位mAP提升52.8%。这种提升源于三维高斯表示提供的明确空间结构，使模型能更精准地关联视觉元素与语义信息。在nuScenes数据集的空间生成任务中，模型在±1米视角变化下取得8.36的FID分数，±2米变化下为11.27，证明其在维持场景几何一致性方面的有效性。

消融实验进一步验证了各组件的必要性。移除高斯表示后，模型平均指标下降11.1%；仅使用低级视觉条件时，±1米视角变化的FID分数上升21.1%。当视角变化扩大至±4米时，高层世界知识对生成质量的提升作用更加明显，FID分数改善13.2%。这表明在复杂场景中，语义与空间先验对维持生成结果合理性至关重要。

该研究突破了传统世界模型在场景理解方面的局限。通过将三维高斯表示作为连接几何、外观与语义的桥梁，模型实现了从感知到推理再到生成的全链路闭环。在动态场景演示中，系统不仅能生成高质量的多视角图像，还能准确回答关于目标位置、属性及场景关系的查询。这种统一表示框架为自动驾驶系统提供了更接近人类认知方式的场景理解能力，使车辆能够基于对三维世界的完整理解做出决策。

更多>同类内容

小米工程师再谈大模型：盼回归技术本质，让赛道成研发人员净土

06-14

WSBK六冠王德比斯夺冠后喜提零跑Lafa5 开启欧洲市场新征程

06-14

华为朱懂东：鸿蒙PC市场表现亮眼，折叠本份额领先，海外水货亦受好评

06-14

华为朱懂东回应MatePad Edge性能争议：创新形态下探索平板PC融合新边界

06-14

别克至境E7明日将推“鎏金绿”高定车漆，精湛工艺打造独特视觉盛宴

06-14

富国银行报告：亚马逊AWS或深化合作，采购高通AI200降推理成本

06-14

华为星闪电竞专链功能适配机型公布，Mate 80等多系列未来将获升级支持

06-14

蚂蚁集团赋能支付宝升级：AI助手“阿宝”来袭，生活理财一键搞定

06-14

AI赋能物理世界：从数据采集到硬件生成，这些项目正搭建“读写”新桥梁

06-14

聚焦消费新趋势：专家共话“三新”消费激活增量与产业升级新路径

06-14

上海合晶战略升级：设SOI合资公司推进12英寸扩产项目谋发展

06-14

阿里巴巴辟谣“周靖人离职”传闻：相关消息不属实

06-14

HDC 2026现鸿蒙台式机：国产PC全栈就绪，赋能千行百业智能化

06-14

华为擎云鸿蒙商用办公2.0：以创新底座与AI赋能，开启政企数智新未来

06-14

黄铁军谈世界模型：具身智能核心，数据采集需“工作采集两不误”

06-14

点击查看更多 +

全站最新

当情感缺口被AI填补：3800台机器人伴侣预售背后的人性困境与时代隐喻

鸿蒙商用办公2.0规划亮相：以创新方案赋能政企数智化转型新未来

吴镇宇探访东风风行：试驾星海V9赞不绝口星海V6智慧魅力引期待

广州花都“四步高效处置模式”显成效，为电商企业挽回千万损失！

告别OA闲置困境，魔方网表：低成本高成功率打造贴合业务的管理系统

2026年电商卖家生存图鉴：利润承压下渠道成本技术战略如何破局？

热门内容

本栏最新

网界 - 新财经新科技新未来 - 网界传媒旗下网站 - 中国 · 北京
合作咨询微信：netspread（注明:网界）
网界^®是本公司38类注册商标，是该商标的唯一持有者，未经授本公司授权，严禁使用。
Copyright © CNU 2012-2022 www.cnu.com.cn All rights reserved. 鲁ICP备2022032383号-6 鲁公网安备37010202700502号