科技·商业·财经

英伟达GTC活动发布Cosmos 3:双模块架构助力物理世界AI建模新突破

   时间:2026-06-05 03:26 作者:互联网

在台北举办的GTC活动上,英伟达正式推出了一款名为Cosmos 3的全新模型,并宣称其为全球首个“完全开放的全能型人工智能模型”。该模型专为机器人、自动驾驶汽车以及视觉智能体设计,核心能力聚焦于基于视觉的推理,同时具备生成文本、图像、视频、环境声音和动作等多模态内容的强大功能。

Cosmos 3采用了独特的双模块架构,由推理Transformer和生成Transformer共同构成。推理模块负责解析物体之间的交互关系、运动轨迹以及时空逻辑,为模型提供对现实物理世界的深度理解;生成模块则基于推理结果,输出高质量的视频内容和动作轨迹。这种设计使模型能够先理解物理互动的规律,再生成与之匹配的画面和行为,从而大幅提升对复杂环境的建模能力。

英伟达强调,Cosmos 3的研发目标直指机器人、自动驾驶车辆和视觉智能体在真实环境理解中长期存在的痛点。当前,相关领域的训练数据稀缺,仿真系统分散,导致机器学习物理世界规律时面临重重障碍。Cosmos 3通过原生支持多模态信息的生成与理解,以更高的物理准确性模拟现实世界,为这些应用提供了更可靠的基础模型。

从应用场景来看,Cosmos 3的定位十分灵活。它既可以作为视觉语言模型,直接处理图像与文本的交互任务;也可以作为世界模型,模拟物理环境并预测未来状态;甚至可以作为其他世界模型的底层平台,支持更广泛的扩展与创新。这种多功能性使其能够适应不同领域的需求,为人工智能技术的落地提供更多可能性。

在产品规划方面,英伟达已推出两款不同版本的Cosmos 3:响应精度最高的Cosmos 3 Super和轻量级的Cosmos 3 Nano,两者均已正式投入使用。面向边缘设备实时推理需求的Cosmos 3 Edge版本也将在后续发布,进一步拓展模型的应用范围。

技术层面,Transformer作为一种擅长处理序列数据上下文关系的深度学习神经网络,通过并行计算显著提升了生成效率。英伟达此次将推理与生成能力深度融合,旨在为机器人和自动驾驶系统构建一个更贴近真实物理世界的基础模型,从而推动这些领域向更高水平的智能化迈进。

 
 
更多>同类内容
全站最新
热门内容