英伟达近日在物理人工智能领域投下一枚重磅炸弹,正式推出全球首个全开源、全模态的开放世界基础大模型Cosmos3。这款基于混合Transformer架构的创新模型,通过将视觉推理、世界生成与动作预测三大核心能力整合于单一系统,实现了物理人工智能训练效率的质的飞跃——原本需要数月完成的训练与评估周期,如今可压缩至数天。
针对具身智能在真实场景中泛化能力不足的长期难题,Cosmos3通过构建覆盖数十亿条多模态数据的物理AI数据集,实现了跨模态内容的原生理解与生成。该数据集包含文本、图像、视频、音效及动作轨迹等多元信息,使模型在物理仿真精度上达到行业领先水平,有效解决了传统方法在有限数据和零散仿真框架下的局限性。
技术架构层面,Cosmos3创造性地融合推理Transformer与生成类Transformer。模型先通过深度解析物体交互规律、运动状态及时空关联,再完成视频生成与动作轨迹预测。这种设计使其具备强大的多模态图文理解能力、物理环境仿真预判能力,以及为机器人制定专项任务动作策略的能力。在Artificial Analysis、Physics-IQ、RoboLab等国际主流物理AI评测基准中,该模型在开源模型类别中均拔得头筹。
为满足不同研发阶段的需求,英伟达同步推出三个版本:面向机器人与自动驾驶领域二次训练、追求极致精度的Cosmos3Super,以及主打高速视频解析与动作推理的Cosmos3Nano,这两个版本已正式上线;而针对边缘端实时推理优化的Cosmos3Edge版本也已列入发布计划。这种分层策略使开发者能够根据具体场景选择最适合的模型配置。
在模型发布的同时,英伟达携手Agile Robots、Black Forest Labs、Generalist等六家全球顶尖世界模型研发团队,共同成立"英伟达宇宙联盟"。该联盟旨在通过开源前沿模型推动技术共享,帮助全球开发者突破现有局限,构建能够真正感知现实世界、进行逻辑推理并执行复杂动作的下一代智能体系统。英伟达首席执行官黄仁勋强调,随着多模态推理与世界模型技术的持续突破,物理人工智能正迎来颠覆性变革。






