在近日举办的2025智源具身Open Day活动上,智源研究院向外界全面展示了其在具身智能领域的最新研究成果,并组织多场行业圆桌讨论,聚焦当前具身智能发展的核心议题。此次活动汇聚了众多业内专家与企业代表,共同探讨具身智能的未来方向。
智源研究院院长王仲远在开场演讲中,介绍了过去一年在具身智能方向取得的两大关键进展:世界模型的突破与具身大脑全栈体系的构建。他重点介绍了原生多模态世界模型Emu3.5,该模型在训练数据量和参数规模上均有显著提升,训练数据从15年视频扩展至790年,参数规模从8B提升至34B。同时,引入自研DiDA技术,使视频和图像生成速度大幅提升,达到与Diffusion、DiT类模型相当的水平。王仲远指出,Emu3.5不再局限于语言主导的“下一个Token预测”,而是专注于具身智能所需的“下一时空状态预测”。
在具身大脑全栈体系方面,智源研究院正在构建跨异构本体的具身智能体系,包括RoboBrain(具身大脑)、RoboOS(跨本体操作系统)和基于VLA的RoboBrain-0。这些模型已在多种形态的机器人本体上部署,能够完成从导览、导购到复杂交互的多样化任务。智源还展示了在全身控制方向的能力,宇树G1机器人在其控制框架BAAI Thor的支持下,成功完成拖动1.4吨汽车的实验。
活动现场的圆桌讨论环节,围绕多个关键问题展开深入探讨。在“世界模型是不是实现具身智能的关键”这一议题上,王仲远认为,如果世界模型仅停留在视频生成层面,未必能成为具身智能的基座。北京大学助理教授、银河通用创始人及首席技术官王鹤也强调,机器人需要的是根据自身形态和目标预测下一步状态的世界模型,这类模型必须基于大量机器人专属数据构建。
关于“具身智能是否需要统一架构”的问题,招商局集团AI首席科学家张家兴提出,具身智能未来不应继续沿用“大模型的语言中心范式”,而需要一套“先行动、再视觉、最后语言”的具身原生结构,以行动与感知为核心。智元机器人首席科学家罗剑岚则认为,具身智能的最终“大模型”不会是单体模型,而是由VLA、世界模型和RL组成的闭环系统。
在数据层面,多位嘉宾强调了真实数据的重要性,认为机器人必须在真实场景中学习真实性、多样性和规模化。王鹤指出,仿真数据是当前更现实的突破口,许多底层控制能力依赖大量强化学习,而这些训练在真实世界中几乎无法完成。王仲远则认为,视频数据是最容易大规模获取且最接近真实世界的数据形式,其价值类似于孩子通过视频认识世界,再通过真实交互提升技能。
当被问及“如果有100亿元推进具身智能会如何分配”时,多位嘉宾给出了不同答案。自变量创始人兼CEO王潜认为,第一优先级是吸纳顶尖人才,其次是算力和数据投入。加速进化创始人兼CEO程昊则表示,100亿元其实不够,更重要的是用愿景吸引全球科研人才。星海图联合创始人赵行提出要打造覆盖物理世界的最大数据引擎,张家兴则希望将资金用于打造属于具身智能的模型体系。
在另一场关于硬件的圆桌讨论中,嘉宾们围绕“人形机器人是否是具身智能的最终形态”展开辩论。多位嘉宾达成共识:模型与硬件并非相互定义,真正的决定要素是场景。星源智创始人兼CEO刘东认为,具身智能体系应分层构建,上层大模型可跨本体复用,但小脑层模型需根据硬件结构调整。北京人形机器人创新中心CTO唐剑直言,模型和硬件都无法单独定义对方,场景才是决定机器人形态的关键因素。







