科技·商业·财经

对话Gemini核心研究者Oriol:世界模型、Agent与Memory,共绘AGI未来蓝图

   时间:2026-06-07 20:02 作者:格隆汇

在近期一场深度访谈中,Google DeepMind核心研究者、Gemini联合负责人Oriol Vinyals与主持人Jacob Effron展开对话,探讨了人工智能领域的前沿进展与未来方向。作为站在Google最重要模型工程中心位置的研究者,Oriol与Noam Shazeer、Jeff Dean共同推动着Gemini项目的创新,其工作覆盖了从语言模型到多模态学习的广泛领域。

访谈中,Oriol详细阐述了Gemini背后的技术路线图。他指出,当前AI研究正聚焦于多模态学习能否迎来“GPT时刻”,即模型能否像理解语言一样,从图像和视频中提取深层知识。尽管语言模型已吸收大量人类书面知识,但视觉数据中仍蕴藏着未被充分挖掘的认知潜力。Oriol认为,真正的突破在于让模型通过视频生成理解物理世界的运作规律,而非仅仅停留在内容生成层面。

关于World Model的实践应用,Oriol介绍了Omni项目的最新进展。该模型不仅能输入输出视频内容,更支持通过语言交互修改视频中的动作、场景和状态。这种能力使其从内容工具升级为潜在的基础设施,可应用于自动驾驶、机器人训练和仿真系统等领域。他特别强调,机器人技术的瓶颈在于物理交互的精度,如抓取、施力等动作需要模型具备毫米级的控制能力,这仍是当前研究的重点方向。

在Agent系统的发展方面,Oriol提出了更具前瞻性的观点。他认为,未来的Agent将不再依赖人类预设的固定流程,而是能够根据任务需求动态生成工具链和子Agent。这种自组织能力需要模型具备长期推理和上下文记忆功能,从而在复杂任务中保持稳定性。他透露,Gemini团队正在探索如何让模型通过交互积累经验,形成类似人类持续学习的能力。

对于记忆机制的研究,Oriol区分了工作记忆与情景记忆的不同价值。他指出,当前Transformer架构已能高效处理数千token的工作记忆,但如何将长期交互中的知识固化到非参数化的记忆系统中,仍是未解决的挑战。他更看好“个人知识库/文件系统式记忆”方案,认为这种设计既能保护用户隐私,又能避免为每个用户单独训练模型的高昂成本。

在强化学习领域,Oriol观察到编码和数学任务已展现出惊人的进步,但如何将这种泛化能力扩展到其他领域仍是关键问题。他设计了一种基于新游戏规则的评估方法,通过测试模型在陌生环境中的适应能力,来衡量其元学习水平。这种评估方式揭示了当前模型在创造性解决问题方面的局限性,也为后续研究指明了方向。

当被问及创业公司的机会时,Oriol建议开发者重点关注数据质量和评估体系的建设。他认为,在基础模型日益通用的趋势下,垂直领域的数据积累和场景理解能力将成为核心竞争力。他特别提到,持续学习机制的突破可能带来新的范式转变,使模型能够通过交互不断优化自身性能。

访谈最后,Oriol分享了他对AGI门槛的看法。他指出,尽管当前模型已展现出接近人类水平的智能,但真正缺乏的是从真实经验中持续学习的能力。这种能力需要模型在开放环境中通过试错积累知识,而非仅仅依赖训练数据中的静态信息。他预计,随着World Model和记忆机制的研究深入,AI系统将逐步接近这一目标。

 
 
更多>同类内容
全站最新
热门内容