科技·商业·财经

对话Gemini核心研究者Oriol Vinyals:解锁AGI未来,模型、行动与记忆的协同进化

   时间:2026-06-07 20:02 作者:格隆汇

在最近的一次深度访谈中,Google DeepMind的核心研究者Oriol Vinyals分享了他对人工智能领域前沿发展的独到见解。作为Gemini项目的联合负责人之一,Vinyals与Noam Shazeer和Jeff Dean共同引领着Google在模型工程领域的创新步伐。他指出,Google I/O大会不仅展示了产品的集中亮相,更揭示了模型技术路线的深层次探索。

Vinyals深入讨论了Gemini背后的技术主线,特别是多模态学习、World Model的物理模拟能力、Agent的长期行动规划以及Memory在推理过程中的作用。他认为,虽然语言模型已经吸收了大量人类书面知识,但图像和视频中蕴含的另一类知识尚未被充分挖掘。他期待AI能够迎来图像和视频领域的“GPT时刻”,实现从内容生成到真实世界理解的跨越。

在World Model方面,Vinyals强调了其不仅仅是生成视频的能力,更重要的是理解并模拟物理世界的运作方式。他提到,Omni模型作为World Model的代表,不仅支持用户通过语言改变视频内容,还展示了在自动驾驶和机器人技术领域的潜在应用。然而,他也指出,要让World Model真正进入机器人领域,必须解决物理交互精度这一关键难题。

对于Agent的未来发展,Vinyals认为,未来的模型将能够自主搭建系统,根据任务需求生成工具链和子Agent。他提到,当前的Agent还依赖于人类预设的框架和流程,但未来模型可能会根据任务复杂性自动调整推理时长和系统配置,实现更高效的智能行为。

在Memory和持续学习方面,Vinyals认为,模型不仅需要在单次对话中表现出色,还需要记住用户、项目和上下文信息。他看好“个人知识库/文件系统式记忆”模式,认为这比为每个用户训练不同权重的模型更为高效和实用。同时,他也强调了Post Training的重要性,认为训练模型的元能力,如学习新规则、适应新环境,比追求特定任务的分数更接近智能的本质。

在访谈中,Vinyals还分享了他对创业公司如何在AI领域建立护城河的看法。他认为,数据、评估和领域知识库是创业公司的关键优势。即使没有资源训练基础模型,创业公司也可以通过高质量评估、专有数据和深度场景理解来建立自己的市场地位。

针对AGI(通用人工智能)的发展,Vinyals坦言,AGI的门槛正在不断提高。他认为,虽然今天的模型在许多方面已经表现出色,但仍然缺少从真实经验中持续学习的能力。他提到,Google正在不断探索如何让模型从经验中学习,并希望未来能够看到模型在科学创新等领域产生真正卓越的想法。

在访谈的最后部分,Vinyals还回答了关于模型泛化能力、RL(强化学习)的未来路径以及创业公司如何在模型层和应用层之间做出选择等问题。他认为,虽然模型在特定领域的训练能够引发深度推理和泛化能力,但广泛分布上的训练仍然对模型的全面发展至关重要。同时,他也鼓励创业公司在模型之上构建应用,通过专注特定领域来创造价值。

 
 
更多>同类内容
全站最新
热门内容