在人工智能领域,一项革命性的突破正在引发广泛关注。谷歌DeepMind最新推出的Genie 3,被誉为迄今为止最先进的世界模型之一,它仅凭文本输入,就能实时构建出高度互动且内在一致性的虚拟世界。
这一成就不仅是DeepMind多年研究的结晶,更是向通用人工智能(AGI)和具身智能体迈出的关键步伐。近日,DeepMind的研究科学家Jack Parker-Holder与研究总监Shlomi Fruchter,在a16z的访谈中,深入探讨了Genie 3的构建过程及其背后的理念。
访谈中,两位专家分享了关于Genie 3的第一手信息。据悉,Genie 3是Veo 2和Genie 2两个项目合作的产物,其实时互动功能预示着广泛的应用前景,而这些应用正是在用户与模型的互动中自然浮现的。
尤为Genie 3能够保留长达一分钟的空间记忆。物理规律在模型中自然涌现,随着训练数据的不断累积和深化,模型的表现也在持续提升。目前,尚未有模型能同时具备Veo 3和Genie 3的所有功能。
如果说大型语言模型的图像编辑功能如同“言出法随”,那么Genie 3的新特性则堪称AI的新魔法。用户只需输入简单的文本提示,Genie 3便能生成一个动态世界,支持每秒24帧、分辨率为720p的实时探索。这种能力为游戏开发、强化学习智能体训练以及机器人研究等领域带来了无限可能。
Genie 3在多个方面实现了突破,包括生成视频的长度、世界的一致性、内容的多样性以及特殊记忆能力。例如,一个角色在墙上刷漆后移动到另一侧再返回,之前刷的痕迹依然保留,这种高度一致性的表现让内部成员都感到震撼。
实际上,Genie 2已经具备了一定的记忆能力,但在当时并未得到充分强调。到了Genie 3,DeepMind团队明确将增强记忆能力作为核心目标之一,成功实现了超过一分钟的记忆、实时生成以及分辨率的提升。这些看似矛盾的目标,在DeepMind的努力下得以兼顾。
在设计上,DeepMind团队放弃了显式表示法,坚持让模型逐帧生成内容,以提升模型的泛化能力和适应多样世界的能力。这种坚持让Genie 3在模拟现实世界的能力上取得了巨大飞跃,生成的物理效果和光照变化都令人惊艳。
Genie 3还涌现出了一些令人惊讶的行为,如角色靠近门时模型会推测其应该打开门等。这些符合人类直觉的行为以及不断提升的语言理解能力和真实感,让Genie 3的视频真假难辨,即便是非专业人士也难以分辨。
在地形多样性方面,Genie 3也表现出色。它能够理解不同地形上的行走、滑雪、游泳等动作以及相应的物理反馈,这些都是模型通过丰富的训练数据自行学习得到的。这种涌现能力让Genie 3的表现更加自然和真实。
未来,DeepMind团队将继续致力于提升模型的真实感和交互性,为智能体走向现实世界铺平道路。他们表示,最终将开放Genie 3模型,让更多人有机会探索这一神奇的世界。虽然距离准确模拟现实世界还有很大差距,但Genie 3已经迈出了重要的一步。