科技·商业·财经

谷歌Gemini 2.5 Flash Image:Nano Banana背后的创新团队揭秘

   时间:2025-08-31 00:29 作者:陆辰风

在最新一期的谷歌开发者节目中,Google DeepMind团队震撼发布了一款名为Gemini 2.5 Flash Image的模型,这款模型在图像生成与编辑领域展现了前所未有的能力。

Gemini 2.5 Flash Image不仅具备快速生成高质量图像的技能,更能在多轮对话中保持场景的一致性,为用户带来全新的互动体验。这一革命性的图像生成技术,无疑树立了业界的新标杆。

在此次发布中,Google DeepMind背后的研发团队也首次亮相。其中,高级产品经理Logan Kilpatrick尤为引人注目。他不仅在AI开发者社区中享有盛誉,还曾在OpenAI、Apple和NASA等多个知名机构任职。在Google,他领导了Gemini 2.0 Flash本地图像生成功能的推出,使开发者能够通过自然语言提示轻松生成和编辑图像。

研究工程师Kaushik Shivakumar、Robert Riachi同样为Gemini 2.5 Flash Image的成功研发做出了重要贡献。Kaushik在加利福尼亚大学伯克利分校获得了计算机科学学士学位,并在该校的AUTOLab实验室攻读硕士学位,专注于机器人技术的研究。而Robert则专注于多模态AI模型的开发与应用,尤其在图像生成和编辑领域有着显著贡献。

在节目现场,研究人员展示了Gemini 2.5 Flash Image的几个亮点功能。当被要求给Logan“穿上一件巨大的香蕉服”时,模型仅用了十几秒就生成了一张既保留了Logan脸部特征,又加入了芝加哥街头背景的图片。而当提示“让它变成纳米(Nano)”时,模型则巧妙地生成了Logan的“迷你Q版”形象,依旧保持了香蕉服的设定。

更令人惊叹的是,Gemini 2.5 Flash Image能够通过自然语言指令进行多轮互动,且在多次编辑中保持场景一致性,无需输入冗长的提示词。过去图像生成AI常因“写字像外星文”而备受诟病,而Gemini 2.5 Flash Image已经能在图中正确生成简短的文字,如“Gemini Nano”。

团队甚至将文本渲染能力作为模型评估的新指标,因为它能反映模型生成图像“结构”的能力,并作为衡量整体图像质量的信号,有助于指导模型改进。Gemini 2.5 Flash Image还引入了“交错生成机制(interleaved generation)”,能够面对复杂、多点修改的任务,将一次性指令拆解成多轮操作,逐步生成与编辑图像,实现“像素级别的完美编辑”。

在实际应用场景中,Gemini 2.5 Flash Image同样大显身手。无论是家居设计、人物OOTD还是广告牌设计等领域,它都能快速生成多种方案,且保持角色的面部和身份一致性稳定。这一特性极大地提升了创作效率,使得用户能够在短时间内获得满意的作品。

对于开发者而言,在选择Imagen和Gemini之间也需权衡利弊。Imagen专注于文本到图像的任务,在特定需求方面进行了优化,如单张图像的高质量生成、快速输出以及成本效益等。而Gemini则更适合复杂多模态任务,支持生成+编辑、多轮创意迭代,并能理解模糊指令。Gemini还能利用世界知识理解模糊提示,适合创意场景,操作也更为方便。

 
 
更多>同类内容
全站最新
热门内容