谷歌Gemini 2.5 Flash Image：Nano Banana背后的创新团队揭秘-网界

在最新一期的谷歌开发者节目中，Google DeepMind团队震撼发布了一款名为Gemini 2.5 Flash Image的模型，这款模型在图像生成与编辑领域展现了前所未有的能力。

Gemini 2.5 Flash Image不仅具备快速生成高质量图像的技能，更能在多轮对话中保持场景的一致性，为用户带来全新的互动体验。这一革命性的图像生成技术，无疑树立了业界的新标杆。

在此次发布中，Google DeepMind背后的研发团队也首次亮相。其中，高级产品经理Logan Kilpatrick尤为引人注目。他不仅在AI开发者社区中享有盛誉，还曾在OpenAI、Apple和NASA等多个知名机构任职。在Google，他领导了Gemini 2.0 Flash本地图像生成功能的推出，使开发者能够通过自然语言提示轻松生成和编辑图像。

研究工程师Kaushik Shivakumar、Robert Riachi同样为Gemini 2.5 Flash Image的成功研发做出了重要贡献。Kaushik在加利福尼亚大学伯克利分校获得了计算机科学学士学位，并在该校的AUTOLab实验室攻读硕士学位，专注于机器人技术的研究。而Robert则专注于多模态AI模型的开发与应用，尤其在图像生成和编辑领域有着显著贡献。

在节目现场，研究人员展示了Gemini 2.5 Flash Image的几个亮点功能。当被要求给Logan“穿上一件巨大的香蕉服”时，模型仅用了十几秒就生成了一张既保留了Logan脸部特征，又加入了芝加哥街头背景的图片。而当提示“让它变成纳米（Nano）”时，模型则巧妙地生成了Logan的“迷你Q版”形象，依旧保持了香蕉服的设定。

更令人惊叹的是，Gemini 2.5 Flash Image能够通过自然语言指令进行多轮互动，且在多次编辑中保持场景一致性，无需输入冗长的提示词。过去图像生成AI常因“写字像外星文”而备受诟病，而Gemini 2.5 Flash Image已经能在图中正确生成简短的文字，如“Gemini Nano”。

团队甚至将文本渲染能力作为模型评估的新指标，因为它能反映模型生成图像“结构”的能力，并作为衡量整体图像质量的信号，有助于指导模型改进。Gemini 2.5 Flash Image还引入了“交错生成机制（interleaved generation）”，能够面对复杂、多点修改的任务，将一次性指令拆解成多轮操作，逐步生成与编辑图像，实现“像素级别的完美编辑”。

在实际应用场景中，Gemini 2.5 Flash Image同样大显身手。无论是家居设计、人物OOTD还是广告牌设计等领域，它都能快速生成多种方案，且保持角色的面部和身份一致性稳定。这一特性极大地提升了创作效率，使得用户能够在短时间内获得满意的作品。

对于开发者而言，在选择Imagen和Gemini之间也需权衡利弊。Imagen专注于文本到图像的任务，在特定需求方面进行了优化，如单张图像的高质量生成、快速输出以及成本效益等。而Gemini则更适合复杂多模态任务，支持生成+编辑、多轮创意迭代，并能理解模糊指令。Gemini还能利用世界知识理解模糊提示，适合创意场景，操作也更为方便。

今日，阿里旗下通义App今日发布更新，名称正式变更为千问App，版本号为5.0.0。在版本 5.0.0中，千问强调其核心能力包括：“对话问答”“智能写作”“全能相机”三大模块。据知情人士透露，阿里巴巴计…

WisdomAI面向企业客户推出了AI驱动的对话式商业智能（BI）平台，提供AI数据分析业务，用户只需用自然语言提问便可获取分析后的答案。 WisdomAI称：“过去的BI只提供被动的、静态的仪表板，而Ag…

李彦宏在大会上表示，“我们用AI重构搜索结果页，不是简单地在搜索结果中插入AI摘要，而是把搜索从一个以文字内容和链接为主的互联网应用，转化为一个以图片视频等富媒体内容为主的AI应用。” 在李彦宏看来，AI数字…

“非洲互联网之父”、加纳科网董事长尼·奎诺表示，像乌镇峰会这样的平台为发展中国家提供了宝贵的发声机会和参与空间；世界知识产权组织总干事邓鸿森表示，乌镇峰会为我们提供全球对话与合作的契机，这种对话与合作不仅是…

禾赛科技（NASDAQ: HSAI; HKEX: 2525）近日发布2025年第三季度财务报告，数据显示其营收与利润均实现突破性增长。本季度公司营收达8.0亿元人民币，同比增长47.5%，延续了连续六个季度的正增长态势。净利润方面，公司以2.6亿元人民币创下历史新高，较预期提前一个季度完成全年盈利目标。