谷歌近期震撼发布了其最新的图像生成与编辑模型——Gemini 2.5 Flash Image。这款模型代表了谷歌在图像技术领域的最前沿探索,一经推出便引起了广泛关注。
Gemini 2.5 Flash Image的核心优势在于其强大的图像编辑功能。据谷歌介绍,该模型能够将多个图像无缝融合成一个,同时保持角色形象的高度一致性。更令人惊叹的是,用户可以通过自然语言指令对图像进行精确修改,且这一过程能够充分利用Gemini模型所积累的世界知识。
为了直观展示这一功能,谷歌DeepMind的首席执行官、诺贝尔奖得主Demis Hassabis亲自上阵,用自己的照片进行了演示。他将照片背景更改为古典风格,而人物面容却丝毫未变,完美诠释了Gemini 2.5 Flash Image的角色一致性。
Gemini 2.5 Flash Image的应用场景广泛且富有创意。例如,用户可以轻松制作出类似“球星卡”的设计,让普通人也能享受到顶级运动员般的待遇。该模型还能与谷歌的视频生成模型Veo 3完美搭配,共同打造出丰富多样的视频效果。海外AI创意平台Kera AI已经利用类似技术,成功制作了一部广告大片。
在发布前,Gemini 2.5 Flash Image以“nano-banana”的代号在大模型竞技场中亮相,并迅速获得了超过200万用户的认可。正式揭晓后,该模型在文生图和图像编辑两大场景中均取得了全球第一的佳绩,特别是在图像编辑榜单上,以1362的高分遥遥领先第二名。
在谷歌公布的基准测试中,Gemini 2.5 Flash Image在用户综合喜好度、人物、创造力、信息图、物体和环境的生成等多个方面均优于GPT-4o图像生成、Flux.1 Kontext(max)、Qwen Image Edit等模型。不过,在风格化能力方面,该模型与GPT-4o图像生成仍存在差距。
作为一款主要面向开发者的模型,Gemini 2.5 Flash Image目前可在Gemini API、Google AI Studio以及面向企业的Vertex AI平台上获取。其定价策略为每100万个输出token收费30美元,每张图像包含约1290个输出token,因此每张图像的价格约为0.039美元(折合人民币约0.28元)。
为了简化AI应用的开发流程,谷歌对AI Studio的“构建模式”进行了重大更新。开发者可以利用这一模式快速测试Gemini 2.5 Flash Image等新模型的功能,并在准备好发布应用时直接从AI Studio进行部署或将代码保存到GitHub。
谷歌通过几个生动的案例展示了Gemini 2.5 Flash Image的实际应用。例如,在多轮对话和编辑中保持角色和对象外观的一致性,是图像生成与编辑的一大挑战。而谷歌的新模型则允许用户将同一角色置于不同环境中,同时保留其主题和特征。用户只需上传一张自拍,就能生成从50年代到00年代的六张写真,每张都融入了当时的年代风格。
Gemini 2.5 Flash Image还支持使用自然语言进行图像转换和编辑。用户可以模糊图像背景、去除污渍、删除人物、改变姿势或添加颜色等。谷歌在AI Studio中构建了一个照片编辑模板应用,展示了这些功能的实际应用效果。
Gemini 2.5 Flash Image还具备丰富的世界知识,能够理解手绘插图并解答相关问题。这一特性使得该模型能够预测图像未来的变化,并具备一定的图像推理能力。
自Gemini 2.5 Flash Image发布以来,海外网友纷纷尝试并分享了他们的创作成果。有用户利用该模型制作了月饼广告宣传照,并称赞其效果远超其他模型。还有用户结合Veo 3制作了令人惊艳的视频作品。
然而,也有用户反映该模型的审查机制较为严格,无法生成某些特定场景或物品的画面。尽管如此,Gemini 2.5 Flash Image仍以其强大的图像编辑功能和广泛的应用场景赢得了众多用户的青睐。