谷歌Gemini 2.5 Flash Image登顶AI图像编辑，超越GPT-4o等模型

时间：2025-08-28 01:28 作者：钟景轩

谷歌近期震撼发布了其最新的图像生成与编辑模型——Gemini 2.5 Flash Image。这款模型代表了谷歌在图像技术领域的最前沿探索，一经推出便引起了广泛关注。

Gemini 2.5 Flash Image的核心优势在于其强大的图像编辑功能。据谷歌介绍，该模型能够将多个图像无缝融合成一个，同时保持角色形象的高度一致性。更令人惊叹的是，用户可以通过自然语言指令对图像进行精确修改，且这一过程能够充分利用Gemini模型所积累的世界知识。

为了直观展示这一功能，谷歌DeepMind的首席执行官、诺贝尔奖得主Demis Hassabis亲自上阵，用自己的照片进行了演示。他将照片背景更改为古典风格，而人物面容却丝毫未变，完美诠释了Gemini 2.5 Flash Image的角色一致性。

Gemini 2.5 Flash Image的应用场景广泛且富有创意。例如，用户可以轻松制作出类似“球星卡”的设计，让普通人也能享受到顶级运动员般的待遇。该模型还能与谷歌的视频生成模型Veo 3完美搭配，共同打造出丰富多样的视频效果。海外AI创意平台Kera AI已经利用类似技术，成功制作了一部广告大片。

在发布前，Gemini 2.5 Flash Image以“nano-banana”的代号在大模型竞技场中亮相，并迅速获得了超过200万用户的认可。正式揭晓后，该模型在文生图和图像编辑两大场景中均取得了全球第一的佳绩，特别是在图像编辑榜单上，以1362的高分遥遥领先第二名。

在谷歌公布的基准测试中，Gemini 2.5 Flash Image在用户综合喜好度、人物、创造力、信息图、物体和环境的生成等多个方面均优于GPT-4o图像生成、Flux.1 Kontext（max）、Qwen Image Edit等模型。不过，在风格化能力方面，该模型与GPT-4o图像生成仍存在差距。

作为一款主要面向开发者的模型，Gemini 2.5 Flash Image目前可在Gemini API、Google AI Studio以及面向企业的Vertex AI平台上获取。其定价策略为每100万个输出token收费30美元，每张图像包含约1290个输出token，因此每张图像的价格约为0.039美元（折合人民币约0.28元）。

为了简化AI应用的开发流程，谷歌对AI Studio的“构建模式”进行了重大更新。开发者可以利用这一模式快速测试Gemini 2.5 Flash Image等新模型的功能，并在准备好发布应用时直接从AI Studio进行部署或将代码保存到GitHub。

谷歌通过几个生动的案例展示了Gemini 2.5 Flash Image的实际应用。例如，在多轮对话和编辑中保持角色和对象外观的一致性，是图像生成与编辑的一大挑战。而谷歌的新模型则允许用户将同一角色置于不同环境中，同时保留其主题和特征。用户只需上传一张自拍，就能生成从50年代到00年代的六张写真，每张都融入了当时的年代风格。

Gemini 2.5 Flash Image还支持使用自然语言进行图像转换和编辑。用户可以模糊图像背景、去除污渍、删除人物、改变姿势或添加颜色等。谷歌在AI Studio中构建了一个照片编辑模板应用，展示了这些功能的实际应用效果。