科技·商业·财经

谷歌另辟蹊径:用扩散模型写文字,速度飙升4倍开启新可能

   时间:2026-06-12 00:43 作者:快讯

当业界还在聚焦“AO”两家大模型激烈竞争时,谷歌已悄然在文本生成领域投下一枚重磅炸弹——基于扩散模型的DiffusionGemma正式开源。这款突破传统自回归架构的模型,通过并行生成机制实现每秒千token级输出,在消费级显卡上即可流畅运行,为本地化AI应用开辟了全新路径。

传统自回归模型采用“逐字输出”的打字机模式,每个新token的生成都需要重新加载全部模型参数,导致GPU算力长期处于闲置状态。这种内存带宽瓶颈在本地单用户场景尤为突出,成为制约生成速度的核心难题。DiffusionGemma则创造性地将图像生成领域的扩散模型引入文本领域,通过256token的并行生成画布,实现多轮去噪的批量处理,使计算效率产生质的飞跃。

在H100显卡的实测中,DiffusionGemma以1000+ token/s的速度碾压传统架构,较同参数规模模型提升4倍性能。更令人瞩目的是其硬件友好性:260亿参数的混合专家模型在推理时仅激活38亿参数,量化后18GB显存即可运行,这意味着普通用户的RTX 4090显卡就能承载完整模型。这种设计直接打破了高算力门槛,使个人开发者也能部署前沿生成技术。

该模型的创新不止于速度。其双向注意力机制赋予每个token全局视野,在生成过程中即可实时评估上下文一致性。这种“所见即所得”的生成模式,在处理需要前后文联动的任务时展现惊人优势:经过微调的模型在数独求解任务中成功率从0%跃升至80%,在代码补全、复杂格式排版等场景中更显潜力。谷歌工程师形象地比喻,这相当于将打字机升级为高速印刷机。

尽管在文本质量基准测试中,DiffusionGemma仍与主流自回归模型存在差距,但谷歌明确将其定位为速度敏感型场景的解决方案。这种务实定位获得产业界积极响应,NVIDIA全面适配从消费级到专业级的全系显卡,vLLM、MLX等主流推理框架同步支持,形成完整的硬件-软件生态闭环。开源社区更在24小时内涌现出多个优化版本,展现出极强的技术延展性。

值得注意的是,谷歌并非首个探索该路径的机构。初创公司Inception Labs今年2月发布的Mercury 2模型已展示类似思路,而谷歌去年I/O大会的Gemini Diffusion实验更早埋下伏笔。此次DiffusionGemma的突破性进展,标志着扩散模型在文本生成领域真正走向实用化。随着llama.cpp等轻量化框架的适配推进,这场由并行计算引发的生成革命,或将重塑AI应用的硬件格局。

项目地址:https://huggingface.co/unsloth/diffusiongemma-26B-A4B-it-GGUF
技术文档:https://unsloth.ai/docs/models/diffusiongemma

 
 
更多>同类内容
全站最新
热门内容