滚动资讯

当前位置：网界 > 行业动态 > 正文内容

Gemma 4 12B：无编码器架构革新，开启多模态AI“大一统”新纪元

时间：2026-06-06 14:01 作者：互联网

当科技圈还在争论多模态模型该堆参数还是拼架构时，Google悄然扔下一枚重磅炸弹——Gemma 4 12B。这款仅120亿参数的模型，在消费级显卡上跑出了逼近260亿参数混合专家模型（MoE）的性能，直接颠覆了行业对模型规模的认知。

DeepMind科学家迈克尔·察纳在社交平台透露，Gemma 4 12B的突破性在于实现了真正的多模态统一处理。不同于传统模型将不同模态数据分别编码再拼接的"翻译式"架构，新模型直接将图像、音频和文本映射到同一向量空间，用同一套注意力机制处理混合token序列。这种设计让原始数据无需经过压缩转换，完整保留了空间细节与时序纹理。

传统多模态架构的缺陷在此次对比中暴露无遗。以图像处理为例，ViT编码器会将像素切割成patch并提取特征向量，这个过程会丢失80%以上的原始像素信息；音频处理同样需要经过频谱转换和特征提取，导致声波的时序特征被大幅压缩。更关键的是，不同模态的优化目标相互割裂——图像编码器追求分类准确率，音频编码器专注语音识别，语言模型则致力于文本预测，这种"各自为战"的设计使得模型在整合信息时频繁出现灾难性遗忘。

Gemma 4 12B的解决方案堪称激进。视觉模块抛弃了12层的ViT编码器，改用仅3500万参数的轻量嵌入层，通过单次矩阵乘法配合2D坐标嵌入，直接将图像块映射为文本token；音频处理则更为彻底，原始声波信号经时序切片后直接投影到向量空间，完全跳过频谱转换步骤。这种设计使得三种模态的表征空间在进入Transformer主干前就实现统一，共享权重和推理逻辑。

实测数据印证了架构革新的威力。在RTX 4090显卡上，12B模型生成8900个token的物理模拟代码时，显存占用仅9GB，而26B MoE模型在相同任务下需要15GB显存。更令人惊讶的是，代码生成质量和物理逻辑推理能力两者几乎无差异。这意味着新模型用不到一半的参数，实现了旗舰模型60%以上的性能，直接动摇了"参数即性能"的行业共识。

显存优化的背后是多重技术突破。无编码器设计消除了独立编码器的内存开销，也避免了特征对齐带来的计算损耗。但性能提升并非单一因素所致，训练数据配比、注意力机制优化等改进同样功不可没。Google工程师透露，团队花费大量精力调整不同模态数据的混合比例，确保模型在统一处理时不会偏向某种特定模态。

这场架构革命正在重塑行业生态。硬件门槛的显著降低使得多模态推理从专业工作站下放到消费级显卡，9GB显存的需求让普通开发者也能参与模型微调。LoRA等轻量级调优方法可直接作用于Transformer主干，理论上能同步优化全模态回路，这为个性化模型开发开辟了新路径。更引人遐想的是统一嵌入空间预留的扩展接口，理论上新增模态只需定制专属投影层即可接入，不过实际效果仍需大量专项训练支撑。

当然，Gemma 4 12B并非完美无缺。面对需要多工具联动的复杂任务时，模型仍会出现规划偏差和路径偏移。这暴露出统一架构在长序列推理方面的不足，但开发团队认为这属于技术过渡期的正常现象。正如早期智能手机触屏不够灵敏却开启了移动互联时代，当前模型的局限性反而印证了架构方向的正确性。

当业界还在用基准分数比较模型优劣时，Gemma 4 12B已经悄然改写了游戏规则。它证明多模态的"大一统"不需要庞大参数堆砌，统一表征空间的设计足以支撑复杂任务处理。这种架构选择或许会成为未来两年多模态研发的核心范式，而参数规模之争，可能就此成为历史。

更多>同类内容

“琅琊”2.0发布：拓展海洋预报边界，为防灾航运提供智能支撑

06-06

小米下半年将推超高端MIX新品：自研芯片OS大模型齐聚，性能再升级

06-06

苹果iOS27系统底层架构优化助力iPhone17等机型续航能力升级

06-06

英伟达新一代AI平台HBM4供应链落定三星等三大存储巨头全力保供

06-06

京东方深圳布局新篇：携手创维vivo共建联合实验室驱动产业升级

06-06

华为云周跃峰：AI新赛道上，以“硅基黑土地”赋能智能体发展新篇

06-06

景区AR导览选哪家？从场景适配到运维，视+AR等五家服务商深度对比

06-06

本周国内一级市场融资活跃：122起投融资事件，千寻智能等企业获高额融资

06-06

大连双舰同日启航！我国自主设计超大型油轮创全球造船新速度

06-06

通鼎互联：风口之下业绩反转存疑，高估值与增长前景如何平衡？

06-06

威海银行2025财年末期股息确定，每100股派10元7月30日发放

06-06

帮主65直播干货：下周操作三铁律，高切低辨真假，高位被套这样解

06-06

霍市法院送法进企业精准普法助力企业防范风险稳健发展

06-06

山东墨龙2025年营收大增，销售与管理费用变化缘何“背道而驰”？

06-06

潮玩行业深度分化：头部领航IP崛起，出海与资本共拓新增长空间

06-06

点击查看更多 +

全站最新

SNEC光伏展观察：AI智能体成焦点算电协同发展挑战与机遇并存

夏日驱蚊市场乱象：劣质白牌大厂“毒”谋套利终遭监管重拳出击

景区AR导览选型指南：从场景适配到运维支持，这些公司各有优势

AI时代已至：抓住这次技术红利，普通人也能实现财富跃迁与能力升级

2026年选冲压送料机厂家：从技术到售后，多维度解析靠谱之选

对话华为云CEO周跃峰：华为云差异化路径与AI生态构建新思考

热门内容

本栏最新

网界 - 新财经新科技新未来 - 网界传媒旗下网站 - 中国 · 北京
合作咨询微信：netspread（注明:网界）
网界^®是本公司38类注册商标，是该商标的唯一持有者，未经授本公司授权，严禁使用。
Copyright © CNU 2012-2022 www.cnu.com.cn All rights reserved. 鲁ICP备2022032383号-6 鲁公网安备37010202700502号