科技·商业·财经

DeepSeek月耗17万亿Tokens背后:国产AI算力迎Agent时代关键大考

   时间:2026-05-29 19:11 作者:格隆汇

在OpenRouter最新发布的模型月榜中,DeepSeek旗下三款模型凭借强劲表现集体闯入前十,引发行业高度关注。其中V4 Flash以9.13万亿tokens的月调用量稳居榜首,V4 Pro与V3.2分别以3.89万亿和4.07万亿位列第九、第八,三者累计调用量突破17万亿tokens。这一数据标志着Agent系统已取代传统聊天机器人,成为大模型应用的主流形态——排名前两位的Hermes Agent和OpenClaw月调用量分别达10.8万亿和6.25万亿tokens,印证了智能体系统通过多轮LLM调用与工具执行产生的复合负载特征。

高强度并发需求正将底层基础设施的短板暴露无遗。单个Agent任务常触发上百次模型调用与数十次工具执行,伴随长记忆机制产生的数据量级可达数百GB甚至TB级。这种技术演进趋势与昇腾AI平台的适配进程形成巧妙呼应:此前关于DeepSeek V4因适配昇腾架构导致发布延迟的猜测,实则揭示了头部模型在技术路径上的深层共识。当智谱GLM-5.1、MiniMax M2.7与DeepSeek V4在4月密集开源时,昇腾平台均实现发布即支持,印证其底层能力的通用性设计。

三大技术共性驱动头部模型走向统一技术框架。在架构层面,MoE(混合专家)模型通过稀疏激活机制提升计算效率,但专家分散部署导致的卡间通信成为首要瓶颈;在上下文处理方面,百万token级长序列对内存容量与数据调度提出严苛要求;精度层面,FP4+FP8混合量化技术进入可靠性验证阶段,需解决异常参数对全局缩放的影响。这些挑战在昇腾平台上通过三项核心创新得到系统性解决。

针对MoE通信瓶颈,昇腾推出的MegaMoE融合算子将原有五步操作整合为单一算子,实现通信与计算的真正并行。实测数据显示,DeepSeek V3.1与Qwen3-235B模型在接入该算子后,Prefill场景性能提升20%-30%,Decode场景提升超10%。在内存优化方面,KVCache池化方案通过跨节点内存统一编址技术,将物理内存融合为全局资源池,配合零拷贝传输与算力切分策略,使Agent场景的Prefill性能提升4倍以上,该方案已实现对所有长序列模型的普适支持。

低精度量化领域,昇腾950系列架构内置的块缩放因子计算单元与MXFP矩阵乘法加速器,为Microscaling量化格式提供硬件级支撑。MindStudio工具链实现模型权重的一键转换,开发者无需手动处理量化细节。这种从硬件到工具链的完整闭环,使MXFP4/MXFP8模型在昇腾平台上的适配周期缩短60%以上。

技术演进与生态建设的双向促进正在重塑产业格局。DeepSeek V4的成功不仅验证了中国自主生态体系的技术可行性,更揭示出大模型竞争已从单一算法突破转向系统能力比拼。当万亿参数模型成为行业标配,具备通用AI软硬件平台支撑能力的参与者,将在下一阶段竞争中占据战略制高点。昇腾平台通过同时满足MoE通信、长序列内存与低精量化三大核心需求,为Agent时代的推理基础设施树立了新的技术标杆。

 
 
更多>同类内容
全站最新
热门内容