滚动资讯

当前位置：网界 > 行业动态 > 正文内容

DeepSeek又变强了，推理速度最高提升85%

时间：2026-06-27 21:54 作者：互联网

今日，DeepSeek推出全新的推测解码（Speculative Decoding）框架DSpark，并已在V4系列模型上使用。

该技术在保持生成文本分布完全无损（Lossless）的前提下，成功突破了大语言模型（LLM）在高并发生产环境中的推理性能瓶颈，实测数据显示，其单用户生成速度较现有主流方案最高提升85%。

随着大模型参数量的指数级增长，推理延迟和算力成本已成为制约AI应用落地的核心痛点。

尽管推测解码技术通过“小模型起草、大模型验证”的机制在一定程度上缓解了这一问题，但业界始终面临两难选择：要么使用自回归草稿模型（如Eagle3）以保证准确率但牺牲速度，要么使用并行草稿模型（如DFlash）以提升速度但牺牲长序列的接受率。

针对这一行业难题，DSpark提出了两大创新机制，实现了速度与质量的完美平衡。

核心技术一

半自回归生成，兼顾速度与连贯性

DSpark首创了“半自回归生成”架构（Semi-Autoregressive Generation）。

它摒弃了传统单一维度的生成方式，将草稿构建分为两步：

并行骨架：利用并行的DFlash骨干网络，像以前一样快速生成多个候选token的基础特征，确保极低的延迟。

顺序精修：引入轻量级的“马尔可夫头（Markov Head）”或“RNN头”，为这些并行生成的token注入上下文依赖关系。这就好比先快速勾勒出文章的骨架，再对局部逻辑进行微调，有效避免了并行模型在长序列末尾出现的“语义漂移”或“多模态碰撞”问题。

核心技术二置信度调度验证，拒绝算力浪费

DSpark还在验证端进行了智能化升级。传统的推测解码往往盲目地将整段草稿发送给大模型验证，容易造成计算资源的浪费。

DSpark引入了置信度头（Confidence Head），它能预测每个草稿token在给定前缀下的“存活概率”。结合硬件感知调度器，系统可以动态调整每个请求的验证长度，优先处理那些最有可能被接受的token。

这种“好钢用在刀刃上”的策略，极大地提升了GPU的整体吞吐效率。

单用户速度飙升，吞吐量大幅跃升

在多项严苛的基准测试中，DSpark展现了惊人的性能表现：

在数学推理、代码生成及日常对话任务中，DSpark相比当前SOTA的自回归方案Eagle3平均提升26.7%~30.9%的接受长度；相比并行方案DFlash提升16.3%~18.4%。

在真实的线上部署中，DSpark 的表现更为亮眼：

DSpark的两个变体（V4-Flash与V4-Pro）均取得了突破性进展。在匹配相同吞吐量的前提下，DeepSeek-V4-Flash 的单用户生成速度提升了 60% 至 85%，Pro 版本则提升了 57% 至 78%。

更关键的是，DSpark 成功避免了在高并发严格交互延迟约束下系统吞吐量的断崖式下跌，推高了服务系统的性能边界。

开源全栈工具链 DeepSpec

为了让更多开发者和企业受益于这一先进技术，研究团队宣布开源DSpark的相关资源，目前已发布DeepSeek-V4-Flash (preview) 和 DeepSeek-V4-Pro (preview) 的预训练检查点。

同时推出DeepSpec训练库，这是一个算法驱动的推测解码工具包，支持DSpark、DFlash及Eagle3的训练与评估。

DSpark的发布不仅是推测解码技术的一次重大迭代，更为大规模AI服务的商业化落地提供了强有力的技术支撑。

更多>同类内容

全新命名！ GPT-5.6最强「太阳」来了，完爆Mythos 5

06-27

消息称奔驰延后发放奖金，德国员工每周工时35小时调至40小时

06-27

1999元！vivo Y6a悄悄上市：LCD真护眼屏+7200mAh长寿大电池

06-27

史上最强天玑大折叠！一图读懂vivo X Fold6：7999元起

06-27

苹果上调产品售价马斯克公开声援库克：这辈子没见过这么大涨幅

06-27

尊界S800以138.8万起售入场余承东发布会状态切换背后的品牌突围

06-27

BrowserBC：将人类网页操作“炼”成技能，为Agent铺就通用浏览之路

06-27

中国“人造太阳”再传捷报！全球最大超导磁体通过验收国产化率达100%

06-27

杭州Om AI发布VLX模型，端侧流式多模态开启物理世界AI新篇章

06-27

技嘉40周年献礼！RTX 5080 INFINITY双版本显卡亮相 2805MHz超频性能拉满

06-27

联想摩托罗拉海外推出Moto Pad 70 Pro平板：骁龙芯加持，7月4日印度开售

06-27

马斯克质疑IBM 0.7纳米芯片命名：应按原子数定名才准确

06-27

麦吉尔大学与Mila研究院创新分级语言模型：AI开放与安全共存新路径

06-27

巴西研究新突破：无标注自监督学习，让AI轻松破解停车找位难题

06-27

9000mAh大电池配轻薄机身！vivo Y600 Turbo图赏来了

06-27

点击查看更多 +

全站最新

捷途方盒子家族“上新”：燃油混动纯电齐发，让越野自由触手可及

敦煌盛会启新程！捷途双车齐发，最低8.99万圆你“方盒子”自由梦

科大讯飞Pokee录音笔：AI赋能高效记录，课堂会议户外多场景适用之选

超盒算NB加速全国布局：首进华北北京连开6店，自有品牌占比近60%

360潘剑锋：智能体时代安全新范式，聚焦驾驭AI不确定性难题

郑州印刷产业互联网定制新势力：晟樽彩印等平台如何满足多元需求？

热门内容

本栏最新

网界 - 新财经新科技新未来 - 网界传媒旗下网站 - 中国 · 北京
合作咨询微信：netspread（注明:网界）
网界^®是本公司38类注册商标，是该商标的唯一持有者，未经授本公司授权，严禁使用。
Copyright © CNU 2012-2022 www.cnu.com.cn All rights reserved. 鲁ICP备2022032383号-6 鲁公网安备37010202700502号