DeepSeek 今日推出了一款实验性版本模型——DeepSeek-V3.2-Exp,标志着其向新一代架构迈出了关键一步。该模型在继承 V3.1-Terminus 核心能力的基础上,首次引入了名为 DeepSeek Sparse Attention(DSA)的细粒度稀疏注意力机制,重点针对长文本场景下的训练与推理效率展开技术探索。
据技术团队介绍,DSA 机制通过创新性的注意力分配策略,在保持模型输出质量稳定的前提下,显著提升了长文本处理的计算效率。这一突破使得模型在处理超长文本时,既能维持原有的理解与生成能力,又能大幅降低算力消耗。为确保技术验证的严谨性,研发团队将 V3.2-Exp 的训练参数配置与 V3.1-Terminus 完全对齐,经多领域公开评测集测试,两者性能表现基本一致。
伴随模型升级,DeepSeek 同步调整了 API 服务策略。开发者调用接口的成本将下降超过 50%,这一调整旨在降低技术接入门槛,促进更广泛的生态应用。目前,用户可通过官方 App、网页端及小程序直接体验新模型,同时为便于对比测试,V3.1-Terminus 的 API 接口仍保留临时访问权限。
技术开源方面,DeepSeek-V3.2-Exp 已完成在 Huggingface 与魔搭平台的代码与权重文件发布。研发团队特别强调,尽管新模型在标准测试中表现达标,但仍需通过更大规模的真实场景验证来完善技术细节。此次更新不仅体现了架构优化的技术进展,也反映了平台推动 AI 技术普惠化的战略方向。