深圳河套学院AI训练平台项目团队近日取得重大突破,联合哈尔滨工业大学(深圳)、深圳市大数据研究院及华为相关团队,依托深智城AI算力平台,成功完成1.6万亿参数大模型DeepSeek-V4-Pro的全参数后训练。这一成果基于昇腾910C国产AI算力集群实现,标志着国产芯片已具备支撑世界级超大参数模型训练的能力。
项目团队通过优化训练框架与算子效率,使模型算力利用率(MFU)突破30%,关键训练算子效率提升14%,各项性能指标均达到工业级应用标准。此次实践不仅验证了国产AI算力集群的可靠性,更为全球第三方机构在国产平台上开展同类训练提供了可复制的技术路径。
从技术维度分析,全参数训练与模型推理属于不同技术层级。前者需要处理海量数据并行计算,对硬件架构、内存带宽及算子优化提出极高要求;后者则侧重于已训练模型的轻量化部署。此次突破证明,国产AI芯片在算力密度、能效比及生态兼容性上已达到国际领先水平。
据技术文档披露,项目团队针对昇腾910C的分布式训练特性,重构了通信调度算法,将多节点协同效率提升22%。同时通过混合精度训练技术,在保持模型精度的前提下,将显存占用降低40%。这些创新为后续更大规模模型训练奠定了基础。
华为此前在全联接大会上曾透露,昇腾系列芯片将持续迭代升级,新一代产品将重点优化大模型训练场景的算力密度与能效表现。此次DeepSeek-V4-Pro的训练成果,正是国产AI生态从"可用"向"好用"跨越的关键里程碑。






