科技·商业·财经

里程碑!昇腾910C完成1.6万亿大模型全参数后训练,国产算力跨过最难关

   时间:2026-06-08 15:42 作者:格隆汇

近日,深圳河套学院联合哈工大(深圳)、深圳市大数据研究院及华为等团队,依托昇腾910C国产AI算力集群,成功完成1.6万亿参数大模型DeepSeek-V4-Pro的全参数后训练。

在美方制裁下,中国半导体正从基础的AI推理,正式迈向更复杂的模型训练阶段。正如官方通报所言,这印证了国产AI芯片足以支撑世界级超大参数模型的训练。这不是试探,而是实打实的里程碑——国产算力,终于跨过了那条最难的技术门槛。

为什么“全参数后训练”含金量这么高?

很多人只看到了“1.6万亿参数”,却没懂“全参数后训练”这六个字有多难。

AI大模型的核心分为推理和训练。推理是模型已经学好了,按部就班回答问题,这是国产芯片之前擅长的“单行道”;而训练则是让模型从零开始学,不仅需要海量算力,还要不断自我反思调整,相当于在单行道上建起复杂的“立交桥”。

训练又分预训练(打基础)和后训练(学规矩、学技能)。全参数后训练,意味着要同时调整1.6万亿个参数,而不是小打小闹的局部微调。更棘手的是,DeepSeek-V4-Pro采用了混合专家(MoE)架构——推理时只需唤醒少数专家,训练时却要所有专家同时学习、海量通信,数据交换量是普通模型的几十倍。

此前业内普遍认为,国产芯片根本扛不住这种级别的全参数训练。

三大硬核工程突破,把不可能变成可能

面对天堑,联合攻关团队靠的是三个扎扎实实的工程突破:

“显存拼图”:1.6万亿参数无法塞进任何单张卡。团队设计了极其精密的分布式承载方案,将模型像拼图一样拆分到每张芯片,数据交换时机分毫不差。

“负载均衡”:MoE架构最怕“忙闲不均”。团队针对性优化调度算法,动态分配任务,彻底解决了跨卡通信拥堵,大幅提升了算力利用率。

“全程不掉线”:大模型训练最怕中途崩溃,功亏一篑。此次训练跑了1500多步,全程零中断、零报错,背后是无数次调试打磨出的全链路监控与容错体系。

最终,模型算力利用率突破30%,关键训练算子效率提升14%。在万亿级训练领域,30%的利用率已是相当优秀的工业级水准(即便用顶配海外芯片,很多团队也仅在40%左右)。

比芯片突破更珍贵的,是实战人才

比技术突破更被低估的价值,是人才的孵化。

深圳河套学院将这次攻坚变成了真刀真枪的实兵演练场,让学生从环境搭建开始全程参与万亿级模型训练。目前已有42名学生参与,形成了“青年教师指导-博士生攻坚-工程团队支撑”的完整梯队。

大模型训练是一门工程科学,书本上学不到真经。之前没有高端算力平台,年轻人连摸一摸万亿集群的机会都没有。现在,这批知道哪里会出问题、知道怎么解决问题的实战工程师,才是国产AI产业最宝贵的财富。

写在最后

我们清醒地知道,国产算力在单卡性能和软件生态上,与世界顶尖水平仍有差距。但这次突破证明了:在海外垄断的大模型训练领域,我们不仅能做,而且能做好。

这不仅仅是一次技术的突围,更是一针强心剂。随着深圳河套学院等机构持续在长文本、AI智能体方向挖掘国产算力潜力,当越来越多的团队用国产芯片跑通大模型,属于国产AI的时代,才刚刚拉开序幕。

 
 
更多>同类内容
全站最新
热门内容