科技·商业·财经

中国超算“灵晟”:245万CPU核心铸就2EFlops巅峰,自主技术突围新典范

   时间:2026-05-18 11:04 作者:互联网

深圳国家超级计算中心近日宣布,其自主研发的新一代百亿亿次级超级计算机“灵晟”(LineShine)已顺利完成全系统测试。该系统采用全CPU架构,未依赖任何GPU加速器,从处理器、存储到互联网络均实现国产自主可控,峰值性能突破2EFlops,引发国际科技界对中国超算技术突破的广泛讨论。

“灵晟”系统由20,480个计算节点组成,每个节点搭载两颗基于ARMv9架构的LX2处理器,全系统共配备40,960颗处理器,总计超过245万个CPU核心。节点间通过自主研发的“灵渠”高速网络连接,采用双平面多轨胖树拓扑结构,单节点带宽达1.6Tb/s,确保高效数据传输。在存储方面,系统整合了428个存储节点,提供650PB总容量和10TB/s的存储带宽,可满足大规模科学计算需求。

LX2处理器的设计颇具特色。每颗处理器集成两个计算芯粒,共304个CPU核心,分为8个集群,每个集群含38个核心。核心配备32KB L1指令缓存和32KB L1数据缓存,集群共享28.5MB L2缓存。该处理器支持Arm SVE和SME扩展指令集,可高效处理FP64、FP32、BF16、FP16、INT8等多种数据格式的AI任务。在算力表现上,单颗LX2处理器在FP64/FP32精度下分别提供60.3/120.6 TFLOPS,BF16/FP16精度下达240 TFLOPS,INT8精度下更可输出960 TOPS。

内存设计是“灵晟”的另一亮点。LX2处理器采用混合内存架构,集成8个总计32GB的HBM高带宽内存,带宽高达4TB/s,同时支持最高256GB片外DDR5内存。这种设计使CPU可直接访问统一内存空间,避免了传统CPU-GPU异构架构中频繁的数据搬运,显著提升效率。芯片内置的SDMA引擎可智能调度HBM与DDR间的数据流动,对内存密集型AI训练任务尤为重要。

在实际应用测试中,“灵晟”展现了强劲性能。以训练63亿参数的地球观测生成压缩模型为例,系统在BF16精度下实际性能达1.543 ExaFLOPS,峰值性能更突破2.166 ExaFLOPS。国家超级计算深圳中心主任卢宇彤指出,该系统是全球首台持续性能超2EFlops FP64的超级计算机,通过国产高性能CPU、片上高带宽内存、高速互连网络等核心技术突破,实现了架构、性能、能耗等六大维度的创新,支持科学计算、工程计算、智能计算的“三算合一”。

当前,全球超算领域普遍采用CPU+GPU异构架构,例如马斯克旗下xAI的Colossus集群理论峰值性能达498 ExaFLOPS。然而,“灵晟”选择CPU-only路线并非技术妥协,而是基于特定场景的战略考量。全CPU架构避免了异构计算中复杂的编程模型、数据传输瓶颈和加速器内存限制,尤其适合处理海量科学数据集、长上下文窗口以及涉及不规则控制流的任务。该系统可无缝集成传统高性能计算环境,同时执行仿真与AI训练/推理,满足“AI for Science”场景的深度融合需求。

在国际技术封锁背景下,“灵晟”的自主可控特性更具战略意义。系统摆脱了对英伟达GPU和CUDA生态的依赖,从处理器到软件栈实现全栈国产化。深圳市科技创新局相关负责人表示,该系统的落地是我国高端计算领域自主化的重要里程碑,为构建“通用算力+智能算力+超级算力”一体化体系提供了关键支撑。尽管“灵晟”并非意在取代GPU超算,但其作为特殊技术环境下的“备份”方案,为保障国家战略计算需求开辟了新路径。

 
 
更多>同类内容
全站最新
热门内容