深圳国家超级计算中心近日宣布,其自主研发的新一代百亿亿次级超级计算机“灵晟”已顺利完成全系统测试。该系统凭借完全基于CPU处理器的技术路径,以及从芯片到网络的全链条国产化设计,在芯片出口管制背景下引发全球科技界高度关注。其峰值性能突破2EFlops大关,标志着中国在超算领域实现重大技术跨越。
“灵晟”系统由20480个计算节点构成,每个节点搭载两颗基于ARMv9架构的LX2处理器,全系统共集成40960颗处理器,总计超过245万个CPU核心。节点间通过自主研发的“灵渠”高速网络连接,采用双平面多轨胖树拓扑结构,实现每个节点1.6Tb/s的通信带宽。这种设计使系统具备100万端口互连能力,配合36个专用网络机柜,构建起高效的数据传输通道。
LX2处理器采用创新的混合内存架构,集成8个总容量32GB的HBM高带宽内存,带宽达4TB/s,同时支持最高256GB的片外DDR5内存。内置的SDMA引擎可智能调度HBM与DDR间的数据流动,有效解决传统异构架构中频繁的数据搬运问题。在算力表现上,单个处理器在FP64/FP32精度下分别提供60.3/120.6 TFLOPS算力,BF16/FP16精度下达240 TFLOPS,INT8精度下更可输出960 TOPS算力。
系统存储架构同样突破传统设计,配备67个存储机柜、428个存储节点,形成650PB的庞大存储容量。通过10TB/s的存储带宽,可同时支撑大规模科学计算与AI训练的数据读写需求。在地球观测生成压缩模型训练测试中,系统BF16精度下实际性能达1.543 ExaFLOPS,峰值性能更突破2.166 ExaFLOPS,展现出强大的混合精度计算能力。
项目总设计师指出,该系统实现六大技术突破:通过国产高性能CPU、片上高带宽内存、高速互连网络等核心创新,在架构设计、性能指标、能效优化、编程模型、扩展能力和系统可靠性方面达到国际领先水平。其自主研发的片上多精度混合计算加速框架,可统一支持科学计算、工程计算和智能计算三大场景,在分子动力学模拟、流体仿真、生命科学研究和AI大模型训练等领域均取得国际顶尖性能表现。
面对国际主流的CPU+GPU异构架构,研发团队选择纯CPU路线基于多重考量。虽然该路线在稠密AI计算的能效比和算力密度上存在理论差距,但在处理复杂科学任务时具有独特优势:统一的处理器和内存空间避免了异构计算中的数据传输瓶颈,大容量连贯内存池可高效处理海量科学数据集,特别适合需要结合AI训练与大规模数据预处理的科研场景。系统对不规则控制流、分布式I/O等特殊计算模式的天然适配性,使其在科学人工智能应用中表现突出。
在当前国际技术封锁背景下,该系统的战略价值尤为凸显。通过完全摆脱对国外GPU加速器和CUDA软件生态的依赖,中国在超算领域实现了真正意义上的自主可控。作为国家战略计算能力的关键备份,该系统将重点服务于AI与科学模拟深度融合的“AI for Science”领域,为气候模拟、新材料研发、基因组分析等重大科研项目提供算力支撑。
据介绍,深圳正以该系统为基石,构建包含通用算力、智能算力和超级算力的多元化计算体系。这种布局既保持对国际前沿技术的跟踪能力,又通过自主技术路线确保国家战略计算需求不受外部因素制约,为科技创新提供坚实算力保障。






