科技·商业·财经

阿里云UPN512技术架构白皮书:应对AI网络挑战,构建xPU扩展新方案

   时间:2025-10-12 04:47 作者:江紫萱

在人工智能技术迅猛发展的当下,大模型训练与推理对计算和内存的需求呈现出爆发式增长。为满足这一需求,AI集群纷纷借助高性能网络进行扩展,MoE架构、训推一体化以及xPU规模扩大等趋势,也对网络提出了全新的要求。在此背景下,阿里云网络基础设施团队撰写了一份白皮书,聚焦超高性能网络(UPN512)技术架构,旨在为构建大规模、高性能、高可靠、低成本且可扩展的xPU扩展系统提供切实可行的方案。

当前,xPU扩展系统在网络连接方面面临着诸多挑战。多数系统采用铜互连方式,虽然成本较低且稳定性尚可,但传输距离有限,在高密度机架设计时,会带来复杂度、可靠性和扩展性等方面的问题。而光互连虽被视为更大规模扩展网络的必然选择,却面临着成本高、可靠性存疑的困境,并且在高带宽通信场景下,计算开销较大。这些挑战严重制约了xPU扩展系统的发展,成为亟待解决的难题。

阿里云推出的UPN512架构,继承了高性能网络(HPN)的扩展网络设计原则,以“大规模、高性能、高可靠、低成本、可扩展”为设计目标。该架构采用了高基数以太网、LPO/NPO光互连以及单层交换设计等先进技术。与HPN相比,UPN512在GPU带宽、互连协议和互连规模上存在显著差异,并且能够与HPN共同组成高性能系统,为xPU扩展提供了更强大的网络支持。

在系统设计方面,UPN512的单层光解耦系统是其一大亮点。与AI机架紧密耦合的铜互连方式相比,单层光解耦系统采用全光互连技术,成功突破了距离限制,能够支持1K规模域。同时,其解耦设计降低了系统复杂度,提升了可靠性与灵活性,有效解决了铜互连在高密度机架设计中的诸多问题。在光互连方案上,UPN51512对可插拔光模块、高密度带宽光互连方案进行了深入分析,对比了LPO与NPO的适用场景、成本及稳定性,指出二者可互补选择,为不同需求的用户提供了多样化的解决方案。

在通信语义方面,UPN512基于ETH + 协议定义了三种低延迟通信语义,分别适用于不同的数据传输需求,进一步提升了网络通信的效率和灵活性。在网络内计算方面,UPN512通过在网络设备内执行计算加速集体通信,优化了对称与非对称集体通信流程,有效提升了数据传输效率,降低了计算资源消耗,为xPU扩展系统的高效运行提供了有力保障。

这份白皮书为AI基础设施中xPU扩展系统的发展指明了清晰的技术架构方向,提供了宝贵的实践参考,对于推动高性能网络技术在AI领域的广泛应用具有重要意义。随着AI技术的不断发展,相信UPN512架构将在更多场景中发挥重要作用,助力AI产业迈向新的高度。

 
 
更多>同类内容
全站最新
热门内容