科技·商业·财经

2025 AI大模型跨域训练新突破:池化调度技术体系全解析

   时间:2025-08-23 10:54 作者:陆辰风

近日,第九届未来网络发展大会组委会正式发布了《AI大模型跨域训练池化调度技术体系白皮书》,该报告深入探讨了AI大模型跨域训练的关键挑战,并提出了一套针对性的技术体系与实践解决方案。

随着AI技术的不断发展,AI大模型领域呈现出新的趋势。通用大模型由于参数量巨大、训练成本高昂,参与其中的企业和研究机构逐渐减少。与此同时,DeepSeek等开源项目的推出,推动了企业大模型的兴起。这些企业大模型以“专而精”为特点,百亿级参数即可满足业务需求,且单次训练所需的算力资源相对较少,使得企业更倾向于租用算力资源。

然而,我国高端智能算力资源面临着“少、杂、散”的困境。为了盘活存量算力、探索并网调度,国家出台了《关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》。在此背景下,白皮书提出了“全局池化调度”的技术路线,专注于解决企业大模型在“异属、异构、异地”资源调度上的难题。

该技术体系构建了“广域确定性网络+智算资源并网+算网协同调度”的三位一体架构,实现了“异属合训、异构混训、异地同训”的目标。具体而言,技术体系分为业务层、管控层、资源层。业务层负责接收训练任务,并将其转化为标准描述,动态拆分任务以适应不同资源;管控层通过协同调度,打破资源边界,实现算网存资源的智能匹配;资源层则整合异构资源,为训练任务提供底层支撑。

在关键技术方面,异构混训通过模型分层拆解和自适应配置,使不同型号的GPU能够高效协同工作;异地同训则借助计算通信重叠流水线和非阻塞GPU通信等技术,提升跨域训练的效率;异属合训则通过多队列协作和联合抢占等机制,解决了跨主体资源调度的难题。

试验验证显示,该技术体系在实际应用中取得了显著成效。在跨2000公里的广域网环境下,训练效率达到了88.75%;广域确定性网络能够有效抵御干扰流,性能下降幅度仅为2.56%;算网协同调度策略成功规避了低带宽集群组合,提升了整体训练效率;计算通信重叠技术使跨域训练效率进一步提升至94.26%;异构芯片混合训练效率也达到了95.47%,并支持多流水线跨域训练。

白皮书的发布,标志着我国在AI大模型跨域训练技术方面取得了重要进展。未来,该技术体系将继续以“全国一台计算机”为目标,推进算力资源的泛在化、效率本地化与生态开放化,进一步整合异构资源,提升训练效率,为AI大模型在各行各业的广泛应用奠定坚实基础。

 
 
更多>同类内容
全站最新
热门内容