科技·商业·财经

中科大团队携手昇腾,MoE稀疏大模型推理性能提升超三成

   时间:2025-08-21 12:33 作者:任飞扬

人工智能领域的探索步伐从未停歇,尤其是随着大型模型的参数量呈现爆炸式增长,如何在提升模型容量的同时控制训练成本,成为了科研人员亟待解决的难题。MoE(Mixture of Experts)稀疏大模型应运而生,以其独特的优势吸引了广泛关注,但在推理阶段遭遇的性能瓶颈却限制了其广泛应用。近日,中国科学技术大学人工智能与数据科学学院传来喜讯,张燕咏院长带领团队,在鲲鹏昇腾科教创新卓越中心的强大算力支撑下,成功研发出一项创新框架,有效破解了MoE稀疏大模型推理性能的挑战。

该团队的创新之处在于,他们深入剖析了专家选择过程中的规律,通过对MoE层中相似token的专家选择特征进行细致分类,成功预测出token的专家选择路径偏好。这一发现为后续的推理性能优化奠定了坚实基础。团队利用这些预测结果,巧妙地对专家负载进行了均衡处理,通过复制频繁访问的专家、替换非关键专家,实现了资源的合理分配,显著提升了推理效率。

昇腾推理引擎MindIE在此次项目中发挥了重要作用。其内置的性能分析工具不仅提供了直观的性能数据可视化,还在实时监测专家负载、统计访问频率等方面给予了精准的数据支持,为团队优化专家负载均衡策略提供了有力依据。

团队还致力于降低分布式计算中的通信时延。他们根据计算节点上的数据预测结果,将专家提前部署到对应的节点,并将需要紧密合作的专家放置在同一计算单元,从而缩短了数据与所需专家之间的物理距离。结合昇腾384超节点的高速总线互联技术,跨节点和跨计算单元的通信消耗得到了大幅降低。

实践是检验真理的唯一标准。经过一系列技术突破,该创新框架在多尺寸、多结构的MoE模型中展现出了卓越的性能。与现有主流方案相比,推理时间、all2all时间、MoE层时间以及负载不均分数均提升了超过30%。在多卡复杂场景中,前三项指标同样提升了30%,推理时间更是提升了20%。这一成果无疑为开发者利用昇腾技术优化MoE稀疏大模型推理性能提供了宝贵经验。

此次项目的成功,不仅标志着中国科学技术大学在MoE稀疏大模型推理性能优化方面取得了重要进展,也为推动人工智能技术在各领域的广泛应用奠定了坚实基础。未来,鲲鹏昇腾科教创新卓越中心将继续深化产学研合作,依托昇腾软硬件平台,不断探索前沿AI模型优化领域的新突破,为自主创新和数字经济发展贡献力量。

 
 
更多>同类内容
全站最新
热门内容