科技·商业·财经

作业帮亮相A2M峰会:以三大方案破局AI算力规模与效率悖论

   时间:2026-06-23 02:56 作者:沈如风

在近日举办的第十届A2M峰会(北京站)上,作业帮基础架构研发工程师张浩然以《AI时代资源效率困境和破局之道》为主题发表演讲,系统阐述了AI基础设施领域面临的"规模扩张与效率停滞"矛盾,并首次公开了作业帮自研的三大技术解决方案。这场聚焦AI工程化实践的技术盛会吸引了数百名行业专家参与,共同探讨算力效率提升的可行路径。

张浩然指出,当前AI行业存在显著悖论:过去五年训练算力每六个月增长一倍,但全球智算中心GPU平均利用率不足30%。这种"投入十倍硬件,产出仅两三倍算力"的现象,在数据中心电力消耗年均增长15%的背景下愈发突出。作业帮作为教育科技领域的代表企业,其算力网络覆盖全国多云多地域,面临着GPU型号不统一、资源动态增减、集群通信困难等复杂挑战。

针对跨地域算力调度难题,作业帮创新研发了统一流量调度系统。该系统通过多云容灾架构实现镜像快速分发,并开发智能流量分发算法:在无专线地区采用公网加密通信,有专线地区实现公网专线自动切换。这套系统确保了单地域资源波动时,服务可用性仍能维持在99.99%以上,彻底打破了地域限制对业务扩容的束缚。

在单集群优化方面,作业帮构建了"调度-回收-整理"三位一体的治理体系。自主研发的GPU调度器采用差异化堆叠策略:整卡模型优先集中部署,显存模型按维度极致压缩;改造K8s回收逻辑,优先选择缩容后能释放最多卡片的节点;通过资源预检查机制,在业务低峰期自动迁移碎片化资源。这些措施使集群内存资源利用率得到显著提升。

更突破性的创新在于离在线混合部署方案。作业帮摒弃传统固定时间窗口模式,开发出动态填充机制:当检测到空闲整机时,立即启动离线训练任务;在线服务预调度失败时,自动迁移任务量最少的离线作业。这种弹性部署策略在保障在线服务SLA的同时,使可用算力增加约20%。

经过系统性优化,作业帮GPU平均利用率稳定在90%以上,相关技术成果已形成可复制的工程化方案。张浩然强调:"在AI竞争进入深水区的当下,规模优势只是基础门槛,资源利用效率才是决定企业生死的关键指标。"作为国内首个在复杂异构环境中实现90%+利用率的教育科技公司,作业帮正通过技术开放推动整个行业降本增效。

据悉,本届A2M峰会于中关村国家自主创新示范区会议中心举行,聚焦AI工程化落地的实际挑战。来自互联网、制造业等领域的参会者表示,作业帮的实践经验为多云环境下的算力优化提供了重要参考,其技术方案对资源分散型企业的数字化转型具有直接借鉴价值。

 
 
更多>同类内容
全站最新
热门内容