滚动资讯

当前位置：网界 > 行业动态 > 正文内容

卡内基梅隆等高校联合研发AstraFlow：让AI强化学习训练更灵活高效

时间：2026-05-26 22:44 作者：互联网

在人工智能领域，大型语言模型的强化学习训练正面临着一场架构层面的革新。由多所顶尖高校联合研发的AstraFlow框架，通过重构传统训练系统的核心逻辑，为多智能体协作训练提供了全新的解决方案。这项研究以预印本形式发布于学术平台，其创新设计在七个关键维度上实现了对现有系统的全面超越。

传统训练系统普遍采用"中央控制"模式，训练器如同总厨般统筹所有环节。这种架构在单一模型训练时尚可应付，但面对多智能体协作场景时，系统扩展性遭遇瓶颈。研究团队通过对比实验发现，现有主流框架在支持多模型协作时，往往需要针对特定场景进行定制化改造，导致系统复杂度呈指数级增长。AstraFlow则通过解耦训练流程，将推演、数据管理和训练三个核心功能分离为独立模块，仅通过标准化数据流层实现协同运作。

数据流层作为新架构的核心枢纽，采用"隐性协调"机制取代传统指令控制。推演服务（RaaS）节点自主从数据流获取任务，训练器独立拉取数据批次进行优化，权重更新通过稀疏增量传输机制实现。这种设计使得系统能够动态适应不同规模的推演集群，当某个节点出现故障时，训练流程可自动绕过故障点继续运行，无需人工干预。实验数据显示，在跨地域部署场景中，系统通过压缩权重传输量至原始数据的3%，成功将跨洲际网络延迟对训练进度的影响降至最低。

多智能体协作训练是AstraFlow最具突破性的能力。在数学解题验证场景中，系统同时训练解题AI和验证AI两个模型，通过定义清晰的工作流接口，实现两者间的无缝协作。相较于传统框架，AstraFlow将训练效率提升2.7倍的同时，将模型准确率从54.4%进一步提高至56.5%。这种优势源于其完全异步的训练机制，当验证AI需要更长时间处理复杂解答时，解题AI可继续处理其他任务，避免了传统同步框架中的等待损耗。

系统弹性扩展能力通过AI驱动的自动化管理得到验证。研究团队设计了一个三区间调控策略，根据训练器等待率动态调整推演资源。在模拟实验中，自动扩缩容机制在保持模型准确率几乎不变的前提下，将GPU总消耗降低13%。这种灵活性源于系统将资源调度逻辑与训练流程解耦，运维策略通过配置文件即可修改，无需改动核心代码。

数据算法的模块化设计是AstraFlow的另一创新点。研究团队实现了动态采样、GRESO预筛选和缓冲重放三种算法的积木式组合，这些算法作为独立插件运行在数据流层，可根据计算资源自动调整组合方式。在代码生成测试中，GRESO算法通过精准筛选训练题目，使系统在生成数据量减少60%的情况下，仍能达到相近的训练效果。这种设计使得研究者能够像搭积木般快速验证不同算法组合的效果。

基准测试表明，AstraFlow在单模型训练场景下与现有最优框架性能相当，但在多模型协作等复杂场景中展现出显著优势。研究团队已将完整代码开源，并提供详细的技术文档。这项研究为AI训练系统的架构设计提供了新范式，其模块化思想有望推动强化学习技术在更多复杂场景中的应用落地。

更多>同类内容

鸡蛋期货上演“淡季逆袭” 上市公司称直接影响有限

05-26

博通宣布推出BCM68850

05-26

纳斯达克中国金龙指数涨超1%

05-26

药捷安康：与艾力斯达成合作协议共同推进TT-00973联合甲磺酸伏美替尼II期研究

05-26

嘉戎技术：拟发行股份购买杭州蓝然100%股权

05-26

*ST汇科：撤销退市风险警示及其他风险警示股票简称变更为“汇金科技”

05-26

TeraWulf收购肯塔基州的一处数据中心园区

05-26

OpenAI广告新策略：从小客户切入，谋求规模化发展

05-26

永杰新材：重大资产重组相关主体买卖股票不构成内幕交易

05-26

欣旺达动力获新一轮16.8亿元股权融资国资矩阵联合产业龙头参投

05-26

Solarpro Holding与宁德时代合作的601MWh储能项目在保加利亚并网投运

05-26

锂电扩产潮再起多家锂电材料企业官宣扩产计划

05-26

长电科技：近期股价短期涨幅较大不涉及应披露而未披露重大事项

05-26

Strategy用13.8亿美元现金回购15亿美元2029年到期可转债

05-26

千亿市值芯片企业有望登创业板

05-26

点击查看更多 +

全站最新

个人出书服务商怎么选？技术适配服务全，这家12年经验公司值得了解

义乌华展国际建站：解析网站技术局部更新与整体稳定并存的演进路径

光互连成AI算力新战场，谢崇进携奇点光子如何抢占窗口期？

昇腾AI开发者峰会2026北京启幕：共探前沿技术，携手开发者共筑AI新未来

2026年创建微信小程序全攻略：从规划到上线，选对路径是关键

字节跳动旗下公司申请注册“AGENT WORLD”商标，AI生态功能受关注

热门内容

本栏最新

网界 - 新财经新科技新未来 - 网界传媒旗下网站 - 中国 · 北京
合作咨询微信：netspread（注明:网界）
网界^®是本公司38类注册商标，是该商标的唯一持有者，未经授本公司授权，严禁使用。
Copyright © CNU 2012-2022 www.cnu.com.cn All rights reserved. 鲁ICP备2022032383号-6 鲁公网安备37010202700502号