科技·商业·财经

阿里发布首个原生语言世界模型Qwen-AgentWorld,推动通用智能体发展新路径

   时间:2026-06-24 19:26 作者:互联网

阿里近日宣布推出其首个原生语言世界模型(LWM)Qwen-AgentWorld,该模型专为AI智能体的研发与训练设计,提供35B-A3B与397B-A17B两种参数规模版本。与传统模型不同,Qwen-AgentWorld的核心目标并非降低成本或替代真实交互环境,而是通过内部模拟环境反馈来增强智能体的决策能力,使其在执行动作前能够预判结果。

Qwen-AgentWorld的两大创新点在于:其一,从预训练阶段就将环境建模纳入训练目标,贯穿CPT→SFT→RL全流程,突破了传统模型先训练后适配环境的模式;其二,单一模型可同时覆盖文本类(MCP、Search、Terminal、SWE)与GUI类(Web、OS、Android)共7类环境,实现跨领域知识迁移。例如,该模型能模拟手机系统操作,通过预测点击删除图标后的界面变化,验证其环境理解能力。

为评估模型性能,阿里同步发布评测基准AgentWorldBench。该基准基于5个前沿模型在9个真实环境交互数据集上的表现构建,采用开放式评分标准,从格式、事实性、一致性、真实性和质量五个维度综合评估。测试结果显示,397B-A17B版本以58.71分的整体均分超越GPT-5.4(58.25分)、Claude Opus 4.8与Gemini 3.1 Pro,尤其在Terminal和SWE领域表现突出,这得益于其对代码执行状态和工具API行为的精准模拟。35B-A3B版本通过三阶段训练流水线提升8.66分,性能超越Claude Sonnet 4.6。

进一步分析模型思维链发现,Qwen-AgentWorld涌现出三种独特推理模式:一是自我修正能力,模型通过“Wait!”信号触发中断,修正事实错误或视角偏差,129个轮次中平均每轮修正10.4次;二是信息泄漏防护机制,在搜索任务中,模型主动屏蔽无关查询与目标答案的关联,避免数据泄露;三是多步因果推理,例如预测“curl -s localhost:3000 | python3 -m json.tool”的输出时,模型需构建6步推理链,涵盖服务器状态、端口监听、工具行为等环节。

作为统一智能体基础模型,Qwen-AgentWorld的预训练能力可直接迁移至多轮智能体任务,覆盖七个基准测试集,且无需针对具体任务进行强化学习微调。这一特性验证了语言世界模型作为构建更强智能体基础的潜力,为突破真实环境交互的限制提供了新路径。目前,阿里已开源35B-A3B模型权重及AgentWorldBench评估基准,开发者可通过GitHub、ModelScope和Hugging Face平台获取资源。

 
 
更多>同类内容
全站最新
热门内容