阿里巴巴今日宣布推出全球首个原生语言世界模型Qwen-AgentWorld,该模型突破传统架构设计,通过单一架构同时支持文本交互环境与图形用户界面(GUI)环境的智能体模拟,覆盖搜索、终端操作、软件开发、网页浏览、操作系统交互及安卓应用等七大核心领域。官方同步发布配套评测基准AgentWorldBench,提供基于真实环境交互的验证数据集,相关模型与评测工具已开放下载。
区别于传统大语言模型的事后环境适配,Qwen-AgentWorld采用"环境建模优先"的训练范式,从持续预训练阶段即引入环境知识注入,通过"持续预训练(CPT)→监督微调(SFT)→强化学习(RL)"三阶段渐进式训练,构建起完整的世界建模能力。其中CPT阶段注入超千万条真实交互轨迹数据,SFT阶段强化状态预测推理能力,RL阶段通过环境反馈优化模拟真实性,最终形成350亿参数(35B-A3B)与3970亿参数(397B-A17B)双版本模型。
在技术实现层面,该模型创新性地将文本类环境(MCP协议交互、搜索引擎、终端命令行、代码编辑)与GUI类环境(网页操作、桌面系统、移动应用)统一于单一神经网络架构,通过跨领域知识共享机制实现能力迁移。例如在未接触过的安卓应用测试中,模型仍能基于网页操作经验完成基础任务,验证了其跨模态理解能力。这种设计显著降低了多场景智能体开发的复杂度,相关代码已在Hugging Face和ModelScope平台开源。
评测数据显示,3970亿参数版本在AgentWorldBench基准测试中取得全面领先,其整体模拟质量超越GPT-5.4、Claude Opus 4.8及Gemini 3.1 Pro等现有模型。特别在可控模拟强化学习场景中,该模型通过环境解耦设计实现行为塑造的精准控制,在Tool Decathlon工具使用、MCPMark协议交互等专项测试中,表现优于真实环境训练的智能体系统,验证了虚拟环境训练的有效性。
作为通用智能体基础模型,Qwen-AgentWorld展示了独特的迁移学习能力。经语言世界模型(LWM)预热训练的智能体,在七个基准测试中(含三个完全未接触过的领域)直接参与多轮任务评测,无需额外强化学习微调即取得优异成绩。这种能力突破了传统智能体依赖真实环境交互的训练边界,为构建更强大的自主智能系统提供了新范式。
配套发布的AgentWorldBench评测集包含七大领域的交互轨迹数据,每个样本均附带真实环境执行结果与观测数据。数据集采用JSONL格式按领域划分,既可用于模型性能评估,也可作为训练数据补充。该基准的推出填补了语言世界模型领域标准化评测的空白,为学术界与产业界提供了重要的研究基础设施。






