千问大模型团队今日宣布推出全球首个原生语言世界模型Qwen-AgentWorld,该模型通过创新性的训练架构实现跨领域环境交互能力,在人工智能环境建模领域取得突破性进展。与传统依赖事后适配的通用模型不同,Qwen-AgentWorld从预训练阶段便将环境建模作为核心目标,构建了从持续预训练(CPT)到监督微调(SFT)再到强化学习(RL)的完整训练体系。
该模型突破性地实现单一架构覆盖七大交互场景,包括文本类环境的代码生成(MCP)、信息检索(Search)、终端操作(Terminal)和软件工程(SWE),以及图形界面环境的网页交互(Web)、操作系统操作(OS)和移动应用控制(Android)。这种设计使模型能够自动迁移不同领域的知识,例如将网页浏览经验应用于移动端操作,或将代码调试能力转化为终端命令优化。
技术实现层面,研究团队采用渐进式环境建模策略,在预训练阶段即引入结构化环境数据,通过动态权重调整机制确保各领域知识均衡发展。监督微调阶段采用多任务联合训练框架,使模型同时掌握文本指令解析与视觉界面理解能力。最终通过基于环境反馈的强化学习,显著提升模型在真实场景中的决策准确性。
为验证模型性能,团队同步发布AgentWorldBench评测基准,该数据集包含覆盖七大领域的十万条测试样本,每条样本均配备真实环境执行轨迹和观测数据。评测结果显示,Qwen-AgentWorld在跨领域任务完成率上较传统模型提升37%,特别是在需要组合多个子任务的复杂场景中表现出显著优势。目前,模型权重与评测工具包已通过Hugging Face和ModelScope平台开放下载。
这项研究标志着语言模型从单一文本处理向复杂环境交互的重要转型。通过将环境建模深度融入模型训练全流程,Qwen-AgentWorld为开发通用人工智能代理提供了新的技术路径,其跨领域迁移能力有望推动自动化任务执行、智能助手开发等应用场景的实质性进展。






