阿里云近日宣布推出全新升级的多模态交互混合智能体——Qwen3.7-Plus,该模型作为Qwen3.7的多模态版本,在视觉与语言统一处理能力上实现重大突破。其核心定位是构建面向复杂场景的智能体基座,既保留原有文本处理、代码生成、工具调用等生产力功能,又大幅强化视觉理解、跨模态推理等关键能力。
在技术架构层面,Qwen3.7-Plus突破传统单模态限制,支持图像、视频、屏幕截图、网页界面及文本的混合输入。通过深度整合视觉感知与语言理解模块,该模型可精准解析GUI图形界面、CLI命令行环境及专业工具中的复杂信息,在办公自动化、软件操作等场景展现显著优势。目前用户可通过阿里云百炼平台直接调用服务,或在Qwen Studio开发环境中进行体验测试。
国际权威评测数据显示,Qwen3.7-Plus在Vision Arena视觉推理榜单中跻身全球前五,并夺得中国区榜首位置。在纯文本能力测试中,该模型与Max级模型表现接近,尤其在编码任务处理、多语言指令遵循等维度保持领先。多模态专项评测进一步验证其技术优势,在BabyVision儿童视觉理解、MathVision数学推理、ScreenSpot Pro界面解析等场景中,模型的任务完成准确率较前代提升超过30%。
针对实际业务场景,研发团队重点优化了工具调用链路的可靠性。在OSWorld-Verified操作系统模拟测试中,模型可自主完成文件管理、系统配置等200余项操作;在AndroidWorld移动端测试中,其跨应用协作能力达到专业工程师水平的87%。这些突破使得Qwen3.7-Plus成为首个具备全流程自动化执行能力的混合智能体,为金融、医疗、工业等领域的数字化转型提供新工具。






