科技·商业·财经

通义实验室发布Qwen3.7-Plus多模态智能体:能自主开发APP 展现强大能力

   时间:2026-06-02 20:27 作者:赵云飞

通义实验室近日宣布推出Qwen3.7-Plus多模态智能体模型,该模型在文本处理与智能代理能力的基础上,创新性整合视觉感知功能,形成"感知-决策-执行"的完整技术闭环。通过深度融合计算机视觉与自然语言处理技术,模型实现了对图形界面的精准解析、应用程序的自主操作以及代码生成与验证的全流程覆盖,可同时处理GUI交互、CLI命令调用及代码自我修正等复杂任务。

在持续11小时的实测中,基于该模型构建的Hybrid-Agent系统展现了强大的开发能力,独立完成英语单词学习应用的完整开发周期。系统累计生成超过10,000行高质量代码,触发1,000余次API调用,覆盖从需求分析、代码编写到自动化测试的全流程,包括需求文档生成、持续集成部署、测试用例创建及版本迭代等关键环节。这一成果验证了模型在复杂软件开发场景中的实用价值。

针对桌面应用场景,研究人员展示了模型与macOS原生Stocks应用的深度交互能力。通过解析UI布局与功能组件,模型自动生成SwiftUI源代码,并接入LongBridge金融数据接口获取实时行情。在完成编译构建后,系统自主执行10项功能验证测试,成功复现原生应用的暗色主题设计、多栏信息布局及实时数据交互体验,展现了在金融科技领域的潜在应用价值。

该模型的多模态推理能力覆盖多个专业领域:可解析地铁线路图等复杂视觉信息,支持基于图像搜索的增强型问答,具备将图像视频转换为SVG矢量代码的技术能力,并能根据视觉输入自动生成网页设计代码。在浏览器智能体场景中,模型已实现云服务器采购、配置管理及运维监控的自动化闭环,在BabyVision、MathVision等权威基准测试中取得优异成绩。

目前Qwen3.7-Plus已通过阿里云百炼平台正式上线,开发者可通过OpenAI兼容接口或Anthropic协议进行调用。该模型支持跨平台部署,可适配多种开发环境,为智能应用开发提供从视觉理解到代码生成的全链条技术支持,标志着多模态智能体技术向实用化迈出重要一步。

 
 
更多>同类内容
全站最新
热门内容