无需人工干预,也不依赖预设脚本,一个通用GUI智能体正通过自主观察屏幕、分析局势、规划操作路径并执行点击,在消消乐游戏中展现出色表现。这种能力并非游戏外挂的专属,而是源于对屏幕内容的深度理解与交互操作——从手机应用到网页浏览,其技术逻辑完全一致。当AI能独立完成消消乐这类需要空间推理与决策的任务时,距离其替代人类完成日常手机操作还有多远?这里的“替代”并非简单执行语音指令,而是像人类一样通过视觉识别界面元素、理解交互逻辑,并逐步完成复杂任务。
当前GUI智能体研究面临系统性挑战:训练、评测与部署三个环节长期割裂。模型在仿真环境中训练后,往往难以无缝迁移至真实设备;评测标准不统一导致不同框架的结果难以横向比较;部署环节更需独立搭建基础设施,整体推进成本高昂。针对这一困境,ZJU-REAL团队推出开源框架ClawGUI,构建了覆盖GUI智能体全生命周期的解决方案。该框架整合了在线强化学习训练、标准化评测与真机部署三大模块,形成端到端验证的完整流水线:通过ClawGUI-RL进行模型训练,利用ClawGUI-eval开展性能评估,最终借助OpenClaw-GUI实现真实设备部署。
在训练环节,ClawGUI-RL突破传统方案局限,将基础设施拆解为环境管理、奖励设计与策略优化三层架构。环境层统一抽象物理手机与Docker虚拟机的接口,训练代码无需区分底层设备类型;奖励层创新采用二元结果奖励与PRM逐步奖励的混合机制,既在任务结束时给出成功/失败信号,又对每步操作的有效性进行实时评估,有效缓解GUI长序列决策中的奖励稀疏问题;策略优化层支持GRPO、GiGPO等主流算法,提供标准化接口便于研究者灵活切换。实验数据显示,基于2B参数的ClawGUI-2B模型在MobileWorld基准测试中取得17.1%的成功率,较基线模型提升54%,性能接近8B参数的竞品。
评测体系的标准化是推动技术进步的关键。ClawGUI-eval通过“推理-判断-指标”三阶段流水线,将评测复现率提升至95.8%。该框架覆盖ScreenSpot-Pro等6大基准测试集,支持Qwen3-VL等11种模型评估。团队在实践过程中总结出关键经验:坐标系混淆会导致准确率归零,图文输入顺序差异可能引发数个百分点波动,系统提示词需严格对齐官方版本,温度参数建议设为0.0以保证坐标精度。这些发现已全部开源,为研究者提供可复用的方法论。
真机部署能力直接决定技术落地价值。基于nanobot框架构建的OpenClaw-GUI,实现了通过自然语言控制真实手机的功能。该系统支持Android、鸿蒙、iOS三大操作系统,可接入飞书、QQ等12个主流聊天平台。用户发送指令后,智能体将自动完成截屏解析、操作规划与执行全流程。更值得关注的是,其集成的评测功能允许用户直接查询模型性能指标——例如要求“测试qwen3vl在screenspot-pro上的表现”,系统会自动完成环境检测、多GPU推理、结果计算与对比分析。这种CLI与GUI的协作模式,既发挥了命令行接口的高效处理能力,又保留了图形界面的直观交互优势。
尽管CLI智能体在代码生成等领域表现突出,但研究团队认为GUI智能体仍具有不可替代性。首先,图形界面是移动互联网的主要交互入口,外卖、社交等核心场景依赖视觉呈现;其次,大量应用缺乏开放API,GUI操作成为唯一接入方式;GUI的“可见性”提供了天然的信任机制——用户可实时监控关键操作,必要时介入干预。不过,GUI智能体的发展仍面临挑战:真实App的反爬机制、动态UI变化等问题,对在线强化学习的稳定性提出更高要求。ClawGUI-RL通过Spare Server轮转机制与周期性重启策略,为解决这些问题提供了初步方案。
该项目已开源全部代码,包含可扩展的移动端在线强化学习基础设施、标准化评测套件与真机部署方案。开发者可通过GitHub访问项目仓库,或通过项目主页获取详细文档与演示案例。这项研究不仅验证了GUI智能体的技术可行性,更为通用人工智能的发展探索了新的路径——当训练、评测与部署形成闭环,人机协作将进入更高效的阶段。









