科技·商业·财经

北大联合小米团队:从网络视频中“淘金” 打造最大GUI预训练数据集

   时间:2026-05-29 02:00 作者:互联网

在人工智能领域,让计算机像人类一样操作图形用户界面(GUI)一直是极具挑战性的课题。北京大学多媒体信息处理国家重点实验室、计算机学院联合小米大模型团队,携手中国人民大学和香港大学的研究人员,提出了一套名为Video2GUI的全自动框架,成功构建出迄今为止规模最大的开源GUI预训练数据集WildGUI,为破解这一难题提供了全新路径。

GUI智能体作为能够自动执行应用操作、填写表格、点击按钮的数字助手,其发展面临的最大瓶颈并非算法本身,而是训练数据的获取。传统方法依赖人工录制和标注操作轨迹,不仅成本高昂,且覆盖范围有限,难以应对多样化的应用场景。研究团队将目光投向互联网上数以亿计的软件教程视频,这些视频记录了用户真实的操作过程,蕴含着丰富的训练数据资源。

为从海量视频中筛选出有效数据,研究团队设计了"两阶段筛选"策略。首先利用DeepSeek-V3模型对视频元数据进行自动标注,训练出轻量级分类模型Qwen2.5-7B,从5亿条视频中初步筛选出约2000万条相关视频。随后,通过Gemini 3 Pro模型对视频内容进行评分,从主题相关性、讲解清晰度和录制质量三个维度进行评估,最终保留416万条高质量教程视频,总时长约30万小时。这种筛选方式既保证了数据质量,又显著降低了计算成本。

获取高质量视频后,研究团队面临将动态画面转化为结构化操作轨迹的挑战。他们采用分段接力策略,将长视频切分为4分钟片段,利用Gemini 3 Pro模型进行细致标注,包括任务描述、操作步骤、平台信息、应用名称等。模型还需输出每个动作的逻辑原因和界面变化,以及背后的"世界模型"知识,使预训练模型能够理解操作逻辑,提升泛化能力。这种标注方式确保了操作轨迹的完整性和可解释性。

操作轨迹的精确空间定位是训练GUI智能体的关键。研究团队针对视频分辨率降低导致目标元素定位困难的问题,设计了三帧定位策略。对于每个操作动作,从原始视频中抽取时间戳前后各半秒的三帧画面,输入模型进行目标元素定位。通过这种冗余设计,模型能够准确输出目标元素的中心坐标和边界框,定位准确率超过95%,为智能体提供了精确的操作指引。

经过上述处理,WildGUI数据集最终包含1270万条操作轨迹和1.245亿张截图,覆盖超过1500款应用程序和网站。数据集呈现明显的跨平台特征,Windows系统内容占比最高,达到65.8%,Mac、Android、iOS和Linux系统也有一定比例。从软件类别看,互联网与通信类软件占比最大,设计与媒体类、开发与IT类、生产力工具等也有广泛覆盖。这种多样性为训练全能型GUI智能体提供了坚实基础。

为充分发挥WildGUI数据集的价值,研究团队设计了"先宽后深"的两阶段训练策略。第一阶段通过持续预训练,让模型在界面定位、单步动作预测和多步轨迹建模三个任务上学习广博的GUI操作知识。第二阶段则利用多个高质量开源数据集进行监督微调,使模型将预训练知识精准落地到具体任务执行中。这种训练方式显著提升了模型性能,在多项权威评测中表现优异,部分指标甚至超越了体量更大的顶尖模型。

实验结果表明,经WildGUI预训练的模型在界面定位任务上取得显著进步。在OSWorld-G基准测试中,Mimo-VL-7B模型平均分达到67.6,超越多个体量更大的模型。在ScreenSpot-Pro基准测试中,该模型同样表现突出,位居开源模型首位。离线智能体评测和在线智能体评测也验证了模型在真实场景中的强大能力,特别是在动态变化的系统环境中,模型成功率大幅提升,证明了预训练知识的有效迁移。

研究团队还通过数据规模扩展实验和消融实验,进一步验证了Video2GUI框架的有效性。实验显示,预训练数据量与模型性能呈正相关关系,且各训练组件对模型性能均有显著贡献。人工评估结果也表明,WildGUI数据集在质量和多样性上明显优于现有数据集,为GUI智能体研究提供了优质资源。

目前,研究团队已开源WildGUI数据集和Video2GUI处理框架,学术界和工业界可在此基础上继续探索。这一成果不仅构建了更大规模的数据集,更提供了一条可持续的数据获取路径,有望推动GUI智能体技术向更高水平发展,为普通用户带来更加智能便捷的数字生活体验。

 
 
更多>同类内容
全站最新
热门内容