滚动资讯

当前位置：网界 > 行业动态 > 正文内容

北大联合小米团队：从网络视频中“淘金” 打造最大GUI预训练数据集

时间：2026-05-29 02:00 作者：互联网

在人工智能领域，让计算机像人类一样操作图形用户界面（GUI）一直是极具挑战性的课题。北京大学多媒体信息处理国家重点实验室、计算机学院联合小米大模型团队，携手中国人民大学和香港大学的研究人员，提出了一套名为Video2GUI的全自动框架，成功构建出迄今为止规模最大的开源GUI预训练数据集WildGUI，为破解这一难题提供了全新路径。

GUI智能体作为能够自动执行应用操作、填写表格、点击按钮的数字助手，其发展面临的最大瓶颈并非算法本身，而是训练数据的获取。传统方法依赖人工录制和标注操作轨迹，不仅成本高昂，且覆盖范围有限，难以应对多样化的应用场景。研究团队将目光投向互联网上数以亿计的软件教程视频，这些视频记录了用户真实的操作过程，蕴含着丰富的训练数据资源。

为从海量视频中筛选出有效数据，研究团队设计了"两阶段筛选"策略。首先利用DeepSeek-V3模型对视频元数据进行自动标注，训练出轻量级分类模型Qwen2.5-7B，从5亿条视频中初步筛选出约2000万条相关视频。随后，通过Gemini 3 Pro模型对视频内容进行评分，从主题相关性、讲解清晰度和录制质量三个维度进行评估，最终保留416万条高质量教程视频，总时长约30万小时。这种筛选方式既保证了数据质量，又显著降低了计算成本。

获取高质量视频后，研究团队面临将动态画面转化为结构化操作轨迹的挑战。他们采用分段接力策略，将长视频切分为4分钟片段，利用Gemini 3 Pro模型进行细致标注，包括任务描述、操作步骤、平台信息、应用名称等。模型还需输出每个动作的逻辑原因和界面变化，以及背后的"世界模型"知识，使预训练模型能够理解操作逻辑，提升泛化能力。这种标注方式确保了操作轨迹的完整性和可解释性。

操作轨迹的精确空间定位是训练GUI智能体的关键。研究团队针对视频分辨率降低导致目标元素定位困难的问题，设计了三帧定位策略。对于每个操作动作，从原始视频中抽取时间戳前后各半秒的三帧画面，输入模型进行目标元素定位。通过这种冗余设计，模型能够准确输出目标元素的中心坐标和边界框，定位准确率超过95%，为智能体提供了精确的操作指引。

经过上述处理，WildGUI数据集最终包含1270万条操作轨迹和1.245亿张截图，覆盖超过1500款应用程序和网站。数据集呈现明显的跨平台特征，Windows系统内容占比最高，达到65.8%，Mac、Android、iOS和Linux系统也有一定比例。从软件类别看，互联网与通信类软件占比最大，设计与媒体类、开发与IT类、生产力工具等也有广泛覆盖。这种多样性为训练全能型GUI智能体提供了坚实基础。

为充分发挥WildGUI数据集的价值，研究团队设计了"先宽后深"的两阶段训练策略。第一阶段通过持续预训练，让模型在界面定位、单步动作预测和多步轨迹建模三个任务上学习广博的GUI操作知识。第二阶段则利用多个高质量开源数据集进行监督微调，使模型将预训练知识精准落地到具体任务执行中。这种训练方式显著提升了模型性能，在多项权威评测中表现优异，部分指标甚至超越了体量更大的顶尖模型。

实验结果表明，经WildGUI预训练的模型在界面定位任务上取得显著进步。在OSWorld-G基准测试中，Mimo-VL-7B模型平均分达到67.6，超越多个体量更大的模型。在ScreenSpot-Pro基准测试中，该模型同样表现突出，位居开源模型首位。离线智能体评测和在线智能体评测也验证了模型在真实场景中的强大能力，特别是在动态变化的系统环境中，模型成功率大幅提升，证明了预训练知识的有效迁移。

研究团队还通过数据规模扩展实验和消融实验，进一步验证了Video2GUI框架的有效性。实验显示，预训练数据量与模型性能呈正相关关系，且各训练组件对模型性能均有显著贡献。人工评估结果也表明，WildGUI数据集在质量和多样性上明显优于现有数据集，为GUI智能体研究提供了优质资源。

目前，研究团队已开源WildGUI数据集和Video2GUI处理框架，学术界和工业界可在此基础上继续探索。这一成果不仅构建了更大规模的数据集，更提供了一条可持续的数据获取路径，有望推动GUI智能体技术向更高水平发展，为普通用户带来更加智能便捷的数字生活体验。

更多>同类内容

亚马逊加速布局AI购物赛道，行业竞争白热化，通用AI与电商谁主沉浮？

05-29

开源鸿蒙：代码规模与伙伴数量双增长，迈向产业规模化新征程

05-29

捷停车“AI+停车经营”助力深圳方大城：盘活车位资源，实现管理经营双提升

05-29

亚马逊加速布局AI购物赛道，行业竞争白热化，通用AI与电商争夺新入口

05-29

2026仿真树灯行业新变局：从照明单品到场景美学服务的深度转型

05-29

泸溪河获超亿元融资引关注，新总经理加盟，能否凭爆品冲向万店规模？

05-29

2026郑州化妆品展柜行业洞察：需求升级、工艺革新与服务商格局解析

05-29

迅雷2026年Q1财报亮眼：总营收9860万美元，出海业务成新增长引擎

05-29

北京科锐回应特斯拉传闻，多家公司计划回购，*ST亚太即将“摘星脱帽”

05-29

资本热潮涌动新能源重卡赛道，2026年多企业融资超80亿引关注

05-29

光华科技2025年营收近30亿研发投入成果丰硕净利润同比大增150.70%

05-29

中矿资源2025年营收增22.02%达65.45亿研发投入与人员减少产能升级投产

05-29

美亚光电2025年营收净利双增研发投入加码推出多领域研发新成果

05-29

乳业寒冬渐远，高蛋白赛道成新焦点，乳企如何借势破局？

05-29

天赐材料2025年研发投入8.47亿增26.75% 成果丰硕业绩与分红双提升

05-29

点击查看更多 +

全站最新

AI接管工作流时代：核心知识放云端，是便利还是“失控”危机？

百度百万年薪抢AI人才，布局“组织AI化”开启管理新范式实验

贝壳亮相世界智能产业博览会：数智赋能居住服务，引领行业智能化升级新潮流

开源鸿蒙：从技术开源迈向产业成势，开启智能终端新生态规模化篇章

5月27日资讯速递：问界M9发布，快手AI漫剧营销创新高，段永平增持泡泡玛特

联想百应AI主机携生态战略亮相，以“软硬服”一体助力企业AI转型加速

热门内容

本栏最新

网界 - 新财经新科技新未来 - 网界传媒旗下网站 - 中国 · 北京
合作咨询微信：netspread（注明:网界）
网界^®是本公司38类注册商标，是该商标的唯一持有者，未经授本公司授权，严禁使用。
Copyright © CNU 2012-2022 www.cnu.com.cn All rights reserved. 鲁ICP备2022032383号-6 鲁公网安备37010202700502号