在拉斯维加斯举办的CES展会上,英伟达创始人兼CEO黄仁勋宣布,AI技术正式迈入物理世界的新阶段。他指出,AI的演进经历了感知、生成、智能体和物理四个阶段,而真正让AI走出屏幕的关键,在于理解质量、摩擦、惯性等物理特性。黄仁勋强调,机器人等物理设备需要的不只是单一模型,而是一套完整的智能系统。
随着AI技术向物理世界渗透,机器人、无人机、安防摄像头和可穿戴设备等场景对AI的需求发生了根本性变化。这些设备不再满足于简单的问答交互,而是需要具备持续工作、主动执行任务的能力。业内专家指出,通用视觉智能将成为物理AI规模化应用的核心技术,其重要性甚至超过了一些表演性场景。
通用视觉智能要求模型能够像人类一样持续观察环境、精准定位目标并自主驱动行动,且所有处理必须在端侧完成。近日发布的VLX端侧流式多模态模型系列,正是这一技术路径的最新成果。该系列首次提出"流式多模态"架构,突破了传统模型"采集-上传-离线处理"的模式,实现了对持续视频流的毫秒级实时感知,并在端侧完成了从感知到决策的完整闭环。
VLX系列包含三个核心模型:Flow、Seek和Go,分别对应持续感知、精准定位和行动输出三层能力。Flow模型采用流式视频输入架构,可自主不间断运行,无需人工触发;Seek模型通过区域指代机制实现毫米级空间定位,解决了传统模型只能描述画面内容却无法输出精确坐标的问题;Go模型则能直接输出设备可调用的导航航点,支撑机器人自主移动。
基准测试数据显示,VLX系列在多项指标上超越了主流大模型。Seek-3B在目标检测、复杂语义理解等任务中,以30亿参数实现了与Gemini 3.1 Pro和GPT-5相当的精度;Go(0.6B)在机器人导航任务中,以极小参数量实现了85.42%的高成功率,跟踪率达94.08%,显著领先于参数量大13倍的对比模型。端侧推理延迟仅0.1秒,较云端推理的5秒以上有了质的提升。
这种性能突破源于架构层面的创新。传统模型依赖长上下文处理视频输入,本质仍是离线模式。VLX则构建了持续运转的"视觉中枢",视频流像水一样流入模型,形成不间断的感知流。技术团队针对端侧算力约束进行了专门优化:Flow采用Linear Attention机制防止显存溢出;Seek通过区域指代降低计算量;Go使用短时航点预测实现快速响应。
VLX系列已在实际场景中实现大规模落地。在具身智能领域,该模型支持云深处、宇树等企业的机器人平台,显著缩短了算法迁移周期;无人机搭载VLX后,可自主完成巡检、避障和航线规划,效率提升数倍;在可穿戴设备方面,好马APP已服务近10万视障用户,通过AI助视眼镜实现安全避障和空间导航。VLX还完成了与苹果、联想、惠普、英伟达等品牌的端侧适配,为PC设备注入实时视觉理解能力。
针对国产芯片算力受限的问题,VLX通过专门优化实现了在华为昇腾、地瓜、RK3588等平台上的流畅运行。这种从端侧需求出发的设计思路,使部署成本大幅降低,实时响应能力提升数十倍,为物理AI的普及提供了可行路径。目前,VLX系列模型已向开发者开放体验平台,进一步降低了端侧智能应用的研发门槛。







