科技·商业·财经

京东视觉语言实时交互模型JoyAI-VL-Interaction将开源 多场景评测表现亮眼

   时间:2026-06-17 17:09 作者:互联网

京东研发团队即将推出一款名为JoyAI-VL-Interaction的视觉语言实时交互模型,该模型将多模态大模型的应用场景从传统的"一问一答"模式升级为"实时流式交互",为需要AI持续参与的场景提供了新的解决方案。这一突破性进展在开源社区和海外AI技术领域引发了广泛关注。

根据技术报告显示,JoyAI-VL-Interaction在六类核心场景中展现了显著优势,包括监控预警、实时计数、实时翻译、时间感知、直播解说与引导以及长程记忆。通过与豆包、Gemini的App内视频通话助手进行人工评测对比,该模型在58个测试案例中表现出色:对豆包的总体胜率达到77.6%,对Gemini的胜率更高达87.9%。尤其在监控预警场景中,JoyAI-VL-Interaction实现了对两个基线模型的100%胜率。

这款模型的创新之处在于其能够处理连续的视觉语言数据流,而非传统的单轮交互。例如在直播解说场景中,它可以实时识别画面内容并生成精准解说;在工业监控场景中,能持续分析视频流并即时发出异常预警。技术团队表示,这种实时交互能力得益于模型对时空信息的深度理解,使其能够建立跨模态的长程记忆。

评测数据显示,在实时计数任务中,JoyAI-VL-Interaction的准确率比竞品高出15-20个百分点;在需要跨时间维度理解的场景中,其表现优势更为明显。研究团队特别指出,模型在处理长达数分钟的连续视频时,仍能保持上下文关联的准确性,这为复杂场景的AI应用开辟了新可能。目前该模型的技术文档已在专业社区公开,供开发者深入研究。

 
 
更多>同类内容
全站最新
热门内容