京东视觉语言实时交互模型JoyAI-VL-Interaction将开源多场景评测表现亮眼

时间：2026-06-17 17:09 作者：互联网

京东研发团队即将推出一款名为JoyAI-VL-Interaction的视觉语言实时交互模型，该模型将多模态大模型的应用场景从传统的"一问一答"模式升级为"实时流式交互"，为需要AI持续参与的场景提供了新的解决方案。这一突破性进展在开源社区和海外AI技术领域引发了广泛关注。

根据技术报告显示，JoyAI-VL-Interaction在六类核心场景中展现了显著优势，包括监控预警、实时计数、实时翻译、时间感知、直播解说与引导以及长程记忆。通过与豆包、Gemini的App内视频通话助手进行人工评测对比，该模型在58个测试案例中表现出色：对豆包的总体胜率达到77.6%，对Gemini的胜率更高达87.9%。尤其在监控预警场景中，JoyAI-VL-Interaction实现了对两个基线模型的100%胜率。

这款模型的创新之处在于其能够处理连续的视觉语言数据流，而非传统的单轮交互。例如在直播解说场景中，它可以实时识别画面内容并生成精准解说；在工业监控场景中，能持续分析视频流并即时发出异常预警。技术团队表示，这种实时交互能力得益于模型对时空信息的深度理解，使其能够建立跨模态的长程记忆。

评测数据显示，在实时计数任务中，JoyAI-VL-Interaction的准确率比竞品高出15-20个百分点；在需要跨时间维度理解的场景中，其表现优势更为明显。研究团队特别指出，模型在处理长达数分钟的连续视频时，仍能保持上下文关联的准确性，这为复杂场景的AI应用开辟了新可能。目前该模型的技术文档已在专业社区公开，供开发者深入研究。

更多>同类内容

海康威视“观澜编码”技术突破：AI精准编码让视频存储空间最高省九成

06-17

高通骁龙Reality Elite芯片发布：AI算力飙升，XR设备性能与体验双升级

06-17

Databricks发力企业级AI：推多款智能体，加速布局AI应用新赛道

06-17

百度搭子DuMate登陆苹果App Store，多端协同开启AI协作新体验

06-17

唐菊兴院士谈AI找矿：短期难突破但趋势向前豫鲁矿业合作前景广阔

06-17

AI浪潮下白领危机：岗位重构、能力升级与一人公司新图景

06-17

A股四大股指齐涨，公告背后藏机遇，每晚聚焦关键标的助您精准决策

06-17

商汤小浣熊：打破精英叙事，单月十倍增长背后的普惠办公之道

06-17

亚光股份(603282.SH)2025年年度权益分派：每股派利0.23元

06-17

华电国际(600027.SH)2025年年度权益分派：每股派利0.14元

06-17

上海医药(02607.HK)：赵勇获选举为职工代表董事

06-17

汇洁股份(002763.SZ)：江西工厂不做代加工业务，主要承接集团内品牌落单

06-17

HPC HOLDINGS(01742.HK)拟6月30日举行董事会会议以批准全年业绩

06-17

金发科技(600143.SH)：已组建专门的机器人行业材料研发团队

06-17

裕田中国(00313.HK)拟6月30日举行董事会会议以批准全年业绩

06-17

点击查看更多 +

全站最新

蔚来科大讯飞加持，博士师徒掌舵的主线科技自动驾驶卡车，上市前仍在“烧钱”前行

从造车到聚人：猛士以社群为纽带打造越野全周期生态新范式

科大讯飞27周年庆：具身智能落地、AI眼镜推进，量智融合布局未来新赛道

二十七载砥砺前行，科大讯飞司庆发布AI新成果，布局四大前沿领域

科大讯飞LUMIE 10学习机：护眼设计搭配AI辅导，助力孩子高效学习新征程

科大讯飞研究院2027届飞星计划开启诚邀算法领域精英学子加入

热门内容

本栏最新

网界 - 新财经新科技新未来 - 网界传媒旗下网站 - 中国 · 北京
合作咨询微信：netspread（注明:网界）
网界^®是本公司38类注册商标，是该商标的唯一持有者，未经授本公司授权，严禁使用。
Copyright © CNU 2012-2022 www.cnu.com.cn All rights reserved. 鲁ICP备2022032383号-6 鲁公网安备37010202700502号

京东视觉语言实时交互模型JoyAI-VL-Interaction将开源 多场景评测表现亮眼

京东视觉语言实时交互模型JoyAI-VL-Interaction将开源多场景评测表现亮眼