滚动资讯

当前位置：网界 > 行业动态 > 正文内容

生数科技发布Vidu S1，实时交互视频生成模型开启数字人新篇章

时间：2026-07-04 09:15 作者：互联网

视频生成领域正迎来一场关键变革，竞争焦点从单纯追求视觉效果转向实现实时互动功能。过去一年多，主流视频大模型主要在提升分辨率、延长生成时长、优化运动连贯性、增强指令控制力等方面迭代，用户输入提示词后等待模型输出固定长度视频，已成为行业通用模式。但视频通话、虚拟陪伴、互动直播等新兴场景对技术提出了全新要求，这些场景需要模型具备持续理解语音指令、实时调整动作姿态、保持角色形象稳定的能力。

生数科技推出的Vidu S1实时交互模型，标志着技术发展进入新阶段。该模型由00后博士生张金涛团队研发，在2026全球数字经济大会上正式亮相。其核心突破在于将视频生成从离线制作转向在线互动，支持语音实时控制、无限时长生成、540P分辨率下25帧每秒的流畅输出（最高可达42帧），且能在消费级显卡上运行。这项技术为数字人创建开辟了新路径，用户只需上传首帧图像，模型即可自动识别角色特征并生成表情、动作，结合自定义音色实现形象与声音的统一。

传统数字人制作需要专业团队完成素材准备、建模训练、动作适配等复杂流程，耗时从几分钟到数天不等。Vidu S1采用纯生成式架构，彻底省去离线建模环节。在实际测试中，上传一张负鼠表情包后，系统仅需简单设置就能生成会说天津话的数字角色，该角色不仅能自然对话，还能根据指令完成比赞、摸鼻子等实时动作。这种"上传即用"的模式显著降低了个性化数字人的使用门槛。

该模型的技术架构具有革命性意义。其自回归扩散模型通过逐帧生成方式，基于历史画面和当前指令实时预测下一帧内容，这种设计天然支持中断和修改。用户可随时调整指令，模型会立即将新要求融入后续生成，无需重新启动整个流程。在无限时长生成方面，系统通过持续保持角色身份一致性、动作连贯性，并实时响应语音指令，实现了全球首个真正意义上的长时间互动视频生成。

实现高分辨率实时交互需要模型与系统的深度协同。在模型层面，TurboDiffusion推理加速框架通过少步生成、低比特注意力等技术，将单帧计算成本降低80%以上；在系统层面，TurboServe推理引擎通过动态资源调度，确保长时间运行中的帧率稳定性。这种软硬件协同优化，使540P分辨率下的实时生成成为可能，为视频通话、直播互动、XR应用等场景提供了技术基础。

角色创建的灵活性是Vidu S1的另一大亮点。用户可上传任意图片创建数字角色，无论是真人、动漫形象还是虚拟IP，都能快速生成互动版本。声音定制方面，系统提供多种预置音色，也支持用户录制专属声音。这种高度个性化的设计，使普通用户能轻松创建宠物数字分身，企业则可通过API将品牌IP转化为虚拟客服或数字主播。测试中，蒙娜丽莎画像不仅能开口说话，还能根据对话内容调整表情和动作，展现了强大的场景适应能力。

实时交互模型正在重塑人机交互范式。传统视频生成是单向的内容输出，而Vidu S1实现了双向动态交流。用户说话时，模型会同步生成视觉反馈，整个过程如同视频通话般自然流畅。更值得关注的是其场景理解能力，当开启摄像头时，模型能识别画面中的人物数量和动作状态，并据此调整互动策略，这种对物理环境的感知能力使交互更加智能。

在动作生成技术上，Vidu S1突破了传统音频驱动口型的局限。系统通过理解对话中的语义和情绪，实时生成匹配的表情、手势乃至完整肢体动作。测试显示，当用户要求"举起网球拍"时，数字角色会自然调整身体姿态完成挥拍动作；发出"双手比心"指令后，手部位置和身体衔接流畅自然。这种从"驱动嘴型"到"驱动行为"的转变，使角色反应更加真实可信。

该模型的API平台已同步开放，开发者可将其集成到各类应用中。在手机应用商店搜索"Vidu AI Pro"下载最新版本，用户即可体验实时互动功能。这种开放策略将加速技术普及，推动数字人从内容创作工具向交互入口转变。随着流式视频模型和AI Character技术的持续发展，人机交互正在进入一个更加自然、智能的新时代。

更多>同类内容

领克20携800V高压平台与6C补能登场，外观智驾升级，三季度将上市

07-04

联动科技1000万美元收购Northstar 布局半导体测试拓展海外版图

07-04

上海AI实验室350亿参数模型：另辟蹊径，挑战万亿参数大模型霸主地位

07-04

阿里通义实验室InnerZoom框架：破解AI"看得到点不准"难题，效率精度双提升

07-04

大脑“关系地图”稳定性密码被破解：几何稳定性成行为预测关键

07-04

普渡大学与伊利诺伊大学创新方案：让虚拟人物告别“穿模”尴尬

07-04

哈萨克斯坦团队另辟蹊径：消费级显卡打造实时AI游戏新体验

07-04

AI助手“实战”成绩单：复杂电脑任务完成率仅两成，短板在哪？

07-04

浙大、西湖大学联手突破：AI探索世界新方案 "隐式漫步"解锁场景记忆新方式

07-04

悉尼科技大学与百度等团队攻克难题：手机流畅渲染超清3D场景成现实

07-04

AI大模型"记忆压缩"新突破：无需预设阈值，动态适配各类任务需求

07-04

AI生成图像视频：真懂物理规律，还是仅会“照猫画虎”？

07-04

港科大等高校联合研究：AI视频理解“时序推理”短板暴露无遗

07-04

耶路撒冷希伯来大学新发现：语音AI竟在内部悄悄“翻译”文字思考

07-04

复旦、上交大等高校联合研发A2World，为机器人装上“预演未来”的智慧大脑

07-04

点击查看更多 +

全站最新

冠盛股份国内电商三店齐开布局新零售开拓线上新赛道

新款福特探险者7月6日上市！2.3T配10AT，车长超5米，配置再升级！

国士无双！陈俊武扎根洛阳半世纪，科技报国精神照亮后人前行路

盛夏启程探秘境，山海相逢品佳肴，解锁暑期奢愈新体验

MastaJi马思荅吉：以技术实力与服务优势，助力新疆智慧校园建设升级

河南智慧校园建设选哪家？MastaJi马思荅吉技术实力强服务优值得考虑

热门内容

本栏最新

网界 - 新财经新科技新未来 - 网界传媒旗下网站 - 中国 · 北京
合作咨询微信：netspread（注明:网界）
网界^®是本公司38类注册商标，是该商标的唯一持有者，未经授本公司授权，严禁使用。
Copyright © CNU 2012-2022 www.cnu.com.cn All rights reserved. 鲁ICP备2022032383号-6 鲁公网安备37010202700502号