在视频生成技术迈向空间智能的关键阶段,中国科学院大学团队联合多所高校及企业提出名为CameraSquad的创新方法,通过并行生成多视角一致视频,为4D重建等任务提供高质量3D世界状态。该研究已被ACM SIGGRAPH 2026会议录用,标志着视频生成领域在空间一致性控制方面取得突破性进展。
传统视频生成技术面临核心挑战:当需要从不同视角观察同一场景时,现有方法往往因串行推理导致内容错位。例如,同一人物在不同视角下可能出现发型突变或动作轨迹断裂,这种不一致性严重制约了4D重建的精度和沉浸式应用的体验。研究团队通过解耦空间与内容信息,构建了支持多轨迹并行生成的视频扩散框架,使不同视角视频在内容、几何和运动层面保持高度一致。
技术实现上,CameraSquad在Wan2.2视频扩散模型基础上进行三大创新:首先设计相机与内容解耦注意力机制,将3D几何投影关系编码为注意力变换矩阵,使模型在注意力层面直接感知相机视锥体间的空间关系;其次提出双模式跨视角注意力模块,通过内容共享注意力(CVA-α)确保物体外观一致性,利用几何监督注意力(CVA-β)维持空间位置对齐;最后采用多视角深度估计反投影技术,将并行生成的视频转换为动态3D点云,其密度和精度较单视角反投影提升3倍以上。
实验数据显示,在WebVid和HumanVid数据集上,该方法将旋转误差控制在1.42°-1.52°区间,位移误差降低至2.86-3.47像素,两项指标均达到行业最低水平。视觉质量评估方面,FID指标在HumanVid数据集上取得30.78的优异成绩,CLIP-V相似度达91.37,证明空间控制未损害生成质量。特别在多轨迹生成测试中,系统可同步处理6组相机参数,生成的视频在纹理细节、运动轨迹和背景元素上保持跨视角一致,而对比方法均出现明显内容错位。
该成果为空间智能任务提供全新解决方案:在自动驾驶场景重建中,多视角一致视频可生成更精确的动态点云;在影视制作领域,导演可通过参数调整实时预览不同机位画面;在虚拟现实应用中,用户视角切换时能获得无缝的空间感知体验。研究团队采用两阶段训练策略,先在低分辨率下学习相机控制,再逐步提升分辨率并引入跨视角注意力模块,有效缓解了合成数据与真实场景的域差异问题。






