谷歌I/O大会前夕,一场关于AI视频生成技术的重大泄露引发行业震动。据多方消息披露,谷歌即将推出的Veo 4或Gemini Omni模型可能突破传统AI视频生成框架,实现多机位场景切换与原生音频同步的双重突破,标志着AI从“画面生成”向“叙事生产”的跨越式进化。
核心功能泄露显示,该模型可生成长达9秒的720p视频,支持多角度场景的无缝切换。与传统AI视频工具仅能生成单一长镜头不同,新模型被曝能同时处理多个视角的物理一致性、空间连贯性与时间同步性。例如,同一场景中的人物动作、服装细节、环境元素在不同机位间保持高度一致,这种技术突破被业内人士形容为“将导演的机位调度能力压缩进模型权重”。
音频同步能力的升级成为另一焦点。爆料称,新模型不仅能原生生成对话、环境音,还可根据画面情境自动匹配背景音乐。相较于前代Veo 3仅能处理脚步声、对话声等基础音频,此次升级意味着AI视频将实现“画面-音效-配乐”的全链条自动化生产。技术分析指出,这一突破可能通过多模态大模型架构实现,将音频生成与视觉理解深度耦合。
行业观察者将此次泄露置于OpenAI Sora停服的背景下解读。数据显示,Sora因高昂的推理成本(每日100万至1500万美元)与低迷的用户留存率(30天留存不足8%)最终退出市场,而谷歌选择此时曝光技术进展,被视为对AI视频生成商业化的重新定义。爆料人推测,谷歌可能已解决算力效率问题,其技术路线更侧重“成片输出”而非单一参数竞争。
泄露文件还透露,谷歌将同步推出Gemini 3系列模型矩阵,包括3Flash、3.1全系列(Pro/Flash Image/Lite/TTS)及高保真音频模型Lyria 3 Pro。最引人注目的是内部文档中提到的“Omni模型Agent版本”,暗示谷歌可能构建统一的AI生产框架,将视频、音频生成与智能代理(Agent)技术整合,形成覆盖创作全流程的工具链。
技术社区对此反应热烈。部分开发者通过逆向工程分析指出,多机位生成需解决三维空间重建、动态物体追踪等复杂问题,而原生配乐功能则涉及情感识别与音乐生成交叉领域。尽管泄露示例中仍存在少量连贯性瑕疵,但多数观点认为,若谷歌能在I/O大会演示中验证技术可行性,将彻底改变影视、广告等行业的创作模式。
目前,谷歌尚未对泄露信息作出回应,但行业普遍预期I/O大会将成为AI技术竞争的新分水岭。随着OpenAI退出视频生成赛道,谷歌与meta、Runway等企业的技术竞赛进入白热化阶段,而“叙事权”的争夺或将重新定义AI创作工具的边界。






