科技·商业·财经

字节跳动Bernini框架开源:创新协同机制破解视频生成编辑行业难题

   时间:2026-06-04 11:02 作者:ITBEAR

字节跳动商业化技术团队近日宣布开源一款名为Bernini的视频生成与编辑框架,该框架通过“先理解、后生成”的协同机制,针对性解决了传统模型在处理复杂指令时常见的画面失控、帧间闪烁等问题。其核心创新在于将视频处理流程拆分为语义规划与视觉渲染两个独立模块,形成更高效的工作流。

在技术实现上,Bernini首先利用多模态大模型对输入素材进行深度解析,生成包含关键元素的“语义草图”,再由渲染模块将抽象规划转化为稳定连续的视频画面。这种分工模式显著提升了可控编辑能力,用户可通过自然语言指令调整天气、季节、视觉风格等参数,同时精准控制镜头视角、焦点位置及主体动作轨迹。

该框架突破了传统文本操控的局限,支持引入图片和视频作为视觉参考素材。在视频编辑场景中,系统能将特定材质或海报精准植入目标区域,并自动处理透视关系与边界融合问题。针对新视频生成需求,Bernini实现了从单图或多角度参考到连续镜头的自动化演变,通过专属位置编码机制有效解决了多素材串联时的时空混淆难题。

据内部测试数据显示,Bernini在字节自建评估体系中已跻身行业第一梯队。目前其推理代码与第二阶段模型Bernini-R的权限已全面开放,完整功能版本将于近期上线。开发者可通过项目官网(https://bernini-ai.github.io/)获取技术文档与开源代码。

 
 
更多>同类内容
全站最新
热门内容