科技·商业·财经

Happy Horse 1.0开源:多模态融合极简设计,七语唇形同步高效生成视频

   时间:2026-04-09 06:59 作者:柳晴雪

近日,一款名为Happy Horse 1.0的AI视频生成模型正式开源,凭借其创新的视频与音频同步生成技术,迅速在AI领域引发关注。该模型突破了传统开源视频生成工具的分步处理模式,将视频与音频的生成流程深度整合,实现了从文本或图像输入到带声音成片输出的一站式服务。

传统开源视频模型通常采用"分步走"策略:先生成无声视频,再通过独立音频模型配音,最后用工具进行口型对齐。这种模式不仅耗时较长,且各环节误差会逐步累积。Happy Horse 1.0则通过统一的Transformer架构,将视频像素与音频波形数据作为同一序列处理,在单次前向推理中同步完成口型匹配、环境音效和脚步声等细节生成,彻底消除了后期拼接需求。其核心创新在于将文本、图像、视频、音频四种模态的token统一编码,通过自注意力机制实现跨模态对齐。

该模型采用150亿参数的纯自注意力Transformer架构,刻意摒弃了交叉注意力机制和独立音频分支。其40层网络呈现"三明治"结构:首尾各4层使用模态专属投影层处理输入输出,中间32层共享参数完成跨模态推理。这种设计使参数效率提升40%,同时通过可学习的sigmoid门控机制稳定多模态训练梯度,有效解决了音频损失与视频损失反向传播时的冲突问题。

在效率优化方面,开发团队引入DMD-2蒸馏技术将去噪步骤从常规的25-50步压缩至8步,并取消无分类器引导(CFG)模块,直接减少近半计算量。配合MagiCompiler全图编译运行时技术,在单张H100显卡上生成1080p视频仅需38秒,256p预览版本更可在2秒内完成。这种效率提升使其在同类模型中具有显著竞争优势。

语言支持方面,Happy Horse 1.0实现了英语、普通话、粤语、日语、韩语、德语、法语七种语言的原生唇形同步。其训练过程直接将语音时序、语调特征与视频画面联合优化,避免了传统方法中后期贴片的生硬感。用户可通过官网体验文本生成视频和图片生成视频两种模式,不同模型对生成时长存在差异化限制。

技术文档显示,该模型在架构设计上追求极致简洁,没有设置专门的条件控制网络,而是通过统一的去噪流程让模型自主学习模态间关系。这种设计哲学既降低了实现复杂度,也为后续扩展更多模态留下了接口空间。目前开源版本已包含完整训练代码和预训练权重,开发者可基于现有框架进行二次开发。

 
 
更多>同类内容
全站最新
热门内容