阿里巴巴ATH团队近日推出了一款名为HappyHorse 1.0的多模态视频生成模型及创作平台,目前该平台已进入灰度测试阶段。这款模型专注于广告、电商、短剧和社交媒体创意等领域,通过原生多模态架构与音视频联合生成技术,为用户提供从生成到编辑的一站式视频创作解决方案。
HappyHorse 1.0的核心优势体现在画面质感、镜头运动和人物真实感等方面。在画面表现上,该模型能够精准呈现人物肤质、发丝细节以及金属反光、烟雾水雾等自然元素,其精细度和成片质感多次获得用户高度评价。在镜头处理方面,模型支持拉近、拉远、景深变换等多种运镜方式,转场过渡自然流畅,色调与环境融合度高,能够准确遵循用户输入的镜头语言指令。
人物渲染是HappyHorse 1.0的另一大突破。通过优化五官比例、面部轮廓和表情动态,模型基本消除了传统AI生成视频中常见的"塑料感",在真人剧、口播和社交媒体等人物密集场景中表现尤为出色。例如在电商产品展示视频中,模型能够实现图生视频(I2V)的高还原度输出,成片质感达到专业水平;在口播场景中,人物形象自然、指令遵循度高,整体视频质量获得广泛认可。
该平台支持15秒多镜头叙事和多画幅适配功能,最高可输出1080P超清视频。针对不同用户群体,HappyHorse提供了差异化的服务方案:全球专业创作者和企业级客户可通过官网和阿里云百炼平台注册使用,大众用户则能在千问App体验基础功能。官网公布的720P视频生成价格为0.9元/秒,而千问App用户可享受更优惠的0.44元/秒价格。
在全球化内容创作方面,HappyHorse已通过初步验证。海外用户反馈显示,模型在真人剧面部质感、人物表情自然度以及空镜与慢动作的光影表现上均达到行业领先水平。特别值得一提的是,千问App最新版本支持用HappyHorse创作粤语、英语、法语、韩语等多语言剧情短片,进一步拓展了模型的应用场景。
技术层面,HappyHorse 1.0采用的创新架构使其能够同时处理文本、图像和视频等多种模态数据。这种设计不仅提升了生成效率,还增强了内容可控性——用户可以通过精确的文本指令控制视频中的各个元素,实现从0到1的完整创作或对现有素材进行1到N的创意延展。目前该模型已形成完整的工具链,覆盖视频生成、编辑、优化等全流程需求。







