科技·商业·财经

阿里HappyHorse 1.0开启灰度测试,实测文生图生视频能力有亮点也有不足

   时间:2026-04-27 22:49 作者:赵云飞

阿里ATH创新事业部近日宣布,其最新研发的视频生成与编辑模型HappyHorse 1.0(中文名:快乐小马)正式启动灰度测试。创作者可通过阿里云百炼平台和HappyHorse官网注册使用,普通用户则能在千问App中体验这一新工具。

在盲测平台Arena.ai的评测中,HappyHorse 1.0在文生视频、图生视频和视频编辑三个榜单中均位列第二,紧随近期备受关注的字节Seedance 2.0之后。为了解其实际表现,记者进行了多维度测试。

HappyHorse 1.0的操作十分简便,用户只需输入文字描述,即可生成3至15秒的视频,视频中可实现多镜头切换和连贯剧情。官网信息显示,该模型最高支持1080p分辨率,最多可同时生成4个视频。价格方面,生成720p和1080p视频的刊例价分别为每秒0.9元和1.6元,Pro套餐包月价格叠加限时折扣后为每秒0.44元和0.78元。

目前,HappyHorse 1.0已集成到阿里旗下多款产品中,包括阿里悟空、MuleRun和JVS Claw等Agent平台。千问App预告,近期将推出“测一测”视频玩法,用户可测出自己在短剧宇宙中的本名角色,并通过HappyHorse 1.0生成本人“出演”的角色短剧片段。

在测试过程中,HappyHorse 1.0展现了指令遵循和生成速度方面的优势,但也暴露出画面物理准确性、音画同步等方面的不足。具体而言,其生成速度较快,一段视频约需2至5分钟;指令遵循能力强,能准确理解并执行复杂的提示词要求;图生视频中,多元素参考还原度较高。然而,音画同步仍有提升空间,尤其在乐器演奏等复杂场景中,手部动作与音频节奏存在错位;长叙事视频中易出现物理bug,如无外力物体自移动;画面中文字渲染常出现乱码或错误。

在文生视频能力测试中,HappyHorse 1.0的表现可圈可点。例如,在生成街头音乐表演视频时,模型虽能准确呈现人像、镜头运动和画面灯光等元素,但吉他手演奏与音乐节奏不同步,尤其在快速扫弦和重拍落点上,手部动作与音频音符错位,影响了真实感。在模拟海边悬崖场景时,模型成功还原了波涛汹涌的效果,海浪与岩石的撞击、海面泡沫均符合物理规律,但近景画面中水滴滑落速度偏慢,略显不自然。在处理长达800词的复杂提示词时,模型虽能准确呈现画面元素,但开头出现车门无故关闭的物理bug,最后一个镜头中主角变化也显示出一致性方面的不足。

在图生视频测试中,HappyHorse 1.0支持最多9张图片参考。测试中,模型成功生成了OpenAI联合创始人萨姆·奥尔特曼喝咖啡的画面,人物与真人照片相似度达八成,且样貌未随光线和背景变化而改变。在生成马斯克与奥尔特曼“对簿公堂”画面时,模型虽能呈现二人争论场景,但人物表情与参考图偏差明显,且初期版本中“马斯克”说中文,细化要求后才改为英语。在生成离职画面时,模型准确呈现了上传的所有参考元素,但出现纸箱自动合上、门自动打开等物理bug。

多位参与测试的业内人士对HappyHorse 1.0的表现进行了评价。出海一站式AI电商营销平台麦斯国际的技术合伙人李明认为,3至15秒的生成长度、较快的生成速度和支持1080p是该模型的亮点,但在生成结果一致性和语音内容机械感方面仍有提升空间。他指出,字幕渲染是当前AI视频生成模型的通病,业内通常借助后期工具补充,音画同步效果则可通过提示词工程优化。AI视频创作平台FLOVA相关团队认为,HappyHorse 1.0在真实感和叙事能力上表现不错,尤其适合叙事性内容和纪录片风格题材,其焦段运用接近实拍,镜头运动自然,减轻了视频的“AI感”。

 
 
更多>同类内容
全站最新
热门内容