科技·商业·财经

Stability AI发布Stability Audio 3.0:多规格模型助力,最长可生成六分钟专业音乐

   时间:2026-05-21 03:25 作者:互联网

AI音频生成领域迎来新突破,知名初创公司Stability AI正式发布Stability Audio 3.0系列模型,其中旗舰版本可生成超过六分钟的专业级音乐作品。该系列包含四款不同参数规模的模型,覆盖从设备端轻量化应用到云端高性能创作的全场景需求。

新发布的模型家族采用差异化设计策略:两款小型模型分别拥有45900万参数和14亿参数,专为移动端和边缘设备优化,可在本地生成两分钟以内的音频内容;中型(14亿参数)和大型(27亿参数)版本则具备更复杂的音乐结构控制能力,支持创作完整乐曲并保持旋律连贯性。相较于2024年推出的Stable Audio 2.0,新模型的最大生成时长实现翻倍提升,达到6分20秒。

在开源策略方面,该公司采取分层开放模式:小型SFX模型、基础小型模型及中型模型已向公众开放源代码和模型权重,允许开发者自由下载修改;而具备最强性能的大型模型则通过API接口和付费托管服务提供,年营收超100万美元的企业需额外购买商业授权。这种模式既保障了技术普惠性,又为商业应用建立了保护机制。

为确保数据合法性,Stability AI提前与华纳音乐集团、环球音乐集团等头部机构建立战略合作,所有训练数据均获得正式授权。这种前瞻性布局有效规避了音乐版权领域的潜在风险,为模型商业化铺平道路。目前公司正开发面向专业音乐人的工具链,前环球音频首席数字官伊桑·卡普兰已加盟主导该产品线,其过往在音乐科技领域的经验或将加速产品落地。

技术实现层面,新模型通过改进注意力机制和分层架构设计,显著提升了长序列生成能力。在保持音乐风格一致性的同时,能够处理更复杂的和声编排与节奏变化。测试数据显示,中型模型在古典音乐生成任务中,结构完整性评分较前代提升37%,而大型模型在流行音乐创作场景下,用户满意度达到92%。

 
 
更多>同类内容
全站最新
热门内容