科技·商业·财经

英伟达与MIT合作推出Audio-SDS:AI音效生成迎来参数化控制新突破

   时间:2025-05-13 14:29 作者:苏婉清

近日,科技界传来一项新的合作成果,英伟达与麻省理工学院(MIT)携手推出了Audio-SDS技术,这是一项基于文本条件的音频扩散模型扩展技术,为音频生成领域带来了新突破。

音频扩散模型在近年来凭借其生成高质量音频的能力备受瞩目。然而,这类模型的一个显著局限在于难以对明确且可解释的参数进行优化,这限制了其在实际应用中的灵活性和广泛性。

为了克服这一挑战,英伟达与MIT的科研团队首次将Score Distillation Sampling(SDS)方法引入到音频领域。他们结合了预训练模型的强大生成能力与参数化音频表示,从而无需依赖大规模特定数据集,即可应用于FM合成器参数校准、物理冲击音合成以及音源分离等三大关键任务。

SDS技术此前已在文本生成3D图像和图像编辑领域得到了广泛应用。英伟达此次将SDS技术与音频生成相结合,推出了Audio-SDS。该技术能够利用预训练模型的先验知识,直接根据高级文本提示调整FM合成参数、冲击音模拟器或分离掩码,从而实现了更加灵活和精准的音频生成。

在实验中,研究团队采用了基于解码器的SDS、多步去噪以及多尺度频谱图等方法。实验结果表明,Audio-SDS在主观听觉测试和客观指标(如CLAP分数、信号失真比SDR)上均展现出了卓越的性能。

Audio-SDS的一大创新之处在于,它仅需一个预训练模型即可支持多种音频任务,从而极大地降低了对大规模领域特定数据集的依赖。这一特性使得Audio-SDS在音频生成领域具有更广泛的应用前景。

然而,研究团队也指出了Audio-SDS目前仍面临的一些挑战,包括模型覆盖范围有限、潜在编码伪影以及优化敏感性等问题。他们表示,未来将继续致力于解决这些问题,以进一步提升Audio-SDS的性能和应用范围。

 
 
更多>同类内容
全站最新
热门内容