Soul App开源SoulX-Podcast模型，多方言多轮对话流畅，赋能AI+社交新体验-网界

近日，社交平台Soul的AI团队Soul AI Lab宣布，正式开源其自主研发的播客语音合成模型SoulX-Podcast。该模型专为多人、多轮对话场景设计，支持中英文及多种方言的语音生成，并具备超长播客生成能力，能够稳定输出自然流畅、角色切换精准的语音内容，为AI语音技术领域带来新的突破。

SoulX-Podcast的核心优势在于其多轮对话的流畅性与自然度。在零样本克隆场景下，该模型能够高度还原参考语音的音色与风格，同时根据对话语境灵活调整韵律和节奏，使生成的语音既连贯又富有表现力。无论是长时间的多轮对话，还是情感层次丰富的交流，模型均能保持声音的一致性和表达的真实性。它还支持笑声、清嗓等副语言元素的可控生成，进一步提升了语音的临场感。

方言支持是SoulX-Podcast的另一大亮点。除了中英文，该模型还覆盖了四川话、河南话、粤语等多种主流方言。更引人注目的是，它实现了跨方言音色克隆——即使仅提供普通话参考语音，模型也能生成带有方言特征的自然语音。这一功能为方言语音合成提供了新的解决方案，满足了多样化场景的需求。

在超长播客生成方面，SoulX-Podcast展现了强大的稳定性。它能够持续生成超过60分钟的语音内容，并始终保持音色与风格的一致性。这一特性使其不仅适用于播客场景，还在通用语音合成和克隆任务中表现出色，为用户带来更真实、更生动的语音体验。

语音作为传递信息和情感的重要媒介，在社交互动中扮演着关键角色。Soul平台一直以“语音社交”为特色，用户通过语音实时互动，建立情感连接。为了进一步推动AI与社交的融合，Soul团队在语音技术领域持续投入，此前已升级端到端全双工语音通话大模型，并在站内开启内测。新模型赋予AI自主决策对话节奏的能力，实现更接近日常生活的交互体验。

与此同时，Soul还推出了自研的语音生成、识别和对话大模型，并快速应用于“虚拟伴侣”、群聊派对等多元场景。例如，9月，Soul的两位虚拟人孟知时与屿你在群聊派对中发起了一场持续40分钟的对话。这场活动仅依靠自然流量便迅速引爆社区，房间互动热度刷新平台纪录，受到用户广泛欢迎。这一案例验证了“虚拟IP + AI语音对话”在虚拟内容生态中的潜力。

然而，当时开源社区中能够稳定支持多轮自然对话的播客生成模型较为稀缺，尤其在多人对话和长篇播客场景下，现有模型普遍面临音色一致性、风格延续性以及角色切换准确性等问题。为此，Soul团队决定开源SoulX-Podcast，希望与全球开发者共同探索AI语音在内容创作、社交表达和虚拟生态中的更多可能性。

从技术架构来看，SoulX-Podcast采用了LLM + Flow Matching的语音生成范式。其中，LLM部分基于Qwen3-1.7B模型进行初始化，以继承其强大的语言理解能力；Flow Matching部分则进一步建模声学特征，确保语音生成的精准度。尽管该模型专为多人、多轮对话设计，但在单人语音合成和零样本语音克隆任务中也表现优异。实验数据显示，在播客生成任务中，SoulX-Podcast在语音可懂度和音色相似度方面均优于近期相关工作。

此次开源是Soul在AI技术领域的重要尝试。团队表示，未来将持续优化语音对话合成、全双工语音通话等核心交互能力，并加速技术在多样化场景中的落地，为用户带来更沉浸、更智能的交互体验。同时，Soul将深化开源生态建设，与全球开发者携手拓展AI语音的边界，推动“AI +社交”的创新发展。