阿里云重磅开源：Qwen3-Omni全模态模型领衔，TTS与图像编辑工具同步升级

时间：2025-09-23 10:51 作者：冯璃月

阿里云近日正式推出并开源三项重要AI技术成果，包括新一代全模态基础模型Qwen3-Omni、多语言文本转语音系统Qwen3-TTS，以及图像编辑工具Qwen-Image-Edit-2509。这些创新成果在多模态处理、语音交互和视觉创作领域实现多项突破，标志着中国AI技术进入全模态智能新阶段。

作为全球首个原生端到端全模态AI模型，Qwen3-Omni突破传统多模态架构的技术瓶颈，实现文本、图像、音频、视频的统一处理能力。该模型采用创新性的"思考者-表达者"双脑架构，通过混合专家系统（MoE）与自回归预训练技术（AuT）的结合，在保持单模态性能不降级的前提下，实现跨模态能力的同步提升。在36项音视频基准测试中，该模型有22项达到国际领先水平，其中32项在开源社区中保持优势，特别是在自动语音识别和实时语音对话场景中，性能表现可与Gemini 2.5 Pro相媲美。

语言支持方面，Qwen3-Omni构建起庞大的语言矩阵：支持119种文本语言处理，语音交互覆盖19种输入语言和10种输出语言。输入语言体系包含英语、中文、韩语、日语等主流语种，以及阿拉伯语、乌尔都语等小语种；输出系统则涵盖英、中、法、德等10种语言的自然语音合成。这种多语言覆盖能力使其在全球化应用场景中具备显著优势。

技术架构层面，模型采用多码本量化设计与低延迟流式处理技术，实现实时音视频交互的毫秒级响应。系统支持通过提示词进行细粒度控制，开发者可自定义模型行为模式。值得关注的是，开源社区首次获得通用型音频描述模型Qwen3-Omni-30B-A3B-Captioner，该模型在细节还原度和事实准确性方面达到行业新高。

在语音合成领域，Qwen3-TTS系统带来革命性突破。新系统提供17种专业音色选择，每种音色均支持普通话、英语、法语等10种语言的自然转换。方言支持成为最大亮点，系统可精准模拟闽南语、粤语、四川话等8种中国地方方言，在语音韵律和情感表达上达到专业播音员水平。技术评估显示，Qwen3-TTS-Flash在语音稳定性和音色相似度等关键指标上超越SeedTTS、MiniMax等国际主流系统。

视觉创作方面，最新迭代的Qwen-Image-Edit-2509模型在图像一致性处理上取得重大进展。该模型支持1-3张图像的同步编辑，可处理"人物+人物"、"人物+产品"等复杂组合场景。在单图像编辑中，系统显著提升三大核心能力：人像编辑可精准保持面部特征，支持多种艺术风格转换；产品编辑能完整保留商品标识，适用于电商海报制作；文字编辑不仅可修改内容，还能调整字体、颜色和材质效果。模型原生集成ControlNet技术，支持深度图、边缘图等专业控制方式。

开源社区同步迎来两个800亿参数模型的发布：Qwen3-Next-80B-A3B-Instruct-FP8和Qwen3-Next-80B-A3B-Thinking-FP8。这两个模型采用FP8量化技术，在保持高性能的同时显著降低计算资源需求，为边缘设备和移动端AI应用提供有力支持。此次技术发布标志着阿里云在AI基础模型领域形成完整的产品矩阵，从多模态理解到内容生成，构建起覆盖感知、认知、创作的全链条技术体系。

更多>同类内容