阿里云近日正式推出并开源三项重要AI技术成果,包括新一代全模态基础模型Qwen3-Omni、多语言文本转语音系统Qwen3-TTS,以及图像编辑工具Qwen-Image-Edit-2509。这些创新成果在多模态处理、语音交互和视觉创作领域实现多项突破,标志着中国AI技术进入全模态智能新阶段。
作为全球首个原生端到端全模态AI模型,Qwen3-Omni突破传统多模态架构的技术瓶颈,实现文本、图像、音频、视频的统一处理能力。该模型采用创新性的"思考者-表达者"双脑架构,通过混合专家系统(MoE)与自回归预训练技术(AuT)的结合,在保持单模态性能不降级的前提下,实现跨模态能力的同步提升。在36项音视频基准测试中,该模型有22项达到国际领先水平,其中32项在开源社区中保持优势,特别是在自动语音识别和实时语音对话场景中,性能表现可与Gemini 2.5 Pro相媲美。
语言支持方面,Qwen3-Omni构建起庞大的语言矩阵:支持119种文本语言处理,语音交互覆盖19种输入语言和10种输出语言。输入语言体系包含英语、中文、韩语、日语等主流语种,以及阿拉伯语、乌尔都语等小语种;输出系统则涵盖英、中、法、德等10种语言的自然语音合成。这种多语言覆盖能力使其在全球化应用场景中具备显著优势。
技术架构层面,模型采用多码本量化设计与低延迟流式处理技术,实现实时音视频交互的毫秒级响应。系统支持通过提示词进行细粒度控制,开发者可自定义模型行为模式。值得关注的是,开源社区首次获得通用型音频描述模型Qwen3-Omni-30B-A3B-Captioner,该模型在细节还原度和事实准确性方面达到行业新高。
在语音合成领域,Qwen3-TTS系统带来革命性突破。新系统提供17种专业音色选择,每种音色均支持普通话、英语、法语等10种语言的自然转换。方言支持成为最大亮点,系统可精准模拟闽南语、粤语、四川话等8种中国地方方言,在语音韵律和情感表达上达到专业播音员水平。技术评估显示,Qwen3-TTS-Flash在语音稳定性和音色相似度等关键指标上超越SeedTTS、MiniMax等国际主流系统。
视觉创作方面,最新迭代的Qwen-Image-Edit-2509模型在图像一致性处理上取得重大进展。该模型支持1-3张图像的同步编辑,可处理"人物+人物"、"人物+产品"等复杂组合场景。在单图像编辑中,系统显著提升三大核心能力:人像编辑可精准保持面部特征,支持多种艺术风格转换;产品编辑能完整保留商品标识,适用于电商海报制作;文字编辑不仅可修改内容,还能调整字体、颜色和材质效果。模型原生集成ControlNet技术,支持深度图、边缘图等专业控制方式。
开源社区同步迎来两个800亿参数模型的发布:Qwen3-Next-80B-A3B-Instruct-FP8和Qwen3-Next-80B-A3B-Thinking-FP8。这两个模型采用FP8量化技术,在保持高性能的同时显著降低计算资源需求,为边缘设备和移动端AI应用提供有力支持。此次技术发布标志着阿里云在AI基础模型领域形成完整的产品矩阵,从多模态理解到内容生成,构建起覆盖感知、认知、创作的全链条技术体系。