在AI编程能力评测领域,全球权威盲测平台LMArena旗下Code Arena榜单迎来重要更新。阿里巴巴最新发布的大语言模型Qwen 3.6-Plus在React专项评测中以1452分跻身全球第二,成为首个在该榜单超越OpenAI、Google等国际巨头的中国大模型。这一成绩标志着国产模型在复杂Web开发场景下的工程化能力实现重大突破。
作为AI领域最具公信力的性能评测平台,LMArena采用真实用户盲测与实时对抗机制,其React专项榜单聚焦AI Coding领域最前沿技术方向。该评测要求模型在无人干预条件下完成从项目初始化到调试运行的全流程开发,全面考察自主编码、工程思维及端到端开发能力。Qwen 3.6-Plus此次挑战的正是这项被视为"AI编程能力试金石"的高难度评测。
技术分析显示,Qwen 3.6-Plus在代码生成与Agent能力方面表现尤为突出。该模型于4月2日正式发布,具备原生多模态理解与推理能力,在多项权威编程评测中持续领先。相较于参数量达其2-3倍的GLM-5、Kimi-K2.5等模型,千问3.6系列通过架构优化实现了更高效的参数利用,以更小模型规模达成更强性能表现。在React专项评测中,其得分仅落后Anthropic旗下Claude-Opus-4.6-Thinking(1540分)88分,却领先OpenAI最新发布的GPT-5.0-High(1448分)4分,较Google的Gemini 3.1 Pro Preview(1440分)优势达12分。
全球开发者社区对这款新模型给予高度关注。发布首日即引发技术圈热烈讨论,次日便在React榜单斩获亚军位置。在综合评估编程能力的Code Arena总榜中,Qwen 3.6-Plus同样稳居国产模型首位。凭借此次突破性表现,阿里巴巴在全球AI实验室排名中跃升至第四位,紧随Anthropic、OpenAI和Google之后。
据研发团队透露,Qwen 3.6-Plus作为千问3.6系列的首发模型,后续将开源不同参数规模的版本供开发者使用。性能更强的旗舰模型Qwen3.6-Max已完成研发,预计将于近期正式发布。这一系列动作显示阿里巴巴正加速构建完整的AI模型生态体系,持续推动国产大模型在工程化应用领域的创新发展。


















