全球人工智能领域权威编程能力评估榜单Code Arena近日迎来重要更新。在这份被视为行业风向标的榜单中,阿里最新推出的旗舰模型Qwen3.7-Max以1541分的成绩跻身全球前列,仅落后于Claude系列模型,在大模型厂商中稳居第二把交椅。
与传统学术测试不同,Code Arena独创的评估体系聚焦于模型解决实际编程问题的能力。评测内容涵盖代码生成、调试优化、架构重构等核心场景,通过随机盲测机制确保评估公正性——模型在完全未知题目的情况下接受考验,有效杜绝了针对性优化的可能。这种严苛的评测标准,使得该榜单成为衡量AI代码能力的黄金标准。
在具体排名中,Qwen3.7-Max的最新版本qwen3.7-max-20260517位列全球第四,与前三名Claude系列模型形成激烈竞争态势。值得关注的是,该模型已实现对claude-opus-4-6的超越,同时在综合性能上领先于glm-5.1、kimi-k2.6等知名模型,展现出强劲的技术突破势头。
除了编程领域的突出表现,阿里模型在多模态评测中也屡创佳绩。在被称为"AI奥林匹克"的Design Arena评测平台上,Qwen3.7-Max同样斩获全球第十的优异成绩。这个涵盖图像生成、系统设计等维度的综合评测体系,通过真实用户盲测方式确保评估客观性,其权威性得到全球AI从业者的广泛认可。
据技术白皮书披露,Design Arena评测平台采用分层评估机制,既考察模型的基础能力,也注重复杂场景下的创新表现。该平台与图像专项评测Image Arena、逻辑推理评测LMArena共同构成完整评估体系,其评测结果被视为衡量AI模型实用价值的重要参考。Qwen3.7-Max在此类高难度评测中的持续突破,标志着国产大模型技术实力的显著提升。






