科技·商业·财经

阿里Qwen3.7-Max模型闪耀Code Arena:编程实力跻身全球前列

   时间:2026-05-26 19:32 作者:互联网

全球人工智能领域权威编程能力评估榜单Code Arena近日迎来重要更新。在这份被视为行业风向标的榜单中,阿里最新推出的旗舰模型Qwen3.7-Max以1541分的成绩跻身全球前列,仅落后于Claude系列模型,在大模型厂商中稳居第二把交椅。

与传统学术测试不同,Code Arena独创的评估体系聚焦于模型解决实际编程问题的能力。评测内容涵盖代码生成、调试优化、架构重构等核心场景,通过随机盲测机制确保评估公正性——模型在完全未知题目的情况下接受考验,有效杜绝了针对性优化的可能。这种严苛的评测标准,使得该榜单成为衡量AI代码能力的黄金标准。

在具体排名中,Qwen3.7-Max的最新版本qwen3.7-max-20260517位列全球第四,与前三名Claude系列模型形成激烈竞争态势。值得关注的是,该模型已实现对claude-opus-4-6的超越,同时在综合性能上领先于glm-5.1、kimi-k2.6等知名模型,展现出强劲的技术突破势头。

除了编程领域的突出表现,阿里模型在多模态评测中也屡创佳绩。在被称为"AI奥林匹克"的Design Arena评测平台上,Qwen3.7-Max同样斩获全球第十的优异成绩。这个涵盖图像生成、系统设计等维度的综合评测体系,通过真实用户盲测方式确保评估客观性,其权威性得到全球AI从业者的广泛认可。

据技术白皮书披露,Design Arena评测平台采用分层评估机制,既考察模型的基础能力,也注重复杂场景下的创新表现。该平台与图像专项评测Image Arena、逻辑推理评测LMArena共同构成完整评估体系,其评测结果被视为衡量AI模型实用价值的重要参考。Qwen3.7-Max在此类高难度评测中的持续突破,标志着国产大模型技术实力的显著提升。

 
 
更多>同类内容
全站最新
热门内容