滚动资讯

当前位置：网界 > 行业动态 > 正文内容

AI造游戏能力大揭秘：顶尖模型挑战完整开发，最高仅获四成成绩

时间：2026-06-20 02:03 作者：鞭牛士

一场针对人工智能游戏开发能力的全面评测近日引发行业关注。由多所高校与科技企业联合构建的GameCraft-Bench测试平台，对当前七款主流AI编程工具进行了系统性检验。结果显示，即便是表现最优的AI系统，在140道游戏开发测试题中仅获得41.46%的平均得分，揭示出人工智能在完整游戏开发领域仍存在显著局限。

研究团队构建的评测体系包含三大核心标准：所有游戏必须在Godot开源引擎中开发，项目文件需包含完整素材与配置；提交成果必须包含可独立运行的游戏包；通过自动化操作录像验证游戏交互逻辑。这种严格标准确保了评测结果的真实性——任何代码层面的"完美实现"，若无法转化为实际游戏体验都将被判定无效。

在持续两小时的测试中，AI系统需同时处理代码编写、素材调用与效果验证等复杂任务。数据显示，Kimi-K2.6模型平均每题调用截图工具21.4次，通过"观察-修改"的循环迭代显著提升游戏品质；而MiMo-V2.5-Pro虽工具调用次数达128次，但因过度依赖命令行调试且忽视操作录像提交，导致5道题得零分。这种差异反映出，单纯增加工具调用次数对提升游戏质量作用有限。

评测覆盖横版跳跃、策略战棋、开放世界等15个主流游戏类型。结果显示，AI在休闲放置类游戏表现最佳（平均得分56.99分），这类游戏的核心机制相对简单；而在需要复杂状态管理的卡牌游戏（33.78分）和依赖精确物理的横版跳跃游戏（36.57分）中表现欠佳。这种类型差异表明，AI尚未掌握处理多维游戏逻辑的能力。

评分维度分析揭示出更深层问题：所有AI在"核心机制"维度的得分（平均55.34%）显著高于"美术呈现"（36.86%）。以Opus-4.7模型为例，其开发的游戏虽能实现基础交互，但普遍存在UI重叠、碰撞体错位等视觉缺陷。研究指出，这类问题仅通过代码审查难以发现，必须依赖实时渲染验证。

为确保评分客观性，研究团队采用GPT-5.5多模态系统进行双重验证。实验显示，该AI裁判在重复评分中的标准差低于0.005，与人类评分员的偏差控制在3.32个百分点。不过在休闲放置类游戏中，AI裁判的评分比人类高出8.76%，显示其在评估内容深度时仍需优化标准。

进一步分析发现，四个评分维度间存在显著独立性。Kimi-K2.6的核心机制与内容丰富度相关系数为0.61，而美术呈现与画面功能性的相关系数仅0.11。这意味着，AI开发者需要分别优化交互逻辑、视觉表现等不同能力模块，无法通过单一维度的突破实现整体提升。

当前AI游戏开发工具更适用于辅助创作而非独立开发。对于普通用户而言，这些系统可快速生成基础游戏框架，但要实现完整的关卡设计、视觉优化与平衡性调整，仍需专业开发者介入。研究团队特别指出，评测中使用的GPT-5.5同时担任参赛选手与评分裁判的角色，这种"既当运动员又当裁判员"的矛盾，将成为后续测试方法改进的重点方向。

完整评测数据集与游戏演示视频已通过论文编号arXiv:2606.17861公开。该研究为人工智能在创意产业的应用提供了重要参考，其构建的自动化评测框架与多维度评分体系，或将推动游戏开发AI进入更注重实际体验的新阶段。

更多>同类内容

基于宇树G1改装的人形机器人 Pemba 登顶火山未来剑指珠峰开展多项任务

06-20

SGLang×MUSA Meetup成功举办国产GPU与开源生态携手共进新征程

06-20

摩尔线程2026移动云大会展实力，全栈算力助力Token生态与智算发展

06-20

摩尔线程MTT S5000实现MiniMax M2.7 Day-0适配国产GPU加速AI创新落地

06-20

呼兰支招AI时代：摆脱焦虑，投身具体事务成就超级个体之路

06-20

七鳃鳗全脑三维图谱绘就为脊椎动物脑演化研究打开新窗口

06-20

硅基“登山者”破界：人形机器人登顶钦博拉索，珠峰挑战在望？

06-20

短剧圈疯狂刷屏！本能工作室突然发疯派发上千份端午礼盒

06-20

和Fable 5五五开？GPT-5.6 Pro实测首次曝光

06-20

深圳梅林“好大一个瓜”市集清凉来袭，冰品甜品+游乐，假期好去处！

06-20

商务部明确：6月20日零点起对澳进口牛肉加征55%关税

06-20

印度首富安巴尼发力AI：推多款新品，欲让印度成AI创造者与全球领跑者

06-20

德军工巨头莱茵金属CEO呼吁：为军事AI应用立全球规则人类保留最终开火权

06-20

存储成本飙升库克放风涨价，iPhone 18 Pro扛压，苹果这次还能稳住吗？

06-20

百亿市值公司涉三大热门赛道，北向社保券商重仓，机遇与挑战并存

06-20

点击查看更多 +

全站最新

极佳视界获10亿B2轮融资：以「双金字塔」驱动，加速物理AGI突破与场景落地

沃尔玛蝉联榜首零食量贩崛起区域零售突围：中国零售格局深度重构

青海电商降本增效秘籍：5个获客软件实用技巧助力精准获客

端午北京：老字号守正创新新潮粽抢占市场粽香撬动夏日消费热潮

《中俄艺联·万象共生》书画展落幕：以笔墨丹青为媒续写中俄文化交融新篇章

钉钉新CEO陈宇森首封全员信：调整组织架构，多位业务负责人确定

热门内容

本栏最新

网界 - 新财经新科技新未来 - 网界传媒旗下网站 - 中国 · 北京
合作咨询微信：netspread（注明:网界）
网界^®是本公司38类注册商标，是该商标的唯一持有者，未经授本公司授权，严禁使用。
Copyright © CNU 2012-2022 www.cnu.com.cn All rights reserved. 鲁ICP备2022032383号-6 鲁公网安备37010202700502号