一场针对人工智能游戏开发能力的全面评测近日引发行业关注。由多所高校与科技企业联合构建的GameCraft-Bench测试平台,对当前七款主流AI编程工具进行了系统性检验。结果显示,即便是表现最优的AI系统,在140道游戏开发测试题中仅获得41.46%的平均得分,揭示出人工智能在完整游戏开发领域仍存在显著局限。
研究团队构建的评测体系包含三大核心标准:所有游戏必须在Godot开源引擎中开发,项目文件需包含完整素材与配置;提交成果必须包含可独立运行的游戏包;通过自动化操作录像验证游戏交互逻辑。这种严格标准确保了评测结果的真实性——任何代码层面的"完美实现",若无法转化为实际游戏体验都将被判定无效。
在持续两小时的测试中,AI系统需同时处理代码编写、素材调用与效果验证等复杂任务。数据显示,Kimi-K2.6模型平均每题调用截图工具21.4次,通过"观察-修改"的循环迭代显著提升游戏品质;而MiMo-V2.5-Pro虽工具调用次数达128次,但因过度依赖命令行调试且忽视操作录像提交,导致5道题得零分。这种差异反映出,单纯增加工具调用次数对提升游戏质量作用有限。
评测覆盖横版跳跃、策略战棋、开放世界等15个主流游戏类型。结果显示,AI在休闲放置类游戏表现最佳(平均得分56.99分),这类游戏的核心机制相对简单;而在需要复杂状态管理的卡牌游戏(33.78分)和依赖精确物理的横版跳跃游戏(36.57分)中表现欠佳。这种类型差异表明,AI尚未掌握处理多维游戏逻辑的能力。
评分维度分析揭示出更深层问题:所有AI在"核心机制"维度的得分(平均55.34%)显著高于"美术呈现"(36.86%)。以Opus-4.7模型为例,其开发的游戏虽能实现基础交互,但普遍存在UI重叠、碰撞体错位等视觉缺陷。研究指出,这类问题仅通过代码审查难以发现,必须依赖实时渲染验证。
为确保评分客观性,研究团队采用GPT-5.5多模态系统进行双重验证。实验显示,该AI裁判在重复评分中的标准差低于0.005,与人类评分员的偏差控制在3.32个百分点。不过在休闲放置类游戏中,AI裁判的评分比人类高出8.76%,显示其在评估内容深度时仍需优化标准。
进一步分析发现,四个评分维度间存在显著独立性。Kimi-K2.6的核心机制与内容丰富度相关系数为0.61,而美术呈现与画面功能性的相关系数仅0.11。这意味着,AI开发者需要分别优化交互逻辑、视觉表现等不同能力模块,无法通过单一维度的突破实现整体提升。
当前AI游戏开发工具更适用于辅助创作而非独立开发。对于普通用户而言,这些系统可快速生成基础游戏框架,但要实现完整的关卡设计、视觉优化与平衡性调整,仍需专业开发者介入。研究团队特别指出,评测中使用的GPT-5.5同时担任参赛选手与评分裁判的角色,这种"既当运动员又当裁判员"的矛盾,将成为后续测试方法改进的重点方向。
完整评测数据集与游戏演示视频已通过论文编号arXiv:2606.17861公开。该研究为人工智能在创意产业的应用提供了重要参考,其构建的自动化评测框架与多维度评分体系,或将推动游戏开发AI进入更注重实际体验的新阶段。






