滚动资讯

当前位置：网界 > 行业动态 > 正文内容

刚刚，国产AI自己造了AI，全球首例！

时间：2026-05-27 01:11 作者：快讯

造AI这件事，现在的主角变成了AI。

因为就在刚刚，一个国产AI先自己写出了一套大模型预训练框架，然后再用这套预训练框架，训练出了一个新的小尺寸模型！

这就是面壁智能搞出来的big news。

这套由AI写出来的预训练框架叫做ForgeTrain，它是全球首个完全由AI编写的生产级大模型预训练框架，性能甚至超越了英伟达的Megatron。

并且ForgeTrain在华为昇腾上预训练MiniCPM5-1B，相比昇腾的框架也有10%的加速。

围绕它，面壁智能还提出了一套新的软件编程范式，叫Forge Engineering。

更直白一点说，就是当AI写代码的成本越来越低，未来软件不一定非要做成一套通用大框架，也可以针对不同模型、不同硬件、不同任务，现场锻造一套专用代码。

而被ForgeTrain训练出来的新模型，就是MiniCPM5-1B。

至于三者的关系，我们用一张图来解释：

虽然过去行业里关于“AI制造AI”的声音不断，但总归来说，都还停留在特定的环节，比如写一段函数、改一个脚本、调一组参数等等。

不过这一次，中国大模型公司第一次把“AI制造AI”从概念，推进到了可展示、可评测、可复现的工程样本。

AI造出来的AI，能干啥？

既然MiniCPM5-1B是ForgeTrain训练出来的模型，最直接的问题来了：

AI造出来的AI，到底能干什么？

先看一个最直观的场景——桌宠。

这个1B参数规模的小模型，它可以常驻在电脑桌面上，变成一个随时响应的AI小伙伴。你可以跟它聊天，让它根据上下文接话，也可以给它设置不同的人格。

这个桌宠的重点在于，它不是一定要跑在云端的大模型服务，1B规模意味着它足够小，部署门槛也足够低。

按照面壁智能官方的说法，MiniCPM5-1B在FP16精度下权重体积约2GB，适合GPU、高端笔电和服务器；INT4/Q4精度约0.5GB，可以面向手机、平板、车机等设备。

MiniCPM5-1B想证明的，是1B模型也可以更能打。

在综合知识、数学推理、代码推理、工具调用等方向上，MiniCPM5-1B都拿出了面向同尺寸端侧模型的对比结果。

公开评测中，MiniCPM5-1B/think平均分为42.57；在MMLU-Pro、MMLU-Redux、AIME-2025、AIME-2026、BFCL-v4、AA榜单等项目上，也给出了对应成绩。

尤其值得一提的是，MiniCPM5-1B再次刷新了小模型的智能密度上限。

仅以1B参数规模，它就在国际知名榜单AA-Index上超越了所有2B参数以下模型。相比3个月前发布的Qwen3.5-2B，MiniCPM5-1B不仅效果更优，参数量还减少了一半。

这背后其实指向一个越来越清晰的趋势：模型能力提升，不再只靠把参数规模越堆越大。更小的模型，也正在承载更高的智能密度。按照这一趋势观察，大模型的智能密度正在以约每3.5个月翻一番的速度持续提升。

这也让MiniCPM5-1B的价值更明确了，它不只是一个小尺寸模型，而是一个在参数规模、部署成本和实际能力之间重新找平衡点的端侧模型。

除此之外，它还可以自定义人格：

虽然这听起来像聊天产品里的基础功能，但在端侧模型上意义更大，因为端侧模型离用户更近，更容易成为本地设备上的轻量级智能入口。

它可以记住用户偏好的交互方式，也可以根据不同场景切换风格。

如果大模型要从云端走向每个人的设备，模型必须足够小、足够便宜、足够好用，还要有完整工具链。

这也是它强调开发者友好的原因。

MiniCPM5-1B提供了模型、推理、微调相关工具链。推理侧支持SGLang、vLLM、llama.cpp、Ollama、Hugging Face、ArcLight等；微调侧支持LLaMA-Factory、ms-swift等工具。

对开发者来说，这比单纯给一个模型权重更重要。

因为模型能不能被用起来，往往不只取决于模型本身，也取决于部署、推理、量化、微调、接入工作流是不是顺手。

还超过了英伟达Megatron

如果说MiniCPM5-1B是AI制造AI的产品，那么ForgeTrain就是AI制造AI的工厂。而这个工厂，本身也是AI造出来的。

面壁智能把AI制造AI分成了L1到L5五个阶段：

L1：AI 只给建议，人类执行所有操作（代表：Github Copilot）

L2：AI 辅助研发，完成具体环节（代表：Cursor，Claude Code）

L3：AI 端到端产出下一代模型（代表：ForgeTrain）

L4：AI 递归自改进，改造训练管线和自身

L5：AI 自主设定研究议程，开放式探索

ForgeTrain对应的正是L3-L4这个阶段。它还没有到AI自己发明下一代Transformer的程度，但它已经进入了大模型研发最核心的基础设施层——预训练框架。

在此之前，全世界很多大模型预训练框架，都是人类程序员一行一行写出来的。英伟达的Megatron、meta的 Fairseq、谷歌的TensorFlow，无一不是如此。

但面壁智能提出了一个完全不同的思路，Forge Engineering。

过去的软件工程强调通用框架，一个框架要兼容各种模型、各种硬件、各种训练任务。好处是代码可以复用，代价是很难把每个具体场景都压榨到极致。就像一件均码的衣服，谁都能穿，但谁都穿不合身。

Forge Engineering的思路则激进得多：既然AI写代码越来越快，代码生产成本越来越低，那我们为什么还要追求通用？我们完全可以给不同的模型、不同的硬件、不同的任务，分别写专用的代码。

这就像从工业化的批量生产，回到了高级定制。AI就是那个不知疲倦的顶级工匠，可以为每一个需求量身打造最适合的代码。

但AI自己写预训练框架，难点不只在写代码。更难的是：它怎么知道自己写对了？怎么知道速度够不够快？怎么知道显存、并行、通信、稳定性有没有问题？

这就需要Harness。

咱们可以把Harness理解成一个考场，AI被放进这个考场里，一轮轮生成代码、运行测试、拿到反馈、继续修改。这个过程完全自动，不需要人类干预。

面壁智能采用了三阶段构建方法论：

从现有预训练框架采集关键数据，形成评测标准和Harness

从评测Harness构建二进制一致的预训练框架版本

解除二进制一致的限制，迭代优化到超越参考实现

最终的结果是，ForgeTrain不仅在功能上完全对齐了英伟达Megatron，而且在相同的硬件条件下，训练速度还要快10%。

这意味着，同样的算力，用ForgeTrain可以节省10%的训练时间和成本。

这是一件值得被重视的事情

看到这里，你可能觉得这是一场很酷的技术秀。但透过现象看本质，面壁智能的这次发布，正在揭示大模型行业正在发生的一场剧变。

首先，大模型的竞争，正在从堆资源走向极致提效率。

过去几年，所有大模型厂商都在拼大力出奇迹，拼参数、拼语料、拼算力、拼十万卡集群。但这条Scaling Law的路，它是有尽头的。

当堆料走到天花板，接下来的胜负手是什么？是效率。

在同样的算力预算下，谁能产出更多的研发迭代？谁的单代研发周期更短？面壁智能的AI制造AI给出了答案：

用AI去替代人类研发管线中的重复劳动，把人类数周的代码开发压缩到几十分钟。这是唯一能对抗资源瓶颈，实现大模型能力继续指数级攀升的解法。

其次，AI研究员的角色，正在发生不可逆转的改变。

在ForgeTrain这样的系统里，人类的角色正在发生迁移。从Human in the loop（在循环中执行具体代码）变成了Human on the loop（在循环外进行监督和设计）。

未来的AI科学家，不再需要亲自去写那无穷无尽的CUDA算子和底层通信逻辑。他们将变成研发系统的设计者和守界者。他们只需要定义目标、搭建Harness，剩下的脏活累活，全交给不知疲倦的AI去完成。

最后，对于国产大模型和国产芯片而言，这是弯道超车的绝佳契机。

过去，我们评价国产大模型，眼睛总是盯着参数大小、榜单跑分、长文本能力。但真正决定一家公司、一个生态长期核心竞争力的，其实是底层系统——生产模型的能力。

谁能更快地训练出模型，谁能以更低的成本试错，谁就能在残酷的百模大战中活到最后。

更深远的战略意义在于国产算力生态。众所周知，华为昇腾等国产芯片在硬件算力上正在疯狂追赶，但最大的短板在于软件生态。英伟达有数以百万计的开发者花了十五年时间踩坑、优化，这是国产芯片靠人力很难在短时间内抹平的差距。

但ForgeTrain提供了一种破局的可能。

如果人不够，那就用AI来凑！通过AI自动生成适配各种新模型、新硬件的专属预训练框架，国产芯片将有机会借由AI的生产力，极大缩短追赶国际顶尖生态的时间差。

当AI学会了造AI，齿轮就已经开始加速转动。一个新的纪元，正在我们眼前展开。

更多>同类内容

卢伟冰：目前路上正在跑的测试车并非小米 YU9，新车型年内肯定会上市

05-27

连续盈利后，蔚来进入「真功夫」比拼阶段

05-27

特斯拉为自动驾驶网约车规划专属运维调度中心，正走审批流程

05-27

余承东官宣黄渤、于和伟成为鸿蒙智行问界M9品牌大使

05-27

特斯拉宣布超级充电卡现已向非特斯拉车主开放

05-27

法拉利首款纯电汽车亮相！

05-27

鸿蒙智行：问界M6上市1个月交付突破2万台

05-27

雷军：个人推荐码月底停用，使用车主太多有点扛不住

05-27

博主质疑问界M9路测视频系AI生成，却被立刻打脸

05-27

华为“韬定律”背后，中国芯都在押注“时间折叠”

05-27

猛士引望战略合作2.0启动：首期推出5款新车

05-27

影迷怀疑《给阿嬷的情书》被偷票房：平台客服回应

05-27

日本高超音速发动机测试成功东京飞洛杉矶有望缩短至两小时

05-27

黄仁勋谈AI时代教育重点：专业选择退居其次

05-27

字节向Seed开放豆包股认购，每股13美元

05-27

点击查看更多 +

全站最新

油价重压燃油车，合资新能源转型加速，能否在中国市场破局突围？

广汽埃安法务部重拳出击黑水军：证据已完备法律武器捍卫品牌权益

速腾聚创与石头科技强强联手，3D感知赋能割草机器人开启智能新赛道

石头科技荣膺福布斯DTC跨境影响力品牌，以深度本地化运营构建全球品牌新版图

个人出书服务商怎么选？技术适配服务全，这家12年经验公司值得了解

义乌华展国际建站：解析网站技术局部更新与整体稳定并存的演进路径

热门内容

本栏最新

网界 - 新财经新科技新未来 - 网界传媒旗下网站 - 中国 · 北京
合作咨询微信：netspread（注明:网界）
网界^®是本公司38类注册商标，是该商标的唯一持有者，未经授本公司授权，严禁使用。
Copyright © CNU 2012-2022 www.cnu.com.cn All rights reserved. 鲁ICP备2022032383号-6 鲁公网安备37010202700502号