科技·商业·财经

面壁智能携手清华开源1.58-bit大模型BitCPM-CANN 推动AI技术新突破

   时间:2026-05-25 15:52 作者:快讯

面壁智能携手清华大学及OpenBMB开源社区,共同推出并开源了一款具有里程碑意义的三值(1.58-bit)大模型——BitCPM-CANN。这款模型依托华为昇腾平台完成训练,标志着中国在人工智能大模型训练领域实现了技术跃迁,为低比特计算范式提供了全新解决方案。

作为国内首个全链路原生开发的低比特大模型,BitCPM-CANN构建了从量化算子到训练算法的完整技术体系。该模型提供0.5B、1B、3B和8B四种参数规模版本,经与全精度模型MiniCPM4的对比测试显示,其推理阶段显存占用降低约83%,使8B参数模型可在主流旗舰手机上流畅运行。这一突破将显著降低端侧AI部署门槛,为移动设备智能化升级提供关键技术支撑。

技术实现层面,研发团队基于MindSpeed与Megatron-LM框架打造了低比特训练基础设施,集成环境适配、32K长序列处理、并行计算策略等核心模块。该平台已形成标准化工程体系,可支持所有面向昇腾架构的低比特训练任务,使开发者无需重复构建底层架构,技术迭代效率提升40%以上。

为促进技术生态发展,项目组已将全部模型权重通过HuggingFace和ModelScope平台开源。开发者可基于这些资源开发智能助手、实时翻译、图像生成等多样化应用,推动AI技术在更多场景的落地转化。此举预计将加速低比特大模型在工业界的普及,形成技术创新的良性循环。

该成果的发布不仅验证了国产算力平台的成熟度,更展示了中国科研团队在AI基础技术领域的创新能力。通过硬件-算法-工具链的协同优化,项目团队成功突破了低比特训练的精度损失难题,为全球AI社区贡献了具有自主知识产权的技术方案。

 
 
更多>同类内容
全站最新
热门内容