英伟达近期在人工智能领域再次迈出重要一步,推出了一款名为NVIDIA Nemotron Nano 2的全新语言模型。这款模型以其独特的Mamba-Transformer混合架构,为复杂的推理任务带来了前所未有的性能提升。
据悉,NVIDIA Nemotron Nano 2模型大小仅为9B参数,却在对标业界标杆Qwen3-8B时,展现出了相当甚至更优的表现。其背后的秘密武器,便是革命性的Mamba-Transformer混合架构。这一架构结合了Mamba状态空间模型的快速推理能力与Transformer架构的卓越性能,实现了在复杂推理基准测试中准确率的显著提升,同时吞吐量最高可达Qwen3-8B的6倍。
在英伟达官方网站的简单测试中,NVIDIA Nemotron Nano 2模型对于经典问题的回答准确无误,展现出了强大的实用性和可靠性。英伟达还为用户提供了三款实用小工具,包括实时天气查询、哈利波特角色描述以及颜色建议,进一步增强了用户的互动体验。
NVIDIA Nemotron Nano 2模型的成功,离不开其创新的Nemotron-H架构。该架构采用闪电般快速的Mamba-2层,替换了传统Transformer架构中绝大多数的自注意力层,从而在处理长篇大论和思考复杂长思维链时,实现了推理速度的史诗级提升。这一创新不仅提升了模型的性能,更为未来的AI发展开辟了新的道路。
值得注意的是,Mamba架构作为一种完全无注意力机制的序列建模架构,基于结构化状态空间模型(SSMs),通过“选择性机制”根据当前输入动态调整参数,专注于保留相关信息并忽略无关信息。这一特性使得Mamba在处理超长序列时,推理速度可比Transformer快3–5倍,且复杂度为线性级别,支持极长的上下文(甚至达到百万级token)。
为了打造NVIDIA Nemotron Nano 2模型,英伟达进行了精心的训练和压缩。首先,在一个拥有20万亿Token的海量数据集上,利用先进的FP8训练方案,锻造出一个120亿参数的基础模型——Nemotron-Nano-12B-v2-Base。然后,结合SFT、DPO、GRPO、RLHF等多阶段对齐方法,提升了推理、对话、工具调用与安全性。最后,通过Minitron策略进行极限压缩与蒸馏,将12B基础模型压缩为9B参数的NVIDIA Nemotron Nano 2模型。
在各大推理基准测试中,NVIDIA Nemotron Nano 2模型展现出了卓越的性能。在数学、代码、通用推理以及长上下文等基准测试中,其表现优于或持平同类开源模型,如Qwen3-8B和Gemma3-12B。同时,在8k输入/16k输出场景下,实现了6.3倍的吞吐量提升。
英伟达还宣布在HuggingFace平台上全面开放NVIDIA Nemotron Nano 2模型及其相关资源,包括支持128K上下文长度的推理模型、基础模型以及剪枝前的基模型。英伟达还开源了用于预训练的大部分数据,包括高质量网页、数学、代码、SFT和多语言问答数据等,为AI社区提供了宝贵的资源。
英伟达此次发布的NVIDIA Nemotron Nano 2模型,不仅展现了其在AI领域的深厚实力,更为开源社区注入了新的活力。随着AI技术的不断发展,我们有理由相信,未来将有更多创新性的模型和架构涌现,为人类社会带来更多的便利和进步。