科技·商业·财经

英伟达借收购扩展Rubin功能,Groq 3 LPU助力AI多智能体系统提速

   时间:2026-03-17 11:08 作者:冯璃月

在人工智能技术持续突破的背景下,英伟达在近日举办的GTC主题演讲中公布了一项重要技术进展:通过整合2025年从Groq收购的知识产权,公司正在为Rubin平台注入全新算力。这项创新的核心是一款名为Groq 3 LPU的推理加速器芯片,其设计理念突破了传统AI加速器的内存架构限制。

与主流AI加速器依赖高带宽内存(HBM)的方案不同,Groq 3 LPU采用500MB的静态随机存取存储器(SRAM)作为核心存储单元。这种常用于CPU/GPU高速缓存的存储技术,在单个芯片上实现了150TB/s的惊人带宽,相较HBM4的22TB/s带宽提升近7倍。尽管288GB的HBM4容量远超SRAM,但后者在处理带宽敏感型AI解码任务时展现出显著优势,特别适用于需要实时交互的生成式AI场景。

英伟达的工程团队将这种技术优势转化为系统级解决方案,推出了包含256个Groq 3 LPU的Groq 3 LPX机架。该系统通过专用扩展接口实现640TB/s的内部互联带宽,在128GB总SRAM容量的配置下,可提供高达40PB/s的推理加速能力。这种架构设计使得AI模型在处理万亿参数时,仍能保持数百万token上下文窗口的实时交互性能。

超大规模计算副总裁Ian Buck特别强调了该技术对多智能体系统的变革性影响。在传统架构中,AI代理间的通信吞吐量被限制在每秒100个token,而Rubin与Groq LPU的组合可将这一指标提升至1500个token/秒以上。这种数量级的提升,使得AI系统能够摆脱人类交互的节奏限制,真正实现智能体间的自主高效协作。

技术白皮书显示,这种架构创新源于对AI工作负载特性的深度理解。在需要处理数十亿参数的生成式模型中,约70%的计算资源消耗在内存访问环节。Groq 3 LPU通过将存储单元与计算核心紧密耦合,将内存延迟降低至传统架构的1/20,同时通过独特的数据流架构避免了HBM架构中常见的带宽争用问题。

行业分析师指出,这项技术突破可能重塑AI基础设施的竞争格局。特别是在需要处理超长上下文窗口的对话系统、多智能体协作平台等场景,英伟达的新方案展现出显著的性能优势。随着生成式AI从文本生成向复杂决策系统演进,这种低延迟、高吞吐的推理架构或将成为新一代AI基础设施的标准配置。

 
 
更多>同类内容
全站最新
热门内容