科技·商业·财经

Cerebras芯片助力GPT-5.5推理加速,AI推理赛道竞争格局生变?

   时间:2026-05-19 09:52 作者:天脉网

在纳斯达克敲钟当日,Cerebras以560亿美元估值创下2026年科技领域最大IPO纪录,股价单日飙升68%。这家以晶圆级芯片颠覆行业规则的公司,正凭借每秒2000 token的推理速度搅动AI硬件市场,但一场关于技术可行性的质疑风暴也随之而来。

推动Cerebras市值狂奔的核心动力,源自其与OpenAI的深度绑定。据公司CFO在IPO前夜透露,Cerebras不仅在运行GPT-5.4和GPT-5.5等万亿参数模型,更通过246亿美元的订单成为OpenAI推理基础设施的关键供应商。这种排他性合作条款明确禁止向Anthropic等竞争对手提供服务,形成事实上的技术联盟。

支撑其性能神话的是WSE-3芯片的颠覆性设计。这块直径30厘米的晶圆级芯片集成4万亿晶体管,通过44GB SRAM实现21PB/秒的内存带宽。相较于传统GPU依赖HBM的架构,SRAM在推理场景中展现出压倒性优势——当模型逐个生成token时,WSE-3可近乎全速调用15.6 PFLOPS算力,而英伟达Blackwell GPU的实际利用率不足20%。这种差异使得Cerebras在120B参数模型上实现2000 token/秒的突破,较Anthropic Opus 4.6 fast快20倍。

但技术光环下隐藏着致命缺陷。SemiAnalysis的技术拆解报告指出,Cerebras当前公开云服务中最大模型仅为120B参数,预览模型上限355B。当面对DeepSeek V4等1.6万亿参数模型时,44GB内存容量迫使系统采用层分割技术,将模型拆解到12块晶圆上运行。这种分布式架构导致层间通信延迟呈指数级增长,实际推理速度可能低于传统GPU集群。

市场已出现明显分化。在要求极致速度的细分领域,Cerebras获得Cognition、Notion等企业青睐,其快速模式在AI编程工具Devin中实现1000 token/秒的输出。但SemiAnalysis采集的43.2万条真实请求显示,近半数需求超过128K上下文窗口限制,这恰是Cerebras当前架构的硬伤。随着Agent应用对长文本处理需求激增,内存容量与通信带宽的矛盾可能进一步加剧。

行业观察家指出,Cerebras的困境折射出AI硬件发展的核心悖论:追求极致速度的专用架构与通用大模型需求之间存在根本性冲突。虽然OpenAI通过架构分割策略,将AWS Trainium、Cerebras和GPU分别用于输入理解、token生成和长上下文处理,但这种多硬件协同模式能否规模化推广仍存疑问。当推理算力消耗预计在2027年占AI总需求的80%时,这场关于速度、容量与成本的三角博弈将决定下一代硬件的走向。

 
 
更多>同类内容
全站最新
热门内容