科技·商业·财经

SpaceX因硬件瓶颈出租算力:网络延迟与芯片混用致自家AI训练遇阻

   时间:2026-06-13 12:57 作者:快讯

据知情人士透露,SpaceX近期调整了其孟菲斯Colossus 1数据中心的运营策略,将该设施的全部算力资源转租给人工智能公司Anthropic。这一决策源于公司在构建跨区域AI训练集群时遭遇的技术瓶颈,特别是网络延迟与硬件兼容性问题对模型训练效率造成显著影响。

原计划中,SpaceX拟通过三个相距超16公里的数据中心组成超级计算网络,为旗下Grok AI模型提供算力支持。但在实际连接过程中,老化的网络基础设施导致数据传输出现明显延迟,直接拖累了整个集群的运算效能。行业专家指出,AI大模型训练对网络带宽和低延迟要求极高,基础设施的细微短板都可能引发连锁反应。

硬件配置差异进一步加剧了整合难度。Colossus 1内部混装了英伟达Hopper、Blackwell等多代芯片及旧款加速器,而同期建设的Colossus 2、3则统一采用Blackwell架构。这种代际差异导致高速芯片被迫等待慢速设备同步,使得集群整体性能趋近于最弱环节,形成"木桶效应"。SpaceX工程师测试显示,混合架构下的训练效率较单一架构降低约40%。

面对持续攀升的基建投入,SpaceX管理层重新评估了资源分配方案。将已建成的Colossus 1转租给专业AI公司,既能回收部分建设成本,又可集中资源优化剩余两个数据中心的硬件配置。财务数据显示,该设施自投运以来实际利用率长期不足60%,转租后预计每年可为SpaceX带来数亿美元收入。

此次调整并未影响SpaceX的AI战略布局。公司首席财务官布雷特·约翰森明确表示,Grok模型开发仍将持续推进,只是将训练任务转移至硬件更统一的Colossus 2、3设施。同时,SpaceX保留了与Anthropic合作协议的终止条款,为未来可能的算力需求激增预留了调整空间。

值得关注的是,马斯克旗下xAI公司此前已与谷歌达成类似算力合作协议。这种"自建+租赁"的混合模式,反映出科技巨头在AI军备竞赛中平衡成本与效率的现实考量。业内人士分析,随着大模型参数规模突破万亿级,数据中心集群的架构设计将成为决定训练成败的关键因素。

 
 
更多>同类内容
全站最新
热门内容