科技·商业·财经

视频模型背后的“隐形巨兽”:数据存储与带宽成本成发展拦路虎

   时间:2026-06-07 09:27 作者:互联网

在人工智能领域,烧钱竞赛从未停歇。xAI耗资超10亿美元打造Colossus超算集群,OpenAI每月算力支出高达数亿美元,Anthropic的融资几乎等同于购买GPU时数——这些数字背后,折射出行业对算力的狂热追逐。但当人们将目光聚焦于GPU堆砌时,一位前xAI研究员的爆料,却撕开了另一个被忽视的成本黑洞。

Ethan He在2025年加入xAI时,面对的是从零开始的局面。他带领小团队仅用三个月就开发出行业领先的Grok Imagine视频生成系统,却在复盘时发现:存储和搬运视频数据的成本,远超外界想象。"仅存储视频特征数据,每月就要烧掉数百万美元,这还没算上算力开支。"他在播客中的这番话,让整个行业开始重新审视视频AI的真正门槛。

训练世界级视频模型的成本究竟有多高?以处理10亿条平均5MB的视频为例,原始数据存储就需要5PB空间。按AWS S3标准定价,每月存储费约10万美元。但真正惊人的是压缩后的特征数据——这些模型可理解的"潜在空间"向量,体积与原始视频相当,存储成本直接翻倍。更致命的是数据进出费:在公有云环境下,从互联网下载这些视频的带宽成本,竟比存储费用更高。

"每次训练都要把全量数据过一遍,迭代次数越多,成本就呈指数级增长。"Ethan指出,视频模型研发的关键在于快速迭代,但公有云的计费模式却与这一需求完全背离。他在英伟达参与Cosmos项目时便意识到,视频模型存在类似语言模型的"规模定律",但真正限制发展的不是算法,而是数据搬运成本。这解释了他为何选择加入拥有自建数据中心的xAI——Colossus集群为他提供了突破瓶颈的关键环境。

这种基础设施门槛正在重塑行业格局。与大语言模型领域开源与闭源的激烈竞争不同,视频生成赛道呈现出截然不同的生态:Sora、Veo、可灵等顶尖模型均出自资源雄厚的科技巨头,没有一家创业公司能仅靠算法优势突围。Ethan透露,某团队曾尝试用公有云训练视频模型,仅数据成本就达到每月数百万美元,这还不包括GPU费用。"即使有顶级算法团队和充足融资,只要还在用公有云,就是在用烧钱速度与对手的自建机房赛跑。"

视频AI的护城河远比想象中复杂。Ethan揭示了一个反直觉现象:视频模型的"智能"主要来自背后的语言模型。以"快乐的羊"测试为例,未经提示词重写的生成画面呆板如CG动画,而加入语言模型优化后,效果立即产生质的飞跃。"视频扩散模型本身只是执行者,真正理解用户意图的是语言模型。"这意味着,企业要在这个领域竞争,必须同时支撑语言和视频两套基础设施,并实现高效协同。

行业正在探索破局之道。提示词重写的Agent化、语言模型对视频工具的调度优化、传统软件处理中间环节等方案,都在尝试将语言推理与视频生成的成本分层计算。Ethan预测,当Agent生成的视频质量达到商业广告标准时,企业才会真正愿意付费,成本结构也将随之改变。但无论如何演变,数据存储与流转的控制权,始终是这场竞赛的入场券——在视频AI领域,有些账单从一开始就注定只有少数玩家能支付得起。

 
 
更多>同类内容
全站最新
热门内容