字节跳动加速AI布局，挑战谷歌Meta，角逐“世界模型”赛道

时间：2025-08-21 12:30 作者：顾雨柔

近期，科技界的目光被一则消息所吸引：国内互联网巨头字节跳动正悄然加速其在通用人工智能领域的布局。据知情人士透露，字节跳动的人工智能核心部门Seed正秘密研发一款名为“世界模型”的先进AI系统，旨在与谷歌的Genie3和meta的V-JEPA 2一较高下。

这款“世界模型”项目已进入关键阶段，由前通义千问团队的核心成员周畅领衔。该项目充分利用了字节跳动旗下抖音和TikTok的海量视频数据资源，并结合自研的E-4D框架，目标直指虚拟世界模拟与机器人训练等前沿科技领域。这一举动标志着字节跳动正式加入了全球AI巨头的竞争行列。

“世界模型”的核心在于模拟真实环境的物理规律和人类互动方式，未来有望应用于机器人训练、自动驾驶系统构建以及虚拟世界的打造。它被视为通向通用人工智能（AGI）的关键路径之一，旨在通过构建能够模拟真实物理世界的数字孪生环境，实现AI技术的飞跃。

据悉，字节跳动的这款新模型将深度融合抖音每天超过10亿次的视频流数据，这些数据涵盖了人物行为、物体运动、场景交互等多维度的动态信息，为AI模型的训练提供了丰富且逼真的素材库。尤为近期开源的EX-4D技术将在这一过程中发挥关键作用。这项技术能够将单目视频转化为4D多视角场景，突破了传统图像处理技术的局限，为实现时空连续性的环境建模奠定了坚实基础。

在全球AI竞赛日益激烈的背景下，字节跳动在AI领域的布局显得相对低调而稳健。尽管谷歌的Genie3凭借其强大的场景连贯性和文本驱动事件修改功能已占据先机，而meta的V-JEPA 2则通过独特的联合嵌入预测架构实现了物理推理能力的突破，但字节跳动的新模型依然备受期待。

面对行业巨头的强势表现，字节跳动的新模型需要在保持其在短视频数据处理领域优势的同时，努力突破物理仿真与长时程一致性等技术瓶颈。从战略层面来看，字节跳动的“世界模型”布局与其核心业务形成了深度协同。抖音和TikTok积累的超过20亿用户行为数据为模型构建提供了独特的人物交互训练集，这为未来构建虚实融合的交互场景奠定了坚实基础。

展望未来，如果字节跳动能够成功将其在移动互联网时代的终端优势复制到AI领域，结合旗下的PICO设备以及其他智能家居生态，那么一个全新的虚实融合交互时代或将到来。

更多>同类内容