近期,科技界的目光被一则消息所吸引:国内互联网巨头字节跳动正悄然加速其在通用人工智能领域的布局。据知情人士透露,字节跳动的人工智能核心部门Seed正秘密研发一款名为“世界模型”的先进AI系统,旨在与谷歌的Genie3和meta的V-JEPA 2一较高下。
这款“世界模型”项目已进入关键阶段,由前通义千问团队的核心成员周畅领衔。该项目充分利用了字节跳动旗下抖音和TikTok的海量视频数据资源,并结合自研的E-4D框架,目标直指虚拟世界模拟与机器人训练等前沿科技领域。这一举动标志着字节跳动正式加入了全球AI巨头的竞争行列。
“世界模型”的核心在于模拟真实环境的物理规律和人类互动方式,未来有望应用于机器人训练、自动驾驶系统构建以及虚拟世界的打造。它被视为通向通用人工智能(AGI)的关键路径之一,旨在通过构建能够模拟真实物理世界的数字孪生环境,实现AI技术的飞跃。
据悉,字节跳动的这款新模型将深度融合抖音每天超过10亿次的视频流数据,这些数据涵盖了人物行为、物体运动、场景交互等多维度的动态信息,为AI模型的训练提供了丰富且逼真的素材库。尤为近期开源的EX-4D技术将在这一过程中发挥关键作用。这项技术能够将单目视频转化为4D多视角场景,突破了传统图像处理技术的局限,为实现时空连续性的环境建模奠定了坚实基础。
在全球AI竞赛日益激烈的背景下,字节跳动在AI领域的布局显得相对低调而稳健。尽管谷歌的Genie3凭借其强大的场景连贯性和文本驱动事件修改功能已占据先机,而meta的V-JEPA 2则通过独特的联合嵌入预测架构实现了物理推理能力的突破,但字节跳动的新模型依然备受期待。
面对行业巨头的强势表现,字节跳动的新模型需要在保持其在短视频数据处理领域优势的同时,努力突破物理仿真与长时程一致性等技术瓶颈。从战略层面来看,字节跳动的“世界模型”布局与其核心业务形成了深度协同。抖音和TikTok积累的超过20亿用户行为数据为模型构建提供了独特的人物交互训练集,这为未来构建虚实融合的交互场景奠定了坚实基础。
展望未来,如果字节跳动能够成功将其在移动互联网时代的终端优势复制到AI领域,结合旗下的PICO设备以及其他智能家居生态,那么一个全新的虚实融合交互时代或将到来。