“我语言的局限,即意味着我世界的局限。”哲学家维特根斯坦的这句名言,在人工智能领域引发了新的思考。当大语言模型以离散token序列作为“语言”时,其认知边界似乎也被牢牢限制在token的表达范围内。这种结构性困境,让业界开始质疑:仅靠当前的大语言模型范式,能否真正实现通用人工智能(AGI)?
2024年,OpenAI前首席科学家Ilya Sutskever在NeurIPS大会上抛出惊人观点:“预训练即将终结。”两年后,图灵奖得主Yann LeCun离开meta创办AMI Labs,直言“大语言模型路线错了”。两位深度学习领域的领军人物,一位选择颠覆自己亲手开启的预训练时代,另一位则坚持世界模型路线,试图为LLM开辟新方向。他们的判断并非否定当前模型的价值——大模型的用户规模和产业价值仍在持续增长,但技术路径上的天花板已清晰可见:通往AGI的路上,现有范式存在根本性局限。
突破这一局限的尝试正在涌现。2026年5月,MIT何恺明团队与字节跳动Seed实验室几乎同时发布论文,提出语言生成的核心建模过程可转移至连续空间。何恺明团队的ELF模型通过“嵌入式语言流”技术,将文字生成全程置于连续向量空间,仅在最后一步投影为人类可读文字。实验显示,其用32个采样步生成的文本质量,超越了离散模型1024步的结果,且训练数据量仅为同类方法的十分之一。字节跳动的Cola DLM模型则采用类似思路,在语义潜空间中建模全局先验,最终解码回文字。两篇论文共同指向一个结论:token并非语言建模的必要条件,连续空间范式可能拥有更高上限。
科技巨头的行动印证了这一趋势。Google是最早布局“原生多模态统一”的公司,其Gemini系列模型从训练阶段就实现文本、图像、音频、视频的共享注意力层,2026年推出的Gemini Embedding 2更将所有模态映射至同一3072维向量空间。OpenAI虽在GPT-5系列中强化多模态能力,但外媒报道其视频生成应用Sora因算力消耗过大被砍,显示其在等待更高效的架构方案。字节跳动则凭借抖音/TikTok的海量视频数据,将连续潜空间架构应用于视频生成模型Seedance系列。相比之下,Anthropic的选择显得另类:其Claude模型刻意回避多模态生成,专注文本推理与代码执行,虽在商业上取得成功,但可能为未来竞争埋下技术隐患。
独立研究者的动向同样值得关注。Ilya Sutskever创办的SSI公司未发布任何产品或论文,却凭借“下一个范式”的判断力获得20亿美元融资;Yann LeCun的AMI Labs融资10.3亿美元,押注“联合嵌入预测架构”(JEPA),试图在抽象空间中预测物理后果而非生成逼真输出。LeCun直言:“自回归机制本质是在字符级别复现统计规律,而非建模世界因果。”这一观点与ELF/Cola DLM的哲学相通,但路径截然不同。
若token范式真的衰退,哪些领域将首当其冲?视频tokenizer公司可能面临最大冲击。VQ-VAE、MAGVIT等技术依赖“高质量视频离散编码”,但当语言生成都转向连续空间时,视频数据更无理由被压缩为离散序列。多模态产品叙事也可能失去差异化价值——当所有模态共享同一连续空间时,“支持多模态”将如同“支持中英文”般成为基础配置。更深远的影响在于商业模式:当前行业按token收费的逻辑,建立在自回归模型成本透明的基础上。若扩散模型用固定步数生成任意长度文本,输出长度与计算量脱钩,“消耗多少token”将不再反映真实成本。
回到核心问题:大语言模型范式能实现AGI吗?从信息论角度看,token范式存在硬上限——人类语言作为有损压缩协议,在编码时就已丢弃世界的大量结构,基于压缩产物的建模无法还原这些维度。ELF和Cola DLM虽证明连续空间更高效,但其训练数据仍来自人类产出的有损内容。LeCun的解决方案是“世界模型”,通过预测物理后果而非生成内容来理解世界。但即便突破token限制,新问题随之而来:当模型不再受限于人类语言的压缩格式时,它需要的新训练信号从何而来?答案或许指向主动探索——让AI在世界中行动、承受后果、从反馈中学习,即递归自我改进(RSI)。这一命题,将成为下一阶段争论的焦点。






