科技·商业·财经

字节与何恺明团队“同频共振”:Cola DLM开启语言模型连续空间新探索

   时间:2026-05-19 22:48 作者:天脉网

大语言模型的发展是否只能依赖“预测下一个token”的路径?字节跳动与何恺明团队近期的研究给出了否定答案。双方不约而同地将目光投向连续语义空间,试图通过新的建模方式突破传统框架的局限。字节跳动推出的Cola DLM(Continuous Latent Diffusion Language Model)更以开源形式释放了论文、代码和模型权重,引发学术界关注。

传统大模型通常将不同表达视为独立样本学习,例如“今天很开心”与“过得挺愉快”会被分别记忆。字节团队认为,这种模式忽略了语义的本质——相同含义的句子应收敛到相近的内部表示。Cola DLM的核心创新在于将语义生成与文本翻译解耦:模型先在连续空间中组织潜在语义,再通过解码器将其转化为具体文字。这一过程跳过了离散token的逐步生成,转而关注语义状态的形成。

研究团队构建了专门的Text VAE架构处理语义与文本的转换:编码器将离散文本压缩为连续潜在变量,解码器则负责还原。与直接操作token嵌入不同,Cola DLM的潜在变量是可概率建模的随机变量,能够捕捉整段文本的语义状态。为避免语义表示退化为“穿马甲的token”,模型在训练中冻结编码器参数,仅让扩散先验适应语义空间,并通过BERT风格的掩码损失防止语义坍塌。

在技术实现上,Cola DLM采用block-causal DiT+Flow Matching组合替代传统扩散模型。该方案通过学习向量场将简单分布(如高斯分布)“运输”至真实语义分布,同时引入块结构平衡局部语义组织与整体逻辑连贯性。实验显示,在约20亿参数、2000 EFLOPs计算量的对照中,Cola DLM展现出比自回归模型和离散扩散模型更稳定的扩展趋势。

研究团队将训练目标拆解为重建、压缩和拟合三个可独立诊断的子任务。这种设计使得模型性能优化更具针对性——当生成效果不佳时,可通过指标快速定位是解码器还原能力不足、语义压缩信息量不够,还是先验分布学习偏差导致。相比之下,传统自回归模型将所有目标混杂在单一损失函数中,难以精准定位问题根源。

与何恺明团队提出的ELF模型相比,Cola DLM展现出不同的技术路径。ELF在原始嵌入空间直接操作,通过反复迭代优化最终生成文本;而Cola DLM则采用分层架构,由语义部门与文本部门分工协作。尽管方法差异显著,但两者均试图突破“token等于语义”的默认框架,探索更适合语言本质的建模空间。

这项研究对多模态统一具有潜在启示。当前跨模态建模的障碍之一在于文本的离散性与图像、视频的连续性存在鸿沟。Cola DLM通过将文本映射至连续语义空间,为不同模态共享潜在表示提供了可能。研究团队在博客中强调,这仅是早期尝试,但连续扩散语言模型已展现出重新定义文本建模方式的潜力。

 
 
更多>同类内容
全站最新
热门内容