近日,字节跳动联合加州大学、普林斯顿大学、蒙特利尔大学、北京大学及卡内基梅隆大学等顶尖机构,推出了一款名为Ouro的新型语言模型。该模型通过在预训练阶段引入“循环思考”机制,仅用14亿参数便实现了与百亿级模型相当的推理能力,为语言模型领域带来了全新范式。
传统语言模型的推理能力通常依赖“思维链”(Chain-of-Thought)技术,即通过生成冗长的中间文本逐步推导答案。这种方式虽能提升性能,但存在明显局限:模型更像是在“事后解释”答案,而非真正理解问题逻辑。Ouro模型则突破了这一框架,其名称源自“衔尾蛇”(Ouroboros)的循环意象,通过构建循环语言模型(LoopLM),将推理能力直接嵌入预训练阶段。
Ouro的核心创新体现在三个方面:首先,它在潜在空间中进行迭代计算,使模型能反复“咀嚼”问题;其次,引入熵正则化目标,帮助模型根据问题难度动态分配思考深度;最后,通过7.7万亿tokens的海量数据训练,确保模型在复杂任务中的稳定性。实验表明,14亿参数的Ouro模型在数学推理等任务中表现优于40亿参数的Qwen3-Base,26亿参数版本更是在专业评测中超越了80亿参数的同类模型。
该模型的架构设计极具巧思。其核心是一个参数共享的循环结构,通过重复调用相同的变换器模块(transformer block),在不显著增加参数量的前提下实现深度推理。为保证多轮迭代的稳定性,研究团队采用了旋转位置嵌入(RoPE)、SwiGLU激活函数及三明治式层归一化(RMSNorm)等技术。Ouro还引入了自适应计算机制:每轮循环后,模型会通过“退出门”判断是否需要继续思考,简单问题可能1-2次迭代即完成,复杂问题则深入循环。熵正则化目标进一步优化了这一过程,避免模型陷入“过早退出”或“过度循环”的极端。
与依赖显式推理链的传统模型不同,Ouro的推理过程发生在模型内部的隐藏状态中,更接近人类的“默想”或“顿悟”。这种潜在推理(Latent Reasoning)方式保留了思考的连续性和丰富性,同时避免了将复杂逻辑压缩为离散文字符号的带宽限制。对照实验显示,Ouro在需要多步推理的任务中表现尤为突出,其优势并非源于记忆更多知识,而是更擅长组合和运用已有信息。
Ouro的突破为语言模型的发展开辟了新路径。它证明了通过架构创新提升模型“内部计算深度”的有效性,尤其在边缘计算、移动应用等资源受限场景中具有显著优势。然而,该模型也面临挑战:现有推理加速框架多针对固定计算路径设计,难以充分发挥其动态计算深度的潜力;如何将强化学习融入动态架构以提升模型对齐能力,仍是待解决的问题。尽管如此,Ouro的探索确立了“循环深度”作为模型扩展的新维度,为人工智能的未来发展提供了重要参考。















