科技·商业·财经

揭秘大语言模型推理机制:从Token生成到强化学习微调的深度剖析

   时间:2025-08-31 08:13 作者:苏婉清

在人工智能的浩瀚宇宙中,大语言模型(LLM)的推理能力一直是研究者们探索的热点。近期,Google DeepMind的首席科学家兼研究总监Denny Zhou在斯坦福大学的CS25课程上,为听众们揭开LLM推理机制的神秘面纱,分享了他的深刻见解。

作为AI领域的领航者,Denny Zhou通过这场精彩的讲座,系统地阐述了LLM推理机制及其优化方法,让听众们领略到大模型推理的核心原理与最新进展。他提出,LLM中的推理,实质上是在得出最终答案前生成一系列中间token的过程。这一过程与人类推理是否相似并不重要,关键在于Transformer模型能够借此变得异常强大,且无需扩大模型规模。

令人惊讶的是,即便未经任何微调,预训练模型也已具备推理能力。然而,挑战在于,基于推理的输出往往不会占据输出分布的顶端,因此传统的贪婪解码法无法将其呈现。为此,科学家们探索了多种方法,如提示技巧(如思维链提示)和监督式微调,而今,强化学习微调已成为最强大的手段。这一技巧由多个实验室独立发现,在谷歌,则要归功于Jonathan Lai的贡献,他基于理论提出,强化学习应专注于生成长响应。

Denny Zhou还指出,通过生成多个响应并将它们聚合,而非依赖单个响应,可以显著提升LLM的推理能力。这一观点为LLM推理能力的提升开辟了新路径。

Denny Zhou不仅在Google DeepMind担任顶尖科学家,还曾在Google Brain创立并领导推理团队,该团队现隶属于DeepMind,专注于开发具备推理能力的大语言模型,以推动人工智能向通用智能迈进。他的研究聚焦于链式思考提示、自一致性和LLM优化等领域,在Google Scholar上累计获得超过83,000次引用,对机器学习和AI领域做出了巨大贡献。

在CS25《Transformers United V5》课程中,Denny Zhou与众多AI顶尖研究人员共同探讨了人工智能的最新突破,从GPT等大型语言模型到艺术、生物和机器人领域的应用。该课程在斯坦福大学内外广受欢迎,YouTube上的观看次数高达数百万。

关于LLM推理,Denny Zhou认为,中间token在推理中扮演着至关重要的角色。他与斯坦福大学的Tayma教授及其学生合作,提出了一个理论:任何可通过布尔电路解决的问题,都可通过生成中间token,用恒定大小的Transformer模型解决。这一理论为从理论角度理解推理提供了新思路。

在推理的技术细节上,Denny Zhou指出,语言模型已具备推理能力,关键在于解码过程。例如,在解决简单数学问题时,若使用贪婪解码法,模型可能会给出错误答案。但若考虑更多候选答案,采用链式推理解码,模型就能产生更正确的答案。链式推理解码包含两个步骤:超越贪婪解码,检查更多生成候选;选择最终答案置信度更高的候选。

Denny Zhou还探讨了监督微调(SFT)方法的局限性及其改进方向。SFT方法通过收集一系列问题及其逐步解决方案,最大化人类解决方案的可能性来训练模型。然而,其泛化能力有限。DeepMind意识到这一问题后,尝试了自我提升方法,即让模型生成数据,再依据正确答案选择正确步骤。这一方法减少了昂贵的人工标注成本,实现了模型的自我改进。

在讲座中,Denny Zhou还分享了强化学习微调在LLM推理中的优势。通过强化学习微调,模型能够生成更准确的推理过程,提高泛化能力。然而,并非所有任务都可由机器自己验证,如写作和代码编程。因此,LLM仍需在预测模型的基础上不断优化。

 
 
更多>同类内容
全站最新
热门内容