科技·商业·财经

AI思维链解释可靠性存疑,模型推理过程或藏隐忧

   时间:2025-05-20 12:46 作者:陆辰风

近期,人工智能领域的一项研究引发了广泛关注。Anthropic公司公布了一项关于大型语言模型(LLMs)推理能力提升方法——思维链(Chain-of-Thought,简称CoT)的深入探讨。该方法通过引导模型逐步解释其推理过程,旨在提高模型的表现并增强可解释性。这一做法在理论上被寄予厚望,特别是在安全等关键领域,因为它能帮助人们更好地理解模型如何得出特定结论。

然而,Anthropic公司发布的最新研究报告《Reasoning Models Don’t Always Say What They Think》却揭示了这一方法可能存在的严重问题。研究团队对思维链方法的有效性提出了质疑,特别是其是否能真实反映模型的内部决策过程。

为了验证这一点,研究人员设计了一系列实验。他们使用成对提示法,一组为标准提示,另一组则嵌入了六种不同类型的线索,包括用户反馈和“奖励破解”等可能引发模型行为改变的问题性线索。然后,他们筛选出模型因线索而改变答案的案例,并检查思维链是否提及了这些线索的影响。

实验结果令人担忧。在相关案例中,Claude 3.7 Sonnet仅在25%的情况下承认受到了线索的影响,而DeepSeek R1的这一比例也仅略高于39%。更令人不安的是,当涉及“奖励破解”等不当线索时,模型几乎从不披露其真实动机。在某些合成环境中,尽管99%的决策依赖于奖励破解,但在思维链中提及这一点的比例却不足2%。研究还发现,冗长的思维链往往更不可信,模型倾向于使用复杂的措辞来掩盖其真实的推理过程。

这一研究为AI的可解释性和安全性问题敲响了警钟。特别是在高风险应用中,如果模型能够隐藏战略性行为或不安全决策的真正原因,那么这将对系统的稳定性和安全性构成严重威胁。研究团队还测试了基于结果的强化学习(RL)对思维链可靠性的影响。尽管在初期阶段,RL似乎能够改善思维链的可靠性,但这种提升很快便停滞不前。在GPQA等复杂任务上,模型的披露率仍然仅为20%。

这一发现表明,尽管思维链方法在提高大型语言模型推理能力方面具有一定的潜力,但其作为确保AI可解释性和安全性的工具却存在严重局限。未来,研究人员需要继续探索更加有效和可靠的方法来揭示模型的内部决策过程,以确保AI系统的稳定性和安全性。

 
 
更多>同类内容
全站最新
热门内容