科技·商业·财经

​OpenAI研究人员:破解大语言模型“幻觉”需从评估指标入手,避免奖励猜测​

   时间:2025-09-07 00:17 作者:沈瑾瑜

在人工智能领域,大语言模型的“幻觉”问题长期困扰着行业——这些模型有时会将错误信息当作事实输出,几乎所有主流产品都存在这一缺陷。近日,OpenAI的研究团队在最新论文中提出,该问题的根源在于现有训练机制过度鼓励模型“猜测答案”,而非坦诚表达不确定性。

研究指出,当前模型训练过程中,评估标准更倾向于奖励“自信回答”,即使答案错误也能获得较高分数。这种机制导致模型被优化为“考试型选手”,在面对不确定问题时倾向于猜测而非承认“不知道”。研究人员比喻称,模型如同被迫参加一场永远没有“不确定”选项的考试,而现实世界的问题往往没有绝对正确的答案。

不同模型在这一问题上的表现存在显著差异。OpenAI此前发布的对比数据显示,Claude模型在面对不确定信息时更倾向于拒绝回答,而非给出错误答案。但研究团队同时指出,这种策略虽然降低了幻觉风险,却也导致拒答率过高,可能影响用户实际使用体验。

论文强调,现有评估体系与真实场景需求严重脱节。人类在现实互动中会逐渐学会表达不确定性的价值,但模型依赖的标准化测试却惩罚了“不确定”的回答。研究人员认为,这导致模型始终处于“考试模式”,将复杂问题简化为非黑即白的选择。

“问题的核心在于评估指标的错位。”研究团队提出,必须重新设计评分机制,避免模型因拒绝回答不确定问题而被扣分。当前广泛使用的基于准确率的评估方式需要更新,新的打分体系应当抑制模型“乱猜”的冲动。

OpenAI在配套博文中进一步解释,如果排行榜继续奖励侥幸正确的回答,模型开发者就会持续优化猜测能力,而非提升真实理解水平。研究团队呼吁行业建立更符合现实需求的评估标准,例如引入对不确定性表达的奖励机制,或设计能区分“合理猜测”与“随意回答”的评分模型。

 
 
更多>同类内容
全站最新
热门内容