香港中文大学与MiniMax合作完成的一项研究,为人工智能生成长篇图像描述的难题提供了创新解决方案。该研究提出名为ClaimDiff-RL的新框架,通过精细化评判机制破解了AI描述图像时“说多错多、说少漏多”的困境。这一突破性成果以预印本形式发布,论文编号为arXiv:2605.20278,为AI视觉语言领域带来新的研究范式。
传统训练方式采用“整体评分”机制,如同给AI描述打“印象分”,无法区分错误类型。研究团队通过日常场景类比指出:若要求助理描述照片,其可能因过度谨慎而遗漏关键细节,或因大胆猜测而编造不存在的内容。AI系统同样面临这种困境——为避免错误,AI倾向于生成简短描述,导致重要信息缺失。实验数据显示,采用整体评分训练的AI在200步训练中,幻觉数量(描述不存在物体)下降40%,但遗漏数量(未描述存在物体)激增67%,形成明显剪刀差。
ClaimDiff-RL的核心创新在于将“总体打分”转化为“逐条核查”。该框架引入三方核查机制:由被训练AI生成“演员描述”,强大AI生成“参考描述”,再通过“裁判AI”进行差异分析。裁判AI首先识别两份描述的具体差异点,如颜色、数量、物体存在性等,然后对照原始图片验证每条差异的对错,最终标注错误类型(如颜色幻觉、数量错误)及严重程度(轻微、中等、严重)。这种分类方式借鉴医学检查报告,使错误评估更具颗粒度。
奖励计算机制是框架的另一关键设计。研究团队开发两种奖励模式:“相对奖励”通过比较演员描述与参考描述的错误总量确定奖励,鼓励AI超越参考描述的覆盖率;“仅演员奖励”则专注于减少AI自身的错误。错误严重程度采用递进权重(1:1.25:1.6),严重错误(如虚构物体)的惩罚力度是轻微错误的1.6倍。这种差异化惩罚机制有效抑制了AI编造信息的倾向。
为防止AI通过模糊表达规避惩罚,研究团队设计双重保障机制。裁判AI提示词明确规定:当图片内容清晰时,模糊表述本身即构成错误。同时,系统统计描述中的不确定词汇(如“可能”“大概”)及两可表达(如“A或B”),每90词允许1次模糊表达,超额部分采用乘法式惩罚(每多1词奖励乘以0.905)。这种设计既保留合理不确定性表达的空间,又遏制刻意模糊行为。
实验设置严格控变量以验证框架有效性。研究选用Qwen3-VL-32B-Instruct作为基础模型,先用200万张图片进行监督微调,再在1万张图片上开展强化学习训练。对比实验中,所有训练方式使用相同数据、模型和生成设置,仅奖励计算方式不同。评估体系包含三个维度:160张图片的诊断基准测试区分幻觉与遗漏,Capability基准测试评估物体识别、空间关系等子能力,五个通用视觉问答测试检测模型跨任务性能。
实验结果证实框架优势。在诊断基准测试中,ClaimDiff-RL相对奖励方式使幻觉数量减少27%的同时,遗漏数量仅增加8%,而整体评分方式导致遗漏激增67%。Capability测试显示,该框架将综合F1分数从69.5提升至71.5,其中数量计数提升13%、空间关系提升11%,部分维度表现超越参考描述生成模型Gemini-3-Pro-Preview。通用视觉问答测试进一步证明,框架不仅未损害模型基础能力,反而使平均分提升9.3%,直接训练基础模型更实现0.62分提升。
错误权重调节实验提供实用控制参数。当严重程度权重设为1:1.25:1.6时,模型在幻觉与遗漏间取得最佳平衡;强化权重至1:1.5:2时,幻觉减少39%但遗漏增加21%,适用于对准确性要求极高的场景;均等权重(1:1:1)则使遗漏降至最低但幻觉增加18%,适合需要高覆盖率的场景。这种可调节性使框架能适应不同应用需求。
评判系统可靠性通过双重验证。人类专家审核显示,自动标注准确率达87%,满足统计需求;跨评判模型一致性检验表明,有参考描述时幻觉计数的斯皮尔曼相关系数达0.537,验证参考描述作为“比较锚点”的有效性。研究特别强调,参考描述仅作为话题引导者,最终对错由原始图片裁定,即使参考描述存在错误,正确描述仍会被判定无误。
该研究通过精细化评判机制,使AI训练过程从“黑箱打分”转变为“可诊断优化”。研究者可清晰识别模型在颜色识别、数量计数等维度的具体问题,并通过调节权重参数定向改进。这种透明可解释的训练方式,为AI视觉语言模型的发展提供了新的方法论参考。






