滚动资讯

当前位置：网界 > 行业动态 > 正文内容

港中大与MiniMax创新ClaimDiff-RL框架，破解AI图像描述两难困局

时间：2026-05-30 08:01 作者：互联网

香港中文大学与MiniMax合作完成的一项研究，为人工智能生成长篇图像描述的难题提供了创新解决方案。该研究提出名为ClaimDiff-RL的新框架，通过精细化评判机制破解了AI描述图像时“说多错多、说少漏多”的困境。这一突破性成果以预印本形式发布，论文编号为arXiv:2605.20278，为AI视觉语言领域带来新的研究范式。

传统训练方式采用“整体评分”机制，如同给AI描述打“印象分”，无法区分错误类型。研究团队通过日常场景类比指出：若要求助理描述照片，其可能因过度谨慎而遗漏关键细节，或因大胆猜测而编造不存在的内容。AI系统同样面临这种困境——为避免错误，AI倾向于生成简短描述，导致重要信息缺失。实验数据显示，采用整体评分训练的AI在200步训练中，幻觉数量（描述不存在物体）下降40%，但遗漏数量（未描述存在物体）激增67%，形成明显剪刀差。

ClaimDiff-RL的核心创新在于将“总体打分”转化为“逐条核查”。该框架引入三方核查机制：由被训练AI生成“演员描述”，强大AI生成“参考描述”，再通过“裁判AI”进行差异分析。裁判AI首先识别两份描述的具体差异点，如颜色、数量、物体存在性等，然后对照原始图片验证每条差异的对错，最终标注错误类型（如颜色幻觉、数量错误）及严重程度（轻微、中等、严重）。这种分类方式借鉴医学检查报告，使错误评估更具颗粒度。

奖励计算机制是框架的另一关键设计。研究团队开发两种奖励模式：“相对奖励”通过比较演员描述与参考描述的错误总量确定奖励，鼓励AI超越参考描述的覆盖率；“仅演员奖励”则专注于减少AI自身的错误。错误严重程度采用递进权重（1:1.25:1.6），严重错误（如虚构物体）的惩罚力度是轻微错误的1.6倍。这种差异化惩罚机制有效抑制了AI编造信息的倾向。

为防止AI通过模糊表达规避惩罚，研究团队设计双重保障机制。裁判AI提示词明确规定：当图片内容清晰时，模糊表述本身即构成错误。同时，系统统计描述中的不确定词汇（如“可能”“大概”）及两可表达（如“A或B”），每90词允许1次模糊表达，超额部分采用乘法式惩罚（每多1词奖励乘以0.905）。这种设计既保留合理不确定性表达的空间，又遏制刻意模糊行为。

实验设置严格控变量以验证框架有效性。研究选用Qwen3-VL-32B-Instruct作为基础模型，先用200万张图片进行监督微调，再在1万张图片上开展强化学习训练。对比实验中，所有训练方式使用相同数据、模型和生成设置，仅奖励计算方式不同。评估体系包含三个维度：160张图片的诊断基准测试区分幻觉与遗漏，Capability基准测试评估物体识别、空间关系等子能力，五个通用视觉问答测试检测模型跨任务性能。

实验结果证实框架优势。在诊断基准测试中，ClaimDiff-RL相对奖励方式使幻觉数量减少27%的同时，遗漏数量仅增加8%，而整体评分方式导致遗漏激增67%。Capability测试显示，该框架将综合F1分数从69.5提升至71.5，其中数量计数提升13%、空间关系提升11%，部分维度表现超越参考描述生成模型Gemini-3-Pro-Preview。通用视觉问答测试进一步证明，框架不仅未损害模型基础能力，反而使平均分提升9.3%，直接训练基础模型更实现0.62分提升。

错误权重调节实验提供实用控制参数。当严重程度权重设为1:1.25:1.6时，模型在幻觉与遗漏间取得最佳平衡；强化权重至1:1.5:2时，幻觉减少39%但遗漏增加21%，适用于对准确性要求极高的场景；均等权重（1:1:1）则使遗漏降至最低但幻觉增加18%，适合需要高覆盖率的场景。这种可调节性使框架能适应不同应用需求。

评判系统可靠性通过双重验证。人类专家审核显示，自动标注准确率达87%，满足统计需求；跨评判模型一致性检验表明，有参考描述时幻觉计数的斯皮尔曼相关系数达0.537，验证参考描述作为“比较锚点”的有效性。研究特别强调，参考描述仅作为话题引导者，最终对错由原始图片裁定，即使参考描述存在错误，正确描述仍会被判定无误。

该研究通过精细化评判机制，使AI训练过程从“黑箱打分”转变为“可诊断优化”。研究者可清晰识别模型在颜色识别、数量计数等维度的具体问题，并通过调节权重参数定向改进。这种透明可解释的训练方式，为AI视觉语言模型的发展提供了新的方法论参考。

更多>同类内容

五部门联合出台新规护航互联网信息内容多渠道分发服务健康发展

05-30

Anthropic估值逼近万亿，Claude 4.8小步迭代能否扛起大梁？

05-30

“国潮谷子”崛起！今年谷子经济相关企业已注册近百万家

05-30

武契奇夫人点名用国产羊毛做西服，羊毛相关企业2万余家，多为成熟企业

05-30

民宿预订量首超传统酒店，今年已注册3.5万家民宿相关企业

05-30

端午“拼假”跨境旅游热！国内跨境旅游相关企业多集聚一线城市

05-30

奇瑞汽车成立犀电能源科技公司，注册资本5亿元

05-30

智谱入股驭驯网络科技公司，后者含光通信设备相关业务

05-30

越疆在深圳成立科技投资公司

05-30

德方纳米成立科技新公司，含电子专用材料业务

05-30

晋拓股份等成立航空科技公司

05-30

佳云科技成立灵犀文化科技公司，含多项AI业务

05-30

中科蓝讯等投资新设聚源启航创投基金

05-30

远景能源成立蔚蓝交能储能科技公司

05-30

智元机器人、地铁设计等成立科技公司，注册资本3000万

05-30

点击查看更多 +

全站最新

杜比携手小红书推出全景声功能，助力创作者打造沉浸式视听盛宴

清华快手联合实验：价值观融入推荐系统，多业务板块实现正向增长

2026搜狐极限探索者大会启幕在即，议程揭晓共赴勇气与热爱之旅

雷神科技发力AI端侧算力赛道，以全场景布局开启智算新时代

九号2026新品发布会：四款新车齐发，以创新科技重塑“好车”新标杆

拼多多“新拼姆”战略：助力中国厂长告别代工，迈向品牌出海新征程

热门内容

本栏最新

网界 - 新财经新科技新未来 - 网界传媒旗下网站 - 中国 · 北京
合作咨询微信：netspread（注明:网界）
网界^®是本公司38类注册商标，是该商标的唯一持有者，未经授本公司授权，严禁使用。
Copyright © CNU 2012-2022 www.cnu.com.cn All rights reserved. 鲁ICP备2022032383号-6 鲁公网安备37010202700502号