谷歌新研究：大模型破除“幻觉”困境，元认知成开启可靠AI新钥匙-网界

谷歌研究院与特拉维夫大学联合完成的一项研究，为人工智能领域对抗“幻觉”问题提供了全新思路。这项被ICML 2026 Position Track接收的论文指出，当前行业试图通过扩充知识储备或强制拒答来消除AI幻觉的路径，可能从根本方向上存在偏差。研究者提出，与其追求让AI掌握所有知识，不如重点培养其感知并表达自身不确定性的能力。

所谓AI幻觉，指模型输出事实性错误内容时，仍以不容置疑的方式呈现给用户。这种特性在医疗、法律等高风险场景中尤为危险。传统应对策略分为两类：一类是通过扩大训练数据提升模型知识储备，另一类是设置拒答机制规避错误输出。但两种方案都存在明显缺陷——前者无法穷尽所有知识，后者则会导致AI实用性大幅下降。研究将这种实用性损失定义为"实用性税"，指出当AI错误率为25%时，若要将错误率压至5%，现有模型需要拒绝回答超过52%的正确问题。

研究团队通过区分"校准"与"判别力"两个概念，揭示了问题的本质。校准衡量的是AI整体自信水平与正确率的匹配度，而判别力则反映模型区分具体答案对错的能力。实验数据显示，主流大模型在知识问答任务中的判别力指标AUROC普遍在0.70-0.85区间，这意味着即使将判别力提升至理论极限，仍需放弃近30%的正确回答。对SimpleQA Verified基准测试的分析进一步证实，现有模型要么答错率高，要么拒答率高，尚未出现既能多答又少错的理想模型。

该研究的核心突破在于重新定义了幻觉的本质。研究者提出，真正需要解决的问题不是"AI说错话"，而是"AI在不确定时伪装确定"。基于这种认知，研究提出了"忠实不确定性"概念——要求AI的语言表达与其内部认知状态保持一致。这种能力通过对比模型对同一问题的重复回答来衡量：若多次回答一致则表明内部确定，反之则不确定。实验表明，这种对应关系比追求绝对正确更易实现，因为它不依赖外部知识验证，仅需模型保持内部状态一致性。

在AI代理（Agent）应用场景中，这种元认知能力显得尤为重要。当AI具备调用搜索引擎等外部工具的能力时，它需要持续判断：是否需要搜索？搜索结果是否可信？如何处理内部知识与外部信息的冲突？缺乏不确定性感知的AI代理，就像没有仪表盘的飞行员，无法做出合理决策。现有搜索增强型AI普遍存在工具滥用问题，正是由于模型无法准确评估自身知识边界。

实现这一目标仍面临多重挑战。首先是"自举悖论"——用静态数据训练动态认知能力，可能导致模型学会"假装不确定"。其次是RLHF等对齐训练会削弱模型原有的不确定性信号，因为人类偏好确定性的回答。更深层的难题在于如何区分"真正的元认知"与"对元认知的表演"，这需要开发新的评估体系。研究建议，评估反幻觉方法时应绘制完整的"实用性-错误率权衡曲线"，并检测其在推理、编程等任务中的附带影响。

双方将依托牧原积累的海量养殖数据与专家经验，结合千问大模型及阿里云智算算力，共同打造智能养猪大模型，推动人工智能在饲料营养、种猪育种、养殖管理、兽医健康等核心领域落地。据介绍，牧原集团的猪病诊断智能体可综合…

【CNMO科技消息】6月3日，CNMO科技注意到，松下正式推出旗下首款开放式耳挂耳机跃灵F10。该耳机凭借高颜值外观、无感佩戴、安全听音体验及均衡的综合性能，精准适配通勤、学习、运动等多场景使用需求，为开放式…

6月3日，科创板日报获悉，阿里副总裁张凯夫已经离职创业，方向是构建面向市场的世界模型。他相信目前正是启程之时，并招募相关人才加入。2022年1月，任阿里巴巴M6（副总裁）。编辑：吴祈【来源：科创板日报、公…

2026年6月2日，科创人工智能ETF广发（588760）在午间收盘时表现出色，涨幅达到0.70%，报0.858元，成交额也高达1.87亿元，显示出市场对该基金的关注度持续上升。基金经理曹世宇在管理该基金时，…

值得关注的是，这颗卫星主要用于验证手机宽带直连卫星、天地网络融合等技术。手机宽带直连卫星，意味着普通智能手机不依赖地面基站，就能直连卫星互联网，实现高速上网；天地网络融合，旨在实现卫星网络与地面5G/6G网络…

就此来看，OPPO将在接下来推出万级大电池新机，这也在此前出现过相关曝光。关于全新一代的OPPO Find X10系列，目前也已经出现了不少的相关消息。其中没有提到具体的品牌信息，但相关推测认为OPPO…

EdgeMesa N AI+具有几个主要特点：针对AI模型开发和实时推理优化的先进架构；为生成式 AI 和 LLM 工作负载量身定制的高AI计算性能；用于大型数据集和AI模型的统一内存架构；可扩展平台，支持…

DeepSeek 32小时28个热搜，春节AI红包317个热搜，到用户自发Seedance全民二创，从事件到技术，传播路径也不同，短时间内成为全民关注话题，离不开社交媒体平台在热点聚合、传播出圈、用户教育和…

6月1日，华为nova 16系列及全场景新品发布会在成都举行，带来nova 16系列、华为MatePad Pro Max、华为WATCH GTRunner 2赛道传奇款、华为超新星手表 X1 Pro、华为F…

扣子3.0提出了AI团队协作方式的全新架构，Agent可以被创建、接入和随时调度，扣子的网页端、桌面端和手机App端，则让Agent有机会与用户的文件、本地设备和工作场景接通。扣子3.0支持接入本地Agen…

网界 - 新财经新科技新未来 - 网界传媒旗下网站 - 中国 · 北京
合作咨询微信：netspread（注明:网界）
网界^®是本公司38类注册商标，是该商标的唯一持有者，未经授本公司授权，严禁使用。
Copyright © CNU 2012-2022 www.cnu.com.cn All rights reserved. 鲁ICP备2022032383号-6 鲁公网安备37010202700502号