百川发布新一代医疗增强大模型 M4：登顶 HealthBench

时间：2026-06-23 02:02 作者：互联网

6月22日消息，近日，百川智能与清华大学研究团队联合发布新一代医疗增强大模型 Baichuan-M4——它在 HealthBench 及其 Hard、Professional 三个榜单上同时位列世界第一，全面超越 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro，幻觉率低至 3.3%。从 M1 到 M4，百川始终在做同一件事：让模型跨过“会答题”与“会看病”之间那道最难的坎。

在 OpenAI 提出的权威医疗评测 HealthBench 上，M4 综合得分68.6，位列世界第一，领先第二名 GPT-5.5 超过 10 分；在最考验复杂临床决策的 Hard 子集上，领先达 15.9 分。事实性幻觉率降至3.3%，为全行业最低——同口径下，GPT-5.5 为 3.8%、Claude Opus 4.7 为 6.9%、DeepSeek-V4-Pro 高达 9.8%。这些分数指向的不是考试能力，而是四项贴着临床走的核心能力：问诊、记忆、循证、调度。

M4 会主动追问症状的性质与诱因，优先识别和排查危急重症，而不是被动等待用户提供完整信息，更不会为了尽快给出答案而跳过该问的关键病史。一位用户深夜脚痛，打开产品后配合完成了十轮问询：哪个脚趾、疼了多久、有无外伤、近期是否饮酒、既往血尿酸是否偏高。M4 逐步缩小范围，怀疑为急性痛风，建议其前往医院风湿免疫科就诊，并将病史与症状整理成一张问诊卡。到院后，他将卡片出示给医生，经二次问询和检查，确诊为痛风。

百川借鉴医学教育中长期使用的OSCE（客观结构化临床考试）方法，联合 150 多位一线医生，构建了动态问诊评测体系SCAN-bench。它不考查静态记忆，而是以真实临床经验为评分标准，通过多轮、动态的方式完整模拟医生从接诊到确诊的全过程。在这套评测中，M4 初诊79.0、复诊74.7，均明显领先GPT-5.5、DeepSeek-V4-Pro 和 Claude Opus 4.7。

另外，M4这一代推出的「全病程记忆」打通历史病历、多轮问诊、化验趋势与用药反馈，让模型在多次对话中始终掌握患者是谁、既往有过哪些疾病、各项指标如何变化，而不必每次从零开始。在长上下文临床记忆评测中，M4 取得86.9 分，为同类最高，较上一代 M3 提升21.1 分。而记得住只是基础——当模型真正掌握了一个人的完整病史与身体状况，它给出的判断便不再是套用一份通用答案，而是因人而异、贴合其自身情况，这正是精准医疗的前提。

M系列模型是医疗 Agent 的大脑，它是调度这个大脑的中枢神经：何时追问、何时检索证据、何时调出既往病史，均由模型自主决定，无需人工逐步指令。面对文献检索、长病史梳理这类繁重任务，它会拆分成子任务并行处理，让模型专注于整体诊疗路径的判断；而每一步动作，都在实时的安全约束下完成，违规的工具调用、越权的数据访问、不合临床规范的操作，都会被当场拦下。这套系统是在真实诊疗中持续迭代：线上的疑难案例、用户的追问、医生的纠偏，经脱敏与归因后回流，成为模型继续改进的依据。问诊、记忆、循证由此被编排成一个完整的整体，M4从一个最强的医疗大脑，成为能独立完成连续诊疗的医疗智能体。

更多>同类内容

作业帮基础架构专家亮相第十届A2M峰会分享用技术杠杆破解AI算力效率困局

06-23

豆包APP灰测打车功能由曹操出行提供服务

06-23

亚马逊拟对外销售自研AI芯片Trainium，直接挑战英伟达市场主导地位

06-23

郭明錤：谷歌联发科TPU v9合作再深化升级版Triggerfish亮相

06-23

雷军回应经常直播：清者自清不管用了让更多人了解小米汽车的安全、质量

06-23

马云率阿里高管下田插秧，以种田之道诠释AI战略深耕决心

06-23

湖南农大女生跨界15天打造PMS.aid，斩获苹果大奖，契合iOS 27新功能

06-23

谷歌DeepMind工程师：进顶尖AI实验室需具备目标感、毅力与数学成熟度

06-23

从“冰箱彩电大沙发”到具身智能，理想下一个十年如何领跑？

06-23

SpaceX加速布局AI算力市场与Reflection AI达成长期高额算力合作

06-23

第四届链博会启幕赛力斯携全系成果亮相引领新能源汽车供应链升级

06-23

华为引望7月起调价ADS Max功能包，同步新增智驾保障服务权益

06-23

DeepMind工程师揭秘：进顶尖AI实验室，需目标感、毅力与超强数学力

06-23

三星显示获苹果折叠屏OLED面板量产认证，独家供货或助力iPhone新机亮相

06-23

国家体重管理号召下蚂蚁阿福携AI助力全民科学减重1亿斤

06-23

点击查看更多 +

全站最新

胖东来郑州成立新餐饮公司同步下调多款自营产品售价惠及消费者

盒马酒铺“店中店”新玩法：低门槛酒水消费，是增长点还是流量噱头？

马云领衔阿里高管下田插秧挽裤光脚体验农耕田间欢声笑语不断

马云领衔阿里高层下田插秧，蒋凡周靖人等现身共绘田园团建新图景

马云携阿里高管下田插秧，以农耕之道诠释AI战略坚定深耕决心

链博会“新面孔”Walker C1登场：具身智能人形机器人“入职”千行百业

热门内容

本栏最新

网界 - 新财经新科技新未来 - 网界传媒旗下网站 - 中国 · 北京
合作咨询微信：netspread（注明:网界）
网界^®是本公司38类注册商标，是该商标的唯一持有者，未经授本公司授权，严禁使用。
Copyright © CNU 2012-2022 www.cnu.com.cn All rights reserved. 鲁ICP备2022032383号-6 鲁公网安备37010202700502号