6月22日消息,近日,百川智能与清华大学研究团队联合发布新一代医疗增强大模型 Baichuan-M4——它在 HealthBench 及其 Hard、Professional 三个榜单上同时位列世界第一,全面超越 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro,幻觉率低至 3.3%。从 M1 到 M4,百川始终在做同一件事:让模型跨过“会答题”与“会看病”之间那道最难的坎。
在 OpenAI 提出的权威医疗评测 HealthBench 上,M4 综合得分68.6,位列世界第一,领先第二名 GPT-5.5 超过 10 分;在最考验复杂临床决策的 Hard 子集上,领先达 15.9 分。事实性幻觉率降至3.3%,为全行业最低——同口径下,GPT-5.5 为 3.8%、Claude Opus 4.7 为 6.9%、DeepSeek-V4-Pro 高达 9.8%。这些分数指向的不是考试能力,而是四项贴着临床走的核心能力:问诊、记忆、循证、调度。
M4 会主动追问症状的性质与诱因,优先识别和排查危急重症,而不是被动等待用户提供完整信息,更不会为了尽快给出答案而跳过该问的关键病史。一位用户深夜脚痛,打开产品后配合完成了十轮问询:哪个脚趾、疼了多久、有无外伤、近期是否饮酒、既往血尿酸是否偏高。M4 逐步缩小范围,怀疑为急性痛风,建议其前往医院风湿免疫科就诊,并将病史与症状整理成一张问诊卡。到院后,他将卡片出示给医生,经二次问询和检查,确诊为痛风。
百川借鉴医学教育中长期使用的OSCE(客观结构化临床考试)方法,联合 150 多位一线医生,构建了动态问诊评测体系SCAN-bench。它不考查静态记忆,而是以真实临床经验为评分标准,通过多轮、动态的方式完整模拟医生从接诊到确诊的全过程。在这套评测中,M4 初诊79.0、复诊74.7,均明显领先GPT-5.5、DeepSeek-V4-Pro 和 Claude Opus 4.7。
另外,M4这一代推出的「全病程记忆」打通历史病历、多轮问诊、化验趋势与用药反馈,让模型在多次对话中始终掌握患者是谁、既往有过哪些疾病、各项指标如何变化,而不必每次从零开始。在长上下文临床记忆评测中,M4 取得86.9 分,为同类最高,较上一代 M3 提升21.1 分。而记得住只是基础——当模型真正掌握了一个人的完整病史与身体状况,它给出的判断便不再是套用一份通用答案,而是因人而异、贴合其自身情况,这正是精准医疗的前提。
M系列模型是医疗 Agent 的大脑,它是调度这个大脑的中枢神经:何时追问、何时检索证据、何时调出既往病史,均由模型自主决定,无需人工逐步指令。面对文献检索、长病史梳理这类繁重任务,它会拆分成子任务并行处理,让模型专注于整体诊疗路径的判断;而每一步动作,都在实时的安全约束下完成,违规的工具调用、越权的数据访问、不合临床规范的操作,都会被当场拦下。这套系统是在真实诊疗中持续迭代:线上的疑难案例、用户的追问、医生的纠偏,经脱敏与归因后回流,成为模型继续改进的依据。问诊、记忆、循证由此被编排成一个完整的整体,M4从一个最强的医疗大脑,成为能独立完成连续诊疗的医疗智能体。






