在医疗人工智能领域,百川智能与清华大学研究团队携手推出的新一代医疗增强大模型Baichuan-M4,近日在国际权威评测平台HealthBench上斩获三项世界第一。该模型不仅在综合榜单中以68.6分领先第二名GPT-5.5超10分,更在复杂临床决策的Hard子集评测中以15.9分的优势刷新纪录。其事实性幻觉率低至3.3%,较同类模型降低60%以上,标志着医疗AI从"答题机器"向"临床助手"的关键跨越。
区别于传统医疗模型被动等待信息输入的模式,M4展现出主动问诊的临床思维。当用户深夜反馈脚趾疼痛时,模型通过十轮动态追问锁定关键信息:疼痛部位、持续时间、外伤史、饮酒记录及血尿酸水平,最终精准判断为急性痛风并生成结构化问诊卡。这种基于真实诊疗场景的交互设计,使模型在SCAN-bench动态评测体系中取得初诊79.0分、复诊74.7分的领先成绩,该体系由150位三甲医院医生参与构建,通过多轮对话完整模拟临床决策流程。
全病程记忆功能是M4的另一突破性创新。通过打通历史病历、多轮问诊记录、检验指标变化及用药反馈,模型可建立患者360度健康画像。在长上下文记忆评测中,M4以86.9分刷新行业纪录,较前代提升21.1分。这种持续更新的健康档案使模型能提供个性化诊疗建议,例如针对糖尿病患者的血糖波动趋势,模型会结合用药史和饮食记录,生成比通用方案精准度提升40%的干预策略。
在医学证据应用层面,百川首创的"证据锚定"技术要求每项结论必须定位至原始文献的具体段落。通过构建包含权威指南、专家共识的六源循证库,M4将200余种疾病的诊疗流程拆解为超1000个标准化临床路径单元。在Baichuan-EBM评测中,其循证引用精度达90.0%,较GPT-5.5提升64%。某三甲医院临床验证显示,M4开具的处方与专家共识符合率达92%,较传统模型提升35个百分点。
作为医疗智能体的核心调度系统,M4实现了诊疗流程的自主决策。模型可根据实时场景自动选择追问病史、检索证据或调取既往记录,面对复杂任务时自动拆解为并行子任务。在安全防护方面,系统内置2000余条临床规范约束,可实时拦截越权操作,确保诊疗建议符合医学伦理。该系统通过持续吸收线上问诊数据、医生反馈及脱敏病例进行迭代优化,目前已形成"问诊-记忆-循证"的闭环能力体系,推动医疗AI从单点功能向全流程服务进化。












