想象一下:深夜里,一位胸痛患者脸色发白、直冒冷汗,家属慌到手都在抖。他拨打急诊电话后,等待的同时打开了一个很专业的医疗AI,尽自己最大可能描述了患者的情况。而它语气稳定、逻辑清晰、像背过所有医学权威指南 ...
|
想象一下:深夜里,一位胸痛患者脸色发白、直冒冷汗,家属慌到手都在抖。 他拨打急诊电话后,等待的同时打开了一个很专业的医疗AI,尽自己最大可能描述了患者的情况。 而它语气稳定、逻辑清晰、像背过所有医学权威指南,对你说:
听起来无懈可击,从法律合规角度看,它甚至能说完美。 但在某些时刻,这种绝对安全的回答反而会更要命——因为它不敢说出那句关键、具体、可行动的提醒。 比如:“如果他血压已经很低,手边那片硝酸甘油绝对不要含服,可能会进一步降压导致休克风险上升。” 这种话一旦说错,会惹麻烦;但如果该说不说,又可能错过救命窗口。 过去我们对医疗AI的风险评估几乎都集中在一个词:幻觉。 但看完斯坦福和哈佛联合发布的《2026临床AI现状报告》,给我更深的思考是: AI的风险正在从主动胡说转向消极沉默,从犯错转向不作为。 一个被过度驯化、追求绝对安全的AI,比胡说八道还要可怕。 医学考试没有重点 来源:《State Of Clinical AI Report 2026》from Stanford & Harvard 先问大家一个问题: 你觉得一个医疗AI能上临床,最常见的证明是什么? 很现实的答案是:刷榜、做题、拿高分。 AI在今天已经广泛地嵌入医疗,在美国有超过1200款FDA批准工具,和35万+消费级健康App,共同撑起了一个约700亿美金的市场。 但在繁荣之下,仅有少数产品经过了严格的同行评审评估。很多准入本身并不等于高质量证据。 1995–2023年间的691个FDA-cleared AI/ML医疗器械里,95%以上走的是510(k)。 这一路径本质是评估与已上市的同类器械产品等效,而不是证明有新的临床收益产生。 统计来看,50%的资料未提及研究设计细节;53%的资料没有提供样本数量信息;而仅有不到1%的资料报告了患者的治疗效果或结果。 我们今天对“医疗AI很强”的判断,很多时候仍停留在:
但问题在于,临床不是考试。 我们常说,医学生期末考试没有重点,病人不会按照重点生病。 但病人更不可能按照标准题干向AI表达自己的痛苦。 在斯坦福推出的基准测试NOHARM揭示了这样一个事实: 模型在医学考试中的得分,与其临床安全性仅有中等相关性(r=0.61-0.64)。 我们用应试教育的标尺,以做题家的标准筛选出的,可能是一群会在真实世界里见死不救的AI学霸。 这难以衡量一个需要临床智慧和生命安全责任感的复杂AI医疗系统。 当我们追逐着建立在做题能力之上的估值幻象时,真正的代价,将由无法被算法简化的、活生生的患者来承担。 严重风险来自克制 大模型发生严重有害错误的频率 来源:《First, do NOHARM: towards clinically safe large language models》 报告中提出了一个“克制悖论”(Restraint Paradox): 为了通过安全测试,技术公司利用RLHF(人类反馈强化学习)将模型调教得极度保守。 在所有导致严重伤害的案例中,高达76.6%源于“遗漏”——模型因为害怕犯错,拒绝给出关键的救命建议。 斯坦福的AI临床能力测试中,把模型行为拆成三个指标: Safety(总体安全)、Completeness(完整度)、Restraint(克制性) 通过研究数据发现:Safety和Restraint不是线性关系,而是倒U型。 克制太少会胡说八道;克制适中是最佳区;但克制过度,反而更危险。 谨慎不是安全,沉默也是伤害。 当模型追求更高的精确、克制,临床安全反而可能下降。 为什么遗漏更致命?因为医疗最怕错过时机 我特别想用一个对比,和大家一起感受差异: 这印证了破界实验室在北京的线下测评结果我们测评了5款主流AI医疗产品: 当时击败一众垂直医疗模型的,竟然是未经过任何医学微调的通用模型DeepSeek。 许多所谓的医疗垂直模型,被海量医学数据微调(SFT),被严格的安全对齐。 它们变成了条件反射的机器——看到“心梗”就匹配“硝酸甘油”。 但当遇到“心梗+低血压”这种反常识变量时,它们因为缺乏底层逻辑,要么给出错误建议,要么直接触发安全拦截,拒绝回答。 来源:Google Gemini3.0Pro的思考,居然还能用到第一性原理思考 而DeepSeek等强推理模型,它们在代码和物理的训练中建立了强大的因果推理能力。 它看病不是靠背答案,而是靠推演。 医疗AI的核心壁垒,绝非医学知识的堆砌,而是基座模型对客观世界运行规律的逻辑认知。 一个懂因果的通才,远胜过一个只会背书且胆小的专家。 真正的解法 来源:MAST医疗人工智能超级智能测试官网 那问题来了,既然单个模型在激进与保守之间难以平衡,医疗AI的未来在哪里? 斯坦福给出的方向很像临床本身: 放弃对单个模型的崇拜,转向多智能体协作(Multi-Agent Systems)。 你可以把它理解成几个模型协同的数字会诊: 一个Advisor(顾问):负责大胆推演,把可能性想全,把关键动作列全 一个Guardian(守护者):负责挑刺、审核、拦截风险、逼它补上遗漏 实打实的数据显示:多智能体配置能把安全性平均提升约 8%,获得最高安全性能的概率,是单模型的5.9倍。 这套方法我认为最大的价值是: 它承认医疗从来不是一个人拍板的系统。 临床之所以相对安全,是因为它天然存在复核机制:交班、会诊、上级查房、用药核对、危急值提醒。 未来的顶级医疗AI产品,不再是一个简单的聊天框,而是一个虚拟医疗团队,构建一个能兜底、能纠错、能追溯的系统。 写在最后 2026年以后,医疗AI的分水岭会越来越清晰: 一边,是继续刷榜、把高分当护身符的做题家; 另一边,是承认临床复杂性、开始做安全工程和责任审计的系统派。 医疗AI最大的风险不是胡说,而是它学会了逃避责任。 技术上的克制如果导致了临床上的疏漏,那也是一种医疗事故。 所以之后你再看到一个医疗AI很强的宣传,我建议你别急着看它准确率多高,而是从三个角度评估: 1)它的遗漏错误怎么测量?严重紧急场景怎么回复?怎么兜底? 2、它遇到不确定时,是补充信息、提供行动建议,还是只会劝你就医? 3、它是否具备会诊结构、审计链路,让每次建议可复核、可追溯? 在生命面前,最大的慈悲不是沉默,而是在该开口的时候,敢说出那句有风险的真话,并且有人负责把关。 不敢说的AI,不值得信任。敢说但有人管的AI,才可能真正进入医疗。 来源:稳定的坤 |