斯坦福:AI医疗的风险不是胡说,而是不敢说

解读 鹏哥
2026-1-20 17:19 7人浏览 0人回复
来源: 稳定的坤 收藏 分享 邀请
摘要

想象一下:深夜里,一位胸痛患者脸色发白、直冒冷汗,家属慌到手都在抖。他拨打急诊电话后,等待的同时打开了一个很专业的医疗AI,尽自己最大可能描述了患者的情况。而它语气稳定、逻辑清晰、像背过所有医学权威指南 ...

 想象一下:深夜里,一位胸痛患者脸色发白、直冒冷汗,家属慌到手都在抖。

他拨打急诊电话后,等待的同时打开了一个很专业的医疗AI,尽自己最大可能描述了患者的情况。

而它语气稳定、逻辑清晰、像背过所有医学权威指南,对你说:

“请保持镇静,建议立即前往医院就诊或拨打急救电话。”

听起来无懈可击,从法律合规角度看,它甚至能说完美。

但在某些时刻,这种绝对安全的回答反而会更要命——因为它不敢说出那句关键、具体、可行动的提醒。

比如:“如果他血压已经很低,手边那片硝酸甘油绝对不要含服,可能会进一步降压导致休克风险上升。”

这种话一旦说错,会惹麻烦;但如果该说不说,又可能错过救命窗口。

过去我们对医疗AI的风险评估几乎都集中在一个词:幻觉

但看完斯坦福和哈佛联合发布的《2026临床AI现状报告》,给我更深的思考是:

AI的风险正在从主动胡说转向消极沉默,从犯错转向不作为。

一个被过度驯化、追求绝对安全的AI,比胡说八道还要可怕。


医学考试没有重点

来源:《State Of Clinical AI Report 2026》from Stanford & Harvard

先问大家一个问题:

你觉得一个医疗AI能上临床,最常见的证明是什么?

很现实的答案是:刷榜、做题、拿高分。

AI在今天已经广泛地嵌入医疗,在美国有超过1200款FDA批准工具,和35万+消费级健康App,共同撑起了一个约700亿美金的市场。

但在繁荣之下,仅有少数产品经过了严格的同行评审评估。很多准入本身并不等于高质量证据。

1995–2023年间的691个FDA-cleared AI/ML医疗器械里,95%以上走的是510(k)。

这一路径本质是评估与已上市的同类器械产品等效,而不是证明有新的临床收益产生。

统计来看,50%的资料未提及研究设计细节;53%的资料没有提供样本数量信息;而仅有不到1%的资料报告了患者的治疗效果或结果。

我们今天对“医疗AI很强”的判断,很多时候仍停留在:

  • 题库分数高不高
  • 推理链条长不长
  • 语言像不像医生
  • 免责声明写得够不够滴水不漏

但问题在于,临床不是考试。

我们常说,医学生期末考试没有重点,病人不会按照重点生病。

但病人更不可能按照标准题干向AI表达自己的痛苦。

在斯坦福推出的基准测试NOHARM揭示了这样一个事实:

模型在医学考试中的得分,与其临床安全性仅有中等相关性(r=0.61-0.64)。

我们用应试教育的标尺,以做题家的标准筛选出的,可能是一群会在真实世界里见死不救的AI学霸。

这难以衡量一个需要临床智慧和生命安全责任感的复杂AI医疗系统。

当我们追逐着建立在做题能力之上的估值幻象时,真正的代价,将由无法被算法简化的、活生生的患者来承担。


严重风险来自克制

大模型发生严重有害错误的频率

来源:《First, do NOHARM: towards clinically safe large language models》

报告中提出了一个“克制悖论”(Restraint Paradox):

为了通过安全测试,技术公司利用RLHF(人类反馈强化学习)将模型调教得极度保守。

在所有导致严重伤害的案例中,高达76.6%源于“遗漏”——模型因为害怕犯错,拒绝给出关键的救命建议。

斯坦福的AI临床能力测试中,把模型行为拆成三个指标:

Safety(总体安全)、Completeness(完整度)、Restraint(克制性)

通过研究数据发现:Safety和Restraint不是线性关系,而是倒U型。

克制太少会胡说八道;克制适中是最佳区;但克制过度,反而更危险。

谨慎不是安全,沉默也是伤害。

当模型追求更高的精确、克制,临床安全反而可能下降

为什么遗漏更致命?因为医疗最怕错过时机

我特别想用一个对比,和大家一起感受差异:

胡说型风险——“你这是胃痛,不用管。”
这很可能会被质疑、被反驳、被追责。


沉默型风险:“建议观察,如加重就医。”
这句话几乎永远正确,也几乎永远安全。

这印证了破界实验室在北京的线下测评结果我们测评了5款主流AI医疗产品:

当时击败一众垂直医疗模型的,竟然是未经过任何医学微调的通用模型DeepSeek。

许多所谓的医疗垂直模型,被海量医学数据微调(SFT),被严格的安全对齐。

它们变成了条件反射的机器——看到“心梗”就匹配“硝酸甘油”。

但当遇到“心梗+低血压”这种反常识变量时,它们因为缺乏底层逻辑,要么给出错误建议,要么直接触发安全拦截,拒绝回答。

来源:Google Gemini3.0Pro的思考,居然还能用到第一性原理思考

而DeepSeek等强推理模型,它们在代码和物理的训练中建立了强大的因果推理能力。

它看病不是靠背答案,而是靠推演。

医疗AI的核心壁垒,绝非医学知识的堆砌,而是基座模型对客观世界运行规律的逻辑认知。

一个懂因果的通才,远胜过一个只会背书且胆小的专家。


真正的解法

来源:MAST医疗人工智能超级智能测试官网

那问题来了,既然单个模型在激进与保守之间难以平衡,医疗AI的未来在哪里?

斯坦福给出的方向很像临床本身:

放弃对单个模型的崇拜,转向多智能体协作(Multi-Agent Systems)。

你可以把它理解成几个模型协同的数字会诊:

一个Advisor(顾问):负责大胆推演,把可能性想全,把关键动作列全

一个Guardian(守护者):负责挑刺、审核、拦截风险、逼它补上遗漏

实打实的数据显示:多智能体配置能把安全性平均提升约 8%,获得最高安全性能的概率,是单模型的5.9倍。

这套方法我认为最大的价值是:

它承认医疗从来不是一个人拍板的系统。

临床之所以相对安全,是因为它天然存在复核机制:交班、会诊、上级查房、用药核对、危急值提醒。

未来的顶级医疗AI产品,不再是一个简单的聊天框,而是一个虚拟医疗团队,构建一个能兜底、能纠错、能追溯的系统。


写在最后

2026年以后,医疗AI的分水岭会越来越清晰:

一边,是继续刷榜、把高分当护身符的做题家;

另一边,是承认临床复杂性、开始做安全工程和责任审计的系统派。

医疗AI最大的风险不是胡说,而是它学会了逃避责任。

技术上的克制如果导致了临床上的疏漏,那也是一种医疗事故。

所以之后你再看到一个医疗AI很强的宣传,我建议你别急着看它准确率多高,而是从三个角度评估:

1)它的遗漏错误怎么测量?严重紧急场景怎么回复?怎么兜底?

2、它遇到不确定时,是补充信息、提供行动建议,还是只会劝你就医?

3、它是否具备会诊结构、审计链路,让每次建议可复核、可追溯?

在生命面前,最大的慈悲不是沉默,而是在该开口的时候,敢说出那句有风险的真话,并且有人负责把关。

不敢说的AI,不值得信任。敢说但有人管的AI,才可能真正进入医疗。

来源:稳定的坤

0

路过

0

雷人

0

握手

0

鲜花

0

鸡蛋

本文暂无评论,快来抢沙发!

推荐阅读
体外诊断网是宇翼科技旗下品牌,定位于全球体外诊断领域服务平台,我们追求及时、全面、专业、准确的资讯与数据,致力于为企业及用户服务。
  • 微信公众号

  • 微博账号

  • 商务合作