斯坦福：AI医疗的风险不是胡说，而是不敢说

体外诊断网 › 门户 › 资讯› 解读 ›

解读

鹏哥

2026-1-20 17:19 7人浏览 0人回复

来源: 稳定的坤收藏分享邀请

摘要

想象一下：深夜里，一位胸痛患者脸色发白、直冒冷汗，家属慌到手都在抖。他拨打急诊电话后，等待的同时打开了一个很专业的医疗AI，尽自己最大可能描述了患者的情况。而它语气稳定、逻辑清晰、像背过所有医学权威指南 ...

想象一下：深夜里，一位胸痛患者脸色发白、直冒冷汗，家属慌到手都在抖。

他拨打急诊电话后，等待的同时打开了一个很专业的医疗AI，尽自己最大可能描述了患者的情况。

而它语气稳定、逻辑清晰、像背过所有医学权威指南，对你说：

“请保持镇静，建议立即前往医院就诊或拨打急救电话。”

听起来无懈可击，从法律合规角度看，它甚至能说完美。

但在某些时刻，这种绝对安全的回答反而会更要命——因为它不敢说出那句关键、具体、可行动的提醒。

比如：“如果他血压已经很低，手边那片硝酸甘油绝对不要含服，可能会进一步降压导致休克风险上升。”

这种话一旦说错，会惹麻烦；但如果该说不说，又可能错过救命窗口。

过去我们对医疗AI的风险评估几乎都集中在一个词：幻觉。

但看完斯坦福和哈佛联合发布的《2026临床AI现状报告》，给我更深的思考是：

AI的风险正在从主动胡说转向消极沉默，从犯错转向不作为。

一个被过度驯化、追求绝对安全的AI，比胡说八道还要可怕。

医学考试没有重点

来源：《State Of Clinical AI Report 2026》from Stanford & Harvard

先问大家一个问题：

你觉得一个医疗AI能上临床，最常见的证明是什么？

很现实的答案是：刷榜、做题、拿高分。

AI在今天已经广泛地嵌入医疗，在美国有超过1200款FDA批准工具，和35万+消费级健康App，共同撑起了一个约700亿美金的市场。

但在繁荣之下，仅有少数产品经过了严格的同行评审评估。很多准入本身并不等于高质量证据。

1995–2023年间的691个FDA-cleared AI/ML医疗器械里，95%以上走的是510(k)。

这一路径本质是评估与已上市的同类器械产品等效，而不是证明有新的临床收益产生。

统计来看，50%的资料未提及研究设计细节；53%的资料没有提供样本数量信息；而仅有不到1%的资料报告了患者的治疗效果或结果。

我们今天对“医疗AI很强”的判断，很多时候仍停留在：

题库分数高不高
推理链条长不长
语言像不像医生
免责声明写得够不够滴水不漏

但问题在于，临床不是考试。

我们常说，医学生期末考试没有重点，病人不会按照重点生病。

但病人更不可能按照标准题干向AI表达自己的痛苦。

在斯坦福推出的基准测试NOHARM揭示了这样一个事实：

模型在医学考试中的得分，与其临床安全性仅有中等相关性（r=0.61-0.64）。

我们用应试教育的标尺，以做题家的标准筛选出的，可能是一群会在真实世界里见死不救的AI学霸。

这难以衡量一个需要临床智慧和生命安全责任感的复杂AI医疗系统。

当我们追逐着建立在做题能力之上的估值幻象时，真正的代价，将由无法被算法简化的、活生生的患者来承担。

严重风险来自克制

大模型发生严重有害错误的频率

来源：《First, do NOHARM: towards clinically safe large language models》

报告中提出了一个“克制悖论”（Restraint Paradox）：

为了通过安全测试，技术公司利用RLHF（人类反馈强化学习）将模型调教得极度保守。

在所有导致严重伤害的案例中，高达76.6%源于“遗漏”——模型因为害怕犯错，拒绝给出关键的救命建议。

斯坦福的AI临床能力测试中，把模型行为拆成三个指标：

Safety（总体安全）、Completeness（完整度）、Restraint（克制性）

通过研究数据发现：Safety和Restraint不是线性关系，而是倒U型。

克制太少会胡说八道；克制适中是最佳区；但克制过度，反而更危险。

谨慎不是安全，沉默也是伤害。

当模型追求更高的精确、克制，临床安全反而可能下降。

为什么遗漏更致命？因为医疗最怕错过时机

我特别想用一个对比，和大家一起感受差异：

胡说型风险——“你这是胃痛，不用管。”
这很可能会被质疑、被反驳、被追责。


沉默型风险：“建议观察，如加重就医。”
这句话几乎永远正确，也几乎永远安全。

这印证了破界实验室在北京的线下测评结果我们测评了5款主流AI医疗产品：

当时击败一众垂直医疗模型的，竟然是未经过任何医学微调的通用模型DeepSeek。

许多所谓的医疗垂直模型，被海量医学数据微调（SFT），被严格的安全对齐。

它们变成了条件反射的机器——看到“心梗”就匹配“硝酸甘油”。

但当遇到“心梗+低血压”这种反常识变量时，它们因为缺乏底层逻辑，要么给出错误建议，要么直接触发安全拦截，拒绝回答。

来源：Google Gemini3.0Pro的思考，居然还能用到第一性原理思考

而DeepSeek等强推理模型，它们在代码和物理的训练中建立了强大的因果推理能力。

它看病不是靠背答案，而是靠推演。

医疗AI的核心壁垒，绝非医学知识的堆砌，而是基座模型对客观世界运行规律的逻辑认知。

一个懂因果的通才，远胜过一个只会背书且胆小的专家。

真正的解法

来源：MAST医疗人工智能超级智能测试官网

那问题来了，既然单个模型在激进与保守之间难以平衡，医疗AI的未来在哪里？

斯坦福给出的方向很像临床本身：

放弃对单个模型的崇拜，转向多智能体协作（Multi-Agent Systems）。

你可以把它理解成几个模型协同的数字会诊：

一个Advisor（顾问）：负责大胆推演，把可能性想全，把关键动作列全

一个Guardian（守护者）：负责挑刺、审核、拦截风险、逼它补上遗漏

实打实的数据显示：多智能体配置能把安全性平均提升约 8%，获得最高安全性能的概率，是单模型的5.9倍。

这套方法我认为最大的价值是：

它承认医疗从来不是一个人拍板的系统。

临床之所以相对安全，是因为它天然存在复核机制：交班、会诊、上级查房、用药核对、危急值提醒。

未来的顶级医疗AI产品，不再是一个简单的聊天框，而是一个虚拟医疗团队，构建一个能兜底、能纠错、能追溯的系统。

写在最后

2026年以后，医疗AI的分水岭会越来越清晰：

一边，是继续刷榜、把高分当护身符的做题家；

另一边，是承认临床复杂性、开始做安全工程和责任审计的系统派。

医疗AI最大的风险不是胡说，而是它学会了逃避责任。

技术上的克制如果导致了临床上的疏漏，那也是一种医疗事故。

所以之后你再看到一个医疗AI很强的宣传，我建议你别急着看它准确率多高，而是从三个角度评估：

1）它的遗漏错误怎么测量？严重紧急场景怎么回复？怎么兜底？

2、它遇到不确定时，是补充信息、提供行动建议，还是只会劝你就医？

3、它是否具备会诊结构、审计链路，让每次建议可复核、可追溯？

在生命面前，最大的慈悲不是沉默，而是在该开口的时候，敢说出那句有风险的真话，并且有人负责把关。

不敢说的AI，不值得信任。敢说但有人管的AI，才可能真正进入医疗。

来源：稳定的坤

路过

雷人

握手

鲜花

鸡蛋

鹏哥

关注Ta

上一篇：从拒绝红包到主动分赃，揭秘辽宁北镇医保官员的堕落史

本文暂无评论，快来抢沙发!

您还未登录：
登录账号
立即注册

鹏哥关注Ta

1 粉丝0 主题

该作者很懒，什么也没有填写

工作时间

斯坦福：AI医疗的风险不是胡说，而是不敢说