《Science》重磅:大模型临床推理能力全面超越医生?!急诊真实病例盲测,信息越少越准

  • 2026-05-06 15:27:45
  • 来源:医药头条

临床推理是医生日常工作的核心——面对一份杂乱无章的患者病历,从主诉、病史、查体到化验结果,各类碎片信息往往不完整、顺序混乱,甚至互相矛盾,医生需要在极短时间内梳理出核心线索,判断最可能的诊断,同时决定下一步的检查与治疗方案。从 1959 年 Ledley 和 Lusted 在Science发表里程碑论文开始,复杂临床诊断推理病例就被定为医学 AI 系统评估的金标准,这一标准沿用至今已超 65 年,从早期的贝叶斯系统、符号规则式系统,到后来的自然语言症状检查器,无一不把New England Journal of Medicine(简称NEJM)的临床病理病例讨论会(CPC)作为终极测试标杆。

但传统的医学 AI 测试大多采用 “选择题” 形式,与真实医疗场景相去甚远,近年来大语言模型(LLM)发展迅猛,它们能否真正应对真实世界的临床 “杂讯”,始终是医学 AI 领域最核心的关切。

日前,一项发表于顶刊Science的大规模研究,为这个问题给出了颠覆性的答案。来自哈佛医学院、贝斯以色列女执事医疗中心、斯坦福大学等机构的医生与计算机科学家团队,全面评估了 OpenAI o1 系列大语言模型在医生日常核心工作中的表现,以数百名不同年资的临床医生作为基线对照,完成了 6 项覆盖不同临床场景的推理任务测试,更首次在未经任何预处理的急诊科真实病例中,完成了 AI 与人类医生的双盲正面较量。

研究最终证实:在鉴别诊断、临床推理文书撰写、诊疗方案制定、急诊紧急决策等诸多核心临床推理任务上,这款大语言模型的表现不仅全面超越了 GPT-4 等前代 AI 模型,更普遍优于人类医生基线,尤其是在信息最稀疏、决策最紧急的急诊分诊阶段,AI 的优势最为显著。

这项研究的共同资深作者、哈佛医学院生物医学信息学助理教授 Arjun Manrai 表示:“我们用几乎每一个行业基准测试检验了这个 AI 模型,它都超越了之前的模型和我们设定的医生基线。但这并不意味着 AI 必然会改善医疗现状,它该如何、在何处部署仍有待充分研究,我们迫切需要开展严格的前瞻性试验,来评估 AI 对临床实践的真实影响。”

为了全面还原真实临床工作的挑战,研究团队整合了从 1950 年代沿用至今的医生培训与评估标准,设计了层层递进的测试体系,且与多数既往研究不同,团队在测试前从未对真实世界的临床数据做任何 “平滑处理”——急诊病例完全按照电子健康档案中的原始样貌输入模型,没有做任何清洗、结构化或信息补全。研究的共同资深作者、贝斯以色列女执事医疗中心临床研究员 Adam Rodman 直言:“我们没有对数据进行任何预处理,模型只是直接处理健康档案中现有的原始数据。”

在行业金标准NEJM CPC 病例测试中,研究团队纳入了 2021 至 2024 年发表的 143 例复杂疑难病例,两名评估医生对结果的判定一致性达 84%,组内相关系数 κ=0.66。

结果显示,o1-preview 模型在 78.3% 的病例中,将正确诊断纳入了鉴别诊断列表,首条诊断即为正确诊断的比例达到 52%;如果算上高度接近、具备明确临床参考价值的诊断,模型的整体准确率更是高达 97.9%。在与前代模型的头对头对比中,针对既往研究用于评估 GPT-4 的 70 例完全相同病例,o1-preview 给出精准或高度接近诊断的比例达 88.6%,显著高于 GPT-4 的 72.9%(P=0.015);其中 68.6% 的病例两者表现一致,24.3% 的病例 o1-preview 表现更优,仅 7.1% 的病例 GPT-4 略胜一筹。而在诊断检查方案的选择上,136 例 CPC 病例的测试结果显示,o1-preview 在 87.5% 的病例中选对了下一步核心检查,另有 11% 的病例中,模型给出的检查方案被临床医生判定为具备明确帮助,仅有 1.5% 的方案无临床价值。

NEJM Healer 临床推理课程的标准化病例测试中,模型的表现更是拉开了与人类医生的差距。研究采用了 20 例该课程的虚拟患者接诊病例,使用经过临床验证的 R-IDEA 评分体系(10 分制,用于评估临床推理文书的 4 个核心维度)进行打分,两名医生的评分一致性高达 99%,κ=0.89。

最终结果显示,o1-preview 在 80 个评分项中,有 78 项拿到了满分,满分率远超 GPT-4(47/80,P<0.0001)、主治医师(28/80,P<0.0001)和住院医师(16/72,P<0.0001)。而在临床安全最核心的 “绝对不能漏诊” 的危急重症识别环节,o1-preview 的识别率中位数达到 0.92,与 GPT-4、主治医师、住院医师无显著统计学差异,牢牢守住了临床诊疗的安全底线。

在更贴近临床日常的诊疗管理与决策测试中,模型同样展现出碾压性优势。在 Grey Matters 临床管理病例测试里,5 例基于真实病例设计、由 25 名专家医生制定共识评分标准的临床场景中,o1-preview 的单病例得分中位数达 89%,而 GPT-4 仅为 42%,有 GPT-4 辅助的医生为 41%,仅使用常规诊疗资源的医生更是只有 34%。经混合效应模型校正后,o1-preview 的得分比单用 GPT-4 高出 41.0 个百分点,比有 GPT-4 辅助的医生高 41.9 个百分点,比仅使用常规资源的医生高 48.4 个百分点,所有差异均具备极显著的统计学意义(P<0.001)。

而在 6 例从未公开发布的里程碑式经典诊断病例测试中(避免了模型 “记忆答案” 的可能),o1-preview 的得分中位数达 97%,依然高于 GPT-4 的 92%、有 GPT-4 辅助的医生的 76%,以及仅使用常规资源的医生的 74%,展现出极强的泛化能力。即便是在基层诊疗场景的诊断概率推理任务中,面对全国代表性样本的 553 名医务人员,o1-preview 在验前和验后概率估算上的表现也与 GPT-4 相当且整体小幅占优,人类医生的估算结果变异度则远高于两款大模型,在心肌缺血病例的验后概率估算中,o1-preview 更是大幅超越了 GPT-4 和所有人类医务人员。

而这项研究最重磅、也最颠覆认知的发现,来自于真实世界急诊科病例的双盲测试。研究纳入了波士顿顶级三甲学术医疗中心急诊科的 76 例真实病例,按照临床流程分为三个关键诊疗节点:急诊初始分诊、急诊医生首诊、患者收入普通病房/ICU,在每个节点,模型仅能获取该时间点临床医生可得到的原始病历信息,完全还原了真实诊疗中信息逐步完善、决策环环相扣的过程。

研究采用严格的双盲设计:o1、GPT-4o 和两名主治医师分别给出最多 5 项鉴别诊断,另外两名主治医师在完全不知道诊断意见来自 AI 还是人类的情况下,使用统一标准进行评分。最终的盲法验证结果超出了所有人的预期:两名评分医生猜对诊断来源的准确率仅为 15.2% 和 3.1%,绝大多数时候,他们根本无法区分眼前的诊断意见,到底是来自 AI 还是资深临床医生。

测试结果显示,在三个诊疗节点中,o1 的诊断准确率全程超越了两名人类主治医师和 GPT-4o,尤其是在初始分诊这个信息最少、决策最紧急、临床难度最高的节点,两者的差距最为显著。在初始分诊阶段,o1 给出精准或高度接近诊断的比例达 67.1%,而两名主治医师分别仅为 55.3% 和 50.0%;到了急诊医生首诊阶段,随着临床信息的补充,o1 的准确率升至 72.4%,两名医生分别为 61.8% 和 52.6%;最终到患者入院决策阶段,o1 的准确率进一步升至 81.6%,依然高于两名医生的 78.9% 和 69.7%。这一结果彻底颠覆了 “AI 只擅长处理结构化、完整数据” 的传统认知——信息越不完整、临床决策越紧急,AI 的临床推理优势反而越明显。这项结果甚至让研究团队都感到意外,Rodman 坦言:“我原本以为这会是一个有趣的实验,但效果不会那么好,结果完全不是那样。”

研究共同第一作者 Peter Brodeur 表示:“AI 模型的能力正在飞速提升。过去我们使用多项选择题来评估模型,现在它们在这类测试中的得分已经接近 100%,我们已经无法再通过这种方式追踪它们的进步,因为已经触碰到了测试的上限。” 这项研究的核心意义也正在于此:它用覆盖从经典教学病例到真实急诊场景的全面测试,证实了 LLM 已经突破了沿用 65 年的医学 AI 评估金标准,在临床推理这个医生的核心能力上,已经超越了大多数人类医生的基准线,传统的 “选择题式” 医学能力测试,已经出现了严重的 “天花板效应”,医学 AI 领域亟需建立全新的、基于真实临床场景的评估体系。

与此同时,研究团队也反复、明确地强调,这项结果绝不意味着 AI 系统已经准备好自主行医,更不代表医生可以从诊断过程中被移除。Brodeur 特别指出:“一个模型可能把最可能的诊断弄对了,但也可能建议不必要的检查,从而让患者暴露于伤害之中。人类在评估诊疗表现和安全性方面,应始终是最终的基线。”

研究也客观披露了当前的局限性:这项研究仅评估了文本形式的临床推理任务,而真实的临床诊疗是多维度的,医生会通过患者的语气神态、查体的视听信息、影像学判读等多种非文本信号做出决策,现有大模型在非文本信息的推理上仍有明显局限;测试主要集中在内科和急诊医学领域,无法代表外科、妇产科等需要不同技能体系的专科场景;急诊实验仅验证了 AI 在固定诊疗节点给出第二诊疗意见的能力,尚未还原急诊分诊、紧急处置、患者收住院等全流程的真实决策场景;同时在部分核心安全测试中,比如 “不能漏诊” 的危急重症识别,o1 对比前代模型和人类医生,并未展现出稳定的显著优势。

总而言之,这项发表在Science上的研究,标志着医学 AI 正式迈入了全新的阶段:AI 不再只是医生的 “文献检索工具” 或 “病历书写助手”,它已经具备了超越人类医生平均水平的临床推理能力,能够在信息不完整的紧急临床场景中,为诊疗决策提供高质量的第二意见。未来,人类医生的角色,也将逐步从繁琐的 “信息整合与推理者”,转变为 AI 诊疗建议的监督者、医患沟通的主导者,以及最终诊疗决策的制定者。而研究团队最核心的呼吁也始终清晰:当前最迫切的,是尽快开展前瞻性、多中心的随机对照临床试验,在真实的临床诊疗流程中,严谨评估 AI 工具对患者结局、医疗安全、诊疗效率的真实影响,同时建立完善的 AI 临床应用监测框架,确保这项技术能安全、规范地融入临床体系,真正惠及患者。(生物谷Bioon.com)


八宝山殡葬服务