JMIR:诊断代码漏掉七成自伤记录,机器学习为心理健康“打捞”真相

  • 2026-06-19 15:27:49
  • 来源:医药头条

电子健康档案里的诊断代码,就像病历的“标签页”,医生和研究者常靠它们快速查找疾病信息;然而,一项针对美国退伍军人健康管理局超过130万份记录的新研究显示,自伤行为这一对后续自杀风险至关重要的历史,竟有约四分之三“藏”在病历叙述中没有被诊断代码正式收录,这意味着,仅凭代码统计,医疗系统可能严重低估了自伤及自杀意念的真实负担。

日前,一篇发表在国际杂志Journal of Medical Internet Research上题为“Detecting Uncoded Self-Harm in Veterans’ Electronic Health Records Using Positive and Unlabeled Learning: Retrospective Cohort Study”的研究报告中,来自新墨西哥大学医学院等机构的研究人员通过研究利用一种名为PULSNAR的机器学习算法(全称“正例-无标签学习且样本非随机缺失”)对1999年至2019年间约133万退伍军人的电子健康档案进行了回顾性的分析,其中仅约2.5万人(1.85%)拥有明确的自伤诊断代码,而其余130万人无此代码。但经过算法估算和专家对病历笔记的独立审查,研究人员发现,有记录(无论是代码还是文字)的自伤行为实际比例高达7.9%,是代码检出率的四倍多。换算下来,代码仅捕捉到了约23.4%的真实自伤记录,超过76%的信息散落在冗长的临床笔记中,难以规模化利用。

研究设计示意图

研究人员打了个比方:病历有时像一座冰山,诊断代码只是露出水面的那部分。水面之下,自伤历史可能藏在医生的一句“患者再次出现割腕行为”或“服用过量药物”的描述里,却从未被转录为代码。更令人担忧的是,即使在有代码的自伤患者中,也只有22.6%的人将“自伤”或“自伤史”列入了问题清单—这个本应快速提醒医疗研究人员的关键字段同样存在巨大盲区。

传统机器学习需要明确的正例和负例才能训练,但医疗数据中,“没有诊断代码”绝不等于“从未发生自伤”。PULSNAR算法的巧妙之处在于,它不要求确认的负例,而是从有代码的患者身上学习模式,然后在无代码的庞大群体中估计哪些人具有相似的临床特征—例如特定类型的损伤、中毒记录,或某些精神科诊疗行为;研究提取了15万余个候选变量,最终筛选出1302个有分类意义的预测因子,经过后验校准和专家对97份病历的逐行评审(部分患者的病历笔记超过50万行),算法将校正后的人群自伤预估患病率从初始的10.46%下调至7.91%,并给出了95%置信区间。

研究者指出,过去自伤是未来自杀最强预测因子之一,若医疗系统、研究者和临床研究人员仅依赖诊断代码做决策,便可能错失大量高风险个体的早期干预机会。退伍军人健康管理局虽已部署专项自杀和过量用药报告工具,但这并不改变一个事实:在日常护理中,面对动辄数十万行的病历笔记,没有任何医生能在一次接诊中读完所有细节。

值得注意的是,研究人员并未试图预测未来自伤行为,也没有断言某位患者一定发生过自伤。他们只是验证了一个可规模化的工作流:利用结构化数据中的临床痕迹,计算出自伤记录被代码遗漏的概率,然后借助小规模专家审阅来校准。该方法是一种研究工具,目前尚不能直接用于临床决策。但它已经证明,诊断代码的遗漏并非随机,而是“非随机缺失”—某些患者特征(如男性、更年轻、患有某些精神疾病或物质使用障碍)会使得代码更易出现,而其他特征则可能让记录“沉没”在文本中。

目前该研究人员已将此方法扩展至阿片类药物使用障碍的检测,并正在探索用于PTSD、抑郁症、双相障碍和睡眠障碍等同样存在严重漏诊情况的领域。从某种程度上说,这项研究为心理健康“隐形患者”提供了一面镜子:那些未被编码的痛苦,并非不存在,而是等待更聪明的工具去发现。(生物谷Bioon.com)

参考文献:

Praveen Kumar,Alexandria D Viszolay,Rajesh Upadhayaya,et al. Detecting Uncoded Self-Harm in Veterans’ Electronic Health Records Using Positive and Unlabeled Learning: Retrospective Cohort Study, J Med Internet Res 2026;28:e89071 doi: 10.2196/89071


八宝山殡葬服务