想象一下,当患者拿着复杂的眼科检查结果问“大夫,我这个青光眼会不会继续恶化?”“糖尿病会不会影响眼底病变?”“白内障是不是马上要手术?”时,AI不仅能把医学术语讲得通俗,还能尽量避免“看似专业、实则错误”的回答。
近日,浙江大学医学院附属第二医院眼科中心金凯团队联合多家国内外机构,在npj Digital Medicine发表题为“EyeRAG: Graph Retrieval-Augmented Generation for Safe and Accurate Clinical Dialogue in Ophthalmology”的研究。该研究提出了一套面向眼科临床对话的图检索增强生成系统EyeRAG,将由临床指南构建的眼科知识图谱OphthaKG接入大语言模型,让AI回答患者问题时不再只依赖“记忆”和概率生成,而是先检索可靠知识,再生成面向患者的解释。
研究显示,在青光眼、糖尿病视网膜病变和白内障等120个真实临床场景中,EyeRAG在多个大模型和多种评估体系下均优于普通大模型和传统RAG方法。眼科专家盲评中,EyeRAG平均排名第1,幻觉率从普通大模型的30.0%降至3.3%。
核心难题:大模型会说,但未必说得准
大语言模型正在进入医学场景。它们可以总结病历、解释检查结果、辅助患者教育,也能把晦涩的医学术语转化成更容易理解的语言。
但在临床沟通中,“能说”远远不够。尤其在眼科,青光眼、糖尿病视网膜病变、白内障等疾病常常涉及长期随访、复杂治疗和多系统合并症。一次门诊时间有限,患者又希望获得清楚、个性化、可执行的解释。
如果AI回答中出现事实错误、遗漏关键风险,甚至编造不存在的建议,就可能误导患者对疾病进展、治疗时机和预后的判断。因此,眼科AI真正落地的关键,不只是让大模型更流畅,而是让它更可靠、更可追溯、更符合临床指南。
核心突破:给大模型装上“眼科知识导航”
为解决这一问题,研究团队构建了EyeRAG系统。它的核心不是简单地把指南文本塞给大模型,而是先把权威眼科指南转化为结构化知识图谱OphthaKG。
OphthaKG基于94份临床实践指南PDF构建,包含12393个知识节点和13731条实体关系,覆盖疾病、解剖结构、检查方法、治疗方式、药物、临床发现、预后、危险因素、患者群体和医疗器械等关键眼科概念。
这意味着,当患者提出问题时,EyeRAG可以沿着“疾病-检查-治疗-危险因素-预后”等关系进行检索和推理,而不是像传统RAG那样只在一堆文本片段中寻找语义相似内容。
研究流程图(图源自研究团队)
工作原理:先找依据,再说人话
EyeRAG的流程可以理解为三步:
第一步,患者或医生提出自然语言问题,例如“我有糖尿病和青光眼,生活方式上应该注意什么?”
第二步,系统从OphthaKG中检索相关实体和关系,找到与青光眼、糖尿病控制、眼压、视网膜病变、生活方式等相关的结构化证据。
第三步,大语言模型在这些证据的约束下生成回答,把专业知识转化为患者能理解的解释和建议。
与普通大模型相比,EyeRAG不是“凭印象回答”;与传统RAG相比,它也不是只检索零散文本。它更像是在眼科指南知识网络中寻找路径,再把路径翻译成患者听得懂的话。
临床场景:复杂问题中更能体现优势
研究团队设置了三个代表性病例,展示EyeRAG与普通大模型、传统RAG方法的差异。
在青光眼合并白内障和2型糖尿病的病例中,患者询问如何通过生活方式同时管理多种疾病。普通大模型和传统RAG往往给出笼统回答,或建议患者另行咨询全科医生。EyeRAG则能把血糖控制、血压管理、健康饮食、运动和眼病进展联系起来,形成更完整、更可执行的建议。
在白内障合并高血压、肝硬化、尘肺等复杂基础疾病的病例中,患者询问是否需要立即手术。普通方法大多停留在“白内障手术通常为择期手术”和“需要术前评估”。EyeRAG进一步把患者整体安全、跌倒风险、生活质量和全身状况纳入解释,更接近真实临床决策中的沟通方式。
在糖尿病视网膜病变进展的病例中,患者已有长期糖尿病史,并出现牵拉性视网膜脱离等严重表现。EyeRAG能够把血糖、血压、血脂控制与眼底病变进展、手术预后和随访监测联系起来,生成更连贯的个体化回答。
效果验证:120个场景、6类大模型、多维评估
研究在120个眼科临床场景中评估EyeRAG,涵盖青光眼、糖尿病视网膜病变和白内障三类常见眼病,每类40个场景。
团队测试了6种大语言模型,包括GPT-4o、Gemini 2.5 Flash、Grok 4、Llama 3.3 70B、Claude Sonnet 4和DeepSeek-V2.5,并比较了普通大模型、Naive RAG、Hypothetical RAG、Hierarchical Index RAG和EyeRAG等方法。
在LLM-as-a-judge评估中,EyeRAG取得最佳平均排名:内部数据集为1.61 ± 1.04,外部数据集为1.72 ± 1.18。EyeRAG在40.29%的评估中排名第一,明显高于次优RAG方法Naive RAG的21.05%和普通大模型的13.29%。
在多维评价中,EyeRAG在临床准确性与安全性、患者可读性、完整性与实用性、专业沟通清晰度、患者中心性等维度均表现突出。
医生盲评:幻觉率降至3.3%
为了进一步检验真实临床可用性,研究邀请4名获得专科认证的眼科医生进行盲评。专家从临床准确性与安全性、患者中心性、沟通清晰度、完整性与实用性、患者可读性等维度进行评分,并额外判断回答中是否存在幻觉。
结果显示,EyeRAG总分最高,达到2.91 ± 0.11,显著优于普通大模型、Naive RAG、Hypothetical RAG和Hierarchical Index RAG。
更关键的是,普通大模型的幻觉率为30.0%,Naive RAG为16.6%,Hypothetical RAG为10.0%,Hierarchical Index RAG为6.6%,而EyeRAG仅为3.3%。这相当于把患者面对AI错误信息的风险大幅压低。
意义与展望:AI不是替代医生,而是改善沟通
EyeRAG的定位并不是让AI独立诊断或替代医生,而是在医生监督下,帮助患者理解病情、解释检查和治疗方案,尤其适用于患者教育、远程眼科咨询、术前术后随访和慢病管理等场景。
这项研究的意义在于,它为医学大模型提供了一条更现实的落地路径:不是单纯追求更大的模型,而是把模型接入可靠、结构化、可追溯的专科知识体系中,让AI回答有据可依。
未来,随着更多眼科指南、真实世界数据和多模态检查信息接入,类似EyeRAG的系统有望进一步扩展到眼底影像解释、个体化随访提醒、基层眼病筛查和医患沟通辅助等场景。
在临床AI进入患者端之前,安全性和可信度始终是第一道门槛。EyeRAG表明,通过知识图谱和GraphRAG框架,大模型有机会从“会聊天的工具”走向“有依据的临床沟通助手”。
文章链接:https://www.nature.com/articles/s41746-026-02860-7