PNAS：清华大学李斐然等团队利用大语言模型绘制出更精准、个性化的人类代谢“数字生命蓝图”

2026-04-27 14:27:45
来源：医药头条

基因组尺度代谢模型已成为理解人类代谢的重要工具。

2026年4月8日，清华大学李斐然和查尔姆斯理工大学Jens Nielsen共同通讯在PNAS在线发表题为Reconstruction of human metabolic models with large language models的研究论文。

该研究介绍Human2，一个具有更高精确度和生物学相关性的共识人类基因组尺度代谢模型。该模型利用大型语言模型和GitHub Action检查，实现了自动化、高效且协作的模型构建流程。Human2支持针对特定性别和年龄人群，重建组织及器官特异性模型。

通过整合转录组、蛋白质组及动力学数据，作者揭示了这些人群间独特的代谢特征，例如花生四烯酸和白三烯代谢存在显著差异。这些特异性模型被整合到一个动态全身框架中，构建了一个酶约束的动态模型，用于模拟从进食到禁食等不同营养状态下器官间的代谢物交换。

该研究凸显了大型语言模型在基因组尺度代谢模型重建中的变革性作用，并提出了一个整合动力学数据的全身动态模拟框架，为多尺度人类代谢建模提供了强大的资源。

人类代谢是一个涉及众多生化反应与代谢通路的复杂过程，与人体健康密切相关。许多疾病，如高血压、肥胖症、糖尿病、心血管疾病及癌症，常与代谢状态异常相关联。为阐明人类代谢的内在复杂性，构建全面的人类基因组尺度代谢模型至关重要。

最新的人类基因组尺度代谢模型Human1通过整合多个早期模型——HMR2、iHsa和Recon3D——而构建，是一个描述所有人类细胞与组织代谢功能的通用模型。Human1已被用作组学数据分析、疾病生物标志物发现及理解代谢异常的重要平台。

尽管经过系统且广泛的审编，当前的人类基因组尺度代谢模型仍包含某些模糊信息，例如错误的基因蛋白反应关联、为填补缺口或模拟目的而引入的反应，以及在整合过程中从前代模型继承的错误。这些代谢建模中常见的挑战，凸显了持续审编以及开发更高效模型更新工具的必要性。

近期人类代谢研究的进展阐明了一些以往功能不明确的基因与未表征基因的功能，这些信息记录于数据库与文献文本中。这为审编人类基因组尺度代谢模型提供了契机，但需要大量的数据挖掘与人工处理。

与此同时，以ChatGPT和Llama为代表的大语言模型在自然语言理解与生成任务中展现出卓越能力，尤其在科学文献挖掘与跨学科知识整合方面表现突出。因此，利用这些能力，作者可以提取人类代谢研究的最新见解（包括基因功能），并优化审编流程。该方法为提升人类基因组尺度代谢模型的质量提供了一条更高效、更全面的路径。

模式流程图（图片源自PNAS）

高质量的人类基因组尺度代谢模型是通过整合组学数据构建器官或细胞特异性模型的关键，这些特异性模型能够用于分析癌细胞中的特定代谢变化、揭示疾病机制并助力药物发现。此外，通过整合组织与器官特异性模型，已开发出开创性的全身代谢模型，用于模拟复杂的系统性人类代谢紊乱，如1型糖尿病、SARSCoV感染及阿尔茨海默病。

然而，通用人类基因组尺度代谢模型的精度有限，制约了其在全身水平准确预测代谢物水平可靠动态通量变化的能力，也限制了其模拟具有不同生理特征（如年龄）的多样化人群代谢复杂性的能力。与此同时，GECKO 3.0通过整合基于深度学习的kcat预测，在改善通量模拟方面表现出色，提供了一种将动力学约束纳入基因组尺度代谢模型的工具，但尚未应用于全身代谢模型。

本研究提出了Human2，一个经过系统审编且具有版本控制的人类基因组尺度代谢模型，并首次引入大语言模型辅助。为展示该模型的预测能力，作者基于Human2重构了器官特异性模型，研究了不同器官间的代谢网络结构与功能差异，并探索了与年龄相关的代谢变化。

通过将这些器官特异性模型整合到全身框架中，并应用GECKO 3.0施加动力学约束，作者考察了影响基础代谢的生理因素，并模拟了不同营养状态（包括进食与空腹状态）下器官间的代谢物交换。

原文链接：https://doi.org/10.1073/pnas.2516511123