预测病毒进化和功能仍然是生物学中的一个核心挑战,受到高序列差异性和相对于细胞生物有限知识的阻碍。
2026年6月17日,中山大学施莽、陈耀庆、阿里云智能LiZhao-Rong、HeYong、复旦大学李博、PanYuan-Fei共同通讯在National Science Review(IF=18.1)在线发表题为Predicting the Evolutionary and Functional Landscapes of Viruses with a Unified Nucleotide-Protein Language Model: LucaVirus的研究论文。
该研究成功开发了 LucaVirus—一个拥有10亿参数、统一处理核苷酸与蛋白质序列的病毒学基础模型,为从病毒发现到抗体药物研发提供了全新的AI平台。
人工智能的最新进展,特别是大型语言模型,为直接从序列数据中学习复杂生物学表征提供了新机会。ESM系列和Evo系列等模型已证明在细胞生物的蛋白质功能/结构预测和从头生成中的能力。然而,它们在病毒学中的应用受到技术和生物安全挑战的独特交叉点的限制。
首先,病毒序列在以细胞生物为主的通用基础模型中代表性严重不足。其次,大多数现有模型是单模态的,仅专注于蛋白质或核苷酸序列。然而,病毒基因组编码丰富的进化信息—如指示宿主范围的密码子使用偏差—这些在氨基酸序列中未被明确捕获。相反,蛋白质通常比快速进化的核苷酸更好地保留功能保守性,使得蛋白质水平表征对检测远缘同源性具有价值。
LucaVirus流程图(图源自National Science Review)
在此,研究人员介绍了LucaVirus,一种多模态病毒基础模型,该模型在涵盖绝大部分已编目病毒多样性的254亿个核苷酸和氨基酸标记上进行了训练。LucaVirus学习具有生物学意义的表征,这些表征反映了序列之间、蛋白质/基因同源性以及进化分歧之间的关系。
利用这些嵌入,研究人员开发了下游模型来处理关键的病毒学任务:识别基因组“暗物质”中的隐藏病毒、注释未表征蛋白质的酶活性、预测病毒进化能力以及识别新出现病毒的抗体候选物。LucaVirus在三个任务中表现出有竞争力的性能,并在第四个任务中以三分之一的参数匹配了领先模型。
总之,这些发现证明了统一基础模型在分析病毒序列数据中的实用性,并将LucaVirus确立为一个高效且通用的AI驱动病毒学平台,从病毒发现到功能和治疗预测。
参考消息:https://doi.org/10.1093/nsr/nwag376