PNAS：为蛋白质“绘制”高阶突变地图，北京大学林一瀚团队通过新AI模型借助进化“导航路线”精准预测功能协同效应

2026-06-15 15:27:50
来源：医药头条

准确预测高阶突变对蛋白质适应度效应的影响，是理解和工程改造蛋白质领域的一项重大挑战。现有模型，包括预训练的蛋白质语言模型，难以捕捉决定这些效应的多残基交互作用。

2026年5月26日，北京大学林一瀚独立通讯在PNAS在线发表题为Navigating high-order protein fitness landscapes via deep learning on directed evolution trajectories的研究论文。

该研究引入DENet，这是一种深度学习框架，它利用定向进化（DE）轨迹中丰富的共突变信息，重建高分辨率的适应度景观，以解析和工程改造复杂的蛋白质变体。应用于癌症靶点KRAS时，DENet引导的筛选系统性地鉴定出具有强效活性的高阶突变体，并揭示了隐藏的变构机制。

对于MEK1，DENet筛选出了耐药性提升超过1000倍的复杂变体，揭示了协同作用的尾部突变，并回顾性鉴定了超过75%的已知临床突变，其性能显著优于现有模型。为拓宽该框架的适用性，作者开发了一种计算机模拟策略，该策略模拟定向进化过程，从而从广泛可用的单突变数据集中推断共突变信息。

DENet为导航复杂适应度景观提供了一个定量框架，将多突变蛋白的理性工程改造与其机制和临床意义的阐明相结合。

理解残基间交互作用如何塑造蛋白质功能，是蛋白质生物学与蛋白质工程的核心目标。该研究涉及两个不同的挑战：首先，绘制单个突变的影响；其次，解析这些突变在组合中如何相互作用。过去十年间，深度突变扫描（DMS）技术在很大程度上应对了第一个挑战，该技术能够提供整个蛋白质中单个突变体的综合适应度数据。第二个挑战，即预测高阶、多突变变体的功能，仍然更为艰巨。从双突变体文库到全面组合扫描的实验进展，为上位性提供了重要见解。

然而，这些方法通常在规模或范围上受到限制。因此，即使功能重要的高阶变体子空间相较于所有可能性而言较小，但大多数数据集仍然缺乏关于这些关键组合的全面信息。

实验室定向进化（DE）为解决此问题提供了一种以功能为先的强大方法。通过在选定压力下进行迭代突变和选择，DE实验自然地在适应度景观中导航，朝向高性能变体，并在此过程中通常积累多个相互作用的突变。在此过程中，只有功能上可行且通常复杂的突变体被富集，从而提供了成功突变路径的直接证据。

与DMS数据相比，通过DE收集的功能变体包含更广泛的突变位点覆盖范围和多样的突变阶数（变体中所含突变的数量），提供了关于目标蛋白质不同区域突变如何在DE过程中共同作用以塑造蛋白质功能的全面信息。此外，与通常仅包含低比例功能改善突变体的DMS数据集不同，以功能为导向的DE实验可产生具有不同程度功能改善的变体，从而为超越结构稳定性的功能机制提供宝贵见解。

为了增强这种能力，机器学习（ML）已被整合到DE中，通过模型从实验结果中学习并指导探索比实验室筛选单独可及范围更广的序列空间。然而，以往机器学习引导的DE（MLDE）方法通常使用DE实验的有限数据，或依赖DMS类型数据进行初始模型训练。

尽管这些实践已经识别出具有改善功能性能的序列，但它们所使用的少量数据使得准确重建通常复杂的序列-功能景观变得困难。与此同时，已开发出各种DE平台，这些平台能够通过沿进化轨迹的高通量测序收集大量突变数据（36–40）。这些数据集包含关于残基间功能相关交互作用的有价值信息，为塑造序列-功能景观的规则提供了宝贵见解。然而，这些丰富的信息在很大程度上未被充分利用。

图1.DENet利用DE轨迹重建高分辨率蛋白质适应度景观（摘自PNAS）

为解决这些局限性，作者开发了DENet，这是一种直接学习高通量DE轨迹数据的ML框架。DENet将从数千个进化变体中发现的丰富共突变模式，与来自蛋白质语言模型（PLMs）和结构背景的一般知识整合起来。这一深度学习框架构建了精准的适应度景观，从而实现了机制发现以及具有卓越功能的复杂蛋白质变体的工程化。

作者通过揭示Kirsten大鼠肉瘤病毒癌基因同源物（KRAS）中的别构机制、鉴定具有>1000倍耐药性的丝裂原活化蛋白激酶激酶1（MEK1）变体，以及解释临床突变景观，展示了其能力。最后，作者引入了一种计算机模拟DE策略，以拓宽DENet的适用性。

参考消息：https://doi.org/10.1073/pnas.2520561123