Nat Biotechnol：李明/邓海腾通过AI助力解读黑暗蛋白质组，零样本从头测序解锁未知修饰，让未知被看见

2026-06-22 10:27:53
来源：医药头条

从头测序算法（de novo peptide sequencing）无需依赖蛋白质数据库，可直接从质谱数据中推断肽段序列。尽管近年来基于深度学习的模型也能够识别翻译后修饰（PTM），但完成该任务仍需针对性的标记训练数据。

2026年5月19日，华中人工智能研究院李明和清华大学邓海腾共同通讯在Nature Biotechnology在线发表题为Zero-shot de novo peptide sequencing with open posttranslational modification discovery的研究论文。

该研究提出了一种基于旋转位置编码增强的从头测序算法（RNovA），该算法在Transformer架构基础上融合了相对位置嵌入（relative positional embeddings）与强化学习风格的序列决策框架。

RNovA能够在零样本（zero-shot）条件下实现开放式的翻译后修饰发现——无需重新训练模型或预定义候选残基列表——同时在标准基准测试中保持当前最优性能。为验证这一能力，作者在类风湿关节炎（RA）患者的临床样本中成功鉴定出经犬尿氨酸（kynurenine）修饰的肽段（犬尿氨酸是一种罕见且具有生物学意义的PTM），并通过人工合成的参考肽段对该发现进行了实验验证。

此外，作者通过分析无参考蛋白质组的标准菌株A1232E，检测到一处未注释的谷氨酸修饰，从而证明了开放式的从头PTM发现能力。RNovA为探索此前无法触及的蛋白质组区域（包括具有意外或未注释修饰的肽段）提供了技术手段。

质谱技术通过实现直接从生物样本中对蛋白质及其修饰进行大规模分析，彻底改变了蛋白质组学领域。在其众多应用中，从串联质谱中鉴定肽段的能力是自下而上蛋白质组学工作流程的核心。最广泛使用的肽段鉴定策略包括数据库搜索、谱图库搜索和从头测序。

其中，数据库搜索因其统计稳健性以及与靶标-诱饵错误发现率（FDR）估计的整合而仍占主导地位。与谱图库搜索不同——后者需要实验获取的谱图，这些谱图通常源自标准参考肽的合并与测量——数据库搜索仅需要蛋白质序列数据库，并据此通过计算生成理论谱图。

数据库搜索代表了在鉴定性能与计算或实验成本之间的一种实用折中方案。然而，该方法固有地受限于参考数据库的组成与完整性。源自未注释开放阅读框、新剪接变体或罕见翻译后修饰（PTM）的蛋白质往往被遗漏，从而导致了蛋白质组图谱的不完整。

从头肽段测序技术无需参考数据库即可直接从串联质谱推断序列，为上述局限性提供了引人注目的解决方案。该方法在缺乏合适数据库的场景中至关重要，例如，微生物群落分析、免疫肽鉴定以及工程化或选择性剪接蛋白的发现。

然而，传统的从头测序方法，包括基于动态规划或图遍历的方法，通常准确率较低且可扩展性差。尽管深度学习的最新进展提高了从头测序的准确性，但这些模型通常假设一个已知肽段化学结构的封闭世界。它们难以泛化至携带新型或罕见PTM的肽段，除非这些修饰被明确纳入训练或候选残基列表之中。

图1.对RNovA的基准模块进行开放PTM搜索，使用钉入的合成修饰肽（摘自Nature Biotechnology）

这种封闭世界的假设越来越难以成立。研究表明，PTM的普遍程度和功能多样性远超以往的认知，在细胞信号传导、染色质重塑和免疫调控等过程中发挥着关键作用。近期发现的非经典修饰——包括与代谢和表观遗传调控相关的组蛋白乳酰化以及与增强免疫应答相关的维生素C结合——突显了PTM如何在生理和病理环境中作为关键功能调节因子发挥作用。

然而，系统性鉴定此类修饰仍然充满挑战。可能的修饰空间实质上无边界，且其在谱图中的表现十分微妙，常与已知残基或常见噪音的重叠。与在封闭、离散的氨基酸词汇表上操作的标准肽段测序不同，开放式的PTM发现需要在无候选列表或预定规则的情况下，对未知化学组成进行推理。

大规模社区协作的努力进一步强调了真正开放算法需求的迫切性。染色体中心人类蛋白质组计划旨在全面表征所有人类蛋白质，包括那些在蛋白质水平上证据有限或尚无证据的蛋白质。这些研究揭示了蛋白质组暗物质的范围，这些暗物质既逃避了基于数据库的方法，也逃避了传统的从头测序方法。

为应对这一挑战，作者开发了旋转位置嵌入增强的从头测序算法（RNovA），这是一个模块化的从头测序框架，旨在将开放式PTM发现与高精度肽段预测统一起来。通过解耦修饰检测和序列推断任务，RNovA能够在不依赖用户提供候选物或事先了解修饰信息的情况下，系统性地探索修饰肽段。

RNovA将肽段路径搜索与序列生成构建为一种强化学习风格的序列决策问题，使模型能够利用序列级别的反馈，而非令牌级别的监督。这种训练模式对于片段证据模糊或缺失的复杂谱图尤为有效。通过使用旋转位置编码（RoPE），RNovA能够捕捉碎片离子间的细微质量差异，并以零样本方式泛化至未见过的肽段化学结构。

与先前假设修饰种类封闭的基于人工智能的方法不同，RNovA即使在面对非标准或合成残基时也能稳健运行，并在标准测序任务上保持最先进的准确性。

参考消息：https://www.nature.com/articles/s41587-026-03116-1