Sci Adv:基因“可读性”如何塑造人类?上海营养与健康研究所王振团队通过跨物种比较,解读人类进化的染色质篇章

  • 2026-04-28 11:27:44
  • 来源:医药头条

人类特有的遗传变异通过影响基因表达塑造了独特的性状。开放染色质区域(OCR)是与基因表达相关的关键调控元件,因此研究染色质可及性的变化对于理解人类进化至关重要。

2026年4月15日,中国科学院上海营养与健康研究所王振独立通讯在Science Advances在线发表题为Cross-species prediction reveals chromatin regions with increased accessibility in humans的研究论文。该研究开发了一种基于卷积神经网络的跨物种预测方法,用于识别人类中染色质可及性增加的区域,作者将其称为“人类预测染色质可及性增加区域”(hPICAs)。

利用有限的转座酶可及染色质测序(ATAC-seq)数据,作者证明了仅基于人类染色质可及性数据训练的模型能够准确预测其他灵长类动物。作者基于111种人类细胞类型的染色质可及性数据构建了预测模型,并开发了一个系统识别hPICAs的框架。

作者显示hPICAs内的变异更可能通过改变转录因子结合位点来影响染色质可及性。最后,hPICAs富集在与人类特有性状相关的区域中,为研究人类进化提供了一个先前未被探索的视角。

与其最近的进化近亲(如脑容量、骨骼形态和身体脂肪)相比,人类经历了显著的变化。除了这些独特的特征外,人类还表现出对特定疾病的易感性,包括精神分裂症、膝骨关节炎和肥胖。最初关于人类特有性状的遗传研究主要集中在蛋白质编码区,以识别影响表型的遗传变异。例如,基因重复是人类进化的重要驱动因素,最近的研究识别出几个与人类皮层发育相关的基因重复。

然而,人类与黑猩猩之间的编码区序列仅显示出少数差异。全基因组关联研究(GWAS)已经识别出数十万个与复杂人类疾病和基因表达相关的遗传变异,其中大多数位于非编码区。非编码区中的这些调控元件可以通过调节编码基因的表达来发挥其功能,因此研究非编码区的遗传变异可以帮助作者更好地理解人类的进化历史。

来自灵长类及其他物种的组装完整基因组数量不断增加,使得非编码区的比较基因组学研究成为可。目前,这类研究主要依赖于序列保守性和核苷酸进化速率,使用PhastCons和PhyloP等方法。通过识别人类中的保守基因组区域,研究揭示了这些区域主要位于非编码序列中,并包含许多有助于人类疾病和性状的功能重要位点。

除了保守区域,研究人员还识别了其他功能性基因组元件,包括人类加速进化区(HARs)、人类保守缺失区(hCONDELs)和拷贝数变异(CNVs)。HARs和hCONDELs似乎作为顺式调控元件发挥作用,而CNVs也可能影响重复基因的转录水平。

一个显著的例子是HACNS1,它是一个HAR,包含多个可能改变其转录因子结合亲和力的人类特有替换,使其能够特异性激活人类中的GBX2。最近,对人类和人类-黑猩猩祖先基因组的比较分析识别了1581个人类祖先快速进化区(HAQERs)。

体内单细胞测序表明,HAQERs中的序列变异在发育中的大脑皮层中形成了人类特有的增强子。这些发现强调了突变如何在特定细胞类型或发育阶段促进基因表达调控,形成了物种进化的分子基础。

hPICAs中从祖先到人类的遗传变异特征(图片源自Science Advances

尽管序列保守性和进化速率是预测非编码区是否具有功能的有用工具,但许多调控元件并不保守,仅凭序列比对无法确定这些调控元件在哪些细胞类型或发育阶段活跃。随着功能基因组学测序技术(如转座酶可及染色质测序(ATAC-seq)、染色质免疫沉淀测序(ChIP-seq)和RNA测序(RNA-seq))的大规模应用,已识别出位于转录调控元件内的HARs,包括HaDHS和ace-DHS。

另一种方法涉及直接跨物种比较功能基因组学数据(包括染色质可及性、基因表达水平等),以精确定位保守的和人类特有的调控元件。然而,由于大多数非人灵长类动物组织样本的可用性有限,目前的研究局限于少数组织,如大脑。

在过去十年中,深度学习模型已被广泛应用于基因组学。这些模型自主地从DNA序列中提取特征,以高精度预测转录因子结合、组蛋白修饰、染色质可及性和基因表达。此外,深度学习能够快速有效地预测序列变异对数千个表观遗传特征的影响,从而有助于评估其表型影响。

值得注意的是,最近的研究表明,深度学习可以实现表观遗传特征的跨物种预测,克服了当前非模式生物表观基因组数据稀缺所带来的限制。这种能力为研究人类进化建立了一个有效的框架。

在本研究中,作者证明仅基于人类DNA序列训练的卷积神经网络(CNN)能够实现灵长类动物间染色质可及性的准确跨物种预测,并且跨物种的预测差异与实验测量的染色质可及性差异在统计学上相关。

在此基础之上,作者设计了一个框架,用于识别111种细胞类型中可及性增加的人类开放染色质区域(OCR),作者将其称为“人类预测染色质可及性增加区域”(hPICAs)。作者发现,与其他OCR相比,hPICAs在启动子和增强子中富集,并且受到正选择。

与传统的HARs相比,hPICAs中的遗传变异更可能影响转录因子结合位点,从而改变染色质可及性。此外,作者发现hPICAs在与人类特有性状相关的区域中富集。作者的研究表明,基于深度学习的跨物种预测提供了一种揭示功能性非编码变异的强大方法,为研究人类特有表型的进化提供了一个独特的框架。

原文链接:https://www.science.org/doi/10.1126/sciadv.ady9169


八宝山殡葬服务