全基因组关联研究(Genome Wide Association Studies, GWAS)可以将特定基因与疾病联系起来,帮助我们了解疾病的遗传基础。为了确定这些基因如何导致疾病,需要了解它们编码的蛋白质的功能,并将特定的生物过程与疾病联系起来。相互作用的蛋白质往往具有相似的功能,进而表现出相似的表型,可以说GWAS是将遗传蓝图与疾病表型联系起来。
最近,一项发表在《Nature Genetics》杂志上的新研究中,研究人员创建了一个相互作用蛋白网络,也被称为相互作用组,汇集了来自不同来源的证据,包括IntAct、Reactome、 SIGNOR这3个数据库的蛋白质相互作用数据。利用这个相互作用组,研究人员确定了与基因相互作用的蛋白质组,对1002种人类特征进行了基于网络的扩展,发现这种方法可以恢复已知的疾病基因或药物靶点,为新靶点发现和药物再利用产生了一系列新的见解。
内容解读
1.通过网络扩展增强GWAS的能力
选择IntAct、Reactome、 SIGNOR这3个数据库的蛋白质相互作用数据,并通过Neo4j图形数据库整合了上述数据,称为“OTAR交互组”。所有上述蛋白质相互作用数据与STRING数据库的数据结合,得到了一个包含18410个节点和571917条边的网络(图1a),这个网络也被称为相互作用组。使用来自Open Targets Genetics的L2G评分模型将GWAS性状关联映射到基因,L2G评分模型组成如图1b。对于每个GWAS性状,相关基因被用作相互作用网络中的“种子”,使用个性化PageRank(PPR)算法对网络中所有其他蛋白质编码基因进行评分,通过短路径连接到GWAS性状的基因获得更高的分数(图1c)。利用这个相互作用组,确定了与基因相互作用的蛋白质组,这些基因已通过 GWAS 与来自 21 个治疗领域的 1002 种人类特征相关联(图1d)。为了评估网络扩展恢复性状相关基因的能力,作者还进行了基准测试(图1e)。
2.网络扩展识别相关的人类特征
用于治疗某种疾病的药物可能对相关疾病也有疗效,因此识别可能具有共同遗传基础的性状具有重要价值。网络扩展分数可以从任何GWAS可用的候选基因集计算出来,使用实验因子本体(Experimental Factor Ontology, EFO)中注释的相似性,对基于网络扩展的性状-性状关联进行基准测试,网络扩展分数的相似性确定了可能共享潜在遗传和生物学过程的特征组。利用网络扩展分数的两两距离构建层次聚类树,定义了54个性状亚群。性状倾向于根据功能相似性分组,54个性状中有34个的EFO项注释到组内50%以上的性状(图2a)。在图2b中,展示了根据网络扩展分数分组特征的例子。从ChEMBL数据库中获得各聚类疾病的药物适应证,从而找到可以药物再利用的聚类以及药物开发最需要的特性组。
3.跨人类性状的基因模块的多效性
通过识别与人类特征相关的基因模块,来研究人类细胞生物学的多效性,从而能够了解细胞生物学特定方面的扰动如何对多个特征产生广泛的影响。总共发现2021个基因模块与性状之间的关联,其中886个(43.8%)是与单个性状相关的基因模块,73个是与2种或2种以上性状相关的多效性基因模块(图3a)。其中,与6个多效性最强的基因模块相关的性状数量在56-110个不等,这些模块富含参与蛋白质泛素化、细胞外基质组织、RNA加工、G蛋白偶联受体(GPCR)信号传导等过程的基因(图3b)。
4.共享机制和药物再利用机会
与基因缺失研究相反,这里定义的多效性捕捉了多细胞相关过程。研究人员展示了与人类疾病相关模块的2个例子,这些模块富含具有已知致病性变异的基因,可用于绘制已批准药物的靶点,以便于重新再利用。
(1)与骨和筋膜炎相关的特征可能具有共同的决定基因模块,该基因模块在Wnt信号相关基因中富集(图3c)。先前报道Wnt信号基因与骨稳态以及不同类型的筋膜炎和掌腱膜挛缩相关;该基因模块富集于携带ClinVar变异的基因,这些变异来自牙缺失和骨相关疾病患者;具有ClinVar变体的几个基因,如LRP6,SOST,WNT1,WNT10A和WNT10B,但通过GWAS,发现与骨骼疾病无关。在小鼠模型中,该模块的几个基因与骨密度变化有关;此外,该模块包含Romosozumab的靶点(SOST), Romosozumab是一种已被证明有效的治疗骨质疏松的药物。
(2)呼吸道和皮肤相关的10种免疫疾病共享三个基因模块,一是与转录和蛋白酶体调节相关的高度多效性模块;二是与模式识别受体信号相关的特异模块;三是与JAK-STAT参与的细胞因子产生相关的特异模块;这些模块在哮喘患者可能具有致病变异的基因中显著富集。对两个最特异的基因模块进行分组,如图3d所示。几个已知致病变异基因(例如IRAK3, TNF, ALOX5, TBX21),但是通过GWAS,发现这些基因与上述疾病无关。IRAK3,一种编码蛋白质的假激酶,是GWAS未鉴定出的可用于哮喘的成药性基因的一个例子,而研究已经发现IRAK3的蛋白错义突变与哮喘有关,并且小鼠模型研究表明,在白介素-33 (IL-33)诱导的气道炎症中,IRAK3受到调节。虽然临床上尚未使用针对IRAK3的药物,但这一分析提示,它可能成为哮喘和其他相关疾病的药物靶标。
作者在图3d所示的模块中鉴定了126种药物的41个基因靶点。为了确定可能具有重新再利用潜力的药物,排除了那些已经有针对治疗领域的药物,包括与该基因模块相关的10种疾病,由此产生了18种靶向5个基因的药物,包括:14种靶向PTGS2的药物,主要用于治疗风湿性疾病和骨关节炎;干扰素ALFACON-1或ALFA-2B(靶向IFNAR1和IFNAR2),主要对抗病毒感染;GALIXIMAB(CD80的抗体),淋巴瘤III期试验;以及针对结直肠癌IL1A的抗体RA-18C3。这些药物可用于呼吸道或皮肤自身免疫相关疾病。例如,RA-18C3在一项针对化脓性汗腺炎(反常性痤疮)的小型II期试验中显示出益处。
5.相关免疫介导疾病的基因模块分析
与免疫系统相关的特征在分析中是一个很好的代表,可以分为3组:第一组包含系统性和器官特异性疾病;第二组是免疫细胞测定;第三组是异质性更强的集群。第一组聚类分析显示,可以细分为包含15种疾病的2个亚群:①炎症性肠病 (IBD) 、多发性硬化(MS)和系统性红斑狼疮(LES)等9种疾病;②乳糜泻(CeD)、白癜风(vit)等6种疾病;作者发现与GPCR信号传导,中性粒细胞活化和干扰素信号传导等相关的6个基因模块,至少在不同亚群性状中的一个中富集(图4a,左),存在于这些模块中的基因在关键免疫组织中有较高的表达量(图4a,右)。
如图4b所示,当存在显著的基因水平重叠时,基因模块之间存在紧密联系。从与至少3种免疫介导疾病连锁的模块中选择了基因,并保持了高置信的交互作用子集。结果显示,在原发性免疫缺陷患者中发现了携带ClinVar变异体的多个基因(例如IRF9、IRF7、STAT1、STAT2),这些基因不是GWAS连接的基因,但在其网络附近,因此证明了该基因模块对这些疾病的重要性。
为了确定具有再利用潜力的药物,作者排除了与免疫介导的疾病组在相同治疗领域靶向疾病的药物,最终确定了有20个靶点的49种药物。其中包括ulimorelin,是饥饿素(Ghrelin)促分泌剂受体GHSR的激动剂,用于治疗胃肠道梗阻。先前已经有文献报道在与年龄相关的慢性炎症、银屑病和炎症性肠病的背景下研究了胃Ghrelin激素信号,这提示了药物的潜在再利用机会。
6.网络辅助IBD候选基因优先级排序
在单个GWAS位点识别致病基因对于确定治疗靶点的优先顺序很重要,在本研究中,使用网络扩展方法对IBD GWAS基因座中的基因进行优先级排序。使用两种替代方法来定义网络的“种子”基因。一是手动筛选了37个高置信度与克罗恩病或溃疡性结肠炎有因果关系的基因,二是使用Open Targets L2G评分在已建立的IBD基因座自动选择了110个L2G > 0.5的基因。经过手动筛选的种子基因在200 kb范围内的网络得分远高于其他基因,表明大多数种子基因与其他种子基因有密切的交互作用(图5a)。当只考虑L2G基因集中的种子基因时,情况也是如此,表明其中许多也是强的IBD候选基因(图5b)。最后,检测了低SNP P值在10 kb内具有高网络评分的基因中的富集情况。发现在网络评分较高的基因附近,低P值逐渐富集(图5c),这是由于与SNPs连锁的大量基因未达到用于发现基因座所需的典型全基因组显著性阈值(5×10 - 8)。
将手动筛选的37个高置信IBD基因称为“精选基因”, L2G网络评分最终筛选出的42个基因称为“候选基因”。精选基因包括药物靶点TYK2、ICAM1和ITGA4,以及NOD2和IL23R,这些基因存在错义变异体,提示它们是IBD的调节剂。最近有证据证实候选基因中有些基因也是强有力的IBD基因。RIPK2被证实与细菌传感器NOD2的相互作用编码炎症信号传导介质;有研究发现SLC26A3表达与溃疡性结肠炎的临床结局相关;网络评分高但尚未在IBD背景下有明确特征的IBD候选基因还有PTPRC (T细胞活化所需的磷酸酶)和BTBD8,网络分析发现 BTBD8通过WIPI2和ATG16L1参与自噬调节。
为了研究精选和候选基因的多效性,作者研究了与IBD相关的8个基因模块。在37个精选基因和42个候选基因中,35个(14个精选和21个候选基因)位于这些模块中。有趣的是,大多数这些基因都位于只与IBD相关的模块中,特别是一个模块富集了与通过JAK-STAT通路的受体信号通路相关的基因。相反,与IBD相关的最多效性模块中只有很少的IBD候选基因。与作者预期一致,这些多效性模块大多数与免疫系统相关的特征有关,但最多效性模块则主要富集于与蛋白质泛素化相关的基因。这一分析表明JAK-STAT相关模块可能是更倾向于IBD特异性的新型候选疾病基因和药物靶点的最佳来源。
总结
本研究中,作者联合IntAct、Reactome、 SIGNOR和STRING数据库,得到了一个包含18410个节点和571917条边的相互作用组。利用这个相互作用组,确定了与基因相互作用的蛋白质组,这些基因已通过 GWAS 与来自 21 个治疗领域的 1002 种人类特征相关联,从而进一步鉴定出了73个多效性基因模块,详细介绍了其中的2个例子(骨和筋膜炎共享基因模块以及呼吸道和皮肤相关的10种免疫疾病共享基因模块)。了解这些多效性关系对于药物发现和靶点再利用来说是无价的,因为它们表明了一种疾病的治疗可能对另一种疾病也有效的机会。此外,它们还可以提示避免使用某些药物靶点,因为靶向这些靶点可能会导致不必要的副作用。最后,作者阐述了利用网络扩展分数研究炎症性肠病全基因组关联研究位点的基因,并揭示了具有强功能和遗传支持的与炎症性肠病相关的基因。
参考文献:
Barrio-Hernandez, I., Schwartzentruber, J., Shrivastava, A. et al. Network expansion of genetic associations defines a pleiotropy map of human cell biology. Nat Genet 55, 389–398 (2023). https://doi.org/10.1038/s41588-023-01327-9