IF35+|学到就是赚到!用别人的数据发自己的文章!
Meta分析已经烂大街了?生信数据挖掘也快沦陷了? 君不见,现在想发篇高分文章有多难!不过好在啊,小编这段时间又get了新技能:全基因组关联分析研究(GWAS)和孟德尔随机化分析(MR),小编无处安放的爱学习的心又躁动起来了呢!这不,马上就向大家来分享了!今天和大家一起学习的这篇文章发表在Nature Genetics(IF:35.209)杂志上,题目为“Genome-wide meta-analysis identifies 93 risk loci and enables risk prediction equivalent to monogenic forms of venous thromboembolism”。这可是GWAS +孟德尔随机化+Meta分析的王炸组合啊!
正文开始前,先简单价绍2个专业名词:
GWAS:全基因组关联分析研究(Genome-wide association studies),是对多个个体在全基因组范围的遗传变异多态性进行检测,获得基因型,进而将基因型与可观测的性状,即表型,进行群体水平的统计学分析,根据统计量或显著性 p 值筛选出最有可能影响该性状的遗传变异,挖掘与性状变异相关的基因。
MR:孟德尔随机化(Mendelian randomization),一种近年来主要应用于流行病学病因推断上的一种数据分析方式,实际上就是评估暴露(exposure)和结局(outcome)之间是否存在反向因果关系,也即结局是否能导致暴露的发生。
背景介绍
静脉血栓栓塞症(VTE)是一种包括深静脉血栓形成(DVT)和肺栓塞(PE)在内的疾病,是全世界心血管疾病死亡的第三大原因,仅次于心肌梗死和中风。双生子研究预测VTE的遗传力约为50%,表明很大一部分VTE风险是由遗传驱动的。F5、F2、PROC、PROS和SERPINC1等基因突变可导致遗传性血栓形成。大规模全基因组关联研究(GWAS)发现了多个风险位点。最大的GWAS包括26066例病例和624053例对照,确定了22个风险位点,共产生33个已知VTE位点。尽管在过去的20年里,静脉血栓栓塞的预防、诊断和管理取得了重要进展,但静脉血栓栓塞的发病率和静脉血栓栓塞相关的死亡率在过去的10年里并没有下降。因此,需要更好的策略来识别高危人群。
在本项研究中,作者对6个队列进行了GWAS荟萃分析,包括81190例病例和1419671例健康对照,首先检测了VTE的新风险位点,然后开发了VTE的多基因风险评分(PRS),并验证了PRS在识别高危个体方面的临床效果。
数据来源
6个队列:①哥本哈根医院心血管疾病生物样本库(CHB-CVDC)和丹麦献血者研究队列(DBDS),简称CHB-CVDC/DBDS;②deCODE;③Intermountain Healthcare队列;④英国生物样本库(UKB);⑤FinnGen队列;⑥百万退伍军人计划(MVP)
总计纳入81190例VTE样本和1419671名欧州血统的健康对照样本。
结果分析
1.全基因组关联结果
作者进行了GWAS荟萃分析,共纳入81190例VTE样本和1419671例欧洲血统的对照样本,确定了93个符合传统全基因组意义的风险位点(P<5×10−8),其中62个被认为是新风险位点(即与先前报道的VTE位点不重叠)(图1a、表1)。62个位点更是超过了更严格的显著性阈值 (P<1 × 10-9),其中33个以前未报道。大多数风险等位基因具有适度的效应量(中位数比值比(OR)=1.05(四分位数范围(IQR)= 0.03);5个先导变异的OR > 1.3,包括SERPINC1(rs2227624)和P2RX3(rs185432795)的新变异。基因组膨胀系数(λGC)为1.32,连锁不平衡分数回归(LDSC)截距为1.05。这表明大多数的膨胀是由于VTE的多基因性引起的。
作者调查了潜在表型DVT和PE的效应估计之间的相关性,发现所有变异的效应估计都具有方向一致性。为了给先前报道的VTE变异提供额外的证据支持,作者定义了一个不重叠的样本(即没有UKB和MVP),其中包括48538例病例和825617例对照。在迄今为止最大的VTE GWAS报道的36个新变异中,有21个在本研究中达到了全基因组意义,14个具有名义上的意义(P< 0.05),1个不存在相关性(rs563259534,P = 0.163)。
(a). VTE风险等位基因与频率之间的关系。对≥1.3的变异进行注释,灰色代表已知风险位点,红色代表新风险位点(由于SERPINC1和P2RX3位点具有相似的风险等位基因频率和效应,用同一个点表示。(b).93个VTE风险位点先导变异的DVT(x轴)和PE(y轴)效应图。数据来源于deCODE、UKB、FinnGen和CHB-CVDC/DBDS生物样本库。(c).93个VTE风险位点的先导变异与24个选定的血液性状之间的相关性热图。对24个性状和93个先导变异进行Bonferroni校正后,显著性差异数据用星号(*)标。
2.候选基因的优先级化
尽管GWAS的发现将性状与基因组区域联系起来,但将它们与特定的基因联系起来就不那么简单了。作者使用4种不同的方法对每个风险位点1 Mb内的基因进行优先排序:
(1)一种基于相似性基因的方法(PoPS)。
(2)利用GTEx v8(全血、肺、肝、胫动脉和脾脏)和deCODE(全血)两个数据集的表达数量性状基因座(eQTL)数据,探究对基因表达的影响。
(3)利用deCODE数据库的蛋白质数量性状位点分析(pQTL)数据,探究对血浆蛋白水平的影响。
(4)编码变异的鉴定。
通过PoPS方法,作者对115个具有PoPS z>1的基因进行了优先级排序;使用eQTL数据,在41个位点上发现了共定位的证据(后视概率> 0.75);使用pQTL数据,发现了15个基因具有显著的顺式关联;最后,通过研究先导单核苷酸多态性(SNPs)和高连锁不平衡(LD)(r 2 > 0.8)的预测结果,确定了20个错义变异,包括8个是先导变异(F5、SERPINC1、TRIM58、CPS1、SERPINA1、ABCA6、NPC1和GP6);通过整合这些证据,作者确定了26个候选基因,这些候选基因都至少有两组证据支持(图2)。
许多被优先排序的基因都是成熟的VTE基因(例如,F5、F2、PROC和PROS1)。作者从基因优先级分析中发现了两个突出的基因位点。一个是rs56324901,位于木糖苷木糖基转移酶 1(XXYLT1)下游756个碱基对,是多个组织(全血、胫骨动脉、肺和脾)中XXYLT1的显著eQTL,且该等位基因与XXYLT1的cis-pQTL(rs3796159,r2=0.90)密切相关。XXYLT1编码糖基转移酶,该酶负责延伸凝血因子VII和IX上的o-链聚糖。另一个位点是MAP1A下游224 kb的rs139974673,是PoPS方法中得分最高的基因之一。此外,作者在MAP1A中鉴定了一个错义变异(rs55707100,p.Pro2349Leu,r2= 0.95),与rs139974673处于高LD。MAP1A参与微管组装,这是血细胞发育和功能的关键过程。
为了深入了解VTE所涉及的生物学机制,作者使用MAGMA软件进行了基因集富集分析。与预期一致,分析结果强调了凝血级联反应和血小板功能是主要途径。
基于至少两种证据映射到候选基因的全基因组显著位点,即:PoPS,基因表达水平(eQTL),血浆蛋白水平(pQTL)和蛋白质编码功能(Coding)。第一列该基因是否与PoPS z> 1相关;第二列显示先导变异和eQTL变异之间是否存在共定位(后验概率> 0.75);第三列显示先导变异或高LD变异(r2> 0.8)是否与血浆蛋白水平相关;第四列显示先导变异或高LD变异(r2>0.8)是否为蛋白编码。
3.与血细胞特征和凝血因子的关系
为了进一步了解导致疾病的潜在机制,作者测试了先导变异与24个预先定义的血液性状之间的关联,这些性状包括从GWAS汇总统计数据(n≤870000)确定的血细胞性状和从蛋白质组学数据(n~36000)确定的凝血因子(图1c)。如图1c所示,作者发现大多数VTE变异与血细胞特征相关(P < 2.2 × 10−5) (n = 61 / 93),相关性最高的是血小板计数(n=39 / 93),其次是白细胞计数(n = 32 / 93)、中性粒细胞计数(n = 31 / 93)和平均血小板体积(n = 28 / 93)。在相对较小的数据集中,作者发现有19个变异与至少一种凝血因子性状相关。9个变异同时与血细胞性状和凝血因子相关,而19个变异中只有4个(SCARA5的rs10087301, SERPINC1的rs2227624, F11的rs2289252和KNG1的rs5030062)只与凝血因子相关。这些结果表明,血细胞特征是VTE生物学的核心。
4.VTE和动脉粥样硬化疾病的遗传结构
尽管静脉血栓栓塞和动脉粥样硬化疾病代表了不同血管床的特征,但最近的一项研究表明,它们具有共同的遗传结构。在这里,作者调查了VTE和源于不同动脉床的三种动脉粥样硬化疾病之间的遗传重叠程度,即冠状动脉疾病(CAD)、大动脉中风(LAS)和周围血管疾病(PAD)。与研究结果一致,VTE与PAD的遗传相关性最强(rg = 0.358, P=3.8 × 10−17),其次是LAS (rg = 0.258, P = 0.002)和CAD (rg = 0.187, P = 5.5 × 10−9)。接下来,作者使用MiXeR(方法)应用二元高斯混合模型,研究VTE与CAD、LAS和PAD之间共享遗传架构的比例和方向,发现约有300种常见变异影响静脉血栓栓塞。当考虑共享变异的数量占总数的比例时,作者发现,大多数影响VTE的变异也可能影响PAD和CAD(分别为99%和88%),而不到三分之一的VTE变异(26.7%)也影响LAS。然而,虽然那些同时影响VTE和PAD的变异在效应方向上表现出高水平的一致性(98%),但只有64%的CAD具有方向性一致性。
5.与选定性状的表型和因果关系
为了探索VTE和其他性状之间的遗传关系,作者使用VTE的多基因风险评分(PRSVTE)进行了一项全表型关联研究(PheWAS)。利用贝叶斯回归和连续收缩先验(PRS-CS)的多基因预测和衍生样本(不含UKB)推导出了PRSVTE。衍生样本包括57467例病例和1006954例对照,并在UKB中检测PRSVTE与49种表型的相关性,包括恶性肿瘤、心脏代谢、自身免疫和呼吸性状等(PBonferroni < 0.001)。结果显示,PRSVTE与静脉(即静脉曲张)和动脉(即腹主动脉瘤)血管床的血管疾病相关(图3a)。此外,PRSVTE与广泛的免疫相关特征(如1型糖尿病、风湿病、哮喘)、代谢(如2型糖尿病、甲状腺功能减退)和动脉粥样硬化疾病(如心肌梗死、中风)相关。在数量性状中,观察到对体重指数(BMI)的影响最大(图3b)。其他相关因素包括:血糖、糖化血红蛋白、血压、生活方式因素(吸烟、体育活动)、肾脏(肌酐)、炎症(c反应蛋白)和血液学特征(血小板、单核细胞计数)。
(a).PRSVTE与二元性状的相关性。(b).PRSVTE与数量性状的相关性。显著相关性用红色标出(P < 0.001(0.05 / 49个性状))。点大小与显著性水平相对应。
6.PRS和VTE风险预测
PRSVTE包括约110万个SNPs,并在23,723例VTE和412,717例对照中进行了相关性测试。作者评估了新的PRSVTE相对于先前发表的PRSs (5-SNP PRS和297-SNP PRS)和本研究中93个先导SNP(93-SNP PRS)的表型方差解释(r2)。结果显示,PRSVTE解释了最高比例的表型方差(r2= 4.2%),与其他3个PRSs相比具有最高的OR值(1.51)。相比之下,5-SNP PRS仅解释了2.1%的表型方差,每增加1 s.d的OR值为1.32(图4a-b)。
以前的PRS研究表明,疾病风险在评分分布的两端分布更为明显。为了探究PRSVTE的临床意义,作者比较了不同水平的高PRS(>90%、99%和>99.9%)与突变p.R534Q (F5,等位基因频率约为3%)和G20210A (F2,等位基因频率约为1.2%)在杂合、纯合和复合杂合子状态下的风险(图4c)。PRSVTE排在前10% 的个体发生VTE的风险与p.R534Q杂合子携带者和G20210A杂合子携带者相似(OR≈2);与F2变异携带者(≈2.1%)相比,F5变异携带者处于高风险的个体数量是其两倍多(≈4.5%)。纯合子F2和F5变异携带者或复合杂合子通常被认为是VTE的高风险人群,建议在高危期(如怀孕)进行血栓预防。作者发现排在前1%的PRSVTE比G20210A纯合子型(OR = 3.31)和复合杂合子型(OR = 3.94)具有更高的VTE风险(OR = 6.17)。作者还发现排在前0.1%的PRSVTE与纯合子p.R534Q携带者的风险相似(OR = 7.30),尽管影响的个体数量是后者的两倍(0.10% vs 0.05%;图4 c)。
与4个主成分(PCs)模型相比,调整10个或20个后的结果没有实质性变化。为了测试PRSVTE是否可以用于识别有风险的个体,作者评估了它的附加预测价值。在比较人口统计学和临床风险因素的附加预测价值时发现,PRSVTE优于所有其他风险因素,包括由年龄、性别和PCs组成的基准模型以及F2和F5变异。F2或F5的变异状态仅使曲线下面积(AUC)的预测增加了1.0%,而PRSVTE的AUC增加了4.0%(图4d)。在联合分析了所有其他VTE危险因素后,引入PRSVTE改善了VTE的风险预测,AUC增加2.4%(0.671 vs 0.695)(图4d)。
(a).表型方差(R2)由四种不同的PRS解释:5-SNP PRS, 297-SNP PRS, 93-SNP PRS和约110万SNPs位点的PRS(1092045-SNP PRS)(b).在VTE中方差每增加1 s.d 的OR值变化。(c).根据多基因和单基因携带者状态评估VTE风险。(d).PRS与人口统计学和临床危险因素相关的预测性能。
7.PRS和风险调整
为了评估PRS与F2和F5风险位点之间的相互作用,作者开发了一种改良的PRS (PRSmod),其中排除了F2(±10 Mb)和F5(±10 Mb)内的变异。尽管PRSmod与未改良的PRS (VTE)相比,效果预测能力略有减弱(OR = 1.51 /1 s.d),但PRSmod与VTE仍密切相关(OR = 1.45/1s.d)。作者发现,PRSmod位于前10%且携带F2或F5变异的个体(10年VTE风险分别为5.5%和6.0%),比PRSmod低于10%的F2或F5变异携带者((10年VTE风险分别为2.9和3.6%))的风险几乎增加了两倍(图5a,b)。作者还发现,PRSmod位于后10%且同时携带F2或F5变异的个体,其VTE风险与人群平均水平相似或更低(图5a,b)。
近年来,VTE的预防已经从以医院为基础的危险因素扩展到保持心脏健康的生活方式。作者基于运动、吸烟、饮食和体重的四项生活习惯,调查了生活方式与VTE风险之间的关系。发现健康的生活方式与VTE的风险降低相关(风险比= 0.73),而不健康的生活方式增加了VTE的风险(风险比= 1.29,95%)。为了探究多基因风险和生活方式因素之间的关系,根据性别、年龄和生活方式(吸烟、定期锻炼和肥胖)将个体分组。研究发现VTE的风险随着危险因素的累积和更高的PRSVTE而增加(图5c-d)。
(a).10年累积风险曲线显示无VTE病史的个体中PRS和F2 (rs1799963)携带者状态之间的相互作用。(b).10年累积风险曲线显示无VTE的个体中PRS和F5 (rs6025)携带者状态之间的相互作用。(c).根据年龄组、性别(男/女)、肥胖(是/否)、定期运动(是/否)、吸烟(是/否)和PRS组合,发生VTE的10年风险。
结束语
本文中,研究团队纳入来自6个队列的81190例VTE病例和1419671例健康对照,对VTE进行了大规模GWAS meta分析,从而确定了93个VTE风险位点,其中包含62个先前未报道过的新位点。基于这些风险位点,研究团队开发了一个VTE的多基因风险评分(PRSVTE),有助于区分低危和高危VTE患者。此外,研究人员以孟德尔随机化为主题,分析了肾功能、教育程度、空腹血糖和收缩压与VTE风险的因果关系。考虑到MR分析的结果图表大多在附录中展示,小编在这里不做过多赘述,感兴趣的同学自己下载原文去研究吧~
参考文献:
Ghouse, J., Tragante, V., Ahlberg, G. et al. Genome-wide meta-analysis identifies 93 risk loci and enables risk prediction equivalent to monogenic forms of venous thromboembolism. Nat Genet (2023). https://doi.org/10.1038/s41588-022-01286-7