全基因组范围内的基因-基因互作研究
今天给大家分享一篇2022年4月30日发表在国际肺癌研究协会(IASLC)官方期刊Journal of Thoracic Oncology (IF=20.121) 杂志上的文章。这篇文章进行了欧洲人肺癌易感性的大规模全基因组基因-基因相互作用研究,并在亚洲人中进行跨种族验证。
一 研究背景
肺癌是我国及全球恶性肿瘤的主要死因。除环境暴露(如吸烟)外,单核苷酸多态性(SNP)亦是公认的影响肺癌易感性的重要遗传因素之一。近20年来,尽管全基因组关联研究(GWAS)已经取得重要进展,但是所鉴定的SNP仍然对肺癌遗传度(heritability)的解释力有限。肺癌属于复杂疾病。复杂疾病的发生、发展受到复杂关联模式的驱动,如基因-环境、基因-基因交互作用等。尽管已经进行了全基因组关联研究来研究肺部肿瘤发生的遗传变异,但对可能影响非小细胞肺癌(NSCLC)风险的基因-基因(G x G)的相互作用知之甚少。
本研究中(图1),作者利用来自国际肺癌联盟OncoArray项目、肺癌跨学科研究和英国生物库的445,221名欧洲裔参与者,对欧洲NSCLC的风险进行了大规模的全基因组的G x G相互作用研究。首先,使用BiForce对340,958个单核苷酸多态性(SNPs)中超过580亿个G x G互作。然后,通过演示图形调整的逻辑回归模型进一步测试顶级相互作用。最后,利用所选的相互作用建立了NSCLC的肺癌筛查模型,分别针对从未吸烟者和曾经吸烟者。经Bonferroni校正,作者确定了8对具有统计学意义的SNPs,它们主要出现在6p21.32和5p15.33区域(例如,rs521828 C6orf10和rs204999 PRRT1;rs3135369 BTNL2和rs2858859 HLA-DQA1;rs2858859 HLA-DQA1和rs9275572 HLA-DQA2;rs2853668 TERT和rs62329694 CLPTM1L ). 值得注意的是,即使各民族之间存在很多遗传异质性,在6p21.32区域的三对SNPs也是如此。重要的G x G互作在5p15.33和6p21.32区域被发现并富集,这可能增强肺癌筛查模型。
二 主要结果
欧洲两阶段研究发现的两种显著的G x G相互作用
表1列出了ILCCO-OncoArray(15157例和13196例对照)、TRICL(3288例和3965例对照)和UK Biobank(3017例和406598例对照)的NSCLC病例和对照的特征。在发现阶段,作者观察到两对SNPs(rs521828,位于6p21.32的C6orf10的内含子,和rs204999,位于6p21.32的PRRT1的6.2 kb 3’;rs2853668,位于5p15.33的TERT的4.8 kb 和rs62329694,位于5p15.33的CLPTM1L的内含子)。在验证阶段,作者通过使用来自英国生物库的独立参与者证实了这两个G x G信号的显著性(rs521828 and rs204999: OR interaction= 1.09, 95% CI:1.00–1.18, p=0.044; rs2853668 and rs62329694: OR interaction = 0.83, 95% CI: 0.69–0.98, p =0.034)。
为了更好地了解rs521828和rs204999之间的相互作用,作者还使用所有三个队列联合评估了rs204999分层的NSCLC风险与rs521828的相关性。rs521828等位基因与携带rs204999野生基因型(OR 0.86, 95% CI: 0.80 0.92);在携带AG杂合基因型rs204999的人群中,这种效应被逆转(OR 1.09, 95% CI: 1.01 1.17),且GG基因型为rs204999的基因型对其影响更大(OR 1.23, 95% CI: 1.06 1.43)。由此可见,rs204999修饰了rss521828对NSCLC的作用,说明两者之间存在相互作用。通过一系列分层分析进一步研究了这种模式(图2A)。在rs2853668和rs62329694之间也观察到了类似的模式。G等位基因rs2853668与较高的携带rs62329694基因GG型的NSCLC受试者几率相关(OR 1.30, 95% CI: 1.14 1.49)。但在携带rs2853668基因型GA和AA的受试者中,这种效应被逆转(OR 0.87, 95% CI: 0.78 0.99) (OR 0.75, 95% CI: 0.59 0.99)。敏感度分析证实了该模式(图2B)。针对ILCCO数据,研究人员进一步对6p21.32和5p15.33区域进行填补分析。如图2C和2D所示,两个区域存在成簇基因-基因交互作用信号。利用logistic回归模型进一步检验了显著上位性对约500 KB侧翼区域内的所有SNP,发现了G x G信号在接近识别对的地方富集(图2C和D)
在欧洲人中通过meta分析确定的六种更重要的G x G交互作用
研究人员在本次欧美人群交互作用研究中鉴定出8对信号,在既往亚洲人群(NJMU-GSA)中鉴定出1对信号(2p32.2区域)。跨种族验证分析显示:肺癌基因-基因交互作用在不同种族间既有共同性,又有异质性。 从不同亚群的meta分析中得出Pinteraction小于5×10-8的 G × G信号。在不同亚群中,共有8对SNPs达到Bonferroni校正的阈值(p < 8.60 × 10-13)(表2)。其中,有两对SNPs与两阶段研究发现的SNPs相同。此外,在新检测到的6个G×G相互作用中,有4对出现在6p21.32区域,包括rs3135369和rs9271300、rs3135369和rs2858859、rs2858859和rs9275572、rs2858859和rs9275596。由于rs9271300和rs2858859(r2=0.66,D'=0.996)以及rs9275596和rs9275572(r2=0.72,D'=0.998)之间存在中等程度的连锁不平衡(LD),这四个G × G信号可能是以下三个SNP的结果:rs3135369、rs2858859和rs9275572。6p21.32区域的所有其他SNPs都是相对独立的,不管是LD-r2还是D'统计数字。其他两对SNPs居住在不同的区域,包括8p23.3的rs28591443和6p25.2的rs9265981,1q32.2的rs589027,以及2p24.2的rs713395。
灵敏度分析
作者进一步进行了敏感性分析来评估这八个G × G的相互作用。(1) 通过在逻辑回归模型中不包括任何其他协变量来评估这8个G × G信号的未经调整的影响,发现所有G × G相互作用在不同的亚群中仍然达到p小于5×10-7的显著性水平。(2) 为了说明英国生物库人群中病例和对照不平衡引起的I型错误膨胀,作者在验证阶段应用SAIGE(0.44.6.5版)重新确认这8个信号。SAIGE使用鞍点近似法来考虑病例-对照的不平衡,可以有效地分析大样本数据,控制病例-对照的不平衡和样本的相关性。除了一对(rs521828和rs204999)稍有意义(p=0.056)外,所有的G × G相互作用都保持名义上的意义。这些通过敏感性分析的结果表明,八个G × G相互作用的稳健性令人满意。
在亚洲和欧洲人间成功的跨种族验证显著的G x G相互作用
首先,作者通过使用来自NJMU-GSA的外部亚洲人群,评估了从欧洲血统人群中发现的8个G × G相互作用。能够在6p21.32区域的几个亚种群中验证三对SNPs。它们包括NSCLC中的rs521828和rs204999,NSCLC中的rs3135369和rs9271300和吸烟者,以及NSCLC中的rs3135369和rs2858859。其他配对没有明显的结果,可能是由于这两个民族人群之间SNP的效应等位基因频率不同(图3)。
具有G x G相互作用的SNP可能参与生物调控功能
在RegulomeDB数据库中,观察到13个SNP中的10个具有丰富的生物调节功能,包括eQTL、转录因子结合位点或DNase峰。观察到SNPs有许多增强子组蛋白标记和图案的变化。在使用肺组织的GTEx数据库进行的eQTL分析中,6p21.32和6p25.2的所有8个SNPs都发现了人类白细胞抗原(HLA)区域的丰富调控关系,而其他的则没有发现明显的eQTLs。此外,作者用GEO资料库进行了差异表达分析。对于两期研究中发现的三个基因(C6orf10、CLPTM1L和TERT),其表达水平在肿瘤组织中明显上调。此外,Meta分析中发现的BTNL2也在肺癌肿瘤和正常组织中存在明显的差异表达。通过LUAD-和LUSC-TCGA数据库对这10个基因在肿瘤组织中的肿瘤突变负担分析,在下一代测序的体细胞突变的基础上,作者发现有三个基因,特别是TERT、CLPTM1L和CSMD1,在肿瘤细胞中呈现高比例的体细胞突变。这些发现可能会给肺癌的新型靶向治疗带来启发。
G x G交互评分在英国生物样本库中有效地区分高危人群
作者在从不吸烟者和曾经吸烟者中建立了肺癌筛查模型,因为他们的遗传背景有很大的不同。对于每个亚组来说,考虑进行风险筛查的是以下内容。(1) PRS包括128个SNPs,这些SNPs对欧洲人的GWAS有明显的边际效应;(2) G × G相互作用的得分(表2),通过对三个数据集的Meta分析,其中P小于0.05;(3) groupLASSO使用ILCO-OncoArray(训练集)选择的G×G相互作用的得分。iPRS(interaction-empowered polygenetic risk score)具有显著的分层性能,同时作者通过ILCCO-OncoArray中的得分的十分位数将受试者分为10组。
iPRS在162,316名从未吸烟的人和245,998名曾经吸烟的人中进行了外部验证,这些人有来自英国生物库的肺癌随访时间。随访时间的中位数为9.45年,其四分位数范围为8.48至10.52年。每个受试者都有一个iPRS分数,所有受试者按分数的十分位数被分为10个组。高风险组(前10%)的受试者患肺癌的风险明显高于低风险组(后10%)的受试者,从未吸烟者的危险比(HR)相当于5.31(95% CI: 3.11-9.07, p = 8.60 × 10-10, 图4A),曾经吸烟者的HR相当于6.21(95% CI: 5.01-7.70, p < 2.2 × 10-16, 图4B)。与PRS相比[前10%与后10%相比。从不吸烟者的HR=1.72(95%CI:1.09-2.72);曾经吸烟者的HR=1.80(95%CI:1.49-2.15)],发现iPRS有更好的分辨能力。同时,作者验证了由人口统计学变量(年龄、性别和吸烟包年数)和iPRS组成的肺癌筛查模型,其中SNP的权重被保留在训练集中。累积肺癌风险曲线在按总风险分数的五分位数分类的五个组别之间有明显的区别(P<0.001),表明iPRS增强模型是一个良好的风险分类器(图4C和D)。
年龄和吸烟包年是两个公认的因素,用于定义肺癌低剂量计算机断层扫描(LDCT)筛查的高风险人群。因此,作者说明了按iPRS、年龄和吸烟包年分类的各种亚人群的肺癌绝对发病率(图4E)。在临床上,iPRS增强模型可能会改变肺癌筛查的做法。例如,年龄小于55岁或吸烟少于30包年的受试者(包括从不吸烟者),但iPRS较高,可建议作为肺癌筛查的高危人群;对于iPRS较高(前20%)且吸烟超过60包年的人,肺癌筛查最好从50岁开始;而对于iPRS较低的人,可推迟筛查(图4E)。表明iPRS能提高经典肺癌风险模型的筛查能力。
基因变异在生物通路中显著富集
为了从生物学上理解筛选模型中映射到外显SNP的基因,作者用KEGG数据库分别对曾经和从未吸烟者进行了基因富集途径分析。在从未吸烟的人中,总共有16条途径是显著的,如细胞粘附分子和异体移植排斥。对于曾经吸烟的人来说,有22条路径被确定,包括众所周知的路径,如TH1和TH2细胞分化、Notch信号通路和利什曼病,表明更多的生物路径参与到吸烟行为导致的肿瘤发生中。
三 总结
本次研究完成了全球最大规模(46.5万人)的肺癌基因-基因交互作用研究与跨种族人群验证,并构建了交互作用赋能的遗传评分(interaction empowered polygenetic risk score, iPRS)。不仅是全球规模最大的肺癌基因-基因交互作用研究,也是首个欧美人群全基因组基因-基因交互作用研究和跨种族验证研究,具有重要意义。
参考文献
Zhang, R., et al., A Large-Scale Genome-Wide Gene-Gene Interaction Study of Lung Cancer Susceptibility in Europeans With a Trans-Ethnic Validation in Asians. J Thorac Oncol, 2022.