想必很多做科研的小伙伴,都会主要关注基因的转录组层面,也就是偏下游,而对更上游的基因组层面,可谓一窍不通。当然,小编自己也是。但是事实上,这样做科研是不对的。特别是现在如今多组学研究的驱动下,在多个层面来全局把控科研是大势所趋,况且现在多组学技术的发展是并驾齐驱的,没有任何一个层面的偏倚。回想起Immugent过去写的推文,几乎全是基因下游的转录组层面,而很少关注基因组层面的研究。因此,Immugent从今年开始解读一些基于基因组层面的技术或者文章来写推文。
相比较于转录组层面,其上游的基因组层面是更需要涉猎的,因为它是本质,一切后续的生物学事件都是由基因决定的。我们可以说什么转录后修饰也很重要,它决定了基因最终是否发挥功能,以及发挥多大的功能。但是,今天Immugent要说的是如果最开始这个基因都不工作,那么下游的各种转录本和蛋白都无重谈起。其实用于基因组研究的技术已经有很多了,比如全基因组测序(WGS),全外显子测序技术(WES),以及全基因组关联研究(GWAS)等。但这些都不是Immugent今天要讲的主角,今天的主场是属于数量性状座位/数量性状基因座(quantitative trait locus,QTLs)。
复杂性状(Complex traits)通常是指由多个基因和环境共同作用的性状,包括了数量性状和常见的疾病等。因此研究复杂性状的遗传基础就不能使用经典的遗传学实验手段了(例如,孟德尔的豌豆),而要另辟蹊径。目前,GWAS和QTL分析是研究复杂性状遗传结构的主要手段。与GWAS 相比,QTL定位可算历史悠久,已经发展了近一个世纪,是研究数量性状遗传基础的主要手段。有趣的是,GWAS 实质是利用连锁不平衡定位,而QTL的实质,是确定分子标记与QTL之间的连锁关系,基本原理是QTL与连锁标记的共分离。当分子标记与某一个性状的QTL连锁时,不同标记基因型个体的表型值将存在显著差异。通过分析表型间差异,就可以推断与分子标记相连锁的QTL的位置和效应,也就是定位。如今的QTL分析较之前有很多的改善,可谓是各种混搭了,而且效果不错,下面Immugent就通过几篇重磅研究来系统解读一下TL分析如何用于我们的科研设计中。
1. QTL分析缔造两篇NAR数据库齐发
上面也说到,有关QTL分析的文章在很久之前就有了,国外很多研究物种进化、基因组相关疾病的课题组一直都在使用这项技术进行研究,但是国内一直都没有特别出色的相关工作报道。而真正在国内引起巨大轰动的是华中科技大学的一位博后(现在是华中农业大学的老师),她在短时间内连发了两篇NAR,构建了两个QTL相关数据库:PancanQTL和Pancan-meQT,而且全都是通过挖掘现有的QTL数据。PancanQTL和Pancan-meQTL两款数据库的数据均来源于The Cancer Genome Atlas (TCGA)数据库,分别介绍了33种癌症的eQTL数据以及23种癌症的meQTL数据,QTL数据又分为cis-QTL和trans-QTL,数据处理过程类似,包括基因型数据、表达数据及甲基化数据收集和处理;协变量分析;eQTL及meQTL识别;survival相关的eQTL/meQTL及GWAS相关的eQTL/meQTL分析等。
图1:
首先介绍一下这第一个数据库:PancanQTL。我们知道eQTL分析主要是将基因表达的变化与基因型联系起来,是理解基因调控和解释疾病相关位点所必需的。目前鉴定的eQTL主要存在于血液和其他正常组织样本中。然而,在PancanQTL之前,还没有数据库全面提供大量癌症样本中的eQTL。因此,作者就利用来自the cancer Genome Atlas (TCGA)的33种癌症类型的9196个肿瘤样本的基因型和表达数据,在cis-eQTL分析中鉴定出5,606,570个eQTL基因对,在trans-eQTL分析中鉴定出231,210个eQTL基因对。
图2:
此外,作者进一步进行了生存分析,确定了22212个与患者总生存期相关的eQTL。最后,作者将这些eQTL与全基因组关联研究(GWAS)数据联系起来,并鉴定出337,131个与现有GWAS位点重叠的eQTL。最后,基于上面分析的结果,作者开发了一个用户友好的数据库PancanQTL(http: //bioinfo.life.hust.edu.cn/PancanQTL/),用于存储cis-eQTL, trans-eQTL,生存相关的eQTL和GWAS相关的eQTL,在这个数据库中支持用户搜索,浏览和下载肿瘤相关的eQTL数据。总之,PancanQTL可以帮助研究者了解遗传变异在肿瘤发生和发展中的作用。
说完第一个数据库,继续下一个数据库:Pancan-meQTL数据库。众所周知,DNA甲基化是调控基因表达的重要表观遗传机制,异常的DNA甲基化已在包括癌症在内的各种人类疾病中被观察到。此外,单核苷酸多态性可以通过影响DNA甲基化来促进肿瘤的发生、发展和预后,基于此,大量的DNA甲基化数量性状位点(meQTL)已在生理和病理背景下被鉴定出来。然而,目前还没有开发出数据库来系统地分析多种癌症类型的meQTL。
图3:
基于以上存在的QTL研究短板,作者首次提出了pancan-meQTL的理念,并且通过整合全基因组基因型和DNA甲基化数据,pancan-meQTL数据库全面提供来自癌症基因组图谱的23种癌症类型的meQTL。在这项研究中,作者共鉴定出8,028,964个顺式meQTL和965,050个反式meQTL。其中,23,432个meQTL与患者总生存时间相关。最后,作者确定了2,214,458个与通过全基因组关联研究确定的已知位点重叠的meQTL。pacan-meQTL提供了一个用户友好的web界面(http://bioinfo.life.hust.edu.cn/Pancan-meQTL/),方便用户浏览、搜索和下载感兴趣的meQTL数据,该数据库是研究遗传学和表观遗传学在癌症中的作用的宝贵资源。
2. 利用QTL数据构建DICE从而鉴定遗传变异对免疫细胞基因表达的影响
基因组的很多研究都是将遗传密码中的数千个变异与人类疾病相关联在一起,但是这些关联性并没有轻易地揭示出这些变异如何影响细胞功能,或者为研究者提供如何可能进行干预以降低风险或治疗疾病。许多这些变异发生在基因之间的很大程度上未知的基因组DNA序列中,这些DNA序列可能指导细胞如何以及何时使用某些基因,但是它们实际调节哪些基因仍然是个谜。更重要的是,虽然人体中的每个细胞都含有相同的遗传密码,但是不同的细胞使用不同的信息,根据每个细胞在体内的独特作用来打开或关闭基因。为了准确的揭示各种免疫细胞的这种精密的调控机制,利用QTL数据分析在2018年发表在Cell杂志上的一篇文章,名为:Impact of Genetic Polymorphisms on Human Immune Cell Gene Expression的研究,在当时的免疫学界引起了巨大轰动,这也是将大队列的QTL数据用于免疫细胞研究的典型范例。
图4:
为了构建这种免疫细胞QTL图谱,Vijayanand团队首先从健康供者的血液样本中分离出不同类型的免疫细胞。他们随后评估了供者特异性的遗传变异,并利用RNA测序确定每种细胞类型中的每个基因的活性水平。这种分析包括了13种类型的免疫细胞。对于其中的两个免疫细胞类型,除了评估处于静息的无活性状态的细胞中的基因活性外,该团队使用抗体激活这些免疫细胞,刺激方式类似于它们在识别病原体或恶性癌细胞时接受到刺激物,随后也在这种激活中分析处于这种激活状态下的基因活性谱。
最终,Vijayanand团队对1500多个样本进行了测序和分析,结果就是产生了大量的数据。通过筛选这些数据,该团队已发现了免疫系统的一些令人吃惊的特征。比如,这些研究人员发现特定类型的免疫细胞中的基因活性在男性和女性之间存在显著差异。此外,他们发现仅在一种细胞类型中,遗传变异通常影响附近基因的表达;最重要的是,这些独特差异在使用全血时可能不会被检测到。最后,他们还开始跟进一些关键的实验验证,以便研究他们的数据是否揭示了某些与疾病相关的基因发挥的作用。
图5:
虽然DICE已是一个人类免疫细胞的宝贵资源,但是Vijayanand团队承认这种免疫细胞图谱并不完整。Vijayanand及其同事们随后继续开展他们的免疫相关QTLs分析相关工作,以期在这种数据库中添加更多的活化细胞类型以及更罕见的免疫细胞类型。同时,他们还计划将其扩展到每个细胞的图谱,以便包括诸如表观遗传图谱之类的新信息,这将有助于确定基因调控变异的位置。随后不仅,同样是他们团队揭示了常见的基因变异在感染过程中如何影响免疫细胞的功能,相关研究已于去年发表在SCIENCE IMMUNOLOGY杂志上,篇名为:Single-cell eQTL analysis of activated T cell subsets reveals activation and cell type–dependent effects of disease-risk variants,这项研究为CD4+ T细胞亚群之间的基因表达差异提供了迄今为止最深入和全面的QTL信息。
3. ImmuNexUT从基因层面阐述“免疫相关疾病的发病机理”
如果说DICE数据库只是揭示了生理状况下各种免疫细胞的基因调控网络,那么接下来的这项于2021年发表在Cell杂志上的研究,则是利用QTL分析着手解决免疫相关疾病的基因调控网络,篇名为:Dynamic landscape of immune cell-specific gene regulation in immune-mediated diseases。在这项研究中,作者共纳入了来自337名被诊断患有10类免疫相关疾病的患者和79名健康志愿者,并对其中每个样本共计28个不同的免疫细胞亚群进行分析,最终利用eQTLs解析了不同免疫细胞类型和疾病的独特的基因表达谱。最终,作者揭示了在免疫条件以及细胞类型背景下 eQTLs 效应的动态变化,这种细胞类型特异性的、和环境相关的 eQTLs 显示出与免疫疾病相关的遗传变异的显着富集,并且与疾病相关的细胞类型、基因和环境有关。
图6:
首先,作者对416个志愿者的9852个样本的基因表达数据中进行分析,纯化了28种不同的免疫细胞类型,包括几乎所有类型的外周免疫细胞。作者发现基因表达差异大都可以用细胞类型QTL的差异来解释,个体间的差异和临床诊断部分对基因表达变异的解释程度较轻。作者使用层次聚类分析表明,基因表达模式准确地再现了分离的免疫细胞亚型。每个细胞亚群都有特定表达的基因,包括细胞因子受体或模式识别受体,表明它们对环境信号有不同的反应。为了进一步比较基因模块失调的模式时,IMD被分为两组,主要对应于临床不同的自身免疫性疾病(SLE、MCTD、SSc、SjS、IIM和RA)和自身炎症性疾病(BD和AOSD)。此外,除了IMD中常见的异常调节途径外,一些基因在特定疾病中展现出独特的异常表达情况,暗示了未经识别的致病机制。
为了评估纳入患者来源样本对eQTLs鉴定的影响,作者接下来分别对健康志愿者样本或IMD患者样本的每个细胞亚群进行eQTLs分析。结果发现一些eQTLs仅在IMD患者中显著,并且在不同的细胞类型中IMD特异的eQTLs数目存在差异,但是整体趋势倾向于髓系细胞较多。与在健康志愿者和IMD患者中均显著存在的eQTLs相比,IMD特异性的eQTLs在增强子和刺激后诱导的免疫细胞ATAC-seq峰中显著富集。这些观察表明,使用不同患者来源的样本进行eQTLs鉴定有助于在生理条件下识别刺激依赖的eQTLs,这些eQTLs与疾病生物学相关,而在健康志愿者样本中很难检测到。
图7:
最后,作者利用eQTLs数据集来解释IMD相关的GWAS信号,使用分层LD回归评分来评估eQTLs与GWAS结果的相关性。当通过联合回归分析的eQTLs注释来制约共享元素时,尽管免疫疾病和免疫细胞eQTLs的特异性关联仍然存在,但大多数非免疫性状的关联会减弱。在某些情况下,GWAS顶部信号的eQTLs效应指向疾病易感基因。因此,作者通过邻近性评估了NHGRIEBI GWAS目录中顶级变异的富集情况,结果与非免疫性状GWAS在GTEx eQTLs中的富集形成对比。并且在系统性红斑狼疮患者中进行了免疫细胞亚群的特异性分析,这些亚群特异性和eQTLs可能对免疫细胞编排有很大影响,并可能与复杂的疾病发病机制相关。
4. 单细胞eQTL分析确定自身免疫性疾病相关基因调控机制
这几年单细胞测序有多火,小编想必就不用多说了。纵观这几年生命医学界,可以说是样样都有单细胞,样样都能做单细胞。当然,在科技发展迅速的当下,QTL数据也可以实现在单细胞水平的联合分析。需要注意的是,在单细胞分辨率的数据生成过程中,研究者对遗传差异如何在细胞水平上促进免疫变异的认识上主要受到两个挑战的限制。其中的一个挑战是对许多样品进行测序,另一个挑战是对每个样品的大量细胞进行测序。但是,解决这些挑战对于剖析常见异质性疾病的遗传和分子基础是非常必要的。因此,一项2022年发表在Science期刊上的研究中,篇名为为“Single-cell eQTL mapping identifies cell type–specific genetic control of autoimmune disease”,多单位合作的研究人员通过构建OneK1K队列,将单个细胞的基因表达谱和基因图谱联系起来。在这项研究,作者不仅对从982名供者体内收集的127万个外周血单核细胞(PMBC)进行了单细胞RNA测序(scRNA-seq)数据,同时作者还开发了一个用于单个细胞分类的功能框架,通过将scRNA-seq数据与基因型数据相结合,绘制了14种免疫细胞类型中每种细胞基因表达的遗传效应网络,并确定了26597个独立的顺式表达数量性状位点(eQTL)。
图8:
利用每个基因座上的主要组织相容性复合体(MHC)区域以外的顶级相关eQTL单核苷酸多态性(eQTL single-nucleotide polymorphism, eSNP),这些作者确定了990个反式作用效应,其中的大多数(63.6%)是细胞类型特异性的。他们展示了eQTL如何在从初始状态过渡到记忆状态的B细胞中产生动态等位基因效应。
总的来说,他们确定了在整个B细胞成熟过程中表达的1988对eSNP-eGene(gene with an eQTL, 具有eQTL的基因,缩写为eGene),其中333对eSNP-eGene在B细胞分化过程中具有统计学意义上的等位基因效应变化。在333对eSNP-eGene 中,66%仅从动态eQTL分析中发现,而在细胞类型中独立测试效应时没有观察到,这突显了研究决定免疫细胞功能的细胞状态特异性效应的重要性。他们研究了eQTL如何影响特定细胞类型中必需免疫基因的表达变化,并为复杂的自身免疫性疾病中细胞机制的既定假设提供了实验支持。
图9:
在这项研究中,作者开发了一个细胞分类框架,并通过结合scRNA-seq数据和基因型数据,他们绘制了14种免疫细胞类型中每种类型的基因表达的遗传效应,并确定了26597个独立的顺式表达数量性状基因座(eQTL)。他们发现其中的大多数eQTL对基因表达的等位基因效应是细胞类型特异的。他们的结果在两个独立的队列中得到了重现,其中的一个队列由与他们的发现队列不同血统的个体组成。在所有的基因座上,他们的发现队列和重现队列在不同免疫细胞类型中的等位基因方向的一致性在72.2至98.1%之间。最后,这些作者整合了七种常见的自身免疫性疾病的遗传关联数据,并确定了以细胞类型特异性方式运作的遗传效应的显著富集。通过单细胞eQTL和全基因组关联研究(GWAS)位点的共定位,他们发现19%的顺式eQTL与GWAS风险关联的因果位点(causal loci)相同。利用孟德尔随机化的方法,他们发现了305个基因座通过特定细胞类型和亚群的基因表达变化导致自身免疫性疾病的因果途径。
6.展望
就像本文开头说到的那样,QTL分析都发展了进一个世纪了,它的体系可谓是非常成熟了,特别是近20年通过高通量测序实现的全基因组多样本的QTL检测,将它的优势发挥得淋漓尽致。此外,无论是开头最开始讲到的PancanQTL和Pancan-meQTL两款数据库,还是后面QTL一步步应用在正常免疫细胞,病理状况下的免疫细胞以及单细胞层面的QTL分析,我们可以看出这项技术的应用方向正在不断扩展。
在如今这个生物科技迅速发展的时代,做出一项优秀的科研工作所缺的不再是各种技术,而是如何将这些技术很好的串联到一起,使其每种技术的优势都发挥得淋漓尽致,这就意味着需要课题的主导者有一个良好的科研思维。科研思维的高度决定了最终成果的高度,而要想找出一个比较优秀的科研思路,我们不需要会做每一项技术,因为这些公司都可以做,但是我们必须知道的是每一种技术的特点和优势所在,这样才会有助于我们选择合适的工具辅助我们做好科研工作。
最后要说的是,无论是GWAS还是QTL分析,目的都是为了找到与性状/疾病紧密关联的候选基因。然而找到候选基因仅仅只是一个开始,后续还需要根据方案设计,结合其他组学手段,模型验证等来深入分析,整个过程可谓任重而道远。但是对于大多数人来说,我们要学的不是如何分析QTL定位数据,更不是要每个人都去做QTL,那样就太耗钱耗力了。事实上,我们只需要知道如何利用已经发表的QTL数据得到的结果,对其进行二次挖掘,或者直接用他们分析出的结果,挑选出几个关键的进行验证即可。当然这样的思路也有很成熟的体系了,如近几年很火热的孟德尔随机化分析就是其中一类。最后,Immugent就是希望本篇推文能给大家带来一些关于基因组研究的思考,并运用在自己的科研设计中。
[参考文献]
[1] Gong J, Mei S, Liu C, Xiang Y, Ye Y, Zhang Z, Feng J, Liu R, Diao L, Guo AY, Miao X, Han L. PancanQTL: systematic identification of cis-eQTLs and trans-eQTLs in 33 cancer types. Nucleic Acids Res. 2018 Jan 4;46(D1):D971-D976. doi: 10.1093/nar/gkx861. PMID: 29036324; PMCID: PMC5753226.
[2] Gong J, Wan H, Mei S, Ruan H, Zhang Z, Liu C, Guo AY, Diao L, Miao X, Han L. Pancan-meQTL: a database to systematically evaluate the effects of genetic variants on methylation in human cancer. Nucleic Acids Res. 2019 Jan 8;47(D1):D1066-D1072. doi: 10.1093/nar/gky814. PMID: 30203047; PMCID: PMC6323988.
[3] Schmiedel BJ, Singh D, Madrigal A, Valdovino-Gonzalez AG, White BM, Zapardiel-Gonzalo J, Ha B, Altay G, Greenbaum JA, McVicker G, Seumois G, Rao A, Kronenberg M, Peters B, Vijayanand P. Impact of Genetic Polymorphisms on Human Immune Cell Gene Expression. Cell. 2018 Nov 29;175(6):1701-1715.e16. doi: 10.1016/j.cell.2018.10.022. Epub 2018 Nov 15. PMID: 30449622; PMCID: PMC6289654.
[4] Ota M, Nagafuchi Y, Hatano H, Ishigaki K, Terao C, Takeshima Y, Yanaoka H, Kobayashi S, Okubo M, Shirai H, Sugimori Y, Maeda J, Nakano M, Yamada S, Yoshida R, Tsuchiya H, Tsuchida Y, Akizuki S, Yoshifuji H, Ohmura K, Mimori T, Yoshida K, Kurosaka D, Okada M, Setoguchi K, Kaneko H, Ban N, Yabuki N, Matsuki K, Mutoh H, Oyama S, Okazaki M, Tsunoda H, Iwasaki Y, Sumitomo S, Shoda H, Kochi Y, Okada Y, Yamamoto K, Okamura T, Fujio K. Dynamic landscape of immune cell-specific gene regulation in immune-mediated diseases. Cell. 2021 May 27;184(11):3006-3021.e17. doi: 10.1016/j.cell.2021.03.056. Epub 2021 May 1. PMID: 33930287.
[5] Schmiedel BJ, Gonzalez-Colin C, Fajardo V, Rocha J, Madrigal A, Ramírez-Suástegui C, Bhattacharyya S, Simon H, Greenbaum JA, Peters B, Seumois G, Ay F, Chandra V, Vijayanand P. Single-cell eQTL analysis of activated T cell subsets reveals activation and cell type-dependent effects of disease-risk variants. Sci Immunol. 2022 Feb 25;7(68):eabm2508. doi: 10.1126/sciimmunol.abm2508. Epub 2022 Feb 25. PMID: 35213211; PMCID: PMC9035271.
[6] Yazar S, Alquicira-Hernandez J, Wing K, Senabouth A, Gordon MG, Andersen S, Lu Q, Rowson A, Taylor TRP, Clarke L, Maccora K, Chen C, Cook AL, Ye CJ, Fairfax KA, Hewitt AW, Powell JE. Single-cell eQTL mapping identifies cell type-specific genetic control of autoimmune disease. Science. 2022 Apr 8;376(6589):eabf3041. doi: 10.1126/science.abf3041. Epub 2022 Apr 8. PMID: 35389779.