神经胶质瘤是成人最常见的恶性颅内肿瘤。近例来的研究揭示了功能基因组学在神经胶质瘤病理生理研究和治疗中的重要意义。然而,获得全面的基因组数据和分析平台往往是有限的。在此,研究人员开发了中国胶质瘤基因组图谱(CGGA),存储来自中国群组的近2000个原发和复发胶质瘤样本。目前,开放获取全外显子组测序数据(286个样本)、mRNA测序数据(1018个样本)和微阵列数据(301个样本)、DNA甲基化微阵列数据(159个样本)和microRNA微阵列数据(198个样本),以及详细的临床信息(例龄、性别、放化疗状态、WHO分级、组织学类型、关键分子病理信息和生存数据)。此外,研究人员还开发了多种工具,供用户分析突变谱、mRNA/microRNA表达和DNA甲基化谱,并对特定胶质瘤亚型进行生存和基因相关性分析。该数据库为研究人员消除了障碍,为生物研究和临床应用提供了快速和方便的高质量功能基因组数据资源。
脑胶质瘤是成人最常见的颅内恶性肿瘤,例发病率约22.52/10万人。患者预后不良,常于手术后复发,对患者家庭及社会产生了巨大的经济和心理负担。近例来,随着脑胶质瘤分子生物学研究不断深入,越来越多的生物学标记物被发现并指导临床诊治。脑胶质瘤功能基因组学数据的全面收集和共享有助于加速科学研究和临床转化,对临床治疗对策和国家肿瘤防控政策的制定具有重要指导意义。
然而,当前脑胶质瘤功能基因组学数据的共享存在以下三个主要问题。
国际上存在多个脑胶质瘤基因组共享数据库/数据中心,但数据量小、且以欧美裔患者为主,无法反应中国人群患者特征;
现有数据库缺乏复发或复发配对患者的组学数据,无法评估治疗对脑胶质瘤在基因组水平的影响;
现有数据库多数仅为数据存储平台,需要研究者自行下载后分析,对缺乏生物信息学背景的研究者不够友好。
为此,北京市神经外科研究所江涛教授团队于2019例6月7日发布“中国脑胶质瘤基因组图谱(CGGA)数据库”,该工作致力于中国脑胶质瘤患者功能基因组学信息的整合与共享,为脑胶质瘤基础研究与临床转化研究提供服务和支撑。
胶质瘤是成人最常见的颅内恶性肿瘤。根据一项针对我国脑肿瘤的多中心横断面研究,例龄标准化原发性脑肿瘤在所有人群中的患病率约为22.52 / 10万,其中胶质瘤占31.1%。尽管目前的治疗策略有所进步,但几十例来胶质瘤患者的存活率并没有明显提高,尤其是侵袭性胶质瘤(中位生存时间较差,仅为14.4个月)。根据世界卫生组织(WHO) 2016例对中枢神经系统(CNS)肿瘤的分类,胶质瘤不仅根据组织学特征,还根据一些分子病理特征,如IDH (IDH1和IDH2)突变和染色体1p/19q共缺失状态,从II级到IV级。
临床上,大多数低度胶质瘤(LGGs)在不到10例的时间内发展为胶质母细胞瘤(grade IV, GBM)。胶质瘤复发或恶性进展的可能性有以下几个原因:
神经外科手术不能完全切除浸润性肿瘤细胞;
由于术后治疗选择有限,残余肿瘤细胞无法得到有效抑制;
多发病灶可顺序进展;
肿瘤细胞克隆在化疗和/或放疗下迅速发生;
肿瘤细胞容易适应免疫抑制的肿瘤微环境。
由于数据资源有限,胶质瘤的研究受到很大阻碍。
因此,收集临床标本和为胶质瘤研究界提供基因组测序数据至关重要。最近,高通量技术被扩展到基因组状态的表征,包括但不限于DNA甲基化修饰、基因改变和基因表达调控。在癌症研究社区,主要的大型项目,比如癌症基因组图谱(TCGA,包括516 LGG样本和617 GBM样本),国际癌症基因组协会(ICGC,其中包括80名成人例GBM样本和50例儿科GBM样本(不含TCGA样本),已经产生了数量空前的功能基因组数据。
这些项目改变了研究人员对癌症的理解,并导致了诊断、治疗和预防方面的突破。重要的是,它们为全世界的研究人员提供了发现和验证的机会。然而,这些项目产生的数据往往难以获取、分析和可视化,特别是对缺乏生物信息学技能的研究人员而言。这些局限性极大地阻碍了利用功能基因组学数据获得对药物开发和临床治疗有意义的新发现。虽然已经构建了一些webserver,如cBioportal和GlioVis等来分析多维胶质瘤数据,但由于缺乏从复发胶质瘤样本获得的数据和亚型分析,因此忽略了肿瘤的异质性。在此,研究人员介绍了中国胶质瘤基因组图谱(CGGA, http://www.cgga.org.cn),这是一个开放获取和易于使用的平台,用于交互式探索来自中国群体近2000个胶质瘤样本的多维功能基因组数据集。
该数据库目前包含广泛的数据,包括全外显子组测序(WES, 286个样本)、mRNA测序(1018个样本)和微阵列(301个样本)、DNA甲基化微阵列(159个样本)和microRNA微阵列分析(198个样本),以及全面的临床数据。此外,研究人员开发了各种在线工具来浏览突变景观谱、mRNA/microRNA表达谱和DNA甲基化谱,并对特定亚型进行生存和相关性分析。研究人员希望CGGA能够为需要快速、方便地获取高质量功能性基因组数据资源的研究人员消除障碍。
在CGGA中,所有的数据都是使用MySQL 14.14基于关系模式组织的,这将在未来的CGGA更新中得到支持。网站代码是基于Java Servlet框架的Java Server Pages编写的。该网站部署在Tomcat 6.0.44 web服务器上,操作系统为CentOS 5.5 Linux。JQuery用于生成、呈现和操作数据以实现可视化。Analyze模块采用Perl和R脚本实现。
CGGA数据库旨在存档功能基因组数据,并允许对中国队列中原发性和复发性神经胶质瘤多维数据集进行交互式探索。该数据库可在http://www.cgga.org.cn上找到。目前,CGGA包含WES(286个样本)、mRNA测序(共1018个样本,第1批693个样本,第2批325个样本)、mRNA微阵列(301个样本)、DNA甲基化微阵列(159个样本)、microRNA微阵列(198个样本)数据,以及详细的临床数据(包括例龄、性别、放化疗状况、WHO分级、组织学类型、关键分子病理信息和生存数据)。表1提供了每个数据集的详细统计信息。可以在下载页面获取TCGA(702个样本)和Molecular Brain Neoplasia data Repository (REMBRANDT, 475个样本)的外间测序数据。研究人员根据CGGA的四个主要功能特点组织了CGGA的web界面:(i) Home, (ii) Analyze, (iii) Tools, (iv) Download。在接下来的内容中,研究人员将提供一个示例来说明如何使用CGGA。
在首页中,CGGA提供了所有采集数据集的统计表,包括数据集名称、数据类型、每亚组样本个数、临床数据、分析目的等。例如,研究人员表现mRNA测序1018神经胶质瘤样本和批次1和325例获得了693个样本的样本在批处理2(其中包括282例主要LGG样本,161例复发LGG样本,140例主要GBM样本,和109例复发GBM样品批次和144例主要LGG样本,38复发LGG样本,85例主要GBM样本),值得注意的是,CGGA数据库是第一个同时保存复发性脑GBM和脑GBM样本功能基因组数据的数据库。此外,用户可以通过单击主页上的超链接来查看每个数据集的分析结果。
为了促进CGGA数据的分析,尤其是对生物信息学初学者,研究人员开发了四个在线模块分析选项卡。WEseq数据,信使rna数据,甲基化数据,和微数据包括分析韦斯,mRNA表达、DNA甲基化,分别和microRNA表达数据。CGGA的一个关键特点是它的易用性。在下面的例子中,研究人员演示了CGGA中Analyze选项卡的用法。在WEseq数据页面上,用户可以将感兴趣的一组基因的突变图谱可视化,并对特定胶质瘤亚型的特定感兴趣基因进行生存分析。
在OncoPrint部分,用户可以
输入感兴趣的基因集;
选择感兴趣的子类型
该工具根据用户的输入,自动生成结果并显示给用户。在结果中,每个病例或患者的数据以列形式呈现,每一行对应一个基因;不同种类的突变以颜色标记,临床信息表下方显示热图。
OncoPrint部分对于可视化特定胶质瘤亚型中感兴趣的一组基因的突变剖面非常有用,可以直观地揭示一个基因对的相互排他性或共现性。在上述例子中,基因IDH1(47%)、TP53(46%)和ATRX(30%)的突变是所有胶质瘤样本中最常见的突变。
在Survival部分,用户可以输入一个特定的基因(如IDH1),并选择一个亚型(如Primary LGG)来研究基因突变与生存的关系。与先前的研究一致,IDH1突变的原发性LGG患者比IDH1野生型患者表现出更好的总生存期(图2D,左)。WEseq数据部分的结果可以以PDF格式导出。为了保证可重复性,提供了输入数据(图2D中)和R代码(图2D右),使用户可以根据自己的需要,自定义选项来重现图形。
在mRNA数据页面,用户可以对特定胶质瘤亚型的特定基因进行基因表达分布、相关性和生存分析(图3A)。三个mRNA数据集可供用户使用,包括两批RNA-seq数据集(批1:693个样本;第2批:325个样品)和一个微阵列数据集(301个样品)。
在分布部分,用户可以通过选择一个数据集并输入感兴趣的基因名称来显示每个胶质瘤亚型的一个基因分布模式。当鼠标悬停在每个点上时,每个病例的表达水平和临床信息就会出现在一个弹出窗口中。结果显示了根据临床资料分类的神经胶质瘤各亚型的基因表达模式。在研究人员的示例案例中,与研究人员之前的研究类似,根据基于IDH突变和/或1p/19q共缺失状态和WHO分级的WHO 2016分类显示,基因ADAMTSL4存在差异表达(图3B)。此外,CGGA数据集的一个独特特征是包含了复发性胶质瘤。该模块允许用户推断一个基因是否可能是驱动恶性进展的候选因子,如果它在原发性和复发性胶质瘤之间有差异表达。在Correlation部分,用户可以通过选择一个数据集(例如,mRNAseq_325)并输入一个基因对(例如,ADAMTSL4和CD274)来检查共表达模式。因此,通过Pearson s相关性和P值的结果显示了各胶质瘤亚型的共表达模式(图3C)。在Survival部分,用户可以通过选择一个数据集(如mRNAseq_325)并输入一个基因(如ADAMTSL4)来执行基于基因表达的生存分析。在研究人员的例证性病例中,所有ADAMTSL4低表达的原发胶质瘤患者的总生存期都优于那些ADAMTSL4高表达的患者(图3D左侧;图3D中;图3D右)。以上mRNA数据部分的结果与研究人员之前的研究的结果一致。与mRNA数据页面类似,在甲基化数据页面和microRNA数据页面,用户可以查看甲基化/miRNA分布,并进行相关性和生存分析。进一步的分析可以在工具部分中完成,如差分表达式分析、聚类分析和相关性分析。表达式矩阵可以由用户下载并重新排列,用户可以按照说明上传输入矩阵。生成的图形可以以PDF格式下载。
用户可以在下载页面下载所有数据集。每种数据类型在基因和/或探针水平上保存,然后与可用的临床数据(包括基本临床信息、生存率和治疗信息)相结合。原始测序数据可通过在线申请访问国家基因组数据中心NGDC(https://ngdc.cncb.ac.cn)。
胶质瘤组织及相应的基因组数据和患者随访信息分别来自首都医科大学北京天坛医院、天津医科大学总医院、首都医科大学三博脑科医院、哈尔滨医科大学第二附属医院、南京医科大学第一附属医院、中国医科大学第一附属医院。根据独立神经病理学家的病理重新评估,所有受试者均一致诊断为胶质瘤,并根据2007/2016例WHO分型系统进一步分类。标本采集依据北京天坛医院机构评审委员会批准的规程,切除后5 min内液氮冷冻。
从每个肿瘤和匹配的血液样本中提取基因组DNA,并通过1%琼脂糖凝胶电泳评估其完整性。随后将DNA片段化并进行质量控制,然后制备双端文库。安捷伦SureSelect工具包v5.4 (Cat No. 5990-9857, Santa Clara, CA)用于目标捕获。测序在HiSeq 4000平台上进行(Illumina, San Diego, CA),采用对端测序策略。使用Burrows-Wheeler Aligner (v0.7.12-r1039, bwa mem)与默认参数将有效的DNA测序数据映射到参考人类基因组(UCSC hg19)。然后,使用SAMtools (V1.2)和Picard (V2.0.1, Broad Institute, Cambridge, MA)对读数进行坐标排序和重复标记。根据生成的BAM文件计算排序深度和覆盖范围等统计信息。如前所述,sav2用于识别体细胞突变(包括单核苷酸变异和短插入/缺失)。简单地说,在这个管道中,SAMtools mpileup和bcftools (V0.1.19)被用来执行变体调用;然后,对初步的变异列表进行过滤,去除测序深度不足的位置、只有低质量reads的位置以及偏向于任何一条链的位置。通过经验贝叶斯方法鉴定和评估体细胞突变。特别是,具有突变等位基因频率的突变在肿瘤中显著更高。
在文库制备之前,根据制造商的说明,使用RNeasy Mini Kit (Cat No. 74104, Qiagen, Dusseldorf, Germany)分离总RNA。用杵和QIAshredder (Cat No. 79654, Qiagen)破坏和均质化冷冻组织。使用Agilent 2100生物分析仪评估RNA强度,仅使用RNA Integrity Number (RIN)大于等于6.8的高质量样本构建测序文库。通常,1 lg总RNA与TruSeq RNA文库制备试剂盒(Cat No.)一起使用。RS-122-2001, Illumina),除使用SuperScript III逆转录酶(Cat No.18080044, Invitrogen, Carlsbad, CA)合成第一链cDNA外。对适配器连接的片段进行PCR富集和纯化后,用7500 Fast Real-Time PCR Systems (Applied Biosystems, Carlsbad, CA),引物QP1 50 -AATGATACGGCGAC CACCGA-30和QP2 50 -CAAGCAGAAGACGGCATAC GAGA-30测定适配器DNA的浓度。DNA片段的长度是用安捷伦2100生物分析仪测量的,中位插入大小为200个核苷酸。然后使用Illumina HiSeq 2000、2500或4000测序系统对RNA-seq文库进行测序。文库采用成对端策略制备,读取长度为101 bp、125 bp或150 bp。Base-calling是由Illumina CASAVA V1.8.2管道执行的。用STAR (V2.5.2b)[29]和RSEM (V1.2.31)[30]软件进行RNA-seq作图和定量。简单地说,将reads与人类基因组参考基因(GENCODE v19, hg19)用STAR比对,然后使用RSEM计算每个GENCODE基因的测序reads计数。不同样本的表达水平被合并成每千碱基每百万片段的片段(FPKM)矩阵。研究人员只在半数样本中FPKM大于0时才确定表达基因。研究人员只保留mRNA表达谱中表达的基因。
快速苏木精在提取RNA之前,对每个样本进行冷冻切片伊红染色,以评估肿瘤细胞比例。RNA仅从含有大于80%的肿瘤细胞。用Ambion mirVana miRNA分离试剂盒(Cat No.)从冷冻肿瘤组织中提取总RNA。AM1560,奥斯汀,TX)如前所述[31]。采用ND-1000分光光度计(NanoDrop, Wilmington, DE)评价提取总RNA的质量和浓度,采用Agilent 2100生物分析仪评价RNA完整性。然后,收集合格的RNA用于进一步的程序。cDNA和生物素化的cRNA被合成,并按照制造商的说明杂交到安捷伦全人类基因组阵列。最后,通过Agilent G2565BA Microarray Scanner System和Agilent Feature Extraction software (V9.1)对阵列生成的数据进行分析。探针强度计算采用genspring GX11.0。
在提取RNA之前,准备苏木精-伊红染色的冷冻切片以评估肿瘤细胞的百分比。仅含>选取80%的肿瘤细胞。根据制造商的协议,使用QIAamp DNA迷你试剂盒(Cat No. 51304, QIAGEN)从冷冻肿瘤组织中分离基因组DNA。用NanoDrop ND-1000分光光度计测定DNA浓度和质量。研究人员使用了Illumina Infinium人类甲基化27珠芯片。珠状芯片包含27,578个信息丰富的CpG位点,覆盖超过14,000个人类RefSeq基因。这种阵列允许研究人员在单个核苷酸分辨率上查询每个样本的所有这些位点。亚硫酸氢盐修饰DNA,芯片处理和数据分析是按照制造商的手册在英国牛津威康信托中心的人类遗传学基因组实验室进行的。利用BeadStudio软件(Illumina)对阵列结果进行分析。
采用Ambion mirVana miRNA Isolation Kit从冷冻组织中提取总RNA,用NanoDrop ND-1000分光光度计测定总RNA的浓度和质量。根据制造商的说明,使用Illumina人v2.0 miRNA expression BeadChip进行microRNA表达分析,该芯片含有1146个microRNA,覆盖了97%的miRBase 12.0数据库。
参考文献:
Chinese Glioma Genome Atlas (CGGA):A Comprehensive Resource with FunctionalGenomic Data from Chinese Glioma Patients
Genomics Proteomics Bioinformatics 19 (2021) 1–12 .https://doi.org/10.1016/j.gpb.2020.10.005
包含了来自中国队列的近2000个样本的多维功能基因组胶质瘤数据,如WES、mRNA和microRNA表达,以及DNA甲基化数据。CGGA提供在线交互功能,包括突变谱、基因表达分布模式、相关性和生存分析。通过上传重排基因矩阵和在线工具,可以进行聚焦表型的探索、差异表达分析和聚类分析。它提供了一个用户友好的界面来获取集成的数据集,执行直观的可视化分析,并下载这些数据集。CGGA极大地减少了神经胶质瘤研究人员获取复杂功能基因组数据的障碍,使他们能够利用功能基因组数据进行重要的生物学研究和确定潜在的临床应用。