OncoDB: an interactive online database for analysis of gene expression and viral infection in cancer
OncoDB:一个用于分析癌症基因表达和病毒感染的交互式在线数据库
摘要
TCGA是家喻户晓的肿瘤多组学数据库,包含的信息包括了基因表达,基因突变,表观遗传的改变,临床随访信息等等。但是,目前为止还缺乏系统整理分析肿瘤的基因表达失调和病毒感染之间的联系,这是与病毒感染相关的肿瘤进展的一个重点研究领域。为了解决这些未被满足的需求,作者团队建立了OncoDB在线数据库,用于探索与癌症临床特征相关的基因表达和病毒感染的联系。接下来,我们来看看这个数据库原文是怎么介绍这个工具的吧:
OncoDB整合了TCGA数据库中超过10000名癌症患者的RNA-seq、DNA甲基化和相关临床数据,以及GTEx研究中来自正常组织的数据。通过整理TCGA RNA- seq数据,OncoDB选取6种主要的癌症相关的病毒,进一步将病毒感染与宿主基因表达和临床结果的变化联系起来。所有的分析结果通过一个交互的web工具集成在OncoDB中,以搜索与mRNA表达、DNA甲基化、病毒感染和癌症患者的临床特征相关的数据。
引言
TCGA提供了33种肿瘤临床病理信息的基因组和表观基因组数据,这为肿瘤的分子机制探索,数据挖掘提供了重要的资源。然而,TCGA在统计分析或数据可视化方面目前只能依靠R语言进行分析,对大多数缺乏生物信息学技能的研究人员来说,分析TCGA数据有一定的门槛。因此,开发用户友好的在线数据库来分析和可视化不同类型癌症的异常分子变化是很重要的。
基于RNA-seq数据,可以进行差异分析来识别肿瘤和正常样本之间显著改变的基因。也可以利用表观遗传学的数据,探索肿瘤进展的机制,如DNA甲基化对RNA转录本的异常表观遗传调控。例如,TP53基因的高甲基化导致了乳腺癌不受抑制的增殖以及凋亡的抑制[1]。
将转录组和表观基因组数据与临床数据相关联,有助于识别疾病发展背后的分子机制[2]。Biomarker的探索可以用于癌症诊断和预测癌症的预后。许多mRNA signature已被报道用于预测癌症患者的治疗反应和生存结局[3]。除了表观遗传的影响,另一个影响肿瘤治疗效果以及预后的主要因素是患者感染的病毒种类。人类肿瘤相关的病毒 (癌病毒) 通常被认为是癌症发展的主要驱动因素[4]。例如,HPV E7病毒相关蛋白可以通过破坏E2F-RB复合物使肿瘤抑制因子RB失活,并可以通过泛素-蛋白酶体途径触发RB的降解[5]。因此,探索癌病毒相关基因表达变化的有助于理解病毒诱发癌症的潜在机制。
目前,针对TCGA数据集,已经开发了多种癌症基因组数据分析的在线数据库。但到目前为止,还缺乏可以分析mRNA表达差异和DNA甲基化水平异常与肿瘤患者的临床参数、预后的在线数据库。此外,癌病毒与肿瘤mRNA表达之间的联系,还没有在线工具可以实现。为了解决这些需求,我们建立了OncoDB,一个全面的在线数据库资源,以探索肿瘤中关键基因表达情况和病毒感染后基因表达的异常模式。
方法和结果
数据收集及处理
OncoDB中包含的数据集主要来自TCGA,包括来自9000多名癌症患者的RNA-seq、DNA甲基化和临床数据。从GDC数据门户网站(https://portal.gdc.cancer.gov/)下载了肿瘤和匹配正常的RNA-seq数据。部分肿瘤的TCGA中正常对照样本数量较少。为了解决这一限制,OncoDB纳入了GTEx的1600多个正常样本的RNA-seq数据[6,7]。GTEx是研究54个正常组织基因表达的公共数据库。OncoDB开发了一个RNA-seq数据分析管道,采用了GDC推荐的标准(https: //docs.gdc.cancer.gov/)。(图1)
第一步,肿瘤和正常的原始读取都用STAR[8]与人类基因组对齐。比对后的reads被进一步映射到人类RefSeq数据中对应基因表达水平。另一方面,对于与人类基因组不匹配的reads,它们被进一步与RefSeq数据库[9]和PaVE数据库[10]中所有已知的人类病毒基因组进行了匹配,以确定每个肿瘤的病毒状态。使用每百万转录本(TPM)方法进一步标准化原始基因水平的read counts。所有TCGA和GTEx数据使用相同的生物信息学管道处理。值得注意的是,在直接比较肿瘤组织和正常的差异时,不同的组织来源的差异也会影响差异分析结果。因此,对比较结果的解读需要谨慎。
原始DNA甲基化数据从GDC下载。基于染色体定位标识,我们将每个甲基化探针定位到人类基因组中所有已知的基因。基因区域由RefSeq注释文件定义,而启动子区域和转录起始位点来自Fantom5[11]。从GDC平面文件中提取主要临床参数,癌症的临床分期、病理阶段、组织学分级和性别。
OncoDB数据库的开发
上述的所有处理过的数据,都被导入到MySQL数据库中。用Perl编写的服务器端脚本用于数据分析和可视化。统计结果和相关数据由Perl-CGI结合Python或R统计程序生成。OncoDB提供四个主要分析模块,包括mRNA表达分析、DNA甲基化分析、临床分析和癌病毒分析。在OncoDB,可以分析mRNA表达和DNA甲基化数据与肿瘤患者临床数据的相关性。在癌病毒模块,分析感染病毒的患者的差异基因及其与临床数据的相关性,以确定病毒相关的关键基因。下面列出了四个模块的详细信息:
RNA基因表达
基因表达异常是肿瘤发生的主要原因之一。因此,研究肿瘤和正常样本之间的差异表达基因有助于推断癌症驱动基因或潜在的治疗靶点。此外,进行基因间的相关性分析有助于识别基因调控网络中的功能基因相互作用。在RNA表达分析模块中,实现了三个主要功能,以实现统计分析和结果可视化,包括差异基因表达分析、基因共表达相关性分析。计算肿瘤和正常两组间的Log 2FC变化值,以确定一个基因在肿瘤样本中是上调还是下调。差异表达分析采用Student‘s t-检验。采用Pearson相关分析评价两个基因之间的相关性。
网页界面来搜索用户指定基因在一种或多种癌症类型中的表达谱,可视化为箱线图(图2A),并展示统计结果。此外,对于指定的癌症,OncoDB可以计算差异最显著的基因。除了比较肿瘤和正常样本之间基因表达差异外,用户还可以对任意选择的癌症类型进行两个感兴趣基因之间的相关性分析。将两个输入基因的Pearson相关分析结果可视化为散点图 (图2B)。
甲基化分析
表观遗传异常导致mRNA表达异常,并在癌症发展中起着协同的作用。为此,甲基化分析模块有两个功能,包括关键基因的筛选和肿瘤之间甲基化分析。通过肿瘤样本和配对正常组织样本进行比较,以确定甲基化模式的差异。对于用户指定的基因,差异甲基化分析可以确定改变的基因区域(包括启动子和基因本体)。可视化以折线图展示了肿瘤或正常样本的基因结构(包括启动子、外显子和内含子)中每个探针的平均甲基化水平(如图2C所示)。此外,探针的分析结果也呈现在一个表格中,显示具有统计学意义的探针。基因甲基化存在差异是通过比较每个基因在肿瘤和正常样本之间的平均探针强度来确定。
临床分析
临床分析模块支持临床数据和基因或者基因甲基化水平之间的相关性分析。OncoDB数据库收录各个肿瘤患者的临床数据,包括各种临床参数、生存时间和结果状态,并可以分析与单个基因的相关性。临床参数包括了TMN分期和年龄、饮酒、性别、组织学、吸烟、BMI、家族史和种族等。当用户指定一个基因进行分析时,可绘制mRNA差异表达的箱线图或DNA甲基化数据的折线图(如图2D)。
生存分析Kaplan-Meier (KM),呈现用户指定基因在特定癌症类型中的KM曲线。根据RNA表达或DNA甲基化的水平,所选定的癌症病例都可用户定义的截断百分比分为高组或低组。此外,还提供了统计数据,包括log-rank检验的p值,Cox比例回归分析的风险比HR。如果所选择的基因与多个临床参数有显著的相关性,也将提供一个表格来总结统计分析结果。
肿瘤病毒分析
感染病毒也是引起肿瘤的原因之一,可导致不同基因调控水平的异常变化,如mRNA表达和DNA甲基化。因此,对病毒阳性和病毒阴性肿瘤的差异基因分析,甲基化分析的研究可以帮助我们确定人类转录组中的病毒靶点,为病毒有关的肿瘤提供更多机制上的信息。在OncoDB中,每个肿瘤样本的病毒状态通过分析管道确定(图1),然后用于根据用户指定的癌症类型对患者病例进行分组。通过这种方式,可以进行mRNA差异表达或DNA甲基化分析,以确定与病毒感染相关的变化。
在癌病毒分析模块中,可以评估在癌症中用户指定的基因的与某种病毒的潜在相关性。基因的差异表达分析用箱线图,甲基化分析用折线图显示,以直观地比较病毒阳性组和病毒阴性组(图3A、B)。
感染病毒与对照组的差异基因分析可以得出与病毒状态相关的基因,并展示在表格中。指定某个肿瘤的分析可以用来识别与特定病毒和肿瘤相关的所有差异基因,有详细的表格统计分析结果。
肿瘤病毒分析模块还可以分析临床数据与各种病毒相关基因的相关性。例如,用户可以进行患者生存分析,分别评估病毒阳性组或病毒阴性组中某个基因的预后意义,并绘制KM曲线图。图3C显示了HPV阳性宫颈癌中基于CDKN2A基因表达分析示例图。图3D显示了宫颈癌中按HPV状态分组的生存图。用户还可以通过指定病毒和癌症的类型以及感兴趣的临床参数,对基因进行病毒和临床参数联合分析。最后,用户可以得到特定病毒病人群体的癌病毒基因表达,从而将病毒基因谱与肿瘤病人的临床参数关联起来。
结论
OncoDB是一个全面分析TCGA数据的在线工具。OncoDB的独特的癌病毒分析模块整合了病毒感染状态与癌症基因组和临床数据。这一模块为肿瘤病毒在癌症发展和进展中的作用提供了更多的信息。
小编有话说
肿瘤与病毒,我们能想到的是HPV与宫颈癌,HBV与消化道的肿瘤,这样的主题,结合一些免疫,自噬,铁死亡再进行挖掘,不是很美妙吗?
1. Ghavifekr Fakhr M, Rezaie Kahkhaie K, Shanehbandi D, et al. Scrophularia Atropatana Extract Reverses TP53 Gene Promoter Hypermethylation and Decreases Survivin Antiapoptotic Gene Expression in Breast Cancer Cells. Asian Pacific journal of cancer prevention : APJCP. 2018;199:2599-2605.
2. Liu J, Lichtenberg T, Hoadley KA, et al. An Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome Analytics. Cell. 2018;1732:400-416.e411.
3. Kamel HFM, Al-Amodi HSAB. Exploitation of Gene Expression and Cancer Biomarkers in Paving the Path to Era of Personalized Medicine. Genomics, Proteomics & Bioinformatics. 2017;154:220-235.
4. Masucci MG, Rickinson AB. Emerging topics in human tumor virology. Seminars in Cancer Biology. 2014;26:1-3.
5. zur Hausen H. Papillomaviruses and cancer: from basic studies to clinical application. Nature Reviews Cancer. 2002;25:342-350.
6. Lonsdale J, Thomas J, Salvatore M, et al. The Genotype-Tissue Expression (GTEx) project. Nat Genet. 2013;456:580-585.
7. Human genomics. The Genotype-Tissue Expression (GTEx) pilot analysis: multitissue gene regulation in humans. Science (New York, NY). 2015;3486235:648-660.
8. Dobin A, Davis CA, Schlesinger F, et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 2013;291:15-21.
9. Dobay MP, Dobay A. NCBI Viral Genomes Resources. In: Dubitzky W, Wolkenhauer O, Cho K-H, Yokota H, eds. Encyclopedia of Systems Biology. New York, NY: Springer New York; 2013:1502-1504.
10. Van Doorslaer K, Li Z, Xirasagar S, et al. The Papillomavirus Episteme: a major update to the papillomavirus sequence database. Nucleic Acids Res. 2017;45D1:D499-d506.
11. Lizio M, Harshbarger J, Shimoji H, et al. Gateways to the FANTOM5 promoter level mammalian expression atlas. Genome Biology. 2015;161:22.