胶质瘤是最常见的原发性脑肿瘤,起源于中枢神经系统(CNS)内的神经胶质细胞,患者的中位生存期仅在12到15个月之间,因此,需要发现更有效的治疗方法来改善病人的预后。小编今天和大家分享一篇今年六月刚刚发表在Journal of Translational Medicine(IF:5.531)杂志上的关于胶质瘤预后的纯生信分析文章。文章聚焦小神经胶质细胞,收集多个平台的数据,对小神经胶质细胞基因及功能进行了分析,主要使用的方法包括差异表达分析,功能富集分析,随机游走,及生存分析在内的生信常用方法,文章简单易懂,逻辑清晰,感兴趣的小伙伴不要错过呀。
Comprehensive analysis of microglia gene and subpathway signatures for glioma prognosis and drug screening: linking microglia to glioma
胶质瘤预后和药物筛选相关的小神经胶质细胞基因和子通路特征综合分析:小神经胶质细胞与胶质瘤的关联
一.摘要
胶质瘤是大脑中最常见的恶性肿瘤。以往研究表明,小神经胶质细胞作为神经系统中的先天免疫细胞,参与了胶质瘤的病理过程。研究整合多个平台的公共数据资源,分析了胶质瘤内小神经胶质细胞的特异性生物学特征,揭示了胶质瘤小神经胶质细胞与胶质瘤巨噬细胞比较(MicT/MacT)和胶质瘤小神经胶质细胞与正常小神经胶质细胞比较(MicT/ MicN)两种情况下的生物学特征。识别出9个核心MicT/MicN基因,它们与胶质瘤的复发和预后密切相关。此外,研究也基于随机游走策略识别出小神经胶质细胞特异性子通路,并开发了用于胶质瘤预后分析的SubP28特征。文章还分析了胶质母细胞瘤 (GBM)和低阶胶质瘤(LGG)中小神经胶质细胞M1/M2极化与SuP28特征之间的关系。最后,研究建立了一个全面的药物-子通路网络,用于筛选候选的治疗分子。总之,文章通过大规模数据集,分析小神经胶质细胞相关基因和功能,建立了一个框架对小神经胶质细胞和胶质瘤之间的内在联系进行了解析。
二.背景
研究发现胶质瘤微环境由多种非肿瘤细胞组成,这些细胞在肿瘤生长、进展、免疫反应逃避等方面发挥着重要作用。其中小神经胶质细胞是中枢神经系统的常驻巨噬细胞,分布于整个大脑,其功能包括调节免疫反应,支持神经元的稳态,维持血脑屏障(BBB)的完整性等。研究发现在健康的大脑中,小神经胶质细胞的周转很少,然而,血液中的巨噬细胞却表现出很高的周转率。虽然这两个免疫细胞亚群是脑免疫系统的主要组成部分,但在脑病理中观察到小神经胶质细胞和外周巨噬细胞具有不同的功能。此外,GBM肿瘤中报道了这两种巨噬细胞群的相反作用。不过小神经胶质细胞和巨噬细胞之间的生物学差异,以及细胞特异性参与胶质瘤事件还有待于进一步刻画。
三.数据及方法
1. 基因表达数据集:研究从GEO数据库中收集胶质瘤患者脑组织中的小神经胶质细胞和巨噬细胞基因表达数据。所用数据集为GSE65868、GSE86573和GSE80338,其中疾病状态和细胞数量均来自以往的研究。其中GSE86573数据集不考虑血液组织,将脑组织作为正常样本,GSE80338数据将癫痫和死后标本作为正常标本。此外,作者为了研究小神经胶质细胞基因及功能特征在胶质瘤病理中的生物学作用,从GEO、TCGA、Chinese glioma Genome Atlas (CGGA)和Pan-Cancer Analysis of Whole Genom(PCAWG)数据库中获取了包含胶质瘤临床信息的大量基因表达数据集。最终共纳入26组数据集。这些数据集包含3种胶质瘤事件,包括胶质瘤和正常样本、复发和原发样本以及有预后信息的样本。
2. 差异表达分析:研究利用两种方法分别对RNA序列和芯片数据集进行差异表达分析。对于RNA序列数据集(GSE86573和GSE80338),利用R包 DEseq2根据原始计数矩阵识别差异表达基因。对于芯片数据集(GSE65868),作者结合差异倍数和t检验,基于FPKM表达矩阵识别差异表达基因。
3. 小神经胶质细胞特异性基因的功能探索:研究基于MicroT/MacroT数据集和MicroT/ MicroN数据集共享的一致差异表达基因,进一步使用R包 clusterProfler进行功能富集分析,考虑了GO生物过程(BP)。同时,从分子特征数据库(MsigDB)中获取肿瘤hallmarkers基因集进行功能关联分析。采用超几何检验评估一致基因与已知hallmarkers之间的相关性。
4. 新的识别小神经胶质细胞特异性子通路框架:为了从功能层面探索小神经胶质细胞的生物学作用,作者开发了一个新的框架来识别小神经胶质细胞特异性子通路。研究将MicT/ MacT组的2个数据集及MicT/MicN组的3个数据集共享的一致的小神经胶质细胞基因特征作为种子节点。将上调及下调基因作为种子注释到网络中。同时,对种子节点的全局影响进行4次随机游走算法评估。经过随机游走算法,每个候选基因分别从MicT/MacT和MicT/MicN组中得到4个分数。然后,从R包subpathwayMiner中得到子通路列表。对于每个子通路,根据随机游走分析的基因评分计算子通路评分。经上述分析,p值<0.001的子通路被确定为小神经胶质细胞特异性子通路。如果任意两个子通路共享超过7个基因成分,则根据这些子通路构建子通路网络。
5. 小神经胶质细胞子通路与胶质瘤生物学的关系:对于所有胶质瘤数据集,作者考虑了三种类型的比较,包括肿瘤与正常样本的比较、复发与原发样本的比较、高风险与低风险样本的比较。利用R包limma进行差异表达分析。接着进行单因素cox分析,识别高危或低危基因。没有显著基因结果的数据集被删除。然后,利用超几何检验方法评估子通路内基因与各数据集高风险或低风险基因的重叠情况。
6. 确定子通路预后模型:文章利用芯片表达谱作为训练集,构建了一个预后模型。作者首先利用R包SVA中的Combat函数消除批处理效应,形成一个合并训练集。在训练集的基础上,进一步计算每个子通路的NES富集分数。然后,通过最大似然估计和Lasso得到了广义线性模型,接着确定最优参数λ,并选择具有非零系数的子通路特征。
7. 基于HGCC资源构建药物-子通路网络:作者基于HGCC资源获得了GBM细胞系的药物IC50信息,以及基因表达、甲基化和CNV数据。首先,作者以IC50中值为阈值,定义了高IC50组和低IC50组细胞系。然后以这两组为基础,分别根据基因表达水平、甲基化情况和CNV数据识别药物相关基因。 最后,利用超几何检验评估差异基因与28条小神经胶质细胞子通路之间的关联。综合考虑这三个层次的组学数据,构建了一个完整的药物子通路网络。
四.研究的主要内容及结果
1. 转录组数据集整合分析揭示小神经胶质细胞特异性生物学作用
为了探索小神经胶质细胞在胶质瘤条件下的特定生物学作用,在文章的第一部分,作者纳入了一系列已发表的RNA序列和芯片数据集,这些数据来自从胶质瘤和正常样本分离的脑小神经胶质细胞和巨噬细胞群体。考虑到小神经胶质细胞特异性生物学特性,作者进行了两种差异表达分析,分别为肿瘤小神经胶质细胞与肿瘤巨噬细胞的比较(MicT/MacT,包括两个数据集)和肿瘤小神经胶质细胞与正常小神经胶质细胞的比较(MicT/MicN,包括四个数据集)。作者根据MicT/MacT和MicT/MicN的每个数据集识别差异表达基因(图1A),接着对这些差异表达基因进行功能富集分析(图1B)。接下来为了进一步探索这些小神经胶质细胞特异性特征基因之间的关系,作者构建了一个基于MicT/MacT和MicT/MicN共享的一致差异表达基因的子网络。并基于已有研究的蛋白相互作用(PPI)网络,得到了至少两种资源共享的高质量互作关系。然后,基于PPI关系构建了一致特征基因之间的直接相互作用(图1C)。作者将MicT/MacT或MicT/MicN内部具有相同方向的交互定义为组内交互,其他交互定义为组外交互。作者对得到的网络分析发现许多MicT/MicN特征位于这个子网络的中心,并与其他基因密切相互作用。而一些MicT/MacT特征则在群体交互之外。
2. 胶质瘤生物学中的9 MicT/MicN核心基因特征
在文章的第二部分,作者将4个MicT/MicN数据集中共有的9个基因定义为MicT/MicN核心基因,并进一步分析这些小神经胶质细胞特异性基因在胶质瘤形成、复发和预后等生物学问题中的参与情况。作者收集了34个来自GEO、TCGA、CGGA和PCAWG的公共数据集,分析发现如图2A所示,这9个MicT/MicN核心基因与胶质瘤生物学密切相关。一些基因在不同的胶质瘤事件中表现出一致的表达模式。例如,OAS3和MMP19在胶质瘤样本中表达水平高于正常样本,在复发样本中表达水平高于原发样本,在高危组中表达水平高于低危组(图2B)。研究也观察到这些基因中,有5个基因与肿瘤纯度显著相关(图2C和D),不过对于GBM和LGG,P2RY2在高纯度和低纯度组中均显示出一致的风险预测性能。因此作者也用足够的样本数量测试了P2RY2特征与LGG型临床反应的关系(图2E),结果发现与预后表现一致,接着分析了其生物学作用,发现P2RY2的表达水平与GBM创面愈合功能有关,与LGG新抗原和非整倍体功能有关(图2F)。
3. 识别小神经胶质细胞特异性子通路和串扰网络
先前的一些研究已经发现,整个通路中的子通路区域与疾病的形成和进展密切相关。因此在这一部分,作者进一步开发了一种基于MicT/MacT和MicT/MicN条件识别小神经胶质细胞特异性子通路的新框架。作者首先应用了基于网络的随机游走算法来优化MicT/MacT和MicT/MicN组一致上调和下调特征的候选基因。其次,作者综合考虑不同的失调影响,得到子通路列表并计算子通路评分。最后采用随机策略评估所有子通路的显著性。结果共识别出1/34个MicT/MacT上调/下调的子通路,18/46个MicT/MicN上调/下调的子通路。最后,作者基于四种类型的小神经胶质细胞特异性子通路,利用基因重叠构建了一个子通路串扰网络。
4. 与胶质瘤生物学相关的小神经胶质细胞子通路
基于上述图2A中使用的胶质瘤数据集,在这一部分作者进一步探索了小神经胶质细胞特异性子通路与胶质瘤生物学事件之间的关联。如图3A所示,所有这些子通路都表现出两种表达模式。在胶质瘤的形成、复发和预后中,大多数I型子通路表现为风险表达模式,而II型子通路表现为保护表达模式。I型子通路主要来源于免疫系统和细胞群落类,II型子通路来源于细胞运动性、发育和再生类。在胶质瘤生物学上,这些子通路与肿瘤的形成密切相关,尤其是预后状况。以通路:04810_15(来自Type II)为例,该子通路在肿瘤样本中表现出较高的表达模式。接下来,作者用ssGSEA方法计算了该子通路的NES评分(图3B,C),发现与之前结果的表达模式相似,该子通路在肿瘤样本中确实表现出更高的功能活性,在复发样本中也表现出更高的功能活性。
5. 胶质瘤预后的子通路风险特征
上面的研究结果显示,神经网络中的子通路与胶质瘤的预后密切相关,尤其是LGG类型。因此,在这一部分作者进一步使用Lasso基于整合的1185例胶质瘤样本芯片数据集构建了一个预后模型。结果识别出28个预测性能最好的小神经胶质细胞特异性子通路,并将其定义为SubP28特征通路。分析发现在CGGA、TCGA和PCAWG数据库的7个独立测试集中,SubP28得分高的样本比得分低的样本表现出一致的不良生存结果(图4A)。在肿瘤纯度方面,作者观察到LGG样本的SubP28评分与肿瘤纯度呈负相关。此外,作者在IGAP数据中量化了SubP28特征,结果发现侵袭性胶质瘤边缘和浸润性肿瘤区域的样本中富集了SubP28特征的较高功能活性,而这些子通路特征在肿瘤中表现出较低的活性(见图4B)。为了检验SubP28特征的小神经胶质细胞相关性,作者进一步从MsigDB数据库中获取了几个小神经胶质细胞相关集,并使用超几何检验计算重叠的显著性。如图4C所示,SubP28特征与其他小神经胶质细胞(MG)标记密切相关。此外,不同亚型的胶质瘤预后结果不同,GBM分子亚型之间的SubP28评分也存在差异(见图4D),间充质和神经类型的样本的SubP28评分高于其他类型。相关分析显示,SubP28评分与巨噬细胞调节功能正相关,与CD4 T细胞负相关(见图4E)。
6. SubP28与GBM和LGG的小神经胶质细胞状态相关
为了进一步探讨SubP28信号与小神经胶质细胞状态之间的关系,在这一部分作者使用ssGSEA方法计算TCGA GBM和LGG样本的小神经胶质细胞评分。利用稳态标记物和M2标记物进行相关性分析。如图5A所示,LGG样本的SubP28评分与小神经胶质细胞稳态状态呈正相关,GBM样本则不。GBM标本M1和M2小神经胶质细胞状态下,SubP28评分与小神经胶质细胞活性呈正相关。当考虑到分子亚型和IDH1突变时,进一步观察到M1和M2特异性关联(图5B)。作者也发现在未发生IDH1突变的LGG样本中,SubP28评分与M1标记呈正相关。对于GBM分子亚型,其与M1和M2标记呈神经类型特异性正相关。此外,利用胶质瘤的两个单细胞RNAseq数据集在多个细胞中测试SubP28特征,发现SubP28特异性与小神经胶质细胞和少突胶质细胞相关。
7. 药物-子通路网络揭示了新的治疗策略
在文章的最后一部分作者为了预测高SubP28或低SubP28患者的药物敏感性,系统地评估了SubP28评分与抗肿瘤药物反应敏感性之间的关系。研究从三个资源获得药物反应数据,(1)GDSC数据库,(2)HGCC队列,(3)LENP的预测结果。利用半数最大抑制浓度(IC50)值,计算药物或分子IC50与SubP28评分的相关性。结合相关结果和药物治疗信息,得到了两个候选药物集,(1)SubP28评分高的细胞系对药物表现出较高的反应敏感性,(2)SubP28评分低的药物表现出较高的敏感性。在药物组1中,治疗BRCA的药物拉帕替尼在SubP28评分高的组中被识别为敏感分子。为了探究抗肿瘤化合物和28条小神经胶质细胞子通路之间的详细关联,作者基于HGCC资源构建了一个多组学集成网络。如图6所示,多个候选药物从三个组学水平靶向了许多小神经胶质细胞特异性子通路。这些子通路中的大多数都属于SubP28模型中的风险子通路。来自同一通路的不同子通路显示相反的预后模式,也共享一些药物。
到这里文章的主要内容就介绍完了,文章重点关注小神经胶质细胞,结合基因及通路两个层面,从表达及功能角度对小神经胶质细胞与胶质瘤的关联进行了刻画。文章用到的方法都是常见的生信方法,小编认为亮点在于数据量丰富,整合多个平台的数据既可以让自己的工作内容充实,也可以增加说服力。因此,小伙伴们在进行自己课题时也可以考虑这种方式。