预后一直是癌症研究中的一个经典方向,各种预后模型层出不穷,那么如何让我们的预后文章脱颖而出呢,不妨结合单细胞试试。今天小编就和大家分享一篇前几天刚刚发表在Frontiers in Oncology(IF:6.244)杂志上关于结肠癌预后的文章,文章将传统bulk数据与单细胞数据结合,并以热点的代谢为切入点构建了预后模型,进行了多角度分析,为文章增加了亮点。文章思路新颖,方法简洁非常值得做预后的小伙伴学习借鉴。
Multi-Omics Characterization of a Glycerolipid Metabolism-Related Gene Enrichment Score in Colon Cancer
结肠癌中甘油脂代谢相关基因富集评分的多组学特征
一.研究背景
结肠癌(COAD)是世界上第三大常见的恶性肿瘤,2020年占所有癌症相关死亡的近10%。尽管目前手术技术和治疗策略迅速发展,但由于转移和术后复发,晚期结肠癌的5年生存率仍低于30%。此外,结肠癌的发病和发展过程涉及多种危险因素和多种基因改变,其预后因患者的异质性而存在差异,且临床病理特征,对治疗的反应也不同。有研究发现甘油脂代谢参与结肠癌的发生和发展。这篇文章就从多组学角度探讨甘油脂代谢相关基因在结肠癌中的预后价值及潜在的分子机制。
二.数据及方法
1. 数据获取:研究涉及三个数据集。TCGA-COAD患者的临床信息和生存数据,以及基因表达、体细胞突变、拷贝数变异和甲基化测序结果。GEO中结肠癌数据集GSE39582的患者临床信息和生存数据及RAW CEL数据文件。GEO数据库中还获得了GSE146771数据集中COAD患者单细胞转录组数据集。研究也从MSigDB数据库下载了KEGG_GLYCEROLIPID_METABOLISM基因组和50个癌症标志基因组。其中从KEGG_GLYCEROLIPID_METABOLISM 通路中共获得49个甘油脂代谢相关基因。
2. 临床数据集预处理:TCGA-COAD和GSE39582数据集预处理步骤如下。(1)无临床资料的患者被排除。(2)生存时间为0或生存状态未知的患者被排除。(3)将两个数据集的基因表达矩阵中的基因ID类型同步到gene Symbol中。当多个基因ID同步到一个gene Symbol时,选择中值表示表达水平。
3. 结肠癌中甘油脂代谢的多组学特征:将49个甘油脂代谢相关基因定位到基因表达矩阵和基因甲基化矩阵,比较肿瘤组织与正常组织中这些基因的表达水平及甲基化水平。根据肿瘤样本的相对序列结果计算与甘油脂代谢相关基因的CNV扩增、删失频率以及体细胞单核苷酸变异。
4. 单样本基因集富集分析:采用R包GSVA中的ssGSEA分析方法,基于TCGA-COAD和GSE39582的基因表达矩阵,计算KEGG_GLYCEROLIPID_METABOLISM基因集富集评分(GLMS)。根据TCGA-COAD和GSE39582数据集的GLMS中值将样本分为高GLMS和低GLMS组。
5. 临床特征与GLMS的关系:通过R包CMScaller估算TCGA-COAD数据集的一致分子亚型(CMSs)。并纳入TCGA-COAD数据集的年龄、性别、BMI、分期、微卫星不稳定性、肿瘤部位等临床特征,结合CMS亚型评估GLMS与临床特征的相关性。
6. 通路相关分析:基于TCGA-COAD数据集的基因表达矩阵,采用ssGSEA分析方法计算50个癌症标志基因集富集得分。采用Spearman相关分析,根据TCGA-COAD样本的ssGSEA评分,量化GLMS与50个癌症标志基因集之间的相关性。通过基于基因表达的R包WGCNA corAndPvalue函数和hallmark ssGSEA评分计算KEGG基因组中每一个甘油脂代谢相关基因与50个癌症标志基因组的相关性。
7. 免疫微环境分析:用xCell评估TCGA-COAD肿瘤样品中64种细胞类型在肿瘤微环境中的比例。比较高、低GLMS组CD274、CD276、CD40、CTLA4、HAVCR2、ICOS、IDO1、LAG3、PDCD1、TIGIT、TNFRSF18、TNFRSF4、TNFRSF9、VTCN1 14种免疫检查点的表达。
8. 潜在的药物敏感性分析:基于基因表达芯片数据和来自癌症基因组计划(CGP)数据库的近700个细胞系的138种药物反应数据的最大半抑制浓度(IC50)的pRRophetic算法最初用于药物反应预测,文章用其预测TCGA-COAD数据集中这些药物的IC50值,并评价高、低GLMS组对每种药物的敏感性差异。然后根据表达量和IC50,通过R包WGCNA corAndPvalue函数计算KEGG_GLYCORLIPID_METABOLISM基因组中每个单基因与药物敏感性的相关性。
9. 单细胞转录组分析:单细胞转录组数据集GSE146771的GLMS也采用ssGSEA方法计算。从肿瘤免疫单细胞中心(TISCH)数据库下载该数据集对应的细胞注释信息。采用UMAP图,显示每个单个细胞的GLMS。采用Kruskal Wallis检验评价GLMS在不同细胞类型间是否存在差异。最后,甘油脂代谢影响的细胞亚群被计算估计。
三.研究的主要内容及结果
1. 结肠癌中甘油脂代谢相关基因的表观遗传学和基因组特征
在文章的第一部分,作者基于TCGA-COAD数据集的430个肿瘤样本和39个正常样本,分析了KEGG_GLYCEROLIPID_METABOLISM基因集的49个基因。文章首先比较了肿瘤组织与正常组织的表达及甲基化水平差异(图1A)。发现9个表达与甲基化水平负相关的基因表明在这些基因的mRNA表达中存在甲基化抑制功能。然而,6个基因的表达水平与甲基化呈正相关,提示这些基因的mRNA表达可能存在甲基化以外的调节机制。接下来作者根据癌症样本分析拷贝数变异和基因突变,结果发现AGPAT1、AKR1B1、DGKB、DGAT2和DGKH出现了拷贝数扩增,而AGPAT3、ALDH2、DGKD、MBOAT1和LIPC出现了显著的拷贝数缺失(图1)。作者也发现共有120个(27.9%)肿瘤样本存在甘油脂代谢相关基因突变,其中两个基因被识别为高频率突变,为DGKB(15%)和DGKD(14%)(图1)。
2. 甘油脂代谢评分作为结肠癌预后指标
在这一部分,作者对TCGA-COAD数据集中的每个样本根据单样本基因集富集分析(ssGSEA)算法分配了甘油脂代谢相关基因富集评分(GLMS),并根据中值的临界值将其分为高GLMS组和低GLMS组。Kaplan-Meier分析显示,与GLMS较低的患者相比,GLMS较高的患者总体生存期(OS)有所改善。此外,作者也对其他临床因素,包括年龄、性别、分期、肿瘤部位、MSI状态、CMS均进行了单因素分析,其中只有临床分期和GLMS具有统计学意义。接下来这些临床因素与GLMS一起被纳入多因素Cox回归,结果发现GLMS与OS之间的相关性仍然显著,表明GLMS是结肠癌潜在的独立预后因素。为了进一步验证GLMS预测结肠癌预后的稳健性,作者使用另一个数据集(GSE39582)作为验证队列,结果发现在GLMS算法相同的情况下,高GLMS组患者的OS也较好。单因素及多因素分析也观察到类似的结果。综合来看,这些结果表明GLMS是结肠癌的独立预后因素(图2)。
3. GLMS与临床特征的关系
作者接下来进一步分析GLMS与年龄、性别、体重指数(BMI)、美国癌症联合委员会(AJCC)肿瘤分期、TNM分级、微卫星状态、血管浸润状态、肿瘤部位、和consensus molecular subtypes (CMS)的关系(图3)。结果发现,左结肠癌的GLMS明显高于右结肠癌(图3),表明GLMS具有鉴别肿瘤部位的能力。此外,研究也发现肿瘤CMS亚型间GLMS分布存在显著差异(图3),而不同年龄、性别、BMI、肿瘤分期、微卫星不稳定状态的患者GLMS分布相似(图3C)。
4. 甘油脂代谢的潜在机制
接下来作者为了探索甘油脂代谢可能参与的通路,分析了GLMS与肿瘤标志物的相关性。结果发现GLMS与胆汁酸代谢、异生物代谢、过氧化物酶体等通路呈显著正相关,与干扰素γ反应、异体排斥反应、细胞凋亡、炎症反应呈负相关(图4)。此外,作者也对参与GLMS的42个基因进行了分析。结果发现AGPAT4、AKR1B1和DGKI表达上调的样本在胆固醇稳态、胆汁酸代谢、炎症反应和NOTCH信号通路中均呈阳性表达(图4),而AGPAT4、AKR1B1、DGKI、和MGLL与蛋白分泌、IL2-STAT5信号转导等通路呈负相关(图4)。接下来,作者利用R包xCell检测免疫微环境,评估不同免疫细胞的浸润比例,并进一步比较高GLMS组和低GLMS组的免疫微环境。结果发现如图4所示,在高GLMS和低GLMS样本中,共有33个免疫细胞或基质细胞表现出明显的浸润差异。大多数的免疫促进细胞,包括B细胞,巨噬细胞、活化树突状细胞(aDC)、经典树突状细胞(cDC)和未成熟树突状细胞(iDC)在低GLMS组中所占比例较高,而在高GLMS组中,NKT细胞等负调控免疫反应的细胞显著浸润。此外,作者还比较了两组之间涉及免疫检查点的14个基因的表达,发现在低GLMS组样本中,共有12个免疫检查点分子上调(图4),这表明低GLMS患者可能存在潜在的免疫治疗获益。
5. 药物敏感
在文章的这一部分,作者考虑到GLMS较低与预后不良相关,进一步分析了GLMS与药物敏感性的关系。作者基于肿瘤药物敏感性基因组学(GDSC)数据库,获取IC50值来预测治疗反应。作者在低、高GLMS组间有显著反应差异的96种药物中,特别关注目前用于结肠癌治疗的药物(图5)。进一步作者分析了药物IC50与甘油脂代谢相关基因表达的相关性,共识别出AKR1B1、DGKI、AGPAT2、gam、LCLAT、DGKZ、MGLL、DGKQ、AGPAT4、DGAT1、AKR1A1、DGKD、DGKH、AGK等14个基因(图5),提示这些基因可能在药物反应中起关键作用。
6. 甘油脂代谢紊乱的起源
在文章的最后一部分,研究引入单细胞测序数据集GSE146771,探讨甘油脂代谢紊乱的起源。作者从TISCH数据库中获得细胞注释,以识别细胞的亚型(图6)。接下来根据同一ssGSEA算法分配每个细胞样本的GLMS(图6)。结果发现其在恶性肿瘤细胞和基质细胞以及在CD4Tconv CD8Tex中得分较高,当涉及到复杂的类别时,浆细胞也是如此。进一步的统计分析显示,不同细胞类型间评分分布有显著差异(图6)。作者根据各细胞亚群富集得分的log2FC值分析发现恶性细胞和Tprolif细胞显著富集(图6),表明这些细胞可能是甘油脂代谢紊乱的潜在靶点和来源。
到这里这篇文章的主要内容就介绍完了,文章聚焦代谢,构建风险评分,在经典的预后思路中添加了单细胞数据进行分析,文章逻辑清晰,方法简洁。预后文章很多,想要出彩就一定要有亮点,这篇文章结合代谢与单细胞,是一个不错的学习思路。
参考文献:
1. Multi-Omics Characterization of a Glycerolipid Metabolism-Related Gene Enrichment Score in Colon Cancer;