6+纯生信好文:多组学+脂质代谢+预后模型
多组学分析可以更系统、更全面地了解恶性肿瘤中生物成分的潜在规律,是生信分析中经久不衰的热点。今天给大家分享一篇2022年2月11日发表在Frontiers in Cell and Developmental Biology(IF:6.684)上的文章,看看这篇文章是如何把当下的多个研究热点整合起来的吧!
一、研究背景
结直肠癌(CRC)的发病率和死亡率分别位居世界第三和第四位。 CRC的进展与遗传因素、年龄、慢性炎症、吸烟和饮酒等生活方式、饮食习惯和环境因素有关。 目前,CRC患者预后的改善仍相当有限,主要是因为相当一部分CRC患者在早期往往无症状。 因此,寻找CRC发生、发展和侵袭的分子机制和有利的预后监测指标是当前研究的热点。
目前,大量研究表明,脂质代谢异常与肿瘤的发生发展密切相关。恶性转化和癌细胞增殖过程的加速需要更多的能量,这可能会导致脂质代谢障碍,使癌细胞存活。鉴于脂质代谢功能障碍在肿瘤的发生发展中发挥着重要作用,脂质代谢的生物学活性一直是筛选肿瘤治疗靶点的重点研究领域。代谢组学是系统生物学的一个重要分支,主要研究代谢动态过程中代谢物的变化,以揭示生命活动的代谢特征。代谢物检测结果能更准确、更直接地反映机体的病理生理状态。目前,血液和尿液是主要的研究对象,通过去除不纯的代谢物(如蛋白质或糖类)来保证检测结果的准确性。代谢组学在癌症研究中的应用旨在提高癌症的诊断和预后,并将其应用于潜在的癌症生物标志物。
二、结果
代谢组学模式识别分析
作者总共纳入了 236 名 CRC 患者的临床特征,包括年龄、性别、组织学类型、病理分期、T 分期、N 分期和 M 分期。首先,作者进行了 PCA 和 PLSDA 分析来研究代谢物在K-means 聚类得到的亚组(Kgroup 1 和 Kgroup 2)中的空间分布(图 2A)。 K-M 生存分析表明,Kgroup 2 中 CRC 患者的总生存期高于 Kgroup 1(图 2B)(p < 0.001)。图 2C、D 显示了 Kgroup 1 和 Kgroup 2 的 PCA 结果,表明两个亚组之间存在显著的个体差异。此外,为了消除组内的随机偏差和偏差,对 Kgroup 1 和 Kgroup 2 进行了 PLSDA,以进一步验证两个亚组之间的个体差异(图 2E,F)。
差异代谢物的生物学功能
接下来,作者采用 T 检验区分 357 种代谢物的差异(FDR < 0.05),然后对 HMDB 上的特定成分进行鉴定。 最终确认了 175 种不同的脂质代谢物。 对 175 种差异脂质代谢物的KEGG 通路富集分析显示,差异脂质代谢物最富含甘油磷脂代谢(图 2G)。
6-脂质代谢物预后标志的构建
接下来,作者使用单变量 Cox 回归分析识别了 14 种与生存相关的脂质代谢物(p < 0.05)。然后又进行了多变量 Cox 回归分析,以建立基于六种脂质代谢物的预后特征 “LMS”,包括五种高风险脂质代谢物(HR > 1)和一种低风险脂质代谢物(HR < 1)。根据LMS 中位数 (0.875) 将CRC患者分为高风险组和低风险组,并绘制了K-M 生存曲线(图 3A)。如图 3B 所示,LMS 较高的 CRC 患者的总生存期低于 LMS 较低的患者。图 3D显示了基于预后特征的六种代谢物水平的分布和变化。随着LMS的增加,5种高危代谢物水平升高,而低危代谢物水平呈下降趋势。此外,作者还预测了患者 1 年、3 年和 5 年总生存期的 ROC 曲线的 AUC 分别为 0.769、0.711 和 0.723(图 3E)。结合 LMS 和临床特征(年龄、性别、病理分期、组织学类型、T 分期、N 分期和 M 分期),进行单变量和多变量独立预后分析(图 3F,G),以检验 LMS 的预后可行性。通过整合预后特征和独立预后因素(组织学类型(腺癌和粘液性腺癌)、病理分期、T 分期),作者构建了复合列线图(图 3H),以单独预测 CRC 患者的总生存期。一年、三年和五年的校准曲线也验证了复合列线图的良好拟合和稳定性(图 3I)。基于列线图的 ROC 的一年、三年和五年 AUC 分别为 0.815、0.815 和 0.805,显示预测患者预后的良好准确性(图 3J)。多指数 ROC 曲线的一年、三年和五年 AUC(图 3K M)验证了复合列线图增强的预后准确性。
利用WGCNA来识别GMRHGs
为了确保肿瘤特异性基因选择,作者使用TCGA CRC患者的差异表达基因矩阵进行WGCNA。 首先进行层次聚类和皮尔森相关分析以构建WGCNA网络(图4A,B)。 然后通过动态树切割模块的识别和相似模块的合并(图4C),最终识别出8个基因模块(MEbrown、MEturquoise、MEmidnightblue、MEyellow、MEmagenta、MEgreenyellow、MEpink、MEgrey)(图4D),其中MEbrown 包含 342 个 DEG 的模块与甘油磷脂代谢显着相关。MEbrown 模块的总共 342 个 DEG 被视为 GMRHG 进行进一步分析。
5-GMRHG预后标志物的构建
作者加入了GEO 数据集(GSE17536、GSE38832 和 GSE103479)和TCGA中的 877 名 CRC 患者进行预后标志物的构建。对 342 个 GMRHG 表达数据进行单变量 Cox 回归分析(图 5A)、LASSO 回归分析(图 5B、C)和多变量 Cox 回归分析(图 5D),以构建五个 GMRHG(ACOX1、ATOH1、CPT2、PCSK5、和 TINCR) 预后特征 “GMS”。
GMS 大于或等于中位GMS (0.939) 的 CRC 患者将被分配到高风险组,而那些小于中位 GMS 的将被分配到低风险组。训练组(图 6A)和测试组(图 6E)的 K-M 生存曲线说明低风险组和高风险组之间的总生存率存在显着差异。 训练组(图 6B)和测试组(图 6F)的散点图表明,GMS 较高的患者的总生存期低于 GMS 较低的患者。训练组(图 6C)和测试组(图 6G)的 GMS 曲线显示了 GMS 的分布。训练组(图 6D)和测试组(图 6H)的热图显示了预后特征的五个 GMRHG 的表达趋势。随着 GMRHG 的增加,两个高危 GMRHG(PCSK5 和 TINCR)的表达会增加,而三个低危 GMRHG(ATOH1 和 ACOX1 和 CPT2)的表达会降低。训练组(图 6I)和测试组(图 6J)的时间依赖性 ROC 的一年、三年和五年 AUC 分别为 0.662、0.716、0.719 和 0.623、0.660、0.633。如图 6K、L 所示,单变量和多变量独立预后分析的结果表明,GMS 可被视为独立的预后因素。时间依赖性 ROC 验证了五种 GMRHG 预后特征在预测 CRC 患者预后方面的更佳精度。
临床相关性分析
作者用卡方检验比较了基于 JLUFH CRC 患者和 TCGA CRC 患者的临床特征(年龄、性别、组织学类型、病理分期、T 分期、N 分期、M 分期)在高风险和低风险组中的分布。对于 JLUFH CRC 患者,作者发现晚期病理分期(III 期和 IV 期)和粘液性腺癌的 CRC 患者主要分布在高危组,具有显着统计学差异(p ≤ 0.031 和 p ≤ 0.001)(图 7A、B )。还发现 TCGA CRC 患者具有晚期病理分期(stage and )和 N 分期(N1-2)主要分布在高危组(图 7C、D)。基于JLUFH结直肠癌患者和TCGA结直肠癌患者的临床特征,采用临床相关性分析和Wilcoxon排序检验进一步探讨6-脂质代谢物水平和5-GMRHG表达在临床特征上的组内差异。 发现晚期病理阶段 JLUFH CRC 患者的高危脂质代谢物 水平较高(图 7E,7F)。CPT2 在 65 岁以下 TCGA CRC 患者中的表达高于大于 65 岁的 CRC 患者(图 7G)。此外,ATOH1 和 CPT2 的表达在病理分期方面存在统计学差异(图 7H)。在 T 分期中,PCSK5 在 T3-4 中的表达高于 T1-2(图 7I)。此外,随着N分期的增加,ATOH1和CPT2的表达呈下降趋势(图7J)。对于 M 分期,ATOH1 在 M0 中的表达高于 M1,具有静态差异(图 7K)。
基于预后特征的肿瘤免疫浸润和TME特征
作者计算了16种免疫细胞和13种免疫功能的相对丰度。箱线图(图 8A、B)形象地说明了 T_helper_cells、Tfh、Th1_cells、TIL、CCR的相对丰度高危组高于低危组,差异有统计学意义(p < 0.05)。图 8C 显示高风险组的免疫评分、基质评分和估计评分高于低风险组。作者还系统地描述了基质评分、免疫评分、估计评分以及高风险和低风险组中肿瘤免疫细胞和免疫功能的相对丰度之间的分布关系(图 8D)。此外,作者发现基质评分、免疫评分和估计评分均与 T_helper_cells、Tfh、Th1_cells TIL、CCR的相对丰度呈统计学正相关(图 8E)。高危组和低危组免疫检查点表达的比较结果表明,高危组CTLA4、PDCD1、TIGIT、CD274、HAVCR2的表达高于低危组(图8F)。 如图 8G 所示,低风险组的 TIDE 评分低于高风险组,表明与高风险组的样本相比,低风险组的样本对抗 PD1 和抗 CTLA4 免疫治疗的敏感性更高。并且,TIDE 评分较低的 CRC 患者的总生存期较好(p < 0.017)(图 8H)。此外,对高危组和低危组 CRC 患者的分层生存分析结果表明,TIDE 评分较低的低危组 CRC 患者与更好的总生存率相关(图 8I)。
体细胞突变和MSI概述
图 9A、B 显示了突变频率最高的前 30 个基因,其中 TP53 在高风险组和低风险组之间显示出最显着的统计学差异(图 9C)。为了进一步研究 TP53 突变状态中五种 GMRHG 预后特征的预后意义,作者对 TP53 野生型和 TP53 突变型 CRC 患者进行了分层生存分析,发现 TP53 突变 CRC 患者的总生存期高危组低于低危组,具有显着统计学差异(p≤0.001)。同时,TP53-野生型 CRC 患者的总生存期表现出与TP53-突变型 CRC 患者总生存期相似的趋势(图 9D)。此外,作者还研究了 MMR 系统与五种 GMRHG 预后特征之间的关系。如图 9E、F 所示,MSH6 和 MSH2 分别在高风险和低风险组中表现出最高的突变频率。此外,MSH6-MSH2表现出最强烈的阳性共表达相关性(图9G)。 MSH6、MSH2、PMS2和MLH1表达差异的结果表明,MLH1在低危组中的表达高于高危组(图9H)。用斯皮尔曼相关分析进行的线性相关也验证了 GMS 和 MLH1 表达之间的负相关关系 (图 9I)。
基因集富集分析
针对高风险和低风险群体的基因表达矩阵,作者进行了 GSEA 以分层揭示 TCGA CRC 患者的潜在生物学功能。在 HALLMARK 功能通路的 GSEA 结果中(图 10A),高危组的基因表达主要富集在经常研究的癌症相关通路中,例如上皮-间质转化、血管生成 和 KRAS 信号传导,而低风险组的基因表达主要富集在代谢相关通路中,即氧化磷酸化和脂肪酸代谢。在 KEGG 功能通路的 GSEA 结果中(图 10B),高风险组的基因主要富集在 ECM 受体相互作用、补体和凝血级联和间隙连接 ,而低风险组的基因主要富集了33条KEGG功能通路,其中NES值最高的前5条通路中有4条是代谢相关途径(脂肪酸代谢,丁酸代谢,缬氨酸亮氨酸和异亮氨酸降解和柠檬酸循环(TCA cycle) 。在 HALLMARK 和 KEGG 的分析中,低风险组的基因表达均富含脂肪酸代谢和过氧化物酶体。
三、总结
本研究从代谢组学和转录组学角度详细探讨了脂质代谢在结直肠癌(CRC)预后中的作用。为促进个体化治疗和揭示结直肠癌潜在的分子生物学特征提供新的视角。总的来说,这篇文章的研究内容很全面,并且结合了当下的科研热点,是一个不错的预后模型工作。
参考文献
1. Sun, Y., Liu, B., Chen, Y., Xing, Y. and Zhang, Y. (2021) Multi-Omics Prognostic Signatures Based on Lipid Metabolism for Colorectal Cancer. Front Cell Dev Biol, 9, 811957.