肿瘤分型一直是癌症研究的一个经典方向,今天小编要和大家分享一篇今年九月刚刚发表在Briefings in bioinformatics(IF:11.620)杂志上的HCC分型文章,文章基于肿瘤和非肿瘤组织中免疫及hallmark基因集的活性变化使用非负矩阵分解(NMF)的方法识别HCC亚型。纯生信分型发了11分,小伙伴们get起来吧。
HCC subtypes based on the activity changes of immunologic and hallmark gene sets in tumor and nontumor tissues
基于肿瘤和非肿瘤组织中免疫及hallmark基因集的活性变化的HCC亚型
一.研究背景
目前肝细胞癌(HCC)是最常见的肝癌类型之一,是全球第四大癌症相关死亡原因,且患者相邻非肿瘤组织的预后作用尚不清楚。而在HCC肝切除术等治疗措施后,邻近非肿瘤组织中免疫和hallmark基因集的活性变化可能通过影响肝细胞的增殖和循环肿瘤细胞的定植而显著影响预后。因此作者通过肿瘤和非肿瘤组织中基因集的活性变化确定HCC亚型和预后基因集,希望能够改善患者预后。
二.数据及方法
1. 数据收集:作者从GEO数据库下载了配对的肿瘤组织及癌旁组织的基因表达数据(GSE14520,GSE76427),并按照HCC组织和癌旁非肿瘤组织的样本量均大于等于50的标准选择合格的基因表达谱数据。此外,作者从基因集富集分析(GSEA)中下载4922个免疫和hallmark基因集。
2. 基因集变异分析及功能富集分析:基因集变异分析(GSVA)可以估计一个感兴趣的基因集相对于样本群体的富集程度,作者用于观察与特定生物条件相对应的一组基因(如通路)的活性变化。作者也通过clusterProfiler R包进行分子功能(MF)分析和Reactome通路分析。
3. 热图及分类:文章使用ComplexHeatmap包和CancerSubtypes包分析HCC样本的热图和分类。
4. 非负矩阵分解(NMF):非负矩阵分解是一种有效的降维方法,被广泛应用于高维基因组数据的分子模式识别,并为类发现提供了强有力的方法。研究中作者应用NMF包对癌症基因组数据进行NMF。
5. 预后分析:作者采用LASSO回归方法寻找潜在的预后基因集。
三.研究的主要内容及结果
1. 肝癌和癌旁非肿瘤样本中免疫和hallmark基因的活性变化
在文章第一部分作者分析了肝癌和癌旁非肿瘤样本中免疫和hallmark基因的活性变化。GSVA可用于检测整个基因表达集中细微的通路活性变化。因此作者为了全面揭示HCC和邻近非肿瘤样本中免疫和hallmark基因集的活性变化,从GSEA和基因表达谱数据(GSE14520)下载了4922个免疫和hallmark基因集,研究的流程如图1所示。其中免疫基因集是由来自免疫学研究的芯片基因表达数据定义的,而hallmark基因集是由多个表示明确定义的生物状态或过程的MSigDB基因集聚合而来的一致表达的特征。接着作者也根据GSE14520的表达数据,通过GSVA计算4922个基因集的富集评分(ES)(图2)。结果发现在HCC和邻近的非肿瘤组织中,出现了多个基因集将样本分成若干类。接着作者试图基于肝细胞癌和邻近非肿瘤样本的免疫和hallmark基因集的ESs,将肝细胞癌患者分为不同的亚型。其中有四个样本的预后信息不完整而被移除。作者使用Cox回归模型通过CancerSubtypes包进行特征选择,保留999个特征供进一步分析。接下来作者使用factoextra包生成最佳簇数(K) (K = 3,图3A和B)。 进一步的作者使用NMF方法将HCC患者聚类为三个不同的亚型(图3C)。图3D表明与其他亚型相比,HCC样本与其确定的亚型之间匹配良好。同时亚型1的HCC患者总生存期较好,而亚型2和亚型3的预后较差(图3E)。
2. 临床特征与HCC亚型的相关性
在这一部分作者进一步探讨了临床特征与HCC亚型的相关性。结果发现与亚型2和亚型3相比,亚型1的肝癌患者生存时间更长,复发率更低(图4A和表1)。接着为了确定每个子类型的代表性基因集,作者计算了每个子类之间基因集的差异ES并将它们交叉。在图4B中可以观察到亚型1有12个不同的基因集,亚型2有59个,亚型3有22个。而代表性基因集与临床特征的相关性如图5所示:亚型1在非肿瘤样本中9个基因集的ESs均高于其他亚型,亚型2在非肿瘤样本中某些基因组的ESs也较高。与这两种亚型相反,亚型3在肿瘤组织中有18个基因集ES增加了。由于包含配对肿瘤和非肿瘤样本表达及临床信息的数据集太小,作者选择另一个不同的基因表达谱数据来验证分类。在GSE14520数据中,亚型2和亚型3的死亡比例没有太大差异(表1),Kaplan-Meier分析也显示亚型2和亚型3的预后都相对较差(图3E)。考虑到验证组样本量小,作者从样本中分离出亚型1,其他样本定义为亚型2/3。通过生存分析,验证组中亚型1的HCC患者也倾向于生存更好。接下来作者试图用LASSO方法确定肝癌的预后基因集,最终发现了7个基因集(图6A和B),其中4个基因集位于非肿瘤组织,3个位于肿瘤组织。且每个基因组的ESs越高,总生存时间越短(图6)。
3. 功能和通路富集分析
在一部分作者为了明确这7个预后基因集对预后的作用机制,提取了每个基因集所包含的基因,并在肿瘤和非肿瘤组织中进行MF富集和Reactome通路分析。对于非肿瘤样本,基因集主要与细胞粘附分子结合、细胞因子活性、白细胞介素信号转导、血小板激活等相关(图7A)。作者推测这些功能在非肿瘤组织中可能通过促进肿瘤细胞定植和存活而影响预后。在肿瘤样本中,基因集富集到微管蛋白结合、组蛋白激酶活性、细胞周期检查点、有丝分裂前期和有丝分裂后期等相关过程(图7B)。这些结果与细胞周期密切相关,可能促进肿瘤的发展。接下来作者进一步识别了非肿瘤和肿瘤基因集中的hub基因,构建蛋白-蛋白相互作用网络,并将结果进一步分析。作者通过 Cytoscape MCODE插件计算出前三的类,并通过度计算出每个类中的hub基因。结果发现非肿瘤基因集中,类1的前3个hub基因为CXCL8、CXCL9和CCR5,主要与免疫反应相关;类2为ICAM1、ITGAM和IL1B,与细胞粘附密切相关;类3为FBXO7、UBA6和SH3RF1,主要与泛素激活相关(图8A)。肿瘤基因集中,类1的hub基因为MELK, CCNB1 及 CDCA8主要与细胞周期有关;类2为PWP2, NLE1和KIAA0020与核糖体密切相关;而类3 为EFTUD2, SRSF1 及HNRNPM 主要与mRNA剪接有关(图8B)。
到这里这篇文章的主要内容就介绍完了。文章主要使用NMF方法对HCC进行分型,可以看出文章的算法并不复杂,但文章的思路清晰,能够将肿瘤和非肿瘤样本结合,针对免疫基因集和hallmark基因集进行分型,最终成就了11+的工作。感兴趣的小伙伴可以学习下文章的思路和方法以及写作逻辑。