大家好,今天给大家做一个文献解读,随着生物信息学的发展和大量文章的发表,简单的生物实验、通路机制类的文章已经不再新鲜,期刊杂志也不满足于简单的实验类文章,生物信息学文章近年来大量发表,而文章中应用到的生物信息学方法也内卷严重,那么我们除了做简单的生物信息学分析外,要多看多学多用,创新的算法与实验结合,让投文章更加简单。
这个期刊的水平不用多说,中科院一区,OA杂志,11年出版,《Theranostics》创刊第2年即被SCI收录,首个影响因子就有7.806分之高,此后三年逐年攀升,2015年后的连续三年下降终于开始上涨,在2019年达到峰值8.579分,今年更是达到了11.6分,随着影响因子的通货膨胀,预测接下来还会继续升高。
首先这篇文章值得一提的是它的算法图,不愧是一区的文章,图的布局相当好看,也十分恰当把文章中的关键点、创新点直观的展示给读者。
本研究利用一种新的计算框架和10种机器学习算法(101种组合),综合分析低级别胶质瘤(LGG)纯化的免疫细胞、LGG细胞系和LGG大体积组织的测序数据,筛选出TIIC lncRNAs。
大家都知道,长链非编码rna (long noncoding RNAs, lncRNAs)作用关键,可以参与免疫系统的调节,在免疫细胞亚群中表现出细胞类型的特异性模式。鉴于肿瘤浸润淋巴细胞在有效免疫治疗中的重要作用,研究者探索了在低级别胶质瘤(LGG)中尚未发现的肿瘤浸润免疫细胞相关lncRNA (TIIClncRNA)。
说起来,肿瘤浸润免疫细胞相关的lncRNA肯定是有很多相关的研究了,但作者选题角度也很刁钻,选择了癌症研究较少的胶质瘤,并进一步筛选出低级别胶质瘤,这一点使得他的研究不是重复而无意义的了,选题新颖。
1.首先介绍一下作者的数据来源,无非就是这几个常用的公共数据库TCGA-LGG, CGGA数据库,GEO数据库的十六个胶质瘤数据集以及癌症细胞系百科全书项目CCLE。
2.接下来是对转录组数据的处理,对芯片数据进行归一化处理,FPKM数据转化为TPM数据,通过GENECODE数据库对Lncrna探针进行注释。
3.通过对纯化的免疫细胞、LGG细胞系和LGG肿瘤组织的lncRNA分析,研究者利用一种新的计算框架,结合多种机器学习算法识别肿瘤浸润性免疫细胞相关lncRNA (TIIClnc) signature。
4.TIIClnc signature的免疫相关特征注释:
收集到7种免疫调节剂。计算T细胞炎症基因表达谱(GEP)、细胞毒活性(CYT)和干扰素γ (IFN-γ)。
从TCGA数据库中收集肿瘤突变负担(TMB)、微卫星不稳定性(MSI)、T细胞受体(TCR)丰富度、TCR Shannon和SNV Neoantigen。
使用GATK4从湘雅内部数据集的RNA测序数据中搜索snp和indel。
采用基于来自genome Reference Consortium(基因组参考联盟)的智人基因组装配体“GRCh38”的方差分析方法对突变信息进行标注。进一步利用R软件包maftools的tmb函数计算湘雅内部数据集的tmb值。利用R包PreMSIm对湘雅内部数据集的MSI值进行预测。
如前所述,确定了6种免疫亚型和immunophenoscore(IPS)。采用肿瘤免疫估计资源(TIMER)算法、单细胞基因集富集分析(ssGSEA)算法、微环境细胞种群计数器(MCPcounter)算法和利用表达数据(ESTIMATE)算法估计恶性肿瘤基质细胞和免疫细胞,计算免疫浸润细胞的丰度和ESTIMATE评分。
收集癌症免疫周期,显示趋化因子和免疫调节剂的功能状态,并通过基因集变异分析(gene set variation analysis, GSVA)富集出114条代谢通路。使用GSVA进行计算,基因本体(GO)和京都基因和基因组百科全书(KEGG)富集,并使用gsva和基因集富集分析(GSEA)进行量化。
5.为了进一步体现TIIClnc signature对免疫治疗反应的预测价值,使用GSE35640(黑素瘤)、GSE91061(黑素瘤)、GSE78220(黑素瘤)、Allen(黑素瘤)、Nathanson(黑素瘤)、IMvigor(尿路上皮癌)、Braun(肾细胞癌)、GSE179351(结直肠腺癌和胰腺腺癌)、GSE165252(食管腺癌)和PRJNA482620(胶质母细胞瘤)数据集预测免疫治疗反应,同时计算每个数据集的TIIClnc标记。GSE103668(三阴性乳腺癌)数据集用于预测靶向治疗反应(顺铂和贝伐单抗)。亚类图谱用于预测抗pd-1和抗ctla-4免疫治疗反应。本节也使用了Tumor Immune Dysfunction and Exclusion (TIDE)算法。
6.接下来是文章的实验部分,使用了湘雅的胶质瘤数据,做了RT-pcr数据,对LOC101928134和LOC100133461进行了表达量分析。
将三组转染sirna的THP-1细胞离心,使用无血清培养基重悬。调整密度为105个细胞/mL。上腔加入细胞悬液100 μL,下腔加入含10% FBS的1640 500 μL。培养48 h后收集下腔迁移的THP-1细胞,流式细胞术计数。后续做了细胞实验与染色。
图2结果展示了TIIClnc信号的预后价值。这部分结果展示了各个算法组合后,对TIIClnc signature的筛选过程,并通过一系列生存分析和ROC曲线展示其重要性。
A.通过10倍交叉验证框架,共有101种用于TIIClnc signature的机器学习算法组合。通过TCGA-LGG、湘雅内部、CGGA-LGG和GSE108474等验证数据集计算各模型的c-index。
B.基于CoxBoost算法的16个最具价值的TIIClncRNAs展览。
C.基于RSF算法确定误差最小的TIIClnc signature树的数量,以及16个最有价值的TIIClncRNA的重要性。
D. TCGA- LGG、湘雅内部、CGGA- LGG和GSE108474数据集中TIIClnc signature得分高和TIIClnc signature得分低的患者的OS生存曲线Kaplan-Meier。
E. CGGA-LGG、湘雅内部、TCGA-LGG和GSE108474数据集1年、2年、3年、4年和5年OS的时间依赖性ROC曲线,显示了这组 signature具有较好的稳定性。
图3. TIIClnc signature与其他模型的比较。通过不同数据集进行比对,并引入了其他随访数据进行比对。
A. TCGA-LGG、湘雅内部、CGGA-LGG和GSE108474数据集的TIIClnc signature、其他临床因素和组合 signature的C-index。
B. TCGA LGG、湘雅内部、CGGA LGG和GSE108474数据集中的TIIClnc特征的1年、2年和3年校准曲线。
C. TIIClnc signature的C-index和TCGA LGG数据集中开发的其他模型。
D. TIIClnc signature的C-index和湘雅内部数据集中开发的其他模型。
E. TIIClnc signature的C-index和CGGA LGG数据集开发的其他模型。
F. TIIClnc signature的C-index和GSE108474数据集中开发的其他模型。
图4. 湘雅内部数据集中TIIClnc signature的免疫相关特征,TIIClnc signature与免疫细胞浸润与免疫调节进行热图分析,研究他们之间的相关。
A.显示TIIClnc信号与免疫浸润细胞相关性的热图。
B.显示TIIClnc signature与免疫调节分子之间相关性的热图。
C.显示两个TIIClnc signature评分组之间的CYT水平的小提琴图。
D.显示两个TIIClnc signature得分组之间的GEP水平的小提琴图。
E.显示两个TIIClnc signature评分组之间IFN-γ水平的小提琴图。
F.显示两个MSI组间TIIClnc水平的小提琴图。
G.显示两个TIIClnc signature分数组之间TMB水平的小提琴图。
H.两个TIIClnc signature得分组之间IPS级别的小提琴图。
图5. TIIClnc signature对免疫治疗反应的预测价值,根据TIIClnc signature对数据集的评分对预后数据进行评价。
A. IMvigor数据集中TIIClnc评分高与TIIClnc评分低的患者间OS的Kaplan-Meier生存曲线。
B. IMvigor数据集中显示不同免疫治疗反应患者TIIClnc signature评分的箱线图。
C.显示GSE179351数据集中不同免疫治疗反应患者TIIClnc signature评分的框图。
D. Braun数据集中TIIClnc评分高和TIIClnc评分低的患者之间的OS生存曲线。
E. Braun数据集中显示不同免疫治疗反应患者TIIClnc signature评分的方框图。
F.显示GSE103668数据集中不同免疫治疗反应患者TIIClnc signature评分的方框图。
G.显示GSE165252数据集中不同免疫治疗反应患者TIIClnc signature评分的框图。Allen数据集中TIIClnc评分高和TIIClnc评分低的患者的OS生存曲线。
I. Allen数据集中显示不同免疫治疗反应患者TIIClnc signature评分的方框图。GSE78220数据集中TIIClnc高评分和TIIClnc低评分患者OS的J. Kaplan-Meier生存曲线。
K. Box图显示GSE78220数据集中不同免疫治疗反应患者的TIIClnc signature评分。Nathanson数据集中TIIClnc评分高和TIIClnc评分低的患者之间的OS生存曲线。
M. Box图显示Nathanson数据集中不同免疫治疗反应患者的TIIClnc signature评分。
N. Box图显示GSE35640数据集中不同免疫治疗反应患者的TIIClnc signature评分。
O. Box图显示GSE91061数据集中不同免疫治疗反应患者的TIIClnc signature评分。
P.湘雅内部数据集中基于TIDE算法的免疫治疗反应与TIIClnc signature评分组的联列表。
Q.基于湘雅内部数据集的子图分析,免疫治疗反应(anti-PD-1和anti-CTLA-4)和TIIClnc signature评分组之间的联列表。PRJNA482620数据集中TIIClnc得分高和TIIClnc得分低的患者之间的OS生存曲线。
图6. 之后作者通过实验验证进一步证明了分析的准确性。
A.散点图显示了湘雅内部数据集中TIIClnc signature评分与CD8、PD-1、PD-L1之间的相关性。
B. Box图显示湘雅内部数据集中两个TIIClnc signature评分组之间基于IHC染色的CD8、PD-1和PD-L1的h评分水平。h评分用强度评分*数量评分计算。强度得分为0、1、2、3,分别为负、弱、中、强。数量得分0、1、2、3、4分别代表10%、10-25%、25-50%、50-75%、75%染色细胞的比例。H-score的取值范围为0 ~ 12。
C.湘雅内部数据集中两个TIIClnc signature评分组中CD8、PD-1和PD-L1的代表性IHC染色图像。
图7.湘雅内部数据集中TIIClnc signature的功能注释,对 signature进行功能学分析,是文章与临床更巧妙的结合起来。
A.两组TIIClnc signature评分组癌症免疫周期差异的方框图。
B.基于GO和KEGG项的gsa显示TIIClnc标志评分与代谢通路、免疫相关通路的相关性蝴蝶图。免疫图雷达图显示了
C. Kobayashi和D. Bagaev开发的TIIClnc signature评分和TIME signature之间的相关性。
E. GSEA的GO 富集中TIIClnc signature分数。
F. GSEA的KEGG富集中TIIClnc signature得分。
文章小结:
研究者基于丰富的机器学习算法对纯化的免疫细胞、LGG细胞系和大量LGG组织的测序数据进行综合分析,开发出一种稳定、鲁棒的TIIClnc signature来分层LGG患者和预测免疫治疗的结果。其中的机器学习方法很值得我们借鉴。