随着单细胞转录组(scRNAseq)测序成本的降低和分析流程的优化,scRNAseq在各类研究中的出镜频率越来越高。在pubmed中以“single cell RNA sequencing”为关键词进行检索,发现高达2.6万条记录(其中IF > 20的文章约1400篇),仅2022年就已发表1800多篇相关文章。scRNAseq普及之前,绝大多数实验室只能依赖TCGA bulk RNAseq进行泛癌分析,而如今海量的scRNAseq数据为更高精度的泛癌分析提供了数据基础,bulk+scRNAseq泛癌分析已成为切实可行的新思路。本篇推文中,编者选取最新发表在遗传学Top期刊《Genome Medicine》杂志上的一篇泛癌基因标签(gene signature)分析,对主要结果进行解读,并结合两篇同类型的文章进行总结,以供读者参考。
背景
免疫检查点抑制剂(Immune checkpoint inhibitor,ICI)疗法开启了肿瘤治疗的新纪元。然而,只有少量病人对治疗有反应,表明仍需挖掘新的biomarkers用于病人的精准分群,进而辅助治疗方案的选择。传统的biomarker研究多基于完整肿瘤组织的bulk RNAseq,很难精准区分肿瘤内部的细胞亚群,对ICI治疗的指示价值有限。而scRNAseq的高分辨率特性恰好可以弥补这一缺陷,可更加精准地表征肿瘤细胞的异质性,从而开发表征性能更好的biomarkers。
肿瘤干细胞(Cancer stem cells,CSCs)是一类具有自我更新能力的的癌细胞,可以促进肿瘤发生、发展和转移。多项研究证实肿瘤细胞干性(stemness)与肿瘤免疫逃避及治疗抵抗密切相关。一项基于21种实体瘤的泛癌研究发现,肿瘤细胞干性与免疫细胞排斥相关,但其与临床ICI结果之间的负相关关系尚无直接证据。利用CytoTRACE包,作者可以预测scRNA-seq数据种每个细胞的分化状态,量化其stemness,进而鉴定与stemness密切相关的基因。
文中,作者首先在两个ICI scRNAseq数据中证实干性和ICI效果之间的负相关关系;随后基于34个scRNAseq数据集(17种肿瘤类型,345个病人,66万个细胞)构建干性特征标签(Stem.Sig),并在TCGA(>1万个病人,30种肿瘤类型)、CRISPR数据集(4种肿瘤类型)和10个独立的ICI数据集种进行了验证;比较发现Stem.Sig能比以往报道的signatures更好地预测病人对ICI治疗的反应。
结果一 肿瘤细胞干性与ICI抗性相关
基于两个ICI scRNAseq数据集(SKCM,BCC),作者利用CytoTRACE量化了每个细胞的干性,结合治疗结果发现 non-respond(NR)患者中的肿瘤细胞干性更强。
结果二 基于泛癌scRNAseq数据构建Stem.Sig
作者收集了34个scRNAseq数据集用以构建Stem.Sig。Stem.Sig候选基因的条件为:1)在肿瘤细胞中显著上调(logFC ≥ 0.25且FDR < 1e-5);2)与CytoTRACE scores显著正相关(Spearman R > 0 and FDR < 1e−05);3)在34个数据集中的相关性(R)几何平均数大于0.4。功能富集发现Stem.Sig中的基因显著参与hypoxia、glycolysis、 ubiquitination、EPH-ephrin signaling、WNT Signaling及nucleotide excision repair等通路,这些通路均与肿瘤干细胞的干性维持和抗性密切相关(详见讨论部分)。且一些已报道的与ICI治疗不良预后相关的基因如EPHA3、EPHA7、ENO1及ACTG1等也包含在Stem.Sig当中。
结果三 基于TCGA泛癌转录组数据分析Stem.Sig与免疫抑制之间的潜在联系
为了解析Stem.Sig与免疫特征之间的关系,作者分别从代表性基因、通路和标签(signature)等多个方面,探究它们与Stem.Sig之间的联系。首先,作者鉴定了Stem.Sig与75个免疫相关基因之间在泛癌水平的负相关关系,并发现它与细胞毒性免疫细胞的浸润水平也呈负相关,暗示了Stem.Sig与抗癌免疫之间的负调控关系。随后,作者发现代谢通路、DNA repair和MYC signaling等与低水平免疫应答相关的通路,在Stem.Sig高的肿瘤中显著富集。此外,对于一些知名的免疫抑制相关特征如肿瘤内异质性(Intra-tumoral heterogenicity, ITH),作者发现其与Stem.Sig显著正相关。而对于肿瘤突变负荷(Tumor mutation burden, TMB),它也与Stem.Sig显著正相关。与之似乎冲突的是,高水平的TMB通常与免疫应答相关。为此,作者将病人分为四组:high Stem.Sig/high TMB (HSHT)、high Stem.Sig/low TMB (HSLT)、low Stem.Sig / high TMB(LSHT)和low Stem.Sig / low TMB (LSLT)。通过比较不同组间免疫浸润水平发现,抗癌免疫水平由高到低依次为:LSHT > LSLT > HSHT > HSLT,表明Stem.Sig水平低的肿瘤有更好的免疫水平。
结果四 利用Stem.Sig预测免疫治疗效果
为了评估Stem.Sig对免疫治疗的预测水平,作者收集了三类免疫治疗(anti-PD(L)-1、anti-CTLA-4、anti-PD(L)-1和anti-CTLA-4联合)共10个bulk RNAseq数据,以及相应的临床信息。随后,作者从7中机器学习算法中,挑选AUC值最高的Naïve Bayes模型用于后续预测。在训练集、验证集和测试集三类数据中,均表明Stem.Sig是一个风险因子,高水平的Stem.Sig与病人不良预后显著相关。最后,作者比较了Stem.Sig与已报道的泛癌signatures的预测水平,发现Stem.Sig表现普遍优于已报道的泛癌signatures(更高的AUC值)。
结果五 基于CRISPR数据挖掘Stem.Sig中的潜在治疗靶点
作者收集了7个免疫应答相关的CRISPR数据集用于该部分分析。对数据集包含的22505个基因根据z-score进行排序,Top-ranked的为免疫抵抗相关基因,在敲除后会促进抗肿瘤免疫反应;Bottom-ranked的为免疫敏感基因,敲除后会抑制抗肿瘤免疫反应。随后,作者统计了Top-ranked与Stem.Sig以及其他泛癌signatures中基因的交集情况,发现Top-ranked基因与Stem.Sig有显著交集,且比率显著高于其他几个signatures。该结果一方面挖掘了作为交集的潜在治疗靶点,另一方面再次印证Stem.Sig的预测能力要优于其他几个signatures。
小结
该篇文章遵循“提出假说—建立模型—验证模型”的思路,框架和结果清晰简洁。作者从两个scRNAseq数据集入手,初步建立肿瘤细胞干性和ICI治疗抵抗之间的联系,随后基于大规模泛癌scRNAseq数据建立干性标签Stem.Sig,并在TCGA泛癌数据中验证Stem.Sig和多种免疫指标之间的关系。为了检测Stem.Sig对ICI治疗效果的预测能力,作者从7种不同的机器学习模型中挑选最优模型,发现Stem.Sig能有效预测ICI病人预后,且效果优于已报道的一些signatures。最后,作者还整合CRISPR数据,进一步精细定位到少数可作为潜在治疗靶点的基因。
仔细阅读这篇文章可有以下几点收获:1)对于分析为主的老师/学生,对数据一定要有敏感性,比如文章中提到的ICI数据集、scRNAseq数据以及CRISPR数据,要及时整理收藏做好记录,不能等哪天需要了再去检索;2)同理,文中提到了大量的signatures,比如各种泛癌signatures、免疫相关标志物/通路,也包括Stem.Sig本身,以后但凡涉及到解析不同组间免疫差异或分子机制,都可以活学活用,从多角度提供数据来支持自己的假说;3)由scRNAseq出发,结合TCGA泛癌数据进行挖掘,一方面提高了内容的精准度,为文章增色,另一方面也是充分利用公共数据,多角度证实假说的可行途径。
现在scRNAseq课题的门槛和数年之前相比已经大幅度降低,提供了bulk RNAseq整合scRNAseq进行分析的数据基础,因此对于分析为主的课题,都可以将scRNAseq数据考虑进去,提升课题质量。在“生信人”微信公众号以往推文中,曾多次介绍过scRNAseq泛癌分析的相关内容, 现结合其中两篇推文的内容,一并概括。两篇推文中的文献IF略高于6(cells,6.6;Cancers,6.1),均属于纯生信分析。
在第一篇文章(Single-Cell Transcriptomics Reveals the Expression of Agingand Senescence-Associated Genes in Distinct Cancer Cell Populations)中,作者收集了5类肿瘤的TCGA/GEO bulk RNAseq和scRNAseq数据。首先,基于TCGA/GEO数据鉴定与年龄和衰老相关的候选基因,并发现这些基因与在肿瘤中上调的基因之间有明显交集。考虑到bulk RNAseq数据中非肿瘤细胞的影响,作者收集了相应的scRNAseq数据,并在肿瘤细胞亚群中利用拟时分析,揭示了年龄和衰老相关基因在不同肿瘤细胞亚型中的表达特征。文章结构很简单,在前两个结果中鉴定出候选基因之后,后续结果就是简单在5类肿瘤中重复多次分析,也没有涉及更多角度的内容。此外,由于涉及的肿瘤类型很少,因此严格来讲并不能算是泛癌分析。
第二篇文章(Cancer-Specific Immune Prognostic Signature in Solid Tumors and Its Relation to Immune Checkpoint Therapies)中,作者首先对5个不同类型肿瘤的scRNAseq数据进行分析,基于公开报道的免疫相关标志物(LM22、LM7、ImSig signature和NanoString)对细胞进行聚类分析,结果发现不同癌种的细胞均可分为2-3类免疫亚群,证实了肿瘤中主要免疫亚群的分群可靠性。随后,作者基于同样的标志物,对TCGA 20种肿瘤进行免疫分群,得到两个不同的亚群,不同亚群之间有显著的预后差异,但呈现出癌种特异性。为了构建预测模型,作者分别在每一类肿瘤中利用弹性网络模型进行构建,最终得到155个与肿瘤预后相关的基因,基于这些基因进一步构建的Immune Score与病人预后显著相关,但同样呈现肿瘤特异性。此外,作者还结合ICI数据,发现Immune Score可指示ICI治疗后病人的应答状况。该篇文章中,仅有第一部分涉及到scRNAseq内容,目的也仅仅是为了验证免疫分群的猜想,因此尽管涉及癌种较多,但并算不上bulk RNAseq和scRNAseq“整合分析”。
综上,大家在设计自己课题时,首先要做好数据调研,准备充实的数据基础;其次,真正做到整合分析,而不是仅仅停留在使用了两类数据;最后的重中之重,就是结合多方位的数据,讲好自己的生物学故事。