研究肿瘤微环境及肿瘤异质性,通常的方式是基于单细胞转录组数据。Nature communication近日的研究,介绍了基于拷贝数变异和断点的检测算法SCEVAN,该算法能够自动、准确地区分恶性和非恶性细胞。将该算法应用于来自不同肿瘤类型和测序技术的106个样本,共计93,322个细胞的数据集,可证明该方法可表征肿瘤内的异质性和恶性脑肿瘤的空间演变。
论文标题:A variational algorithm to detect the clonal copy number substructure of tumors from scRNA-seq data
论文地址:https://www.nature.com/articles/s41467-023-36790-9
1 SCEVAN 如何基于拷贝数及断点进行亚克隆判别
了解肿瘤内异质性和肿瘤细胞与免疫系统之间的相互作用是解释肿瘤治疗失败,理解肿瘤生长和进化的关键步骤。通常的研究套路,是将来自肿瘤活检的大量未分选的细胞进行全转录组分析,根据特定标记的表达进一步分亚群,然后将细胞分类为恶性肿瘤细胞,基质细胞和免疫细胞。常用的标记是转化后细胞所具有的独特性拷贝数变化。然而,之前的方法需要人工识别,适用于高覆盖率和低维度的Smart-seq 数据,而新方法SCEVAN能克服这些问题,在合成和真实数据上表现出更快和更准确地识别出肿瘤的亚克隆。
SCEVAN的分类逻辑,是假设给定拷贝数的克隆中,对应的所有细胞共享相同的断点。因此,每个细胞的平滑表达谱构成了判别每个亚克隆中拷贝数谱的证据。其具体流程如下图所示,从原始的单细胞转录谱开始,去除低表达的基因和细胞(图1a)。之后依次从留下的高表达细胞基线去除获得的不同细胞的相对基因表达量(图1b),对相对基因表达的边缘进行非线性扩散滤波(图1c),根据变分区域进行分割(图1d)。鉴定正常细胞,即包含大多数正常细胞的簇(图1e)。对于肿瘤细胞,使用 Louvain 聚类的共享最近邻图鉴定可能的亚克隆(图1f)。 应用变分区域生长算法对每个亚克隆进行分割(图1g)。然后根据拷贝数状态将肿瘤细胞分为五个亚克隆(图1g)。 图1H展示了亚克隆共享及特异的通路活性。
图1 SCEVAN的任务流程及输入输出
2 SCEVAN在真实样本恶性肿瘤细胞分类中的性能
对于三种不同癌症类型的 scRNA-seq 数据(胶质母细胞瘤(GBM) ,头颈部鳞状细胞癌(HNSCC) ,大肠癌)和来自不同测序技术(Smart-seq2,10X Chromium),共包含106个样本和93,322个细胞,使用 SCEVAN和之前基于CNV的分类工具的CopyKAT对比分类准确性,可以看到在三种癌种,大多数样本中,SCEVAN的准确性(F1值)都高于CopyKAT。具体来看,SCEVAN 在63% 的样本中取得较佳的分类评分,而 CopykAT 在23% 的样本中取得较佳的分类评分。所有样本上,SCEVAN的 F1只为0.90,而用 CopyKAT 的 F1值为0.63。
图2 在真实癌症数据,使用SCEVAN分类恶性细胞的F1值对比
3 使用SCEVAN可得到更准确的拷贝数变异
将同样本的bulk RNA数据及WGS数据检测出的拷贝数作为金标准,评价SCEVAN及其它同类软件,如 inferCNV, CopyKAT 基于单细胞数据检测拷贝数变异的准确度。图3a和b分别是不同软件各染色体中检出的拷贝数变异,图3c和d是对应的皮尔森相关系数。可以从图3a和b中最上的图(金标准)与之下不同方法的图检出的拷贝数变异结果对比,可以看到SCEVAN检出的变异更多且更准,而图3c和d对应的相关系数,SCEVAN最高,也反映了这一情况。同样的结果,在模拟数据中也会出现,这些结果说明SCEVAN能够从单细胞数据中得到准确度拷贝数变异谱。
图3,对比不同软件对单细胞拷贝数变异检测的准确度
而执行时间上,SCEVAN 的执行时间,在恶性和非恶性细胞的区分任务上,相比InferCNV快2-7倍,在肿瘤区域分割任务上,相比CopyKAT 快2倍,比Infer CNV 快5倍。对于来自10X的单细胞数据,由于其包含的细胞数偏多,CopyKAT显得尤其慢,此时SCEVAN 比Infer CNV 快11倍,比 CopyKAT 快19倍。这说明了SCEVAN 在计算上更有效率。
4 使用SCEVAN研究胶质母细胞瘤的肿瘤微环境
胶质母细胞瘤(GBM)是最具侵袭性的脑肿瘤,具有高度异质性,包括几种克隆和亚克隆肿瘤细胞群,胶质瘤干细胞,以及免疫抑制性肿瘤微环境。SCEVAN 可以通过分析显示出具有显著不同基因组改变的 CNA 基质簇,从单细胞数据中自动推断克隆亚结构。
为了论证SCEVAN的准确性,选择MGH105样本,该样本已经过甲基化数据,验证其存在4个亚克隆。经过单细胞数据,SCEVAN 揭示了三个肿瘤细胞亚群的存在,如图4a,聚类结果见图4b。克隆树的系统发育重建显示两个紧密克隆(亚克隆1和2)和显着远的第三个亚克隆(图4c),与聚类结果相符。图4d展示了不同亚克隆之间共有(例如Chr 10上的缺失(q22.1-q26.3))及特异的拷贝数变异。通过通路特异性分析,发现亚克隆1(浅蓝色)富集神经元亚型特征的途径,亚克隆2(蓝色)具有属于线粒体的细胞,亚克隆3(绿色)含有具有增殖/祖细胞亚型的细胞(图4e)。为了确定不同细胞状态的驱动因素,我们对亚克隆特异性改变区域中具有基因组坐标的基因进行了差异分析。位于亚克隆3特异性改变中的最高差异表达基因是泛素缀合酶 E2T (UBE2T)基因,其表达显着上调,该基因位于DNA 修复通路上,这可以部分解释该亚克隆的致癌成因。
图4,使用SCEVAN发现胶质母细胞瘤的异质性
此外,拷贝数亚结构的分析可以表征特定肿瘤相关基因的克隆状态。在样品 BT1160和 MGH102中,SCEVAN 显示肿瘤抑制基因 CDKN2A 和 PTEN 的改变只发生在部分亚克隆中(图5)。在样本BT1160中,含有 PTEN (10q23.31)的 Chr 10(q22.1-q26.3)上的缺失在三个亚克隆中的两个之间共享,而在其余的亚克隆中,该缺失不存在。这些结果表明,SCEVAN 可以从 scRNA-seq 数据中解析肿瘤中的克隆拷贝数亚结构,并识别亚克隆差异和胶质瘤特异性癌症状态。
图5,SCEVAN基于单细胞转录组对两个胶质母细胞瘤区分亚克隆之后的拷贝数变异
4 使用SCEVAN研究肿瘤的进化与转移
图6展示了在多次活检数据中,使用 SCEVAN进行推测的结果。有七个胶质母细胞瘤活组织检查,两个在肿瘤周边,其余在肿瘤的核心。用 SCEVAN 对每个样品进行克隆分析,可以推断出克隆的进化树(图6)。拷贝数改变沿着几个分支发展,肿瘤周围样品(P2/P3)位于与核心样品分离的分支中,其中4号和8号染色体没有扩增。此外,存在于 Chr 2上的扩增在外周样品中是完全出现,而在中间的部分只是部分出现,这说明了该突变的演化顺序。
图6,对多次活检样本使用SCEVAN进行时序分析得到的进化树
SCEVAN还可以鉴别原发肿瘤和转移之间的相似性,针对原发性 HNSCC 肿瘤和相应的淋巴结转移。SCEVAN发现患者(HNSCC5)在原发肿瘤和淋巴结转移之间呈现不同的克隆结构,特别是在淋巴结转移中没有扩增7号染色体(p22.3-p13) ,如图7所示。只在一个样本中,转移和原发肿瘤细胞的拷贝数之间存在差异,不同的淋巴结转移细胞中下调的GPNMB基因, 在多种情况下被证明增加肿瘤生长和转移。而对于其余患者(HNSCC20,HNSCC25,HNSCC26,HNSCC28) ,淋巴结转移的克隆结构似乎与原发肿瘤相同。转移和原发肿瘤细胞的拷贝数之间高度相关性(皮尔逊相关系数在0.79和0.89之间)表明 SCEVAN 可用于研究转移癌的克隆进化。
图7:使用SCEVAN在4个原发肿瘤和淋巴结转移鉴定拷贝数变异并发现存在高度相关性
5 总结
使用大量不同肿瘤类型,不同的单细胞技术的注释数据集,该研究证实 SCEVAN 比最先进的方法能更准确、更快的基于单细胞转录组数据检测拷贝数变异(CNA),并根据CNA差异描绘实体肿瘤中的克隆亚结构,以及研究肿瘤的时间和亚克隆之间的演化。亚克隆的功能分析揭示了细胞状态的驱动因素,以及原发性和转移性肿瘤之间差异的驱动基因。使用SCEVAN可扩展单细胞数据的分析范围,通过找到的拷贝数差异,可结合甲基化等数据,进行多组学分析,从而进一步研究肿瘤的微环境及异质性。