癌症亚型的鉴定是开发个性化治疗的关键步骤。而经由RNA剪切,可以区分不同癌症亚型,Nature Communication的新论文“A Bayesian model for unsupervised detection of RNA splicing based subtypes in cancers”提出了的无监督亚型判别算法CHESSBOARD,可基于RNA数据中的可变剪切信息进行癌症亚型鉴定。使用该方法对几个白血病数据集进行分析,发现其得出的亚型分类是可重复的,调查了相关的驱动调节因素及已知白血病相关突变的关系,可论证得出分型的生物学意义。CHESSBOARD 的潜在临床应用包括,补充基于突变的诊断分析和发现新的剪接图谱,以改善药物反应的相关性研究。
论文地址:https://www.nature.com/articles/s41467-022-35369-0
Chessboard算法概述
Chessboard的输入,是从患者RNA测序中得到的从患者支持各个基因可变剪接的read条数(图1a),称其为局部剪切变异(LSV)。汇总多个样本的结果,记录每个样本中支持跨越外显子的read的条数,得到可变剪切矩阵。Chessboard算法,会根据可变剪切矩阵,进行聚类,以识别出样本中的不同的亚型(图1b)。算法分为三步,第一步过滤,过滤掉太少的样本中观察到的低表达基因,只保留那些在样本间普遍出现且存在显著差异大基因(图1c),之后的MCMC(马尔科夫链蒙特卡洛)通过对输入数据矩阵的进行阻塞吉布斯采样,以迭代的方式使亚型判断方法具有更高的可行性的可变剪切基因(图1d),之后对分型结果计算边缘后验分布并进行可视化(图1e)。
图1 CHESSBOARD 的流程图
2)Chessboard在癌症亚型区分上的应用
为验证Chessboard的性能,在 beatAML12数据集上测试Chessboard。该数据集包含了急性髓系白血病患者的RNA测序数据,样本量 477,局部剪切变异基因 2299个。该算法检测到一个由217个样本和1910个 LSVs 组成的聚簇(图2a)在另一个白血病数据集Penn HTSC使用Chessboard,可得出相似的结果(图2b)。此外,属于两组数据集中,每个组的LSV中位数高度相关(图2c),说明该方法找到的亚型在不同批次的数据间是稳定的。
图2 BeatAML上使用Chessboard的分析结果
之后验证分型是否具有生物学意义,通过比较chessboard分出的亚型的可变剪切,是否随亚型的不同,具有不同的RNA结合蛋白调节(RPB)模式。与在 ENCODE 的 RBP 敲除实验中观察到的差异剪接中,有17个和chessboard区分出的亚型有关,所有17个RBP之间,都区分度亚型间都存在显著差异(图2d),且其中差异最明显的两种结合蛋白调节基因SRSF1和 U2AF2,已知在癌组织的抗凋亡中发挥功能, 由此指出该算法的分型结果具有生物学意义。图2e是对chessboard识别的LSV,按照用 GSEA v. 4.1.0进行的功能注释,得到的富集基因情况。
3)Chessboard可在新增数据模式下运行
当新数据加入后,可能会产生新的癌症亚型,这就需要亚型算法能够以增量模式运行,通过迭代的方式不断更新分型结果。Chessboard支持进行递归聚类,将前一部分的聚类结果作为已知情况处理。图3a展示了对beatAML 进行递增式计算的结果,最初的结果是所有样本都为未区分(白色),之后是随着算法的迭代,未分类样本所占比例降低,直到所有样本被分为不同亚型。图3a还展示了不同亚型的患者中 FLT3-ITD (p < 0.001) ,NPM1(p < 0.001)和 CEBPA (p = 0.025)三个可变剪切情况差异显著的基因,其中突变富集情况经过置换测试显著对应 p 值。这3个基因的突变已知和AML分型相关,这意味着该方法用于分型的基因具有生物学意义。图3b展示了递归深度对分型的影响,表明该样本只包含2个分型,进一步的递归不会产生新的分型。
图3,使用递归模式在beatAML数据集上测试Chessboard
4)Chessboard的临床应用,预测药物反应
只针对70个与AML用药相关的基因上的可变剪切,使用chessboard分型,可得到和上文分析(图2a)类似的结果(图4a)。这意味着无监督方法chessboard基于可变剪切信号,在不直接捕获的突变时,隐含地捕捉了这些基因的生物学意义。通过图4b中展示的那些基因只在一种亚型中出现,说明了模型具有可解释性,即说明了那些基因上的可变剪切更为重要。图4c展示了该算法可以根据分出的亚型,判定是否可对患者用Sorafenib 治疗的决策树。图4d展示了不同分组患者对Sorafenib的效应率的AUC,不同组之间差异显著,图4c的决策树可解释36.8%的差异。其中表现出良好药物反应的组(FLT3-ITD + 和背景)富集异常剪接(55/66例患者) ,而反应差的组(FLT3-ITD-和信号)富集正常剪接(152/169)。 图4e具体展示了两个亚型中的可变剪切事件发生在那个外显子上,之后的散点图展示了可变剪切与基因表达率之间的关系。以上分析说明,可基于chessboard预测癌症患者的药物效应,从而指导个性化用药。
图4 chessboard预测临床反应的结果
5)CHESSBOARD对复杂亚型的区分
之前研究发现在儿童和成人的急性白血病(AML)中,存在很多遗传差异。将 CHESSBOARD 应用于由 TARGET 儿科 AML 和 beatAML 样本组成的联合数据集,分出了五个亚型(图5),其中C1,C2和 C4代表儿童 AML,C3和 C5代表成人 AML 。一部分可变剪切事件( LSVs) 分别对成人(绿色)和儿童(蓝色) AML 是独特的。其他 LSVs 或者在每种疾病类型的亚型之间共享(黄色) ,或者仅对一种疾病的单一亚型(紫色)独有。许多这些剪接变异发生在基因,通常儿童和成人疾病类型对应的差异突变基因。
将 CHESSBOARD 应用于 TARGET b-ALL (B 细胞急性淋巴性白血病)数据(样本 = 517,LSVs = 1562) ,这是一种明显与AML不同类型的白血病。与 beatAML 数据集的结果相比,该算法识别出了五个具有明显更复杂的聚簇。值得注意的是,一个确定的亚组富集的患者,其中RUNX1-ETV6融合阴性者有高复发率,该突变经常被用作一个积极的预后标志。这表明与该突变有关的剪切标记也可被视作是临床指导指标。
图5 CHESSBOARD 在AML 和b-ALL上的亚型区分
总结
CHESSBOARD是第一个用于异质 RNA-seq 数据中,基于 RNA 剪接进行聚类的定制算法。通过在白血病患者RNA seq数据的应用,展示了其可用于药物反应预测,患者预后分类。该算法分型依据的基因,对应已知的相关通路,具有生物学意义。将 CHESSBOARD 应用于大型异构癌症数据集中的许多其他分析任务,进一步推动多组学数据的相互印证,增加对可变剪接在复杂疾病中所发挥的作用的理解。