8+基于DNA复制压力构建机器学习预测模型思路分享
如何利用多种机器学习算法建立预测模型,这篇8+文章告诉你!
新鲜出炉:建立机器学习模型探索DNA复制压力对于前列腺癌患者预后和治疗的影响
2020年,前列腺癌是第二大常见的癌症,也是癌症死亡的第五大原因。由于前列腺癌存在相当大的异质性,其治疗方式必须考虑到患者基因组和临床差异,从而进一步确定个性化治疗方案。
然而,目前的证据表明,临床特征和现有的检测如Gleason评分、血清前列腺特异性抗原(PSA)和BRCA1/2突变不足以预测前列腺癌的进展或指导治疗方案。因此,前列腺癌患者有很大的风险被过度治疗或治疗不足。复制压力(DNA replication stress)是DNA复制过程中的障碍, 可以减慢或者停止复制叉的行进过程。这些压力主要来自DNA复制机制自身缺陷,变异细胞 (肿瘤) 中基因组复制的高度需求和外部压力包括高温或药物处理等。长远来看,可促进肿瘤的发生和发展。
DNA复制压力个性化服务
扫码咨询
今年1月份,发表在Journal of Translational Medicine(IF:8.44)杂志上的一篇文章,利用多种机器学习算法,建立了一个稳定而强大的预测原发性前列腺癌复发和治疗反应的模型。为前列腺癌风险分层和治疗指导提供了希望。
A machine learning framework develops a DNA replication stress model for predicting clinical outcomes and therapeutic vulnerability in primary prostate cancer
下面和小编一起看看它的具体研究内容吧~
一、研究概述
1、在TCGA-PRAD数据集中进行特征筛选和机器学习基准测试
2、建立复制压力signature(RSS)并在4个独立外部队列中验证
3、识别筛选潜在的治疗靶点和药物
图1 本研究工作概述
二、TCGA-PRAD中DNA复制压力相关特征的鉴定
1、单因素cox分析TCGA-PRAD数据集,确定了198个与前列腺癌复发显著相关的基因
2、Bootstrap方法进一步从198个预后基因中选择了136个,这些基因对样本重采样具有鲁棒性,并且在验证数据集中也被识别出来
3、采用Boruta算法,将上述选择的基因缩小到47个,这些基因被证实与复发更相关。按照重要程度对其排序,排名前5位的基因包括EMD、HJURP、PLK1、TROAP和CENPK(图2A)
图2 利用机器学习开发RSS
A Boruta算法识别出47个与前列腺癌复发相关的复制压力相关基因;
B 箱线图展示7种与生存相关的机器学习算法的C-index值;
C 箱线图展示7种与生存相关的机器学习算法的integrated brier score (IBS) ;
D 机器学习算法在1-、3-、5-和10年的AUC值比较;
E 条形展示TCGA-PRAD队列中纳入的前列腺癌复发基因对XGBoost模型的贡献;
三、DNA复制压力signature的构建
1、使用Boruta算法选择的特征,作者对7种与生存相关的机器学习算法(包括Enet、lasso、Ridge、XGBoost、plsRcox、SuperPC和CoxBoost)进行了基准测试,以筛选具有最佳精度和过拟合风险较低的超参数调优模型
2、结果显示,XGBoost生存模型表现最佳,平均C-index值最高(0.725),平均IBS最低(0.156),平均AUC值最高(1年:0.807;3年:0.746;5年:0.703;10年:0.742)。然后将具有调优超参数的XGBoost模型拟合到整个TCGA-PRAD数据集,并称为RSS(图2B-D)
3、图2E显示了推断出的特征对RSS的贡献,前5个特征包括EMD、CCNE2、PTTG1、TROAP和TK1
四、DNA复制压力signature的评估
1、作者使用1、3、5年AUC和C-index值来探讨TCGA-PRAD训练队列和4个外部验证队列中RSS的预后价值。TCGA-PRAD 数据集1年、3年、5年AUC值分别为0.869、0.890、0.864,DKFZ-PRAD数据集AUC值分别为0.748、0.732、0.695,GSE70768队列AUC值分别为0.832、0.658、0.636,GSE70769队列AUC值分别为0.740、0.689、0.677,GSE94767队列AUC值分别为0.701、0.712、0.659(图3A - E)。TCGA-PRAD数据集的C-index值为0.851,DKFZ-PRAD数据集为0.700,GSE70768队列为0.724,GSE70769数据集为0.654,GSE94767数据集为0.670。总体而言,RSS在验证数据集上显示出强大的预测能力
2、单变量和多变量Cox回归分析,结果显示,在所有数据集中,RSS作为一个连续变量与较短的复发时间显著相关,因此被认为是前列腺癌复发的独立危险因素(图3F)
3、cutoff值为0.536时,能够将所有数据集患者分为高危组和低危组,Kaplan-Meier分析显示所有数据集的复发时间差异显著(图3G-K)
图3 多个队列中DNA复制压力signature(RSS)的评估
五、RSS与临床变量及已发表signature的比较
1、由于临床变量如Gleason评分、血清PSA和TNM分期通常用于指导前列腺癌的管理和预测预后,作者采用C-index值将其与RSS进行了比较。总体而言,在TCGA-PRAD和GSE70768数据集中,RSS显示出比大多数临床特征更好的预测准确性,在DKFZ-PRAD、GSE70769和GSE94767数据集中,RSS的预测能力也不差(图4A-E)
2、作者还将RSS与已发表的signature进行了比较,发现RSS与TCGA-PRAD队列中的其他signature相比具有更高的风险比、C-index和AUC值(图4F-J)
图4 复制压力signature(RSS)的预测性能与临床特征和已发表预后signature进行比较
A TCGA-PRAD、B DKFZ-PRAD、C GSE70768、D GSE70769、E GSE94767数据集中RSS与临床特征的C-index值比较;
F 5个前列腺癌队列预后signature的单因素Cox回归分析;
G 在队列中RSS和其他预后signature之间的C-index值比较;
H、I、J 比较TCGA-PRAD数据集中1 -、3-和5年预后signature之间的接受者工作特征曲线(AUC)下的时间依赖区域;
六、TCGA-PRAD中RSS-high组和RSS-low组的多组学分析
1、作者使用GISTIC2.0分析发现,RSS-high组比RSS-low组有更多的重复拷贝数改变(图5A-D)
2、RSS-high组的患者TP53、PTEN、RB1等基因缺失较多,MYC和CCND1基因在RSS-high组中扩增(图5E)
3、此外,作者比较了RSS-high组和RSS-low组之间常见的体细胞突变,发现RSS-high组的TP53突变频率(18.6%)高于RSS-low组(6.2%)(图5F)
RSS-high组的非整倍体评分、肿瘤突变负担、肿瘤新抗原负担均显著高于RSS-low组(图5G-I)
图5 RSS-high组和RSS-low组的多组学特征
RSS-high组检测到重复拷贝数扩增区(A)和缺失区(B);
RSS-low组检测到重复拷贝数扩增区(A)和缺失区(D);
E 受重复拷贝数改变影响的基因;
F 常见体细胞突变;
TCGA-PRAD数据集中RSS-high和RSS-low组患者的G非整倍体评分、H肿瘤突变负担和I肿瘤新抗原负担的分布;
七、RSS与临床特征和生物学过程的联系
1、作者比较了所有队列中RSS-high组和RSS-low组的临床特征,并使用ssGSEA研究了RSS对生物通路的影响。结果发现,RSS-high组细胞周期相关通路如有丝分裂轴、E2F靶点、G2M检查点、MYC靶点、DNA复制和DNA修复相关通路如碱基切除修复、核苷酸切除修复、错配修复,以及几种癌症相关通路如WNT/ β -catenin信号通路、Notch信号通路和血管生成显著富集(均p<0.05)。RSS-low组与雄激素反应和凋亡显著相关(图6)
2、RSS-low组的特点是脂肪酸代谢、类固醇生物合成和氨基酸代谢等代谢相关途径被显著激活,而在RSS-high组中只有氧化磷酸化和嘧啶代谢等几种代谢途径被富集(图6)
总之,RSS-high组具有高度的增殖性和侵袭性,而RSS-low组具有升高的雄激素反应和代谢活性
图6临床病理和生物学特征与复制压力signature的关联
八、RSS与免疫微环境的关系
1、据报道,复制压力可激活促炎反应并改变肿瘤微环境。因此,作者利用CIBERSORT来量化905个前列腺癌样本中的免疫细胞浸润水平,并研究了RSS与免疫浸润之间的关系。结果显示,与RSS-low组相比,RSS-high组的CD8 + T细胞、调节性T细胞和M2巨噬细胞比例增加(图7 A)。RSS与CD8 T细胞、调节性T细胞、M2巨噬细胞比例呈正相关(图7B-D)
2、RSS-high组的免疫抑制标志物如FOXP3、HAVCR2、LAG3、PDCD1和ARG1的表达显著升高(图7E)
3、然后作者计算了IMvigor210队列的RSS评分,发现阿替利珠单抗(atezolizumab)应答者的RSS评分明显高于非应答者(图7F),作者还使用阈值0.536将队列分为RSS-high组和RSS-low组,发现RSS-high组的应答者明显更多(图7G)
图7 元队列中复制压力signature与免疫细胞浸润之间的关系
A CIBERSOR分析结果
B RSS和CD8 + T细胞之间的散点图
C RSS和调控T细胞之间的散点图
D RSS和M2巨噬细胞之间的散点图
E RSS-high组和RSS-low组免疫相关基因的表达
F 阿替利珠单抗应答者和无应答者间RSS分布
G RSS-high组和RSS-low组间应答者和无应答者的百分比
九、RSS-high组患者的潜在靶点和药物识别
1、为了确定RSS-high组患者的潜在靶点,作者首先在TCGA-PRAD和DKFZ-PRAD队列中进行了RSS和druggable gene mRNA表达之间的Spearman秩相关分析。并将两个队列中正相关基因的共同子集视为RSS相关靶点(图8A、B)
2、此外,作者利用CERES评分来衡量7个前列腺癌细胞系中RSS相关靶点的重要性,并缩小到13个潜在治疗靶点(CERES评分大多< -1)。作者发现许多治疗靶点如TOP2A、CDK9、CHEK1、RRM2和AURKB与细胞周期过程紧密相关(图8C)
3、接下来,作者进行CMap分析,以推断潜在有效的化合物。在5个前列腺癌队列中进行了差异基因分析,并采用随机效应模型进行meta分析,以形成差异表达基因的共识列表。然后将150个上调最多的基因和150个下调最多的基因作为RSS签名来预测每种化合物的CMap评分。通过这种方法,作者共鉴定出84种CMap评分低于- 95并具有反向RSS签名能力的化合物(图8D)
4、在84个化合物中,拓扑异构酶抑制剂和CDK抑制剂分别占11.9%和7.1%。为了提高CMap推断的可信度,使用prism衍生的药物反应数据来推断CMap选择的化合物的AUC值。作者发现2种拓扑异构酶抑制剂,包括伊立替康和拓扑替康,在TCGA-PRAD和DKFZ-PRAD队列中均在RSS-high组中显示较低的AUC值(图8E、F),表明拓扑异构酶是潜在的靶点之一
5、此外,作者还研究了RSS是否可以预测传统前列腺癌治疗的治疗反应。如图8G、H所示,RSS-high组别的患者对紫杉醇类化疗(包括多西他赛和紫杉醇)和PARP抑制剂(包括奥拉帕尼和他唑帕尼)更敏感。相比之下,RSS-low组别的患者对ADT如阿比特龙更敏感
图8 确定RSS-high患者的潜在治疗靶点和药物
A TCGA-PRAD和B DKFZ-PRAD数据集中RSS与druggable gene mRNA表达之间的Spearman秩相关分析得出的相关系数点图;
C 前列腺癌细胞系中鉴定靶点的CERES评分分布;
D 通过CMap分析选择化合物的组成,只显示前10个药品类别;
比较TCGA-PRAD(E)和 DKFZ-PRAD(F)数据集中RSS-high和RSS-low组别患者伊立替康和拓扑替康的推断AUC值;
比较TCGA-PRAD(G)和DKFZ-PRAD(H)数据集中RSS-high和RSS-low组别患者中ADT、紫杉烷和PARP抑制剂的AUC值;
十、敲除FEN1和RFC5抑制细胞生长
1、作者选择FEN1和RFC5进行实验验证,因为它们在复发性前列腺癌中表达较高,而在前列腺癌中很少被研究。在C4-2B和PC-3细胞中证实了FEN1和RFC5在mRNA和蛋白水平上的成功敲除(图9A、B)。
2、然后,作者对转染C4-2B和PC-3细胞进行CCK-8和集落形成检测,结果显示FEN1和RFC5的下调显著抑制细胞生长(图9C、D)。
3、AV和PI染色评估转染后凋亡细胞的百分比。结果显示,敲除FEN1和RFC5后C4-2B和PC-3细胞凋亡率升高(图9E)。
综上所述,FEN1和RFC5可以通过促进细胞生长来促进前列腺癌的进展。
图9 敲除FEN1和RFC5抑制细胞生长,促进细胞凋亡
通过real-time qPCR(A)和B Western blot(B)检测,C4-2B和PC-3中FEN1和RFC的表达水平通过siRNA敲低而降低;
通过CCK-8(C)和菌落形成(D)实验,比较C4-2B和PC-3中对照组、FEN1和RFC5敲除组的细胞生长情况;
E流式细胞术检测对照组、FEN1组和RFC5敲低组细胞凋亡;
DNA复制压力是基因组不稳定性的主要驱动因素。这项研究建立了一个新颖而可靠的RSS,可以反映前列腺癌的复制压力水平并预测预后和治疗反应。机器学习方法越来越多地用于预测患者的生存。然而,如何成功地将这些技术应用于临床实践仍然是一个挑战。除了前列腺癌之外的癌型,同样可以采用机器学习的方法来分析建立预测模型,为临床定制个性化治疗方案提供可靠的参考!
DNA复制压力个性化服务
扫码咨询