癌症转移是指肿瘤细胞从原发部位扩散,通过侵袭淋巴管和血管在原发部位以外的其他部位继续生长形成肿瘤的过程。转移是癌症发病和死亡的主要原因,据报道转移死亡是所有癌症死亡的90%。许多癌症患者在治疗效果较好的情况下预后较好,但是一旦发生转移将增加后续诊断和治疗的困难。为了提高癌症治愈率,有效的预测癌症患者是否发生转移十分重要。因此,今天小编给大家介绍一篇2022年发表在Briefing in Bioinformatics上的文章,这篇文章作者提出一种嵌入图学习(GL)模块的图卷积网络——glmGCN,可以准确预测癌症的远端转移。下面,就让我们来一起学习一下吧~
流程图:
数据
作者从TCGA数据库下载4种癌症类型的FPKM数据集,分别为宫颈鳞状细胞癌CESC(397例),胃癌STAD(407例),胰腺癌PAAD(182例)和膀胱癌BLCA(427例)。共包括19814个mRNAs和14851个lncRNAs。差异表达分析后,CESC数据集得到1515个DEGs,STAD得到4122个DEGs,PAAD得到116个DEGs,BLCA得到2767个DEGs。由于各个数据集中转移样本和未转移样本不平衡,因此作者使用SMOTE对数据集进行平衡,各个数据集的样本数量如表1所示。
方法
1.图学习模块
作者根据STRING数据库中的PPI网络和各个数据集的DEGs构建每种癌症类型的PPI网络。根据PPI网络构建邻接矩阵A,其中如果两个基因没有互作边的话则对应A中的位置为0,如果两个基因存在互作边的话则对应A中的位置为打分值。作者基于基因表达矩阵G和邻接矩阵A构建非线性函数S。作者根据损失函数优化权重向量α和Ppj,随后,权重矩阵使用损失函数进行优化。
2.图卷积网络
本研究提出方法的创新之处在于在GCN上添加了GL层,GL层学习图表示S并将S用于图卷积层。图卷积模型包括一个输入层,多个隐藏层和一个输出层。其中隐藏层由一个GL层,两个图卷积层和多个全连接层组成。在GL层和卷积层之后对参数进行优化,使用变平层将特征图转化为一维向量。使用多个全连接层映射分布式特征,使用softmax进行最终预测。
结果
1.特征可视化
首先,作者使用T-SNE和glmGCN的最后一层全连接层提取出的特征对CESC和STAD数据集进行可视化(图1),从图中可以看出使用原始特征不能准确区分转移样本和非转移样本,而使用glmGCN提取的特征可以将两类高度分离。
2.与GCN方法比较
作者将glmGCN模型的结果与GCN模型的结果进行比较,两个模型的区别在于GCN直接使用PPI网络表示基因的互作而glmGCN在GCN网络上添加GL层来得到新的基因互作关系。两个模型的结果如表2和表3所示,对于CESC数据集来说,glmGCN的准确率(ACC),特异性(SEN),F1-SCORE和AUC分别提高了0.61%,1.21%,0.62%和0.0017。对于STAD数据集来说,glmGCN的ACC,SEN,F1-SCORE和AUC分别提高了0.77%,1.64%,0.83%和0.0008。此外,图2中glmGCN的ROC曲线略高于GLCN。
3.改进的GL层的影响
其次,作者将glmGCN与GCN添加普通GL层(GCNGLY)进行比较,结果见表4,表5和图3。从图中可以看出,作者的算法在CESC和STAD数据集上均取得了更好的性能。
4.与深度神经网络(DNN)比较
第三,作者将glmGCN与DNN进行比较,结果见表6和表7。对于CESC数据集来说,几乎所有指标都有提高。对于STAD数据集来说,ACC提高了3.88%,SEN提高了8.32%,F1 SCORE提高了4.25%,AUC提高了0.0313。ROC曲线同样表明glmGCN模型的性能优于DNN(图4)。
5.与non-deep方法比较
第四,作者将glmGCN模型与机器学习方法如SVM,LR和RF等方法进行比较。结果如表8,表9和图5所示。结果表明,对于CESC和STAD数据集来说RF的ACC和AUC最高分别为98.74%,94.95%和99.09%和98.28%。对于CESC来说,glmGCN的结果有些许提高,而对于STAD来说,glmGCN的ACC提高了2.44%,AUC提高了0.01。
6.其他数据集的验证
最后,作者在PAAD和BLCA两个数据集进一步验证glmGCN模型的性能。与CESC和STAD数据集的分析类似,作者使用三种方法进行了比较分别为基于GCN的方法,基于DNN的方法和non-deep方法。PAAD和BLCA数据集的比较结果如表10,表11和图6所示。对于PAAD数据集来说,non-deep方法的准确率高于基于GCN的方法和基于DNN的方法。除了glmGCN的结果外,ACC和AUC最高分别为78.53%和0.8471,相较于glmGCN来说,glmGCN分别提高了1.03%和0.0052。对于BLCA数据集来说,基于GCN的方法由于non-deep方法和基于DNN的方法。除了glmGCN的结果外,ACC和AUC最高分别为91.39%和0.9532,相较于glmGCN来说,glmGCN分别提高了0.65%和0.013。为了保证作者提出方法的可靠性和稳定性,作者使用了10折交叉验证且重复三次。
结论
在本研究中,作者提出glmGCN算法用于鉴定癌症的远端转移样本。作者将glmGCN应用于4种癌症类型并与基于GCN的方法,基于DNN的方法和non-deep方法进行比较来验证glmGCN的准确性。总的来说,根据glmGCN提取的特征可以大致区分转移样本和非转移样本。此外,对于分类性能来说,glmGCN的性能优于基于GCN的方法,基于DNN的方法和non-deep方法。这篇文章作为基于深度学习的分类算法研究来说,对小编的启发很大,小伙伴你有多少收获呢~