病原感染类疾病中的生物标志物
COVID-19疫情从蔓延开始,进化的脚步一直没有停下。有关它的传染性、感染后的严重程度、临床结局等都值得关注。
2022年9月份,柳叶刀子刊中一篇文章Development of a multiomics model for identification of predictive biomarkers for COVID-19 severity: a retrospective cohort study(IF:36.615),发现了102个生物标志物,能够很好地预测COVID-19的严重程度和临床结果。
研究背景
COVID-19是一种多系统疾病,入院患者的临床结果具有高度可变性。尽管一些细胞因子如白细胞介素-6(IF-6)被认为与病情严重程度相关,但没有早期生物标志物可以可靠地预测哪些患者更有可能出现不良结果。因此,发现严重并发症的预测标志物至关重要。
主要研究内容与结果
1、作者利用机器学习和个体统计分析确定了几种严重程度组之间存在显著差异的蛋白质。IL-6、C-C基序趋化因子2 (CCL2)、血管内皮生长因子A (VEGFA)等的浓度与疾病严重程度呈正相关(图1A,1B)。其他几种细胞因子和趋化因子与严重程度也呈正相关,包括C-C基序趋化因子7 (CCL7), C-X-C基序趋化因子9,10和11 (CXCL9, CXCL10, CXCL11)等(图1A,1C)。凋亡标志物,包括caspase-1 (CASP1)和TNF受体超家族成员10A (TNFRSF10A),在病情较严重的患者中水平较高。另外,在病情较严重的患者中,TNF配体超家族成员10 (TNFSF10)、TNF配体超家族成员11 (TNFSF11)和ICOS配体(ICOSLG)的水平降低(图1A,1C)。
图1
2、作者分析了脂类在疾病严重程度分类中的相对丰度。溶血磷脂酰胆碱、磷脂酰胆碱、醚磷脂酰乙醇胺和磷脂酰肌醇在住院患者中的含量低于门诊患者(图2A)。个别统计分析确定了住院参与者中几种减弱的磷脂,包括溶血卵磷脂胆碱(18:0)、卵磷脂胆碱(14:0/20:3)等。与磷脂随着疾病严重程度的增加而普遍下降相反,在住院参与者中,特定种类的神经酰胺,包括神经酰胺(16:0)和神经酰胺(18:0)的浓度增加(图2B)。个体统计分析发现,与门诊患者相比,住院患者的代谢物显著升高,包括血红素、N,N,N-三甲基丙基脯氨酸甜菜碱(TMAP)等。与宿主肠道微生物组相关的几种代谢产物也与疾病严重程度显著相关。住院患者与熊去氧胆酸盐和2-羟基癸酸盐(一种中链脂肪酸)浓度降低有关,与组氨酸衍生的代谢物丙酸咪唑浓度增加有关(图2C)。
图2
3、为了分析预测细胞因子标记物的mRNA表达,作者根据单细胞RNA测序数据,在严重组中观察到从细胞因子分析中鉴定出的17种蛋白质的类似上调。
图3
4、作者采用21名患者的COVID-19前血浆样本用于糖肽蛋白组学分析,共定量检测到732种糖肽(图4A)。在门诊患者、重症患者和危重患者这3个组之间,鉴定出114个糖肽具有组间差异(图4B)。
图4
5、作者使用24个配对样本来进行多组学分析,检查感染后个体中各种分子是如何改变的。结果显示大多数分子遵循上述研究设计中观察到的模式,包括IL-6、TNF和LTA4H(这些分子在COVID-19危重症患者队列中的浓度高于COVID-19重症患者队列。图5 A)。新冠肺炎发生后,危重症患者CRTAC1水平显著降低。在Post-COVID-19住院患者中观察到溶血磷脂酰胆碱、磷脂酰胆碱、磷脂酰肌醇等的浓度降低,结果支持这些脂类与COVID-19严重和危重结局的相关性(图5B)。代谢产物血红素、熊去氧胆酸盐、3-脲二酸丙酸和TMAP也显示出类似的变化趋势(图5C)。
图5
这项研究涉及637人,包括455名不同严重程度的COVID-19患者,是迄今为止使用综合多组学方法对COVID-19血浆样本进行的最大研究。揭示了包括细胞因子、脂类和代谢物在内的新分子作为COVID-19感染后严重和危重预后的预测生物标志物。
上述文章利用多组学开发了一个可以预测COVID-19患者严重程度的模型,那么是否有研究来识别COVID-19诊断标志物呢?答案是肯定的。在2022年8月份,MOLECULAR MEDICINE杂志上发表了一篇文章,利用生物信息学和机器学习算法来揭示SARS-COV-2发病机制的更多特征,并引入新的基于宿主反应的诊断生物标志物面板。
研究流程
从GEO数据库中获取COVID-19感染患者和其他类似疾病患者的全血(WB)和鼻咽(NP)样本以及健康对照的RNA-Seq数据集。
对数据集进行通路富集和GO功能富集分析。
在训练集上使用机器学习方法识别候选诊断生物标志物,并在独立队列上进行验证,以引入最佳生物标志物组合。
利用23个常见WB/NP DEGs相关的3 ~ 9个maker的所有组合,生成基于随机森林的通用预测模型。
最后,比较了基于LASSO构建的预测模型和基于随机森林的通用预测模型这两种预测模型的预测结果。
图1 研究流程示意图
研究结果
1、COVID-19患者与健康对照组全血样本的转录组分析
COVID-19患者与健康对照组间的差异表达基因,红色和绿色分别显示上调和下调基因(图A)
点状图显示显著上调和下调基因在BPs(GO)中的富集情况,圆点的大小和基因比例成正比(图B)
条形图展示hallmark基因集富集分析结果,条形大小与基因比例成正比(图C)
图2 COVID-19患者与健康对照组全血样本的转录组分析
2、Cibersortx计算健康对照组与COVID-19患者全血中的免疫细胞类型比例
SARS-COV-2感染增加了T调节细胞(Tregs)的比例,而降低了CD8、CD4 naïve和CD4记忆静息细胞的比例。相应地,与对照组相比,COVID-19中中性粒细胞、B细胞naïve、浆细胞和巨噬细胞(M0和M1)的比例增加。
图3 健康对照组与COVID-19患者全血中的免疫细胞类型比例
3、COVID-19患者鼻咽样本与非病毒性和其他病毒性急性呼吸道疾病(ARIs)患者以及健康对照组的转录组分析
各组别差异表达基因,红色和绿色分别显示上调和下调基因(图A)
点状图显示各组别显著上调和下调基因在BPs(GO)富集情况以及hallmark基因集富集分析结果(图B、C)
图4 COVID-19患者鼻咽样本与非病毒性和其他病毒性急性呼吸道疾病(ARIs)患者以及健康对照组的转录组分析
WB和NP样本中与COVID-19相关的共同和不同的基因特征
维恩图显示四组基因的分布(UB:血液中基因上调,DB:血液中基因下调,UN:鼻腔中基因上调,DN:鼻腔中基因下调)(图A)
点状图显示三个配对组的共同基因在BPs(GO)中的富集情况(图B)
条形图展示hallmark基因集富集分析结果(图C)
图5 WB和NP样本中与COVID-19相关的共同和不同的基因特征
通过最佳生物标志物组区分COVID-19患者与非COVID-19个体
作者建立了一个两阶段机器学习平台,在第一阶段,分类器分别使用五倍和十倍交叉验证在WB和NP数据集的训练集(80%)上执行。第一阶段的输入特征均为基于LASSO选择的3 ~ 9个特征的组合。考虑到最高敏感性和特异性的最佳组合被挑选出来用于下一阶段。在第二阶段,基于独立测试集(20%),再次验证训练集中(80%)的最佳特征组合。两阶段的敏感性、特异性和准确性用折线图显示(图6)。同样,绘制受试者工作特征(ROC)曲线,并计算曲线下面积(AUC)(图7:A、C,第一阶段;B、D,第二阶段)。
表1 基于LASSO features的随机森林分类器在第一阶段和第二阶段获得的WB和NP样本的标准
图6 NP和WB两期样本的敏感性、特异性、准确性
图6 ROC曲线
这篇文章采用机器学习方法引入并验证了基于宿主反应的诊断生物标志物,可作为从非COVID-19病例中诊断COVID-19感染的补充工具。
综上所述,关于病原感染类疾病(包括肿瘤)生物标志物的识别鉴定具有重要意义。预测患者严重程度有助于识别并发症和死亡风险增加的患者,从而帮助临床医生尽早的为患者制定适当的干预措施。此外,利用机器学习方法识别验证诊断生物标志物,可以作为诊断病原感染的工具。对于有生存信息和临床特征的数据(自测和公共数据),利用LASSO、随机森林、WGCNA等方法可以识别特征基因,构建预后模型以预测患者预后。病原感染类疾病在这部分领域的分析值得探索研究,尤其是肺炎盛行的当下。机不可失,失不再来。感兴趣的小伙伴们抓紧扫码咨询吧~
病原感染个性化思路
扫码咨询