生物标志物在重症监护中的作用
在重症监护中开发和使用新型生物标志物越来越重要。生物标记物研究的统计学分析经常出现不合理的结果,使其无法为临床医生提供科学有效和临床相关的信息。今天介绍一篇2021年1月发表在Anesthesiology(IF:8.986)的文章。这篇文章系统的阐述了生物标志物在重症监护中的作用,主要从生物标志物的开发,评估标志物所用的统计学方法,预测模型的选择和评价,生物标志物的评估和临床应用等方面进行了研究。
背景
生物标记物越来越多地被用作诊断的个性化标记物,用于评估疾病严重程度或风险,并用于预测和指导临床决策。探索心血管系统和肾脏以及炎症的生物标志物在重症监护和围手术期医学中激增。虽然现有的报告可提供生物标记物研究中关键信息的指导,但它们没有明确提供适当的统计方法的指导。使用不恰当的统计方法来评估生物标志物的临床价值,干扰了临床医生对研究结果的解释和可用性。这篇文章的目的不是对生物统计学和方法学问题的详尽回顾,而是作为一个起点,让非专家读者和调查人员了解用于评估重症监护和围手术期医学中生物标志物的传统和新兴研究方法。
研究内容
不同的生物标志物开发阶段
生物标志物在临床实践中可能有几种作用。它可以提供诊断,具有预后作用,可用于评估治疗反应性,或指导药物在治疗中的使用。作者还提出了生物标志物可用来识别危重患者的分子亚型,而不考虑患者的结局。表1列出了在重症监护和围手术期医学中具有不同作用的生物标志物的例子。生物标志物的开发是一个多阶段的过程,需要不同的统计方法来实现不同的目标。生物标志物开发的三个阶段,按时间顺序依次为: (1)发现; (2)预测(或诊断)准确性评估; (3)在现有临床预测(或诊断)工具基础上增加价值的评估。
生物标志物评估的统计学方法
在生物标志物开发的早期阶段,生物标志物与临床结局之间通常通过回归模型和比值比/风险比报告或相对危险度估计来量化这种关联,最好包括对其价值的评估,而不是现有的生物标志物或临床特征。最好采用前瞻性设计,因为这样有助于明确纳入标准、数据收集程序(尽量减少缺失数据)和测量的标准化,并确保测量了所有相关的临床信息。注册研究方案并预先设定研究目标、关注的生物标志物和统计学方法将减少发表偏倚和选择性报告。估计生物标志物鉴别能力和生物标志物增量值的常用方法是计算受试者工作特征曲线下面积(AUC) ,通过在x轴绘制假阳性率(1 -特异度),在y轴绘制真阳性率(灵敏度),形成了受试者工作特征曲线。AUC量化了生物标志物的区分能力,范围从0.5(即不比抛硬币的结果好)到1(即完全区分)。辨别能力是生物标志物区分发生和未发生事件的能力。所谓的“最佳”生物标志物阈值通常是根据约登指数最大化(最大值[敏感性+特异性- 1])确定。约登指数常用于确定使敏感性和特异性之和最大化的生物标志物的值。然而,如果在阴性似然比和阳性似然比可用于选择阈值的情况下,生物标志物用于排除(高灵敏度)或确认(高特异性)诊断,则这种方法存在问题。研究人员可以报告“最佳”截止点的95% CI。此外,生物标志物的二分类在生物学上也是不合理的,因为不存在导致风险突然变化的生物标志物阈值(例如,通常没有理由说明为什么一个人的风险在切点的任何一边会有显著差异)。因此,在统计分析期间应避免对连续测量值(如生物标志物)进行分类(包括二分),因为这将导致信息丢失,并对预测准确性产生负面影响。理想情况下,统计学分析应保留原尺度上的连续测量值,允许考虑非线性关系(使用限制性立方样条或分数多项式)。
为了评估将一种新型生物标志物添加到临床模型或标准生物标志物后的增量价值,经常使用两个预测模型之间AUC的差异(区分度的改善)。然后使用DeLong非参数检验和Hanley和McNeil方法等方法,将正在研究的生物标志物的AUC与在同一组个体中评估的已建立的生物标志物或临床模型进行比较。比较AUC的主要局限性是需要相对较大的“独立”关联才能使新生物标志物的AUC显著增大。由于比较AUC不敏感,人们提出了重新分类方法(例如净重新分类指数、综合歧视指数, net reclassification index, integrated discrimination index),并在表2中进行了描述。然而,尽管这些方法很受欢迎,但后来的研究表明,这些方法比现有方法提供的信息少,并且在某些情况下可能不可靠。在测试一种新型生物标志物的改进预测性能时,重新分类方法已被证明会提高假阳性率。使用决策分析方法基于净效益的方法现在被广泛推荐,因为它们允许通过比较决策的获益和风险(真阳性)和相对危害(假阳性),对新的生物标志物和既定生物标志物或生物标志物组合进行有意义的评估。作者对所有(或一系列)阈值进行了比较,以评估新的生物标志物是否增加了临床效用。
使用生物标志物的临床风险预测模型
临床预测模型通常使用回归模型(例如Logistic回归或Cox回归)开发。Logistic回归主要用于短期二元结局(如死亡率、术后心肌梗死),而生存方法(如Cox回归)用于至事件发生时间结局,并允许删失。分析之前应考虑缺失数据的处理方法(例如多重填补,multiple imputation),有大量缺失数据的预测因素可能有问题,这表明在日常实践中进行测量的频率较低,可能限制了生物标志物模型的有用性。选择将哪些变量纳入模型需要考虑: 变量应该具有临床相关性,并且在使用模型预测时随时可用。对于任何连续变量(例如生物标志物)的函数形式,应使用分数多项式或限制性立方样条进行适当的研究,以充分捕捉连续变量与结局关联中的任何非线性。为了避免过拟合,多变量建模中需要考虑的候选预测因素数量相对于结局事件数量受到限制,这一概念称为每变量事件数(events-per-variable),该概念最大限度地降低了过拟合(统计模型描述数据中的随机变化而不是真实的基础关系的一种情况)的风险。普遍情况下,只有当每变量的事件数超过10时才进行研究。可以考虑使用惩罚回归方法(例如最小绝对收缩和选择算子、岭回归、弹性网),因为它有助于选择纳入模型的变量,同时最小化过拟合(表2)。然而,惩罚方法不一定能解决与小样本量相关的问题。Box 3总结了开发多变量预测模型时需要考虑的一般因素和生物标志物特异性因素。
利用机器学习已经开发出改善生物标志物临床应用的算法。机器学习的一个实用定义是使用从数据中自动学习(即训练)的算法,这与临床预测模型不同,临床预测模型是基于预先设定的预测因子及其功能形式。这些算法分为有监督和无监督两类。有监督的机器学习算法用于揭示一组临床特征和生物标志物与已知结局(预测和预后模型)。主要的有监督学习算法(如人工神经网络、基于树的方法、支持向量机)见表2。应将有监督的常规统计模型(例如逻辑回归)和有监督的机器学习互补。Marafino等利用有监督的机器学习算法,使用了100,000多例重症监护病房(ICU)患者入院后24小时内的一组生命体征和生物学数据,并纳入了临床轨迹指标,以开发和验证ICU死亡率预测模型。利用每个预测变量的序列数据点建立的死亡风险预测模型显示出与经典死亡率评分(例如简化急性生理学评分ⅲ和急性生理学评估和慢性健康评估ⅳ评分)相当的区分度。
机器学习通常被认为在高维环境(即具有大量解释变量)中具有优越的性能。然而,与基于回归的方法进行比较时,支持这一说法的证据有限。虽然机器学习算法被称表现良好,但它们需要非常大的数据集、大量的计算和足够的专业知识。因此,它们不应该被认为是“通往完美预测的捷径”。局限性包括过拟合,过拟合会捕捉训练数据集中的随机误差,使该算法无法推广到未来的预测。控制过拟合的方法应根据已建立的临床预测模型文献进行调整,以提供预测准确性的无偏倚评估。有监督机器学习算法的另一个缺点是临床医师无法完全理解协变量和结局之间的基础关联(“黑箱”模型)。相反,在Logistic回归模型中,每个协变量的回归系数可以很容易地解释为比值比(回归系数的指数),它反映了与结局的关联大小。应避免在预测模型中对任何关联进行因果解释,因为预测模型的目的是预测而不是归因因果关系。与机器学习算法相比,临床医师在使用经典回归模型时对模型的解读更直观。
无论使用更传统的基于回归的方法还是现代机器学习来开发预测模型,它们的预测准确性都可以通过几个指标进行评估。两种被广泛推荐的措施是校准和区分(calibration and discrimination)。校准评估了模型预测的风险与实际观察到的风险的一致性。校准度可以通过将观察到的结局风险与预测风险(如死亡率、术后AKI)绘制在图上进行评估。区分度是衡量生物标志物模型区分结局有兴趣和没有兴趣的良好程度(主要通过AUC评估)。预测准确性的另一个衡量指标是Brier评分(患者结局和预测风险之间的平方差),这反映了预测模型的临床效用。在实践中,没有一个度量是足够的,需要使用多个度量来表征预测精度的不同组成部分。评估模型性能是一个至关重要的步骤。在预测模型的开发过程中,应进行内部验证,使用交叉验证或自举,以模拟构建过程中的不确定性,并使用原始研究样本来评估模型的性能。进行内部验证的原因是获得经偏倚校正的模型性能估计值,对于基于回归的模型,回归系数随后可因过拟合而缩小。对模型更强的测试是进行外部验证,包括评估预测模型在不同参与者数据中的表现(区分度和校准度),而不是用于模型开发(通常从不同机构收集)的数据。通常在外部验证后,模型的校准会较差,应考虑重新校准模型的方法。
使用生物标志物进行表型分型和聚类
无监督机器学习算法用于识别具有相似临床或生物/分子特征的患者自然发生的集群或亚型,而不针对特定结局。几种流行的无监督学习算法(例如潜在类别分析、聚类分析)见表2。在危重症护理中使用这种方法的一个例子是个性化医学研究。具有相同临床/生物学特征的患者更有可能对靶向治疗(如通气策略、液体管理策略、他汀类药物)产生应答。例如,Calfee等认利用潜在类别分析(主要基于临床数据和炎症生物标志物)在急性呼吸窘迫综合征(ARDS)患者中发现了对呼气末正压(PEEP)策略有不同应答的两种不同亚表型。同一研究小组在辛伐他汀抑制羟甲基戊二酰基CoA还原酶以减轻急性肺损伤肺功能障碍队列中发现了ARDS的两种不同亚型,具有不同的临床和生物学特征(细胞因子)和不同的临床结局。与安慰剂(placebo)相比,辛伐他汀改善了过度炎症亚表型的生存。最后,Seymour等人回顾性地确定了脓毒症的4种不同表型(主要基于炎症、凝血和肾损伤标志物),这些表型对早期目标导向治疗的反应不同。
生物标志物评估研究中的挑战和常见陷阱
生物标志物检测的特性
评估生物标志物测量的精确度应报告生物学测定及其测量误差。生物标志物检测应该是敏感的(能检测低浓度的生物标志物),并具有特异性(它不受其他分子的影响)。在从不同机构收集的队列中评估生物标志物模型的性能时(外部验证),应考虑实验室间生物标志物检测的可重复性。另一个潜在的问题是相同的生物标志物可以由不同的细胞以不同的途径机制产生。这一点在分析数据时难以控制,因为一种新型生物标志物的生理机制通常不完全清楚。
时间和生物标志物动力学的作用
生物标志物测定的时间是重要的考虑因素。例如,在术后期间诊断心肌梗死所需的最佳信息可在肌钙蛋白I浓度的峰值(~24小时)获得。在大手术和危重症监护中,关注的生物标志物(如肌钙蛋白T、n末端b型钠尿肽前体和c反应蛋白)可能具有完全不同的动力学。在这些情况下,主要问题是生物标志物测定的时间,不仅要考虑生物标志物的动力学,而且还要考虑各种病理生理过程(例如,大手术后继发脓毒症)的发生时间。在分析过程中,还应考虑个体内重复测量的生物标志物之间的相关性。在许多情况下,使用混合模型而不是重复测量方差分析具有明显的优势。另一个问题是肾功能或肝功能可能影响生物标志物的消除,从而影响其诊断特性。对于老年患者(有慢性器官功能障碍)以及大手术和重症监护患者,这一点很重要,因为这些患者更有可能出现器官衰竭。在这方面,当将协变量(如年龄、肾功能)纳入实时收集临床参数的回归模型和机器学习算法时,选择“最佳”生物标志物测定时间和协变量校正是一个真正的挑战。
不完善的公认标准方法
应仔细考虑选择用于定义患病和非患病患者(如术后AKI、术后心肌梗死)的参考试验。人们经常根据公认的标准对新型生物标志物进行评估,而公认的标准被认为可以根据患者是否患病而完全准确地对患者进行分类。在实践中,参考检测很少是准确的疾病预测指标,而且往往会对患者进行错误分类。在公认标准不完善的情况下(例如AKI62的血清肌酐延迟升高),患者分类错误会给新生物标志物的敏感性和特异性估计值带来偏倚。对一个“不完善”的参考标准提出的主要方法之一是复合参考标准。其基本原理是将不同的不完善测试的结果结合起来,可以得到更准确的参考测试。然而在某些情况下,结局不是二分类的(患病或非患病患者),而是连续的(如肌酐水平变化)或有序的(如AKI网络分期)。在这种情况下,可以应用新型生物标志物诊断准确性的非参数估计值,其解释类似于AUC。
不同人群
研究人群可极大地影响检测的诊断和预后性能。例如,在非心脏手术和心脏手术中,甚至在接受不同手术(冠状动脉旁路移植术vs.瓣膜手术)的心脏手术患者中,用于诊断术后心肌梗死的心肌肌钙蛋白I有不同的临界点。在具有不同人口统计学特征和慢性疾病(如年龄、慢性肾脏病)的人群中,诊断检查结果也可能不同。因此,科研人员应该描述他们想要做出推断的确切的研究人群。在回归模型中纳入生物标志物时,协变量校正(外部影响)是一个重点。
相关临床预测因子或多种生物标志物
为了评估与结局相关的临床预测因素或多种生物标志物,可以使用Logistic回归或Cox回归开发风险预测模型。然后根据AUC的差异或Harrell C-statistic统计量的差异建立两个模型并进行比较,第一个模型采用常规预测因子,第二个模型分别采用常规预测因子和新型生物标志物。也可以应用多种生物标志物方法。与生物标志物性能的规划和分析相关的概念性问题见Box 4。这种方法学方法可以降低偏倚,从而获得生物标志物性能的汇总估计值。Box 5总结了最常见的可避免的陷阱。
结论
机器学习是一种很有前景的工具,可以改善危重患者的结局预测和分型,从而实现个性化治疗。但目前需要更好地评估机器学习在预测病理或治疗应答方面的作用。在临床决策中直接实施机器学习与实施不良的统计学方法对患者同样有害。这篇文章提供的信息旨在帮助读者更好地理解机器学习技术在医疗领域的应用,并避免其误用(例如过拟合、缺乏独立验证、未与较简单的建模方法进行比较)。
参考文章
Soussi S, Collins GS, Jüni P, Mebazaa A, Gayat E, Le Manach Y. Evaluation of Biomarkers in Critical Care and Perioperative Medicine: A Clinician’s Overview of Traditional Statistical Methods and Machine Learning Algorithms. Anesthesiology. 2021 Jan 1;134(1):15-25. doi: 10.1097/ALN.0000000000003600