导读
近年来,在高通量技术的不断发展下,大规模的癌症组学数据不断增加。这种快速的数据增长催生了癌症研究中“大数据”的概念,本综述揭示了大数据分析将会对医疗卫生保健领域带来巨大的影响和冲击。大数据通过对临床及其他数据存储库进行数据管理和分析获得前所未有的洞察力。事实上,大数据、生物信息学和人工智能的结合已经在癌症生物学和转化技术方面取得了显著的进展。
一、常见的数据类型
在癌症研究中有五种基本的数据类型:分子组学数据、扰动表型数据、分子相互作用数据、成像数据和文本数据。分子组学数据描述了细胞系统和组织样本中分子的丰度或状态。这些数据是在癌症研究中(患者或临床前样本)产生的,包括DNA突变(基因组学)、染色质或DNA状态(表观基因组学)、蛋白质丰度(蛋白质组学)、转录本丰度(转录组学)和代谢物丰度(代谢组学)等信息(表1)。
二、数据资料库和分析平台
作者为大家提供了三种研究癌症的数据资源。第一类包括癌症基因组数据集的项目的资源(表2);例如,TCGA生成了超过10,000个癌症基因组和匹配的正常样本的转录组、蛋白质组、基因组和表观基因组数据,总共有33种癌症类型。
第二类是经过处理数据后的存储库(表3),如Genomic Data Commons。
第三类包括Web应用程序,这些应用程序系统地集成了不同项目的数据,并提供交互式分析模块。例如,TIDE框架系统性地从免疫肿瘤学研究中收集公共数据,并提供互动模块,以研究肿瘤免疫逃逸和免疫治疗反应的途径和调节机制(表4)。
三、数据整合分析
尽管数据密集型研究可能会有数百名患者的组学数据,但在癌症研究中这样的数据规模仍远远落后于其他领域,如计算机视觉。跨队列聚合和跨模态整合可以显著提高大数据分析的可靠性和深度(图1)。
整合跨队列数据:当单个数据集不完整时,整合多个研究的数据集可以获得更为可靠的结果和新发现。比如整合跨队列数据的一个里程碑的是发现了TMPRSS2-ERG融合和较少发生的TMPRSS2-ETV1融合可以作为前列腺癌的致癌驱动因素。跨队列聚合的一般方法是获取与新的研究主题相关的或类似的公共数据集。然而,使用公共数据进行新的分析仍然是具有挑战性的,因为每个已发布的数据集背后的实验设计都是独特的,需要进行标准化的处理。
跨模态数据集成:不同数据类型的跨模态集成也是一种很有效的方法,可以最大化从数据中获得的信息,因为每种数据类型中嵌入的信息往往是互补和协同的。跨模态数据集成,例如TCGA等项目,该项目提供同一组肿瘤的基因组、转录组、表观基因组和蛋白质组数据交叉模式整合导致了许多关于癌症进展相关因素的新见解。例如,一项研究中,全基因组泛癌症分析对27种癌症的2583个全肿瘤基因组进行了分析,发现具有许多相互作用的基因(如TP53、TLE4和TCF4TCF4)的启动子发生罕见突变,这些突变与下游基因的低表达相关。这些整合网络和基因组学数据的例子证明了这种方法可以在肿瘤发生中识别出具有因果作用的体细胞突变。
四、大数据助力临床转化
许多临床诊断和决策,如组织学检查,本质上是医生主观判断的,而大数据方法可以提供系统和客观的补充选项,以指导诊断和临床决策。
大数据研究向临床转化的一个主要重点是开发用于预测疾病风险的生物标志物。与通过生物机制和经验观察发现的生物标志物不同,大数据衍生的数据分析了许多患者和队列的基因组数据,再生成用于临床分析的基因特征。这些预测因子主要帮助临床医生确定是否需要进行侵入性的治疗,从而以减少不必要的治疗和副作用。从大数据中分析而来的诊断性生物标志物测试的例子如对雌激素受体(ER)或孕激素受体(PR)阳性乳腺癌患者的预后分析发现:单独使用辅助内分泌治疗即可为ER/PR阳性、HER2阴性的早期乳腺癌患者带来足够的临床益处。
全基因组和多模态数据已开始在前瞻性临床试验中发挥作用。例如,WINTHER试验根据来自实体肿瘤活检的DNA测序或RNA表达数据,前瞻性的对晚期癌症患者进行匹配治疗。组学数据与这种匹配治疗通常会导致超适应症药物使用。WINTHER研究得出结论:这两种数据类型对于有利于改善治疗和患者结局。此外,在临床效益的治疗方面,DNA测序和RNA表达之间也没有显著差异。其他类似的试验已经证明了在全基因组基因组学或转录组学数据的基础上对匹配患者使用靶向治疗(超适应症)的实用性(图2)。随着分子数据指导的临床试验初步成功,新兴的临床研究还收集bulk测序之外的数据,如使用各种药物治疗后的肿瘤细胞死亡反应的scRNA数据可以研究治疗反应和耐药性机制。除肿瘤样本产生的组学数据外,整合跨模态的数据也是改善治疗的潜在策略。其中一个有潜力方向是与合成致死有关的研究和应用,一旦该方面的研究与肿瘤转录组学结合,可准确评估药物靶点的重要性,并预测出许多抗癌治疗的临床结果,包括靶向治疗和免疫治疗。预计这种新的数据模式和分析将为设计临床试验提供新的方法。
基因组学数据集,如基因表达水平或突变状态,通常可以在基因维度上相互对齐。然而,临床诊断中的数据类型,如成像数据或文本报告,可能不无法直接进行跨样本对齐。而基于深度神经网络的人工智能方法是将这些数据类型用于临床应用的一种新兴方法(图3)。
人工智能在分析成像数据方面潜力很大,最常见的方法是临床结果的预测、肿瘤检测,以及根据H&E染色的组织进行分级。除了组织病理学,放射学是人工智能成像分析的另一种应用。目前已经证明使用3D计算机断层扫描体积的深度卷积神经网络可以预测肺癌风险,其准确性与经验丰富的放射学家的预测相当。新的人工智能方法开始在生物学方面发现中发挥作用。例如,对结直肠癌生存预测相关的聚类显示,高风险生存预测与肿瘤-脂肪特征相关,其特征是与脂肪组织相邻的肿瘤细胞分化较差。虽然这种关联的分子机制尚不清楚,但这项研究提供了一个发现成像特征的例子,这可以帮助癌症生物学家继续研究新的疾病机制。
开发一种新药成本高,时间长,失败率也很高。新疗法的开发是大数据应用的一个有前景的方向。大数据分析还被用于发现药物的新用途从而治疗新疾病。比如一项研究通过挖掘4000多万份文件,在疾病、组织、基因、通路和药物之间创建12亿个边缘的网络,结果显示:vandetanib和everolimus的组合可以抑制ACVR1,这可以作为神经胶质瘤的一种治疗方式。最近还有研究结合了药理学数据和人工智能(AI),设计了新药。基于现有DDR1抑制剂和化合物文库的信息,使用深度生成模型设计新的小分子干扰受体酪氨酸激酶DDR1,其中主要候选物在小鼠中表现出较好的药代动力学(图4)。
五、挑战和未来展望
大数据的进步是有目共睹的,但在癌症研究和临床中的大数据应用方面仍然存在相当大的挑战。组学数据通常存在队列间的测量不一致性、显著的批次效应和对特定实验平台的依赖性。这种一致性的缺乏是临床转化的主要障碍。除了这些技术挑战之外,还存在结构性和社会性挑战,这可能阻碍整个癌症数据科学领域的进步。
数据可用性:癌症数据科学面临的一个关键挑战是数据和代码的可用性不足。最近的一项研究发现,在公共数据和源代码可用性方面,生物医学领域(基于机器学习的研究)与其他领域的研究相比效果较差。有时,即使已经解决安全和隐私问题,已发表的癌症基因组数据的临床信息也不能提供或不能完整提供。造这个问题也可能与数据发布策略和数据管理成本有关。尽管许多期刊要求公开发布数据,但这些往往是通过将数据存储到存储库中,由于知识产权和各种其他考虑,这些数据库需要作者和机构批准才能访问。此外,存储的数据可能缺少关键信息,如单细胞测序数据中缺失的细胞条形码或组织病理学数据中缺失的低分辨率图像
数据规模差距:如前所述,可用于癌症治疗的数据集比其他领域的数据集要小得多。造成这种差距的一个原因是:医疗数据的生成依赖于受过专业培训的科学家。为了缩小数据规模的差距,我们需要更多的投资来注释医疗数据和患者组学数据。罕见癌症尤其有缺乏临床前模型、临床样本和专门资金的问题。此外,生物医学数据的可用性通常受到人群的遗传背景的限制。例如,在东亚、欧洲人群中一些基因突变的频率和美国人群中可能有所不同
六、全文总结
人类已进人大数据时代。大数据科学作为一个横跨信息科学、社会科学、网络科学、系统科学、生物医学、心理学、经济学等诸多领域的新兴交叉学科方向正在逐渐形成,并已成为科学研究热点。在不久的将来,大数据分析的应用将会快速,广泛的涌现在整个医疗保健机构和医疗保健行业。对于发规模的肿瘤数据,通过跨模式整合、跨队列聚合和数据重用来促进癌症领域的生物医学突破,并且利用这些方法分析肿瘤数据也取得了非凡的进展。
参考文献
1. Jiang P, Sinha S, Aldape K, Hannenhalli S, Sahinalp C, Ruppin E. Big data in basic and translational cancer research. Nat Rev Cancer Sep 5 2022.doi:10.1038/s41568-022-00502-0 .