近几年,以NGS肿瘤基因组、转录组数据为基础的研究层出不穷,可谓是呈爆发式地增长。那我们如何根据肿瘤基因组数据发文章?不同档次的文章通常又是什么样的内容和诀窍?需要明确一点,我们常规的文章都是融合了基因组和转录组以及临床信息。单纯基因组的研究,除了突变过程、肿瘤基因组进化、基因融合以及染色体不稳定性等难度系数较大的机制方面的解析型研究之外,其他的比较罕见。因为很难讲述一个完整的故事,加上基因组数据的稀疏性,并不好做文章。因此,在涉及到肿瘤基因组数据的研究中,我们根据近几年发文总结,大致将文章档次分为3类:
7分以上的文章:“热点+创新点是核心+工作质量”
5-7分的文章:“创新点较明确,工作质量很重要”
5分以下的文章:“工作质量和结果更重要”
下面我们主要针对bulk测序的研究,以一些典型的案例分析一下:
一、7分以上:“热点+创新点是核心+工作质量”
当前bulk水平的研究热点毋庸置疑包括:肿瘤异质性(如患者的分子分型、肿瘤进化)、肿瘤微环境(包括免疫微环境、细胞状态刻画)、诊断、预后(如生物标志物识别、预后模型构建)、治疗(如免疫治疗、化疗和靶向治疗)。当然还有单细胞水平的细胞状态解析、空间转录组等。在保证热点研究的基础上,如果文章有明确的创新点,故事逻辑性较强,工作质量还不错的话,那上7分的杂志是很轻松的。下面举几个例子详细剖析。
【案例一】慢性淋巴白血病亚克隆结构对临床预后的影响及突变复杂性研究
Ref: Clinical impact of the subclonal architecture and mutational complexity in chronic lymphocytic leukemia. Leukemia. 2018.
这篇文章属于非常经典的克隆结构分析的文章,算是该领域里程碑式的研究,思路很简单。本文最大的亮点在于首次发现了突变的克隆性能在原本不影响生存的突变状态识别出来与生存相关的clonal突变或者subclonal突变,或者原本与生存相关的突变状态中加入克隆性之后进一步将患者生存分开,识别出更恶性的clonal突变或者subclonal突变,打破了传统的只基于突变状态刻画患者预后的研究模式。
首先,作者在慢性淋巴白血病中,基于肿瘤细胞比例(CCF:针对某个突变,癌细胞中携带该突变的细胞数目与所有肿瘤细胞的比值。CCF越大,表明该突变更可能被所有肿瘤细胞携带,因此更倾向属于突变的早期事件,定义为clonal突变;而CCF越小,表明该突变更可能被一小部分肿瘤细胞携带,因此更倾向属于突变的晚期事件,定义为subclonal突变),推断了driver突变基因的克隆性,判断这些突变在样本中哪些表现是clonal的,哪些是subclonal的(图1)。表明,在慢性淋巴白血病中,subclonal突变比clonal突变更常见。
接下来,作者评估了driver基因在慢性淋巴白血病中的突变保守性。首先,作者发现大部分的driver基因都是携带一个突变,除了一小部分driver基因在样本中有多个突变(图2A)。然后举了几个特定的例子说明样本中driver基因的不同突变在样本中CCF值的比较(图2B),以及通过纵向取样(两个不同的时间点)比较,发现一些突变是逐渐获取的,一些突变是不随时间变化的(图2C)。
接下来,作者根据所有driver基因突变的克隆性以及拷贝数变异的克隆性将样本分为不同的类型,确定其进化分型。并据此推断driver突变和拷贝数变异的时序性(该时序性判断的原理就是通过CCF大小比较在样本中的数量。比如说在100个样本中,有90个样本TP53突变的CCF值比PTEN突变的CCF值大,那我们大概率可以认为TP53突变在PTEN突变的前面发生)(图3)。
最后,作者基于突变的克隆结构预测患者的进展和结局,即跟患者生存关联。作者刻画了突变克隆结构与患者首次治疗时间(Time to first treatment, TTFT)的关系。例如,RPS15的clonal突变具有更短的首次治疗时间,而低CCF的subclonal突变具有更长的首次治疗时间,类似的结果在ATM基因中也得以呈现(图4左)。此外,作者观察到原本突变状态与患者OS不相关的基因(如FBXW7和NOTCH1),将其克隆结构引入之后,发现FBXW7和NOTCH1的clonal突变相比于野生型的样本均表现出更差的预后,而subclonal突变却未表现出类似的现象(图4右)。
【案例二】三阴性乳腺癌患者对蒽环类/紫杉烷类药物的应答研究
Ref: Combined homologous recombination repair deficiency and immune activation analysis for predicting intensified responses of anthracycline, cyclophosphamide and taxane chemotherapy in triple-negative breast cancer. BMC Med. 2021.
这是一篇很好的基因组、转录组以及临床特征应用相结合的文章。因为三阴性乳腺癌目前为止还没有实用的靶向治疗策略,只有一部分的患者在经历过蒽环类/紫杉烷类药物的标准治疗后,获得病理上的完全应答,并具有较好的生存,而大部分患者因复发进展而死亡。在这一背景下,作者很好地抓住了这一亟待解决的治疗困难。根据三阴性乳腺癌的异质性,识别哪些患者接受药物治疗后应答,哪些会出现进展,就很有临床意义。
作者首先刻画了三阴性乳腺癌患者中的基因组突变事件,并将其与所有乳腺癌患者进行对比,发现三阴性乳腺癌患者显著富集了基因组突变事件,包括同源重组修复缺陷(HRD)。并且借助多种基因组特征(包括突变过程SBS3活性、同源重组相关基因突变、以及BRCA1表观沉默)刻画同源重组修复缺陷(HR-D)与同源重组修复非缺陷(HR-P)患者之间的差异性(图5)。
接下来,作者借助于肿瘤基因组数据,巧妙利用同源重组修复缺陷状态刻画了三阴性乳腺癌对蒽环类/紫杉烷类药物的应答异质性。作者通过分析发现同源重组修复缺陷(HR-deficiency)的三阴性乳腺癌患者更倾向表现出对该类药物的化疗应答(图6)。
此外,作者借助HRD状态和对蒽环类/紫杉烷类药物的应答状态刻画了三阴性乳腺癌患者的免疫微环境异质性,并通过多种免疫反应机制表明一些患者可能适合免疫阻断治疗(图7)。
最后,作者结合HRD活性和免疫反应活性水平,发现二者联合能够显著提升对蒽环类/紫杉烷类药物应答者的识别效能(图8),进而进一步识别出了对该类药物应答的三阴性乳腺癌患者,这对三阴性乳腺癌患者在临床治疗上是非常有价值的。这篇文章很好地结合了基因组数据与临床特征,并在药物应答方面具有良好的预测效能,具有实用性。
【案例三】DNA损伤修复缺陷在泛癌中的基因组和分子景观描绘
Ref: Genomic and Molecular Landscape of DNA Damage Repair Deficiency across The Cancer Genome Atlas. Cell Rep. 2018.
这篇文章无疑是基因组研究中的一篇经典文章,涉及到样本量大、癌型广、实用性强等特征。创新点在于首次在大群体、多癌型中刻画DNA损伤修复基因的变异,具有很强的实用价值。在这篇文章中,作者使用TCGA泛癌基因组数据,通过整合基因组于分子分析,在33种癌症类型中全局性地识别了DNA损伤修复的变异频率。并在全基因组范围内计算了与基因组不稳定性及其失衡相关的基因与通路,并证明了DNA损伤修复缺陷对于临床预后的价值(图9)。
作者通过计算DNA损伤修复相关通路内基因在各种癌症类型的样本中的变异频率,分析发现DNA损伤修复相关基因的基因组变异在大多数癌症类型中是广泛存在的,并且同源重组修复相关基因的变异是最频繁发生的(图10)。此外,作者发现DNA损伤修复功能丢失与癌症基因组变异频率及类型是相关的(图10)。
最后,作者计算了用于刻画染色体不稳定性的同源重组修复缺陷得分(HRD score),并探索了其临床应用价值。结合临床信息,作者发现HRD score在不同癌症类型中与患者更好或者更差的生存状态是相关的。例如,在胶质母细胞瘤(GBM)中,HRD score作为一个保护性因素,越高的HRD score,患者生存越好;相反,在前列腺癌(PRAD)中,HRD score作为一个风险因素,越高的HRD score,患者生存越差(图11)。本片研究作者这样设计的HRD score深受研究者的欢迎,成为同源重组修复缺陷研究范围不得不考虑的指标。
5-7分:“创新点较明确,工作质量很重要”
通过解析5-7分的文章,我们不难发现这类文章要求具有较为明确的创新点,并且工作质量较高,加之文章必要的逻辑性以及必要的证据支持,发到这个档次也很轻松。下面介绍两篇代表性的文章。
【案例一】基因组突变过程在泛癌中的致癌效益及临床应用分析
Ref: Analysis of Mutations and Dysregulated Pathways Unravels Carcinogenic Effect and Clinical Actionability of Mutational Processes. Front Cell Dev Biol. 2021.
这是一篇纯肿瘤基因组的文章。在这篇文章中,作者的作图功底是相当了得,我们从文章的组图中可以看到,所绘制的图形几乎是CNS级别的。所以说做的质量还是蛮不错的,值得借鉴。遗憾的是在写作并不出彩,文章发在这个档次有点亏了。刨除这些因素之外,本篇文章最大的亮点在于全方位揭示了突变过程的对基因组突变的致癌风险以及对生物学通路的诱变。打破了传统意义上的功能富集分析和简单的功能描述。此外,本篇文章逻辑想很强,并且叙事观点明确。
首先,作者在34种癌症类型/亚型中刻画了不同突变过程的致突变能力,从全局角度说明了基因组变异的异质性(图12AB)。例如对于某种突变过程在不同癌症类型中致癌风险的异质性(图12C),以及不同突变过程在同种癌型中致癌风险的异质性(图12D)。
接下来,作者在泛癌水平刻画了突变过程对高频突变基因的塑造景观。发现突变过程SBS1(衰老相关的突变过程)主要在LGG_IDHmut亚型的肿瘤中诱导IDH1基因R132H位点的突变,而突变过程SBS4(烟草暴露相关的突变过程)主要在肺腺癌中诱导KRAS基因G12C位点的突变(图13)。
接下来,作者全局性刻画了突变过程对生物学通路的影响,揭示了突变过程在通路扰乱作用中的异质性。例如细胞外基质通路、小分子转导以及蛋白代谢等通路,由绝大部分的突变过程共同参与完成扰乱。而DNA双链修复通路、感染性疾病、以及细胞周期相关的通路主要由某几种特定的突变过程(包括SBS2/13,SBS10)所主导扰乱(图14)。尤其是突变过程SBS2/13(APOBEC特性相关的突变过程)特异性诱导DNA双链修复(主要的通路是同源重组修复)通路紊乱,这为接下来作者联合同源重组修复缺陷和APOBEC的研究做了很好的铺垫。
确实,作者通过多种证据证明了同源重组修复缺陷和APOBEC的相关性与互补性(图15A-E),并将其应用于临床上表明了二者的预后价值(图15F-H)。作者借用列线图表明同源重组修复缺陷和APOBEC能够提升患者的预后效能,使用K-M曲线表明二者的联合能够进一步识别与膀胱癌对铂类药物治疗应答更长生存时间相关的患者(图15)。最后,作者借助多因素Cox回归分析表明APOBEC作为显著独立的预后因子与更长的生存时间相关。这一步骤升华了主题,将上一步的研究发现直接应用与临床,表明研究的意义和价值。
【案例二】与三阴性乳腺癌抗癌药物适应性相关的研究
Ref: Applicability of Anticancer Drugs for the Triple-Negative Breast Cancer Based on Homologous Recombination Repair Deficiency. Front Cell Dev Biol. 2022.
这篇文章作为利用基因组特征进行药物重置的文章,也算是药物基因组分析中比较全面的研究了。这篇文章其实没有什么特别新奇的地方,主要还是借用常规的分析,解决临床/实验问题,比较有意义。在这篇文章中,作者借助同源重组修复缺陷状态(HRD),刻画了三阴性乳腺癌患者的药物敏感性,揭示了同源重组修复缺陷(HR-deficiency)和非缺陷(HR-proficiency)的患者分别适合哪些药物治疗。作者发现有些已知的在HR-deficiency患者中应答的药物卢卡帕尼(Rucaparib)和阿霉素(Doxorubicin)表现出更强的敏感性。而紫杉醇在HR-deficiency的患者表现出更强的耐药性(图16)。对于所识别到的药物,作者将通过其他方式进行验证分析。
接下来,作者基于MSigDB数据库中的药物基因组signature,进行验证分析。并通过药物治疗对hallmark生物通路扰动解析药物作用机制,作者发现阿霉素的反应激活了G2M检查点和DNA修复通路,而顺铂的耐药性与血管生成(Angiogenesis)以及上皮-间质转化(EMT)的激活相关(图17)。
为了通过其他方法进行进一步说明,作者首先在转录组层面识别了同源重组修复缺陷signature,并利用CMap分析,揭示了药物小分子对HRD signature转录水平的扰动模式。例如发现Doxorubicin在MCF7细胞系中表现为,促进HRD signature上调基因的表达,抑制HRD signature下调基因的表达。而Palbociclib在SKBR3细胞系中表现为,抑制HRD signature上调基因的表达,促进HRD signature下调基因的表达(图18)。作者通过药物扰动模式将药物进行分类,发现不同Cluster中的药物,其敏感性水平更倾向呈现负向相关性,表明药物treatment机制的共性与特异性(图18)。
最后,作者将阿霉素的药物敏感性在多套接受阿霉素治疗的三阴性乳腺癌患者中进行临床验证分析,均发现对阿霉素敏感/完全应答的患者具有更小的IC50值(图19)。并且,校正其他临床因素之后,发现研究中阿霉素的IC50值作为显著的风险因素与患者更差的生存及更短的阿霉素应答时间相关(图20)。
5分以下:“工作质量和结果更重要”
【案例一】多区域NGS刻画非小细胞肺癌肿瘤基因组进化的研究
Ref: Revealing the subtyping of non-small cell lung cancer based on genomic evolutionary patterns by multi-region sequencing. Cancer Med. 2020.
这篇文章最大的亮点就是借助进化树刻画了基因组瘤内异质性,并很好地将其与临床特征挂钩:异质性高的患者具有更差的预后和更高级的肿瘤特征。在这篇文章中,作者借助肿瘤组织多区域测序数据的基因组突变数据,在刻画不同非小细胞肺癌亚型基因组突变异质性的同时,构建了患者层面的肿瘤基因组进化树(图21)。发现大部分的driver突变更倾向于在树干中,即被所有组织所携带。
接下来,作者巧妙的使用数字量化进化树的样式,并利用进化树的分枝模式进行聚类分析,将患者分为3类:第一类样本进化树枝繁叶茂,表现为更高的亚克隆多样性(分枝多样性);第二类样本树干笔直,枝叶短小,表现为最低的瘤内异质性;最后一类样本树干树枝对等,表现为瘤内异质性和亚克隆多样性适中的特点(图22)。
接下来,作者将进化树亚型与临床特征(包括生存时间、肿瘤size、TNM分期)结合分析,发现作为异质性最高的subtype 1表现出更差的生存时间、更大的肿瘤size以及更高级别的TNM分期。成功地将基因组特征应用于临床特征中,揭示了非小细胞肺癌瘤内异质性对患者的临床结局的影响(图23)。
最后,作者借助进化树基因组突变的分布以及Bradley-Terry模型,识别了亚型特异性早期driver突变特征基因,通过互斥/共发生刻画其亚型中的变异状态,借助功能解析这些特征基因的异质性(图24)。
【案例二】与肿瘤三级淋巴组织结构相关的基因组特性和临床结果的泛癌分析
Ref: Pan-cancer analysis of genomic properties and clinical outcome associated with tumor tertiary lymphoid structure. Sci Rep. 2020.
这篇文章思路非常简单,工作量也不大,用的数据和指标都是别人的,作者只是在泛癌中进行了结果阐述,并有持续的阳性结果输出,也算是套路性的,发到这个档次的杂志不足为奇。在这篇文章中,作者首先基于前人研究的12个趋化因子的signature量化了一个指标,叫做三级淋巴结构(TLS, tertiary lymphoid structure)。作者观察了该指标在泛癌中的分布,以及在肿瘤组织和癌旁组织中的差异性(图25)。
接下来,作者在不同癌型中刻画了TLS与总的突变数目及新抗原负荷的相关性。并借助已知driver基因的突变状态,刻画患者的TLS与driver突变的相关性(图26)。
接下来,作者在泛癌中,根据TLS值将患者平均分为三组,去掉中间组,选取低得分组和高得分组,刻画其对患者生存时间的影响(图27)。
最后,作者在非小细胞肺癌和皮肤癌中刻画了TLS对免疫治疗后患者生存的预测效能,发现高TLS的患者与免疫治疗应答相关,相对于低TLS,高TLS与免疫治疗后更长的生存时间相关(图28)。
【案例三】借助多组学数据识别胃癌预后marker的研究
Ref: Identification of novel prognostic biomarkers by integrating multi-omics data in gastric cancer. BMC Cancer. 2021
这篇研究属于常规的biomarker筛选的文章,但借助多组学数据。工作量并不大,但内容挺饱满。在这篇文章中,作者借助多组学测序数据识别了分子marker基因。首先,通过基因组突变和拷贝数变异对表达水平的影响,识别了候选mRNA, miRNA以及转录因子。之后通过拷贝数变异对患者生存时间的影响,识别了预后相关的关键基因(KD genes)(图29)。
作者刻画了这些KD genes的拷贝数变异和突变状况,以及miRNA, 转录因子所参与的转录调控网络(图30)。
刻画了这些关键基因的功能特征以及与癌症hallmark的语义相似性,表明这些基因的致癌特性(图31)。
作者基于这些KD genes的表达水平与药物敏感性IC50的相关性,筛选抗癌药物,特别发现,一种治疗结直肠癌的抗癌药物伊立替康在KD gene DERL1低表达的患者中表现出更强的敏感性,而紫杉醇在KD gene HMGB2低表达的患者中表现出更强的耐药性(图32)。
接下来,作者基于这些KD genes的表达水平进行层次聚类分析,探索不同亚型间的临床特征以及预后价值(图33)。比较常规的分析。
结语:
发文章的档次从来都不是由工作量决定的,而是观点的创新性、叙事完整性以及图文工作质量。好点的杂志文章要求创新性的同时,故事逻辑性强、支持观点的证据充分,搭配不错的工作质量,发在7分以上的杂志很轻松。故事的饱满程度只能为整个研究锦上添花,而非决定性因素。如果创新性稍逊,但叙事的完整性、故事逻辑性和质量姣好也能够撑起5分左右的杂志。抛开创新性不谈,如果当前课题不是冷门领域,故事逻辑性、研究结果所提供的证据可以将发文稳定在3-4分左右的杂志。如果是3分以下的文章,我们只需要保证工作质量和稳定的结果输出,是完全不成问题的(PS:我们设计的课题,任何一个方案,即便是小项目,只要有主干是阳性结果,发在3分以下的杂志很easy,因此这里没有进一步详细讲解)。当然,我们任何文章都不可能只占上述其中的某些点,多少都会多数涉及,只是占比的大小问题。