哈喽,大家好,今天向大家分享的是今年3月发表在Journal of Translational Medicine(IF:8.44)杂志上,纵观全文,用最经典的差异分析以及模型构建,就更准确揭示了癌旁组织较肿瘤组织预测复发情况,以前的癌症患者生存和治疗后复发的转录组学特征的调查都集中在肿瘤组织上,本文发现,在结直肠癌(CRC)转录组来源于肿瘤附近的正常组织(NAT)是更好的复发预测,还发表了IF 8.44的SCI,让癌旁组织不再是正常对照。
Transcriptomes of the tumor-adjacent normal tissues are more informative than tumors in predicting recurrence in colorectal cancer patients
1.数据来源
在排除TNM 4期后确定为TNM 1-3期且在手术切除时没有远处转移的总共80名患有原发性CRC的韩国患者入组本研究。在SMC手术期间,共收集了80例患者的160份组织标本,包括原发肿瘤组织和邻近组织学正常组织(即NATs)。在收集手术切除标本后,对病人的进展进行三年的随访检查是否复发。结果,共有73例患者(包括25例复发患者(RC)和48例非复发患者(非RC)用于进一步分析,除去7例复发状态不明确的样本; 从146个样本中的每一个生成两种不同类型的RNA-seq数据,即73个肿瘤转录组和73个配对的NAT转录组。(图1)
2. 相对于肿瘤,NATs表现出较小的幅度,但RC和非RC状态之间的表达存在显着差异
为了利用肿瘤组织和NAT组织DEGs的数量和统计学意义来区分区分RC与非RC状态,因此定义了两类差异基因1.肿瘤差异基因:对肿瘤组织RC与非RC状态之间进行差异表达得到的基因;2. NAT差异基因:对NAT组织RC与非RC状态之间进行差异表达得到的基因。
图2A:两种类型的DEG的P值偏离随机期望,且NAT-DEGs的p值偏差的幅度要更大;
图2B:在FDR阈值从0.0001、0.001到0.01,NAT的DEG逐渐增多,且在0.01时NAT的DEG几乎是肿瘤的6倍;
图2C:火山图对-log10(FDR)&log2FC阈值时两类差异基因进行可视化,NAT DEG的数量 (蓝色基因左图) 显著大于肿瘤 DEG的数量 (红色基因右图)
相反,当阈值为log10(FDR) > 2 & log2FC绝对值 > 2,肿瘤DEG数量多于NAT,这表明肿瘤样品中每个基因的表达水平比NAT更具有异质性。比较两类差异基因中编码蛋白基因的数量,发现NAT的数量显著高于肿瘤组织。
从之前的研究中收集51个和预后相关的标记基因,将这51个基因和NAT、肿瘤交叠之后,分别计算RC和非RC样本之间基因表达。
图2D:在NAT中,51个基因中有33个基因在RC和非RC之间差异表达;51个基因中的9个在NAT中具有显着较低的p值和较高的FCs,而只有4个基因在肿瘤中具有显着较低的p值和较高的FCs。
图2E: 两个转录组数据集p值显著偏离随机期望,但NATs的幅度高于肿瘤。
3.NAT和肿瘤差异基因揭示了不同的功能
为了研究两类差异基因相关的功能,作者对NAT和肿瘤的DEG进行了GO分析。
图3A:NAT和肿瘤-DEG都富集在与肿瘤发生有关的GO term中,而诸如炎症反应,对缺氧的反应和血管生成等仅在被NAT的DEG富集。
图3B:在非RC和RC状态之间进行基因表达比较时,发现NATs倾向于以显著不同的水平表达 “转移前小切口” 和 “增殖” 的各种特征基因,而在肿瘤组织中没有显著差异。在NATs和肿瘤组织中,“休眠” 的签名基因中没有显著差异,只有一个被称为 “D_1” 的类代表来自 “休眠研究 _1” 签名的休眠相关基因 。(相关基因均在pubmed中检索发现)
4. 将NAT-based的预测模型应用于来自TCGA队列时,更好预测了COAD患者的生存
因为临床更多取样为肿瘤组织,所以作者利用450个TCGA COAD队列这两类转录组构建的模型进行评估。
图4A: 比对了NAT-DEG 和肿瘤-DEG的P值,并发现它们彼此高度一致(每个条形图中的点显示了每个肿瘤 -DEG 产生的 P 值与 NAT-DEG 在指定范围内估计的 P 值的中值)。
图4B:构建了两个基于弹性网络的机器学习模型来预测CRC的复发状态,(i)基于NAT的弹性网络模型和(ii)基于肿瘤的弹性网络模型。
当特征数远大于样本数时弹性网络的机器学习的准确率远高于其他算法。用不同基因数量建立了几个弹性网模型,然后计算每个TCGA样本的复发风险评分,作为弹性网模型中基因系数与样本中基因表达的余弦积;最后,使用TNM分期和性别信息作为预测TCGA-COAD患者3年生存率的协变量,对这些估计的风险评分进行多变量logistic回归分析。模型风险分数来自NAT-derived弹性网模型产生更高的系数,且具有更高的置信区间(95%),而肿瘤更低。发现用28个DEG构建的基于NAT的弹性网络模型是该分析中的最佳预后模型,并且这28个DEG含有涉及趋化因子活性或胰岛素样生长因子受体结合基因,包括NRSN2、CXCL10、CXCL9、N0S2和TYMP。
利用TCGA队列评估两个模型的准确率,发现NAT模型的准确率更高;作者还研究基于 NAT 和肿瘤的弹性网模型估计的风险评分与 TCGA-COAD 患者三年生存率的一致性,为此,根据风险评分将TCGA-COAD患者分为两组后进行Kaplan-Meier图分析:前20%高风险评分的患者和其余80%低风险评分的患者。
图4C:NAT模型:高、低危患者被明显分开且P值显著
图4D:肿瘤模型:高、低危患者患者之间的生存率差异没有统计学意义
综上所述, NAT模型在预测TCGA-COAD患者的三年生存率方面比肿瘤模型表现更好,在进行风险系数评估时也是这样。
5. 浸润性免疫细胞在NATs中比在肿瘤中更具有预测作用
基于浸润的免疫细胞比例来预测复发(RC)和非复发(非RC)状态的假设,作者用xcell来对73个CRC患者的NAT和肿瘤转录组数据进行免疫细胞比例的评估;在NAT和肿瘤中鉴定了总共29种免疫细胞类型,在估计每个患者的每种免疫细胞类型的比例后,进行逻辑回归分析以确定NAT或肿瘤中的免疫细胞比例可以区分RC和非RC的程度。
图5A:95%置信区间内,发现29种免疫细胞类型中的4种(幼稚CD8 + T细胞、CD8 + T细胞和Th2细胞以及幼稚B细胞),以及包括巨噬细胞和树突细胞(Ml巨噬细胞、aDC和pDC)和嗜中性粒细胞的三种其他细胞类型可以预测关于复发显著预测因子。
图5B:相对于肿瘤,七种细胞类型区分CR和非CR在NAT中更显著。
图5C:这些细胞类型在NAT中的比例高于肿瘤。
这些结果强烈表明,NATs的肿瘤浸润性免疫细胞的组成也可以为患者的预后提供信息。
6. NAT 和肿瘤的转录组在其他 TCGA 癌症中的检测
这种预测方法是否可以用在其他癌症上,经过数据搜索发现大多数都缺少NAT数据,只有41个C0AD、58个LUAD、99个BRCA和50个LIHC NAT转录组数据可用,仅22个COAD、44例LUAD、74例BRCA、41例LIHC配对样本有生存信息。由于样本数量较少采用cox回归进行分析。对于 TCGA 中的这四种癌症类型,通过Cox回归分析估计每个基因的风险比(HR),分别使用年龄,TNM分期和性别信息作为协变量,检查与生存与生存显著相关的基因。
图6A-D:发现 SMC - CRC和 TCGA COAD中具有显着 HR 的基因的比例在 NAT- 中显着高于肿瘤衍生的转录组; 对于 SMC-CRC 样本,53% 来自NAT而25%来自 肿瘤,对于 TCGA-COAD 样本,65%来自 NAT 而31% 来自肿瘤。
图6E-G:然而,LUAD、BRCA和LIHC表现出与基于SMC-CRC或TCGA-COAD的发现完全相反,因此肿瘤中具有显著HRs的基因比例显著高于BRCA衍生的转录组;
小结
在以往的研究中,关注点都集中在肿瘤组织中,分析和研究肿瘤中浸润的免疫细胞、风险基因等,本篇文章的亮点在于关注癌旁组织,不再将癌旁组织作为对照,而是在其中筛选风险基因和构建预后模型。经过将癌旁和肿瘤转录组数据的对比发现,无论是从复发和非复发状态下的差异基因数量、免疫浸润的比例还是三年内对生存的预测,癌旁组织都比肿瘤更具有优势。本文还构建了癌旁和肿瘤预测的风险模型,并对风险模型进行了对比,又在其他癌症类型中验证了这种猜想。本文思路新颖,逻辑清晰,值得我们学习。